1. Уважаемые посетители форума ЭСПП!

    Для просмотра сообщений достаточно прокрутить данное сообщение, а для просмотра списка разделов - вызвать "Каталог".

    Для комментариев необходимо предварительно ознакомиться c Правилами Форума и пройти регистрацию!



    Для того, чтобы быстро ознакомится с возможностями форума, загляните в подраздел Для новичков.

    Если при входе на форум появляется сообщение об ошибке, попробуйте восстановить или сменить пароль, нажав здесь.

Еще раз про корреляцию и проценты

Тема в разделе 'Шмелев А.Г.', создана пользователем Шмелев А.Г., 14 сен 2016.

?

Какой процент точности прогноза бинарного события соответствует коэффициенту корреляции 0,3?

  1. 30% - так как коэффициент корреляции надо умножить на 100

    (войдите для просмотра числа голосов)
  2. 9% - так как коэф. корреляции надо возвести в квадрат, чтобы получить коэф.детерминации

    (войдите для просмотра числа голосов)
  3. Выше 50% - выше точности случайного угадывания бинарного события

    (войдите для просмотра числа голосов)
  4. Примерно 65% - надо поделить 30 на 2 и прибавить 50%

    (войдите для просмотра числа голосов)
  5. нельзя дать однозначного ответа

    (войдите для просмотра числа голосов)
  6. другой вариант (напишите, пожалуйста, тогда комментарий)

    (войдите для просмотра числа голосов)
  1. совсем не скучно, а очень даже увлекательно :)
  2. Но меня еще один вопрос беспокоит. Когда мы считаем Регрессию, R2 обычно меньше корреляции. Разве он не дает процент попадания-угадывания (не бейте меня тапками)
  3. Яньшин П.В.

    Яньшин П.В. Лидер Команда форума

    Александр Георгиевич!
    Спасибо за этот ликбез. Всегда полезно латать дыры в своем образовании (это я про себя). Респект за Вашу просветительскую деятельность!
  4. Хохлов Н.А.

    Хохлов Н.А. Администратор Команда форума

    Какую корреляцию? Если мы говорим по корреляцию двух метрических переменных, то там нет понятия процента угадывания. Если про бисериальную корреляцию, то там логистическая регрессия.
    Последнее редактирование: 18 сен 2016
    Шмелев А.Г. нравится это.
  5. Ну вот в первом примере про температуру Александр Георгиевич говорил про Пирсона
  6. Тукачев Ю.А.

    Тукачев Ю.А. Администратор Команда форума

    Нет, не дает, R2 доля совместной изменчивости двух переменных
  7. Переведите :) то есть это сколько раз а равно б? Это не то же самое что угадывание температуры по лбу?
  8. Шмелев А.Г.

    Шмелев А.Г. Организатор Команда форума

    Хорошо, Ксения, раз Вы об этом попросили в явном виде, то тапками не будем :)
    Корреляция - это мера плотности связи. Линейная корреляция учитывает знак:
    положительный при наличии прямопропорциональной зависимости, отрицательный -
    при наличии обратнопропорциональной. Регрессия отражает наклон прямой и зависит
    от соотношения дисперсий по каждой из двух переменных (если дисперсия
    по X меньше, чем по Y, то прямая пойдет круче). Близость облака точек, изображающих
    в координатах X и Y каждое парное наблюдение, к линии регресии - это и есть геометрический
    образ ПЛОТНОСТИ связи.


    Нигде в этих случаях не идет разговор о процентах.

    Правда, можно задать вокруг линии регрессии некую окрестность - область
    пренебрежимых отклонений от точного соответствия. Тогда процент
    точек, попадающих в эту область, можно в какой-то степени называть
    "точностью линейного прогноза". Но какая именно это точность - не так
    важно для бинарного прогноза. Она, как правило, гораздо ниже, чем
    точность бинарного прогноза, но это не так важно. Постройте облако
    точек, которое описывает соотношение Веса (Y) и Роста (X), и Вам
    тут же станет понятно, что точный Вес (в килограммах) в зависимости от
    Роста можно предсказать лишь с низкой вероятностной точностью.
    Зато факт "тяжелого веса "(более 100 кг, например) можно предсказать
    с более высокой точностью "Тяжелый вес" - это аналог бинарной переменной
    (все, что ниже 100 кг, - это значение "ноль", а выше - "единица").


    Впрочем, Рост и Вес - это банальность, которую даже математики знают.
    А студенты-психологи частенько не могут от Роста и Веса перейти
    к двух другим параметрам, более характерным именно для психологии,
    - а именно, например, к скорости простой реакции выбора по X и
    умственному коэффициенту IQ по Y. Почему не могут перейти? -
    Конкретное мышление затрудняет абстракцию и перенос умственного навыка.


    Кто понимает, как это все связано друг с другом?
    - Как правило, это только тот, кому приходилось немалое число
    раз "своим руками" по реальным данным выстраивать облако
    точек, чертить регрессионную кривую (соединяя условные средние
    по Y для каждого интервала по X), строить матрицы сопряженности.
    Те, кто никогда этим практически не занимался, затрудняются, как правило,
    в понимании этих вещей.


    С ув,
    АШ




    Ваш АШ


    Тукачев Ю.А. нравится это.
  9. Я сейчас не дома, не могу процитировать учебник. Но вот, например, мы предсказываем стоимость жилья по району. Разве R2*100 это не процент соответствия "хороший район" - "дорого"?

    Это как раз пример из того учебника. А когда мы вводим другие переменные, число комнат, например, возраст здания, мы уже точнее предсказываем стоимость жилья, R2 растет...
  10. Шмелев А.Г.

    Шмелев А.Г. Организатор Команда форума

    Ксения,

    если я не о том, что Вас интересует, Вы меня поправьте.
    R2, как я понимаю, -это есть коэффициент корреляция в квадрате, да?


    (Не имея возможности изобразить верхний индекс (показатель степени),
    программисты обычно пишут в этих случаях R^2)


    Если так, то эта мера называется "коэффициент детерминации".
    Вы правы в том, что эта мера часто связывается с "точностью линейного прогноза".
    Вот первый попавшийся пример:


    http://services2.ht-line.ru/r.php?4NJQNC:132629799

    Когда R=1 и R^2=1, то все парные точки ложатся именно на линию
    регрессии (ни одна не выходит за ее пределы). В этом случае мы получаем
    100-процентную точность линейного прогноза. Но если R=0,7, то получаем R^2=0,5 (примерно).
    Но это не означает, что 50% точек лежат на прямой. Это означает лишь,
    что условная дисперсия Y от X примерно в 2 раза меньше, чем безусловная
    дисперсия Y, то есть, дисперсия от знания X сокращается (более точно
    правильней говорить о двухкратном снижении квадратов остатков,
    но я пытаюсь облегчить понимание качественного смысла). Где эта точность крайне важна?
    - В эконометрике, где важно оценить, насколько один дополнительный
    рубль инвестиций отзовется определенными доходами в рублях или
    ростом других количественных показателей. Другая задача (гораздо
    менее точная) - это спрогнозировать направление влияния инвестиций,
    то есть спрогнозировать, возникнет ли от дополнительных инвестиций
    вообще какой-то рост или возникнет спад. Это и будет бинарный прогноз.
    Он отвечает на вопрос "Будет ли вообще эффект положительным, т.е. будут
    ли будущие доходы выше нынешних?", а не на вопрос "Насколько точно
    рублей будущие доходы будут выше нынешних?".


    Может быть, кто-нибудь из наших админов-активистов изобразит
    облако точек, линию регрессии и условные стандартные отклоенния
    в виде вертикальных отрезков? - У меня сейчас на Маке нет под рукой
    удобных инструментов для этого... :(


    А можно и просто поискать релевантную ссылку в Инете.

    Ваш АШ


    Тукачев Ю.А. нравится это.
  11. Картинку я себе представляю, я запуталась с коэффициентами. Я вечером внимательно почитаю и наверно что-то еще спрошу. Спасибо вам большое!
  12. Александр Георгиевич, я посмотрела внимательней, поняла, как сочетается корреляция и R^2, посмотрела Энди Филда, и я все равно не понимаю, как процент предсказания, который вы высчитываете из корреляции, соотносится с процентом объясненной вариации или дисперсии. Я думала, что это одно и то же. Если случай попал попал в нужную нам область - зачет, если нет - пролетает.

    Вот, из Энди: ...its value is .335, which means that advertising budget accounts for 33.5% of the variation in record sales. Он рассматривает, как разные стратегии помогают продать музыкальные пластинки. 33,5% продаж пластинок полагается на бюджет? Или бюджет помогает увеличить продажи на 33,5%? Или это одно и то же?


    Кажется, я еще больше запуталась.
    Яньшин П.В. нравится это.
  13. О, и я поняла, почему Людмила Николаевна решила, что 9% - она как раз считала R^2
    Яньшин П.В. нравится это.
  14. Шмелев А.Г.

    Шмелев А.Г. Организатор Команда форума

    Ксения,

    в своем переводе на русский язык Вы пропускаете ключевое слово "variation".
    Речь идет не о 33,5 процента от продаж пластинок, а 33,5 процента от ДИСПЕРСИИ
    учтенных продаж (от разброса сумм, вырученных от продаж). Дисперсия здесь - это некий
    аналог меры неопределенности (энтропии). Она сокращается на 33,5 процента в даном случае.
    Между прочим известная с 30-х годов в классической психометрике формула
    Рюлона тоже опирается на разложение общей дисперсии баллов по тесту на
    2 аддитивных компонента (суммируемых) - на истинную дисперсию
    и дисперсию ошибки. Доля истинной дисперсии в общей - это фактически тот же
    самый коэффициента детерминации R2.


    Ваш АШ


    Тукачев Ю.А. и Яньшин П.В. нравится это.
  15. Александр Георгиевич, я чувствую себя безнадежно глупой :( что значит сокращается разброс (дисперсия)? становится более предсказуемой (выстраивается в линию)? и почему она сокращается? как она может сокращаться, если она просто есть и бюджет просто есть? я думала, это мы на 33,5% объясняем эту дисперсию бюджетом, нет? и опять, чем это отличается от точности прогноза, который вы высчитываете корреляцией?
    Яньшин П.В. нравится это.
  16. Шмелев А.Г.

    Шмелев А.Г. Организатор Команда форума

    Ксения,

    вероятностный прогноз - это интервальный прогноз, а не точечный. Это понятно?
    Ну, например, вероятностный прогноз погоды звучит так: "Завтра ожидается
    дневная температура в интервале от 7 до 12 градусов". - Ну, ничего себе "точность"?
    - будем мы возмущаться такой значительной неопределенностью. В самом деле,
    ведь при 12 градусах можно ходить еще в совершенно легкой почти летней куртке, а при 7
    градусах требуется уже полноценная осенняя куртка, да? Но... каков исторический средний
    минимум и исторический средний максимум температуры в сентябре в Москве?
    Он известен. Хотя... я его сейчас не нашел. Но это неважно. Допустим,
    минимум равен 3 градусам тепла, а максимум 23 градусам. Это интервал
    в 20 градусов, да? Так насколько процентов сокращается неопределенность,
    если текущий прогноз дается с интервалом в 5 градусов? - На 75%, да? Как получаем 75%?
    Из 20 вычитаем 5, результат делим на 20 и умножаем на 100.
    Получается, что точность такого интервального прогноза - это 75 процентов (убранная неопределенность).
    Но 25% неопределенности остается. 25% - Это в данном случае ожидамая относительная (долевая) ошибка
    в нашем прогнозе. Хотя выражение "относительная ошибка" труднее себе представить,
    чем выражение "интервал неопределенности".


    И вот теперь вернемся к бинарному прогнозу. Допустим синоптикам поставили задачу
    так: предскажите, будет ли завтра погода выше 15 градусов или ниже! 15 градусов - это
    такая точка отсечения (cut score) на шкале. При такой постановке задачи у синоптиков
    появляется шанс сделать гораздо более точный прогноз, ибо надо попасть в очень
    широкий интервал - в ту или иную половину числовой оси Цельсия! Это не тоже
    самое, как угадать температуру с точностью до одного градуса. Поэтому риск
    ошибки в случае бинарного прогноза при той же самой оснащенности синоптиков
    оказывается ниже, чем при прогнозе с точностью до "узенького интервала". Понятно?


    Я жутко нестрого все это пытаюсь объяснить (математики-профи
    меня за это затопчут, хотя я их сам уже давно не боюсь, понимая их
    профессиональную зашоренность). Я хочу выпятить для Вас СМЫСЛ. Получается?
    Если я буду писать про сумму квадратов отклонений, то это Вас совсем не поможет приблизиться
    к смыслу... А так есть надежда (у меня есть). Насчет сумм квадратов отклонений
    в моей книге "Практическая тестология" у меня есть точный табличный пример.
    Но я даже номер таблицы приводить здесь не буду, чтобы Вас не запутывать.


    С ув,
    АШ


    Ваш АШ

  17. да, теперь понятно. но... в регрессии зависимая переменная ведь тоже может быть бинарной? как тогда быть, ведь принцип R^2 остается прежним? он так же будет выдавать 33,5%, что это будет значить тогда?
    Яньшин П.В. нравится это.
  18. и что будут значить 65% при корреляции 0,3, если обе переменные метрические?
    Яньшин П.В. нравится это.
  19. Шмелев А.Г.

    Шмелев А.Г. Организатор Команда форума

    Когда переменная бинарная, то мы и не говорим в этом случае про "регрессию",
    это так называемый "вырожденный случай". Ксения, Вы нарисуйте корреляционное
    поле (облако точек, слегка вытянутое вдоль биссектрисы координатных углов 1 и 3).
    А потом "усмотрите" в этом поле четыре области, соответствующие четырем
    клеточкам четырехлеточной таблицы сопряженности. Что такое частотная
    клетка А и частота, которая в нее попадает? - Это число точек в координатом
    угле номер 1, когда X>0 сочетается с Y>0. А что такое число B? - это число
    точек, которые попадают в координатный угол номер 2, где X<0, а Y>0
    и т.д. И тогда Вам станет понятней, что бинарный прогноз является
    очень грубым, очень приближенным, так что даже "слабый стрелок"
    (слабый, неточный измерительный инструмент - тест) попадает в эту
    огромную мишень.


    ВАЖНЫЙ ТЕЗИС: Для решения практических задач очень часто
    нужен более грубый, а не максимально точный прогноз. А "чистые
    математики" (их следует отличать от "прикладных математиков")
    это частенько НЕ понимают и стремятся к максимально-точному
    точечному прогнозу. Если продолжать пример с температурой, то нам
    ведь по большому счету не важен прогноз с точностью до одного градуса,
    ведь нам важно утром решить, как одеться на день. И тут возникает
    на самом деле столько интервалов на шкале, сколько у нас есть
    вариантов одежды. И их считанное количество (на пальцах одной руки):
    безрукавка, легкий свитерок (жакетик), легкая куртка, теплая куртка,
    шуба (зимнее пальто). И все, пожалуй! Ну есть люди, у которых 10
    категориальных интервалов, но вряд ли больше.


    С ув,
    АШ


    Последнее редактирование: 20 сен 2016
  20. Шмелев А.Г.

    Шмелев А.Г. Организатор Команда форума

    Ксения,

    я написал выше, что можно делать с метрическими переменными. Три возможности:

    1) Стараться давать точечный прогноз. Тогда 0,3 надо возвести в квадрат и получить эти самые
    печальные 9%. В этом случае мы работает с метрическими переменными именно
    как с метрическими.


    2) Стараться давать прогноз с точностью до двух категорий (бинарный случай), тогда
    точность будет 65% (не делаю поправку на асимметрию вероятности двух случаев).
    В этом случае мы работаем с метрическими переменными как с бинарными.


    3) Промежуточный случай (их много на самом деле) - вводится K интервалов и
    точность прогноза оказывается в промежутке между 65% и 9%. В этом случае
    мы трансформируем метрическую переменную в порядковую, или ранговую
    с К рангами. Чем больше рангов (интервалов, или градаций на метрической
    шкале), тем ниже будет точность прогноза при одной и той же корреляции.


    У многих психологов (вполне отличников в студенческие годы) нет в голове этой
    картинки, которая позволяет УВИДЕТЬ как метрическая переменная может легко
    превратиться в ранговую или в номинальную бинарную шкалу. Одно
    оторвано от другого и нет связности, нет понимания.


    Ваш АШ