1. Уважаемые посетители форума ЭСПП!

    Для просмотра сообщений достаточно прокрутить данное сообщение, а для просмотра списка разделов - вызвать "Каталог".

    Для комментариев необходимо предварительно ознакомиться c Правилами Форума и пройти регистрацию!



    Для того, чтобы быстро ознакомится с возможностями форума, загляните в подраздел Для новичков.

    Если при входе на форум появляется сообщение об ошибке, попробуйте восстановить или сменить пароль, нажав здесь.

Еще раз про корреляцию и проценты

Тема в разделе 'Шмелев А.Г.', создана пользователем Шмелев А.Г., 14 сен 2016.

?

Какой процент точности прогноза бинарного события соответствует коэффициенту корреляции 0,3?

  1. 30% - так как коэффициент корреляции надо умножить на 100

    (войдите для просмотра числа голосов)
  2. 9% - так как коэф. корреляции надо возвести в квадрат, чтобы получить коэф.детерминации

    (войдите для просмотра числа голосов)
  3. Выше 50% - выше точности случайного угадывания бинарного события

    (войдите для просмотра числа голосов)
  4. Примерно 65% - надо поделить 30 на 2 и прибавить 50%

    (войдите для просмотра числа голосов)
  5. нельзя дать однозначного ответа

    (войдите для просмотра числа голосов)
  6. другой вариант (напишите, пожалуйста, тогда комментарий)

    (войдите для просмотра числа голосов)
  1. Спасибо большое! Ну, я не делала регрессию с бинарным исходом, но читала, что это возможно. А сейчас задумалась и поняла, что должно получиться какое-то странное облако.

    И еще вопрос. Верно ли, что нельзя сравнивать значения R^2 для разных моделей? Например, а и без лучше предсказывают в, чем а и в - б? Это некорректно?

    И еще - я думала, что 9% - тоже интервальный прогноз, только более узкий, мы же узнаем доверительный интервал в регрессии, это не он?
  2. Тукачев Ю.А.

    Тукачев Ю.А. Администратор Команда форума

    #зафиксируем ГПСЧ для воспроизводимости
    set.seed(12343)

    # Сгенерируем переменную x с со средним 100 и ст. откл 15, 30 наблюдений
    x <- round(rnorm(30, mean = 100, sd = 15),0)

    # Сгенерируем переменную y с со средним 50 и ст. откл 10, 30 наблюдений
    y <- round(rnorm(30, mean = 50, sd = 10),0)

    # построим диаграмму рассеяния
    plot(x,y, pch = 19,
    xlim = c(65, 145))

    # добавим линию регрессии
    abline(lm(y~x), col = "red")

    # вертикальная линия через точку 100
    abline(v=100, lty = 3)

    # горизонтальная линия через точку 50
    abline(h=50, lty = 3)

    Что получилось:

    cor.png

    # корреляция xy
    cor(x,y)
    ## [1] 0.2245334
    # R^2
    cor(x,y)^2
    ## [1] 0.05041523
    # Строим 4-клеточную таблицу
    A <- sum(x > 100 & y > 50)
    B <- sum(x > 100 & y <= 50)
    C <- sum(x <= 100 & y > 50)
    D <- sum(x <= 100 & y <= 50)
    N <- A + B + C + D
    data <- matrix(c(A,C,B,D), nrow = 2)

    # Считаем фи-коэффициент
    phi <- psych::phi(data, 4)
    phi
    ## [1] 0.2588
    # Какой процент точности прогноза бинарного события соответствует коэффициенту корреляции
    accuracy <- round(0.5 + 0.5 * phi, 2) * 100
    accuracy
    ## [1] 63
    # Коэффицент успеха (точность прогноза)
    A / (A + B)
    ## [1] 0.6363636
    # Базовый уровень
    (A + C) / N
    ## [1] 0.4666667
    #Отношение отбора
    (A + B) / N
    ## [1] 0.3666667


    Чистопольская К.А. нравится это.
  3. Я поняла только, что в R можно строить таблицы сопряженности :)

    Почему для коэффициента успеха мы А делим на A + B? Что такое базовый уровень и отношение отбора?

    И какое бинарное событие взято здесь для расчета вероятности?

    Я поняла, что про доверительный интервал сказала глупость, я имела в виду, что мы ведь не точно попадание на линию оцениваем, она ведь,условная, мы ведь зачитывает то, что близко к ней, и это и есть интервал?
  4. Тукачев Ю.А.

    Тукачев Ю.А. Администратор Команда форума

    Rplot50.png

    Забыл написать, что х у нас IQ (например), а y -- производительность.
    В "B" находятся ложные отличники. В "С" -- ложные неудачники, "А" -- оправданный отбор, "D" -- оправданная отбракова.

    При более высокой корреляции между IQ и производительностью, больше людей будут попадать в A и D, и меньше в С и B.
    Коэффициент успеха (точность отбора) -- это доля тех кандидатов (работников), которых мы приняли на работу и они оказались успешны



    Чистопольская К.А. нравится это.
  5. Я все равно не понимаю, почему такие формулы в конце и как они соотносятся с R и R^2

    Хотя нет, первую формулу я поняла. Чем ниже B, тем точнее прогноз.

    И результат приближен к R/2+.5. Это неслучайно? И выходит, R^2 нам тут ни о чем не говорит?

    А + B/N - доля всех умных, а A + C/N - доля всех успешных.
    Последнее редактирование: 20 сен 2016
  6. Яньшин П.В.

    Яньшин П.В. Лидер Команда форума

    Александр Георгиевич, не могли бы Вы пояснить, как делать поправку при бинарном прогнозе, если вероятность скошена. Например, весной больше вероятность того, что температура днем станет выше (пусть с 90%); осенью - есть бОльшая вероятность похолодания, например, 10%. Это ведь и есть скошенная вероятность?
  7. Шмелев А.Г.

    Шмелев А.Г. Организатор Команда форума

    Ксения,

    "чем ниже В..." - это просто золотые слова с Вашей стороны.
    Они меня лично искренне порадовали!


    А что касается доли умных и успешных, то тут все-таки не лишне поставить
    скобки:


    (А+В)/N - доля умных,
    (А+С)/N- доля успешных.


    А показатель R2 ни о чем не говорит, ибо нет никаких квадратов отклонений
    точек от линии регрессии.


    Ваш АШ


  8. Шмелев А.Г.

    Шмелев А.Г. Организатор Команда форума

    Петр,

    если у Вас под рукой "Практическая тестология" (автор - Шмелев А.Г),
    то это формула 6.1 на странице 461. У меня сейчас нет времени
    уточнять, что значат обозначения переменных в этой формуле
    (их там немало). Для этого лучше всего вообще почитать ВЕСЬ параграф, который
    так и называется "Упрощенная формула точности бинарного прогноза".
    В этом параграфе использованы обозначения, введенные еще в классической
    работе Тейлора и Расселла, опубликованной еще в 1939 году, но не изученной
    российскими психологами до сих пор... :(


    Ваш АШ

  9. Яньшин П.В.

    Яньшин П.В. Лидер Команда форума

    Спасибо, теперь точно буду покупать :)
  10. Тукачев Ю.А.

    Тукачев Ю.А. Администратор Команда форума

    http://testology-book.ru уже три года функционирует, заказывайте себе и своим студентам :)
    Напоминаю, эл. версия книги стоит ДЕШЕВЛЕ биг-мака
    Чистопольская К.А. нравится это.

  11. Урра! Хоть чем-то порадовала. А то я переживала, что только туплю и задаю глупые вопросы.

    Но можете еще ответить на один вопрос?

    Верно ли, что нельзя сравнивать значения R^2 для разных моделей? Например, А и B лучше предсказывают C, чем A и C - B? Это некорректно? Ведь мы можем говорить, что связь жизнестойкости с душевной болью выше, чем с экзистенцией, допустим, на основе простых корреляций? Почему же нельзя сравнивать разные R^2 для разных моделей медиаций, например?
  12. Шмелев А.Г.

    Шмелев А.Г. Организатор Команда форума

    Ксения,

    сегодня выдался не простой день и к вечеру я, видимо, уже выдохся (когда сел за вечерний сеанс
    разной переписки). Так что никак не могу вникнуть в поставленные Вами вопросы. :(
    Не понимаю, как это меняются местами переменная-предиктор
    С и результирующая переменная В. Последующий текст на примере жизнестойкости, как
    мне показалось, вообще не соответствует схеме, описанной на буквах. Вы сами не сделали
    никакой описки в этом тексте? Или я туплю? А сравнивать R2 для разных моделей можно,
    конечно. Речь идет именно о множественно-регрессионных моделях? А структурное моделирование Вы
    не пробовали? Сейчас оно больше в моде. У нас на форуме, между прочим, водятся и специалисты
    по структурному моделированию тоже. У меня возникает смутное интуитивное ощущение, что оно в вашей
    ситуации больше подходит (хотя я и не понял эту ситуацию на рациональном уровне).


    С ув,
    АШ



    Чистопольская К.А. нравится это.
  13. Шмелев А.Г.

    Шмелев А.Г. Организатор Команда форума

    Петр, извините.

    Кажется, я просто забыл, что когда мы встретились в Челябинске, я к этому
    моменту уже раздарил те экземпляры, которые дотащил до Челябинска...


    С ув,
    АШ



  14. нет, я просто упростила пример.

    а пример с модерацией: цепочка "негативное прошлое - страх последствий для тела - позитивное прошлое" имеет более высокий R^2, чем цепочка "негативное прошлое - позитивное прошлое - страх последствий для тела". и там и там есть модерация, но коэффициент в первой цепочке выше (.207 против .149). значит ли это, что при модерации страха, позитивное прошлое повышается больше, чем страх последствий для тела при модерации позитивного прошлого?

    (тут неочевидный пример, понимаю, но родной. суть в том, что негативное прошлое связано с ПП отрицательно, конечно, но вот страх связан с ПП положительно. и отсюда разные эффекты интересные при взаимодействии ПП, страхов и пси благополучия и неблагополучия).

    структурное моделирование ведь на основе регрессии работает? Я думала показать результаты Ольге Валентиновне, но ее пока нет, она в Ташкенте, а мне бы хотелось самой хоть чуть-чуть разобраться. Ну, самой условно, я все равно всех мучаю. И Юру уже лично опрашивала, и вот вас теперь, и еще были жертвы...
  15. ну и вообще у меня в этой работе только тройки, шире я не смотрю, поэтому модераций-медиаций, думаю, хватит для основных objectives работы.
  16. ну и я не совсем такой вывод предполагаю, что "позитивное прошлое увеличивается сильнее", а что цепочки благополучие - страх - ПП имеют больший... вес, что ли, более сильны и значимы, чем цепочки благополучие - ПП - страх - там 6 однотипных отношений, в которых участвует ПП, два вида страхов и разные переменные благополучия-неблагополучия. и везде R^2 выше при первом варианте цепочек из тех, которые я описала (есть еще третий вариант, но я про него уже не буду, чтобы не путать)
  17. Яньшин П.В.

    Яньшин П.В. Лидер Команда форума

    Александр Георгиевич, а есть ли аналогичная формула, связывающая коэффициент t Стьюдента (U Манна -Уитни и т.п.) с бинарным предсказанием. Например, есть t (или U), различающий по некому измерению наркоманов и здоровых, и мы хотим по нему предсказывать вероятность отнесения испытуемого к одной из этих групп?
  18. Тукачев Ю.А.

    Тукачев Ю.А. Администратор Команда форума

    Я не совсем понимаю, Петр Всеволодович, а чем Вам не нравится, например, логистическая регрессия? Она именно решает задачу "предсказывать вероятность отнесения испытуемого к одной из этих групп"
  19. Яньшин П.В.

    Яньшин П.В. Лидер Команда форума

    Юрий Александрович!
    Я никогда не работал с логистической регрессией, но хорошо знаком с методом известных групп и популярными мерами сходства/различия. Они используются для доказательства валидности не реже, чем индивидуальные (корреляция), но аналогичные вероятностные преобразования для них мне не известны. Да и логика предсказания здесь лежит, можно сказать, на поверхности. Для получения логистической регрессии потребуется проведение новых вычислений на сырых данных, а в обсуждаемой формуле используется уже вычисленный коэффициент корреляции. Наличие аналогичного преобразования для t Стьюдента облегчило бы, например, сравнение методик по уже опубликованным данным.
    Я ответил на Ваш вопрос. Надеюсь, что получу ответ и на свой. :rolleyes:
  20. Тукачев Ю.А.

    Тукачев Ю.А. Администратор Команда форума

    Петр Всеволодович, дак и формула 0.5 + 0.5*R не решает задачу индвидуальногого предсказания вероятности попадания в группу
    Для t-test есть, как я писал ранее, мощность и величина эффекта http://forum.ht-line.ru/threads/moschnost-i-velichina-ehffekta.374/ Сравнение методик по уже опубликованным данным -- для этого сущестуют мета-аналитические процедуры