1. Уважаемые посетители форума ЭСПП!

    Для просмотра сообщений достаточно прокрутить данное сообщение, а для просмотра списка разделов - вызвать "Каталог".

    Для комментариев необходимо предварительно ознакомиться c Правилами Форума и пройти регистрацию!



    Для того, чтобы быстро ознакомится с возможностями форума, загляните в подраздел Для новичков.

    Если при входе на форум появляется сообщение об ошибке, попробуйте восстановить или сменить пароль, нажав здесь.

Еще раз про корреляцию и проценты

Тема в разделе 'Шмелев А.Г.', создана пользователем Шмелев А.Г., 14 сен 2016.

?

Какой процент точности прогноза бинарного события соответствует коэффициенту корреляции 0,3?

  1. 30% - так как коэффициент корреляции надо умножить на 100

    (войдите для просмотра числа голосов)
  2. 9% - так как коэф. корреляции надо возвести в квадрат, чтобы получить коэф.детерминации

    (войдите для просмотра числа голосов)
  3. Выше 50% - выше точности случайного угадывания бинарного события

    (войдите для просмотра числа голосов)
  4. Примерно 65% - надо поделить 30 на 2 и прибавить 50%

    (войдите для просмотра числа голосов)
  5. нельзя дать однозначного ответа

    (войдите для просмотра числа голосов)
  6. другой вариант (напишите, пожалуйста, тогда комментарий)

    (войдите для просмотра числа голосов)
  1. Шмелев А.Г.

    Шмелев А.Г. Организатор Команда форума

    Людмила Николаевна.

    и Юрий Тукачев, и я уже не раз описывали это на вашем персональном блоге в ветке,
    посвященной цветовой психодиагностике. Юрий остроумно предложить применить
    САМУЮ ПРОСТЕЙШУЮ процедуру, которая почти что не взывает к какой-либо
    "математике от психологии" - посмотреть, сколько процентов испытуемых дадут
    согласие со своим "портретом", построенным на основании МЦВ, и Вы дали уже один раз
    согласие на эту процедуру и даже любезно согласились дать "двум выборам",
    который произведет каждый респондент-доброволец, именно свою модифицированную
    интерпретацию. Единственное дополнение к этой почти "бытовой процедуре"
    заключается в том, что половина респондентов получит истинное заключение,
    а другая половина (контрольная группа) - ложное, которое будет определенно с помощью "датчика
    случайных чисел". Если среди тех, кто получил "ложную обратную связь" будет
    примерно такой же процент согласных, как и среди тех, кто получил истинную, тогда
    все дело просто во внушаемости испытуемых (эффект Барнума).
    Я уже начал работу по программно-методическому обеспечению
    этой процедуры (чтобы не все делать вручную) и на это еще потребуется время.
    И вдруг Вы решили, что разговор про проценты и корреляции настраивает
    Вас против и того, и другого (извините, если я неправильно Вас понял).
    В нашем запланированном эксперименте мы будем иметь дело только
    с процентами, а не с корреляциями, как Вы видите.


    С ув,
    АШ



    Тукачев Ю.А. нравится это.
  2. Алтухов В.В.

    Алтухов В.В. Модератор Команда форума

    А, в этом плане)

    Согласен! Только тогда это получается не только оптимизм или пессимизм, а еще и ошибка первого и второго рода. :)

    Михальский А.В. нравится это.
  3. мне тоже все-таки интересно, а если это не бинарное событие, а уровень выраженности черты или симптома? ну, например, психоз ушел, но отдельные бредовые идеи остались? это у вас как будет пониматься? все-таки когда мы имеем дело с корреляциями, мы чаще всего коррелируем опросники, и что значит прогноз? если а, то б? я привыкла корреляцию пирсона понимать как сходство, сочетаемость. а вы про что?
    Михальский А.В. нравится это.
  4. Михальский А.В.

    Михальский А.В. Участник

    Логично предположить, что любое не-бинарное событие (синдром) складывается из бинарных (симптомов) :) То что мы имеем дело с сложными системами, не отменяет сего факта :)
    Завоеванная Н.С. нравится это.
  5. Хохлов Н.А.

    Хохлов Н.А. Администратор Команда форума

    Я бы ещё уточнил один момент. Можно коррелировать две метрические переменные, а потом по одной брать попадание в крайние группы как бинарное событие. А можно сразу брать бинарную и метрическую переменную и считать бисериальный коэффициент корреляции. Рискну предположить, что точность прогноза в этих случаях будет определяться по-разному. Впрочем, я бы для такой ситуации сразу делал логистическую регрессию.
  6. критика к своему состоянию - вполне себе континуальное явление, она может быть полной, частичной и отсутствовать вообще. Разве нам не важно знать или учитывать, насколько человек критичен? И соответственно, от этого зависит общее состояние пациента. Оно тоже континуальное. Регрессию я еще могу понять, мы берем единицу изменения одной переменной и прогнозируем, насколько меняется другая. А с корреляцией как?
    Михальский А.В. нравится это.
  7. Шмелев А.Г.

    Шмелев А.Г. Организатор Команда форума

    Ксения, здравствуйте.

    Давайте рассмотрим для простоты шкалу температуры.
    Вот уж казалось бы совершенно количественная, континуальная
    шкала, которая измеряется по Цельсию в градусах. Прикладывая
    руку ко лбу больного ребенка, мы пытаемся интуитивно (приближенно)
    оценить, есть у него температура или нет. Точность нашей субъективной
    оценки можно измерить, если составить таблицу вида:


    Наблюдение № 1234567
    Субъективная оценка37,436,638,539,537,338,136,6
    Реальная температура, измеренная градусником38,2 37,337,738,136,537,436,9
    Субъективное Решение УлицаУлицаДомДомУлицаДомДом
    Объективное решениеДом УлицаДОмДомУлицаУлицаДом
    Известно, что при температуре 37,5 и выше не рекомендуется выходить из дома и требуется вызывать врача на дом. Допустим, что родитель руководствуется этим формальным правилом. Сколько ошибок он допускает? - Очевидно, что 2 ошибки из 7 возможных (см. таблицу). Какова точность его субъективных решений? В процентах это 72 процента. А какова линейная корреляция субъективных континуальных ощущений и объективных показаний градусника? - Пирсоновская линейная корреляция равна 0,58.

    Вот какая четырехклеточная матрица сопряженности 2 на 2 описывает эти 7 случаев (наблюдений):

     
    Объективное решение
    УЛИЦА

    Объективное
    решение ДОМ

    Субъективное решение
    УЛИЦА
    21

    Субъективное решение
    ДОМ
    13
    Фи-коэффициент связи по этой таблице будет равен 0,42 (еще меньше, чем Пирсоновский). Поясню, что для таких маленьких выборок, конечно, нет такой строгой и простой зависимостью между корреляцией и точностью в процентах. Но уже этот простой пример иллюстрирует то факт, что, как правило, мера корреляции оказыватся НИЖЕ, чем точность в процентах.

    Но что для нас важнее: точность наших решений или линейная точность нашего "интуитивного ощущения температуры"?

    К сожалению, научный подход к измерению часто не акцентирует внимание к этим моментам - к тем, которые крайне важны для прикладных измерений. Мы ведь измеряем в прикладных целях прежде всего для того, чтобы принимать решение. И решений у нас нередко всего 2. Ну... а если их 3 или 4, то ситуация не сильно меняется. Чтобы просчитать точность надо просто построить таблицы сопряженности не 2 на 2, а 3 на 3 или 4 на 4, например. И по главной диагонали этой таблицы (там, где совпадают субъективные решений и объективно-обоснованные решения) будет стоять сумма правильных решений. Эту сумму решений надо указать в числителе дроби, а все возможные решения - в знаменателе. Затем дробь умножить на 100 и получится точность, выраженная в процентах.




  8. Шмелев А.Г.

    Шмелев А.Г. Организатор Команда форума

    Коллеги,

    по моему убеждению, большая наша беда (как науки, не имеющий точного прикладного выхода!)
    заключается в том, что психологи - выпускники вузов - не УМЕЮТ строить ни первичные таблицы
    (прежде всего не умеют заполнять строки с формализованными решениями), ни таблицы сопряженности,
    а математики совсем их этому не учат, а учат той математике, которая не имеет такого важного
    значения для прикладной гуманитарной науки - не учат работе с категориальными шкалами
    и, в частности, с бинарными переменными.


    С ув,
    АШ
  9. круто, спасибо!
    Шмелев А.Г. нравится это.
  10. но еще такая штука, если вернуться к шизофреникам: известно, что после острого приступа, когда возвращается критичность, состояние больного может ухудшиться, потому что он понимает, как он ошибался и что натворил. то есть одна переменная не дает нам такого легкого предсказания как температура. нам нужна вторая переменная, а может даже и третья: время выхода из острого состояния и дисфория. как вы тут будете работать? как вы корреляцией увидите модерацию?
  11. ну, то есть понятно, что вы ее не увидите, и будет просто расплывчатая картина со сниженной вероятностью?
  12. То есть суть в том, что хотя критичность является необходимым условием здоровья, на этапе выхода из болезни она может предсказывать улучшение, а может - ухудшение. В зависимости от сопутствующих условий.

    То есть мы на основе простой корреляции просто скажем, что критичность сама по себе незначительно предсказывает здоровье или (о, ужас :)) не предсказывает вообще?
  13. Михальский А.В.

    Михальский А.В. Участник

    Потому что критичность - сложный конструкт, частичная ли она и тп. Здоровье кстати тоже )

  14. вот и я о том же :) once you are cured, критичность должна быть, а пока лечишься, не обязательно.
    Михальский А.В. нравится это.
  15. Михальский А.В.

    Михальский А.В. Участник

    не, такого я не понимаю... постмодерновой мы ориентации )

    Но пост Александра Георгиевича с таблицей температуры - просто "к чаю каждое утро". Точнее, к каждому экзамену по психологии ))
    Завоеванная Н.С. нравится это.
  16. ну если человек вышел из психоза, начал осознавать бредовые конструкции и покончил с собой или пытался покончить, это же не здоровье? какая-то составляющая здоровья улучшилась, но что-то ухудшилось.

    в задачу врачей входит полное выздоровление, а не и изгнание чертей методом утопления бесноватого.

    пример очень клевый, да :)
    Михальский А.В. нравится это.
  17. Шмелев А.Г.

    Шмелев А.Г. Организатор Команда форума

    Ксения,

    мне кажется, что в фокусе Вашего внимания (интереса) оказываются немножко другие вещи, чем то, о чем я здесь толкую. Я ведь вовсе нигде не утверждал, что можно найти какую-то единственную переменную, которая дает хорошую прогностичность для всего и вся. Я только утверждал, что существует определенная связь (формализованная!) между коэффициентом корреляции и процентом точного прогноза. И при этом я утверждал, что далеко не все специалисты (даже среди весьма квалифицированных и именитых) одинаково трактуют эту связь. Многим (очень многим!) кажется, что коэффициент корреляции в районе 0,3 - это полная беспомощность, но это вовсе не так. В очень многих ситуациях (например, в ситуации прогноза погоды или подьема-падения курса валюты) мы не можем иметь "высокоточный прогноз", а должны довольствоваться лишь вероятностным прогнозом. И в этом случае 70 процентов точности - это уже кое-что (хотя ошибок очень много, но лучше такой прогноз, чем никакой). А ведь 70 процентов - это только КК (коэффициента корреляции) в районе 0,4. Почему я пишу " в районе"? - Потому что при перекосе в вероятности прогнозируемого события простая формула должна замещаться более сложной, то есть "поделить на два и прибавить 50%" - это уже не работает.

    Что касается вашего фокуса внимания, то Вы пишите (если я вообще понял Вас) о другом - о том, что требуется учитывать много переменных и только так можно повысить точность прогноза до приемлемого уровня. Мой ответ: комбинация независимых переменных (параметров) - это просто переход к "сложной переменной". От этого перехода статус прогнозируемого события (зависимой бинарной переменной) никак НЕ меняется. Если это зависимая переменная бинарная, то она и остается бинарной. Да, если мы используем комбинацию двух бинарных параметров, то нам не удастся уже оперировать таблицей сопряженности 2 на 2, придется перейти к таблице 4 на 2, но это незначительно усложнение. Вот как может, например, выглядеть такая таблица 4 на 2 для описания значимого повышения вероятности болезни. Болезнь при этом предстает как синдром, то есть логическая конъюнкции двух параметров, или симптомов - А и В:

     Болезнь X
    Отсутствие
    болезни X

    Симптом А и
    симптом В
    9 1

    Симптом А
    и нет симптома В
    515

    Нет симптома А
    и есть симптом В
    515
    Нет ни А, ни В1238
    Пояснение: для простоты рассматриваем выборку больных численность 100 человек,
    хотя это может быть просто 100 процентов больных.



    Для каждого симптома по отдельности таблица 2 на 2 выглядит так:

     Болезнь X естьБолезни X нет
    Симптом есть1416
    Симптома нет1753
    Фи-коэффициент связи в этой табличке 2 на 2 очень невысокий фи=0,22, что
    дает точность прогноза по одному симптому только немногим выше гадания (уровня
    фифти-фифти или 50 процентов точности).


    Зато для комплексной переменной "А и В" (логическая конъюнкция, совпадение)
    табличка 2 на 2 выглядит уже так:


     Болезнь X естьБолезни X нет
    Симптомы А и В9 1
    Нет совпадения А и В2268
    Что дает фи-коэффициент 0,43 и при этом по нашей упрощенной
    формуле точность прогноза оказывается в районе 70 процентов.


    Казалось бы, точность обнаружения болезни равна 90% (в первой строке),
    и это просто блестящий уровень точности! Но...
    Но при этом очень невысока точность констатации отсутствия болезни.
    Для тех, кто не знает теории вероятности, она равна 68/90 = 0,75, или
    75 процентов (во второй строке). Но на самом деле случайное отрицание болезни
    наступает не с вероятностью 50%, а с более высокой вероятностью почти 70
    процентов, так как отсутствие болезни Х - это вообще более вероятное событие
    (в большинстве случаев реальных болезней перекос в сторону отсутствия
    события еще сильней). Поэтому отклонение от ожидаемой вероятности
    угадывания в случае второй строки совсем не велико и приближается к...
    уровню случайного угадывания. А среднее значение между 90% точности
    (для наступления события или первой строки) и 50% точности (для
    ненаступления события или второй строки) равно как раз 70 процентам.


    Ксения, полезно ли то, что я попытался показать "на пальцах" - на
    таблицах с конкретными арифметическими значениями?
    Полезно ли для того, чтобы читатель понял, что логика бинарного
    прогноза для комбинированных переменных остается по сути
    той же, что и для простых переменных и матрицы (таблицы) сопряженности
    частот событий опять-таки вполне работают? Хотя не всегда это
    таблицы 2 на 2, а часто это таблица 4 на 2 или 8 строк на 2 столбца
    (когда имеется комбинация трех бинарных параметров) и т.п.


    Ваш АШ





    Последнее редактирование: 17 сен 2016
  18. Александр Георгиевич, спасибище огромное, это конечно же очень полезно! Когда в голове may be yes, may be no, may be rain, may be snow, а вы тут показываете, как это может выглядеть в действительности, это очень здорово!
    Шмелев А.Г. нравится это.
  19. Шмелев А.Г.

    Шмелев А.Г. Организатор Команда форума

    Ксения,

    спасибо Вам, что Вы сохранили внимание к таким немножко скучноватым вещам
    и дали положительную обратную связь. Спасибо.


    Ваш АШ

    P.S.

    Я много раз убеждался, что гуманитариям (психологам, в частности) очень нужна дискретная
    и вероятностная математика, а не "дифинтегра", которая оперируют непрерывными шкалами.
    А из дискретной математики самое главное - это комбинаторика в матричном (табличном)
    представлении. Без этой комбинаторики очень трудно понять, как из теории вероятности
    рождается Вероятностная Логика, а, следовательно, и Вероятностное Мышление.
    Членение шкал на интервалы-категории, которым присваивается определенный
    смысл, связанный с вариантами решений, а затем создание комбинаторной
    сетки (таблицы) для двух и более "категориальных шкал" - определенный когнитивный
    (интеллектуальный) навык, который, увы, часто просто никто у студентов не формирует.
    Ибо нужны релевантные примеры, а ими математики просто-напросто не владеют.



    Чистопольская К.А. нравится это.