1. Уважаемые посетители форума ЭСПП!

    Для просмотра сообщений достаточно прокрутить данное сообщение, а для просмотра списка разделов - вызвать "Каталог".

    Для комментариев необходимо предварительно ознакомиться c Правилами Форума и пройти регистрацию!



    Для того, чтобы быстро ознакомится с возможностями форума, загляните в подраздел Для новичков.

    Если при входе на форум появляется сообщение об ошибке, попробуйте восстановить или сменить пароль, нажав здесь.

Янош фон Нейман о синтезе надежных автоматов и расчет необходимого количества заданий в тесте

Тема в разделе 'Шмелев А.Г.', создана пользователем Шмелев А.Г., 24 июл 2020.

  1. Шмелев А.Г.

    Шмелев А.Г. Организатор Команда форума

    Янош фон Нейман.jpg

    Уважаемые коллеги!

    Я обратил внимание (спустя 45 лет работы в психологии до меня это, наконец, дошло), что психологи гораздо лучше воспринимают абстрактные истины, если им показать... лицо автора этих истин. Вот такая особенность когнитивного стиля - восприятие научных знаний через их персонализацию...

    Поэтому я начинаю здесь с публикации фотографии Джона фон Неймана, про которого на этой неделе я узнал, что он по рождению на самом деле вовсе не англосакс John Newman и не германец Иоганн Нейман (короткое время был приват-доцентом в Гамбурге), а Янош, так как родился в Венгрии в 1903. К сожалению, этот гениальный автор, один из основателей современной кибернетики (его смело можно поставить в один ряд с Норбертом Винером, на мой взгляд), умер рано - в возрасте 54 лет (в 1957 году), получив изрядную дозу радиации, так как работал едва ли не главным "счетоводом" в ядерном проекте США (часто навещал полигон Лос-Аламос и т.п.).

    Так вот... фон Нейман знаменит не только как автор теории игр (книга 1944 года совместная с Моргенштерном), как, впрочем, и многих других открытий в области дискретной (структурной) математики, но и как автор знаменитой теоремы "О синтезе надежных автоматов из ненадежных элементов". В ходе доказательства этой теоремы Нейман рассмотрел множество абстрактных объектов - условных "одноклеточных" автоматов, которые работают как простейший нейрон-детектор - по принцу да-нет - "обнаружил - не обнаружил заданный стимул" (сигнал опасности, например). Если такие элементарные автоматы работают ненадежно, то каждый из них в отдельности дает высокий процент ошибок в обнаружении сигнала - допустим даже 30 процентов (!). Недопустимый уровень брака! Но главное условие, что все-таки такие ненадежные элементы работают чаще правильно, чем ошибаются (70 против 30). Нейман доказал, что из таких элементов, если их много и они работают независимо, можно собрать вполне надежный комплексный автомат. Логика расчетов при этом у Неймана, непростая с точки зрения математической теории вероятности, с точки зрения обыденной точки зрения, не такая уж сложная для схватывания смысла. Основной объяснительный тезис может осилить, по моему убеждению, любой читатель: большинство элементарных автоматов одновременно НЕ ошибаются (!). Да, они могут одновременно ошибиться, но чем больше таких элементов, тем меньше вероятность, что большинство одновременно ошибется.

    Мой тезис: мне кажется, что многим психологам не хватает понимания этой истины. Она требует определенного количественного вероятностного мышления. А если мышление качественное, то эта истина остается вообще вне поля внимания. Отсюда любовь психологов к коротким диагностическим пробам, в каждой из которых по 2-3 заданий и... все. А затем следует глубокомысленный экспертный вывод и биение себя любимого "копытом в грудь", что, мол, я (и только "Я великий") являюсь носителем глубокого, накапливаемого десятилетиями экспертного знания и ... природной интуиции.

    Опять-таки недавно я обнаружил в Рунете полезный интерактивный сервис - онлайн-калькулятор биномиального распределения:

    https://planetcalc.ru/486/


    На входе Вы указываете вероятность бинарного события (типа "решил задание - не решил задание теста"), а также число испытаний (число заданий теста), а на выходе получаете дифференциальную (гистограмма в дискретном случае) и интегральную (кумулята) кривые биномиального распределения, а также табличные значения соответствующих вероятностей - с какой вероятностью будет достигнута определенная "сумма положительных сигналов" (сколько заданий в теста на знания или способности будет решено, если идет случайных процесс). Раньше на своем блоге я строил дискретные модели этих кривых с помощью известного метода Монте Карло (случайное моделирование на больших выборках - см. мои публикации лета 2018 года). Теперь, имея в распоряжении такой калькулятор, у Вас нет необходимости в методе Монте Карло (хотя случайное моделирование является по-своему убедительным методом в психологическом плане).

    Так вот рассмотрим такую ситуацию, что у нас есть 10 тестовых заданий, из которых каждый обеспечивает точность распознавания 0,7 (семьдесят процентов). Иными словами по главной диагонали в табличке сопряженности стоит 70 процентов наблюдаемых случаев. Напомню, что фи-коэффициент для таких заданий равен 0,4 (как и коэффициент дискриминативности, если табличка симметрична). Те, кто наблюдал, какими бывают на практике значения ФИ для множества заданий на знания и способности, понимают, что ФИ =0,4 - это весьма высокое значение, которое говорит о высокой ценности заданий. Но... мы должны при этом констатировать, что по каждому отдельному заданию возникают 30 процентов ошибок (!). То есть в 30 случаев из 100 мы можем ошибочно приписывать кандидату повышенное значение измеряемой (диагностируемой) способности, когда на самом деле он обладает пониженным значением, или, наоборот, приписывать пониженное, когда на самом деле у него повышенное.

    Ниже на графике мы видим, как выглядит биномиальное распределение для теста из 10 заданий, обеспечивающих точность в 70%

    График 1.jpg


    Как видим, вероятность ошибки в тесте длиной в 10 заданий весьма еще велика: она равна 15%. Это выделенная красным площадь под кривой, которая лежит левее 5 баллов из 10 возможных (левее точки ППО=50, то есть процента правильных ответов, равного 50%). То есть, если мы из 10 таких элементов создаем комплексный автомат, то получается, что мы можем с весьма высокой вероятностью (которой нельзя пренебречь) совершить ошибку в диагностическом заключении: принять гипотезу, что у человека нет особых способностей, в том случае, когда на самом деле способности есть (или знания есть) и они выше среднего. В самом деле стандартное отклонение при данном количестве из 10 биномиальных испытаний равняется КОРЕНЬ(0,3*0,7*10)= 1,45, а по правилу трех сигм нижняя граница вероятного коридора случайных колебаний для способного человека лежит в этом случае в районе 7 - 4,5= 2,5, то есть даже ниже трех правильных решений из 10. То есть, в 1000 испытаний (среди 1000 испытуемых) может найтись даже один такой случай, когда балл способного человека окажется в районе 3 из 10. Такой случайный разброс - ожидаемая ошибка в интервале неопределенности, порождаемом таким несовершенным автоматом из 10 нейронов-заданий (таким неточным, коротким тестом).

    А ниже рассмотрим ситуацию, когда в тесте не 10, а уже 50 заданий с таким же недостаточно высоким уровнем точности распознавания Фи=0,4 или 70 процентов точности (использую термин из области бизнес-теории на базе "матрицы ошибок"). Вот как выглядит аналогичный график для этого случая:

    График 2.jpg

    Мы видим на графике 2, каким крошечным оказывается хвост распределения, который заходит в область 25 из 50 - в область ППО=50% (половина правильных ответов). Я даже не могу этот крошечный участок в данном случае под кривой промаркировать красным цветом. Площадь этого участка под кривой достигает уже менее 0,001 (менее одной десятой процента), то есть это менее 1 случая на 1000 - пренебрежимый уровень вероятности ошибки (общепринятый в матстатистике), минимальный уровень. В самом деле, рассмотрим стандартное отклонение для этого случая. Оно равно КОРЕНЬ(0,3*0,7*50) = 3.24, что дает нам значение "трех сигм" менее 10 очков на шкале сырых баллов. То есть, по правилу трех сигм интервал случайного блуждания возможного балла оказывается в районе от 26 до 44 баллов на сырой шкале (от 26 до 46 правильно решенных заданий).

    Вот именно таким расчетами, обосновывающими минимальную длину теста в 50 заданий, я руководствовался еще в 1997 году при подготовке и проведении первой в стране компьютерной олимпиады для абитуриентов и старшеклассников "Телетестинг". У нас не было тестов короче, чем в 50 заданий, а область значений на сырой шкале менее 26 правильных ответов (половина и менее) объявлялась областью "неудовлетворительной оценки". Заодно мы тут же видим, что при длине теста в 50 заданий оптимальная трудность заданий должна быть в районе 70% на шкале ППО. Именно такой комплексный автомат, собранный из ненадежных элементов , обеспечивает нам необходимый уровень надежности в различении способных испытуемых от неспособных (знающих от незнающих ничего вовсе).

    А теперь представьте себе мое возмущение, что в первых же тестах ЕГЭ в 2001 году "спецы" из СИМО (Института Содержания и Методов Обучения в системе РАО) стали вводить в часть А тестового экзамена только 15 заданий с выбором ответа (вместо требуемых 50 заданий). Конечно,при таком малом числе заданий часть А была обречена на то, чтобы рано или поздно от нее отказались под громким разоблачительным лозунгом "Угадайка!". Так оно и произошло. Теперь в структуре ЕГЭ нет заданий с выбором ответа, а про теорему фон Неймана никто и не вспоминает. И это несмотря на то, что первый математик-теоретик, который стоял у истоков расчетных процедур в обработке результатов тестового экзамена, по иронии судьбы, имел имя Юрий Михайлович Нейман (!?). Правда, основная специальность этого доктора технических наук, профессора МИГАИК, - это вовсе не тестология, а геодезия...



    Итак, представление о том, что

    ТОЧНОСТЬ ДИАГНОСТИКИ РАСТЕТ ПО МЕРЕ ПРИВЛЕЧЕНИЯ ДОПОЛНИТЕЛЬНЫХ НЕЗАВИСИМЫХ ИСТОЧНИКОВ ИНФОРМАЦИИ О ЧЕЛОВЕКЕ


    является базовым мировоззренческим представлением. Оно же, по моему убеждению, будучи освоенным, помогает понять, почему измерительные и экспертные подходы к диагностике должны не конкурировать, вытесняя друг друга, а работать В СХЕМЕ ВЗАИМНОГО ДОПОЛНЕНИЯ - в комплексном сочетании. Именно этот методологический принцип лежит в основе методологии "Ассессмент-центров" (Центров оценки), в которых измерительные методики сочетаются с экспертными оценочно-диагностическими процедурами (интервью, деловым играми). Но... у нас любят применять жесткую воронку отбора, которая заставляет забывать, какие данные по кандидатам собраны на ранних этапах, вместо того, чтобы эти же данные использовать на более поздних этапах воронки, повышая достоверность итогового суммарного рейтинга ценности кандидата (участника кадрового конкурса).

    В заключение привожу здесь таблицу, сколько заданий, в какой формате и какой продолжительности присутствуют в субтестах современной версии теста SAT (неточному аналогу нашего ЕГЭ). Легко видеть, что в каждом субтесте заданий не меньше 40 (в районе 50-60) и так было уже более 50 лет ( в разных версиях SAT).

    Структура SAT.jpg

    А теперь попробуйте с помощью онлайн-калькулятор, указанного выше, ответить на такой вопрос. Какова вероятность случайного падения монетки орлом в 60 случаях из 100 опытов (и в 40 решкой соответственно)? Иными словами: с какой вероятностью можно утверждать, что центр тяжести такой монетки смещен? А сможете ли Вы не заглядывая в калькулятор, просто на основе логики (на основе сравнения с уже приведенными распределением на 50 заданиях) ответить на вопрос, отвергается ли гипотеза о том, что монетка правильная с вероятностью ошибки менее 0,1%?

    И еще вопрос. Помогает ли это мое сообщение Вам понять, что вопрос про центр тяжести монетки - это есть точно такой же вопрос, как и вопрос про наличие у тестируемого выраженной способности, если он правильно решил 60 заданий из 100 (при том условии, что средний испытуемый решает 50 из 100 таких же заданий)?
    Последнее редактирование: 25 июл 2020
  2. Хохлов Н.А.

    Хохлов Н.А. Администратор Команда форума

    Это был гениальный математик. Его современники писали, что боялись обсуждать какие-то математические задачи при нём, т.к. он находил ответ в уме раньше, чем они начинали всерьёз браться за решение этих задач. В информатике он известен как создатель магистрально-модульного принципа построения компьютера (так и называют "архитектура фон Неймана").
  3. Хохлов Н.А.

    Хохлов Н.А. Администратор Команда форума

    В нейропсихологии это сплошь и рядом. Я как раз последние несколько лет работаю над тем, чтобы поставить нейропсихологию на рельсы количественной психологии, и вижу все эти нелепости, описанные в классических учебниках. Самое страшное, что все нейропсихологи учатся только по этим учебникам (других просто нет), поэтому повторяют друг за другом одно и то же, не проверяя.
  4. Шмелев А.Г.

    Шмелев А.Г. Организатор Команда форума

    Да, Никита, спасибо за подтверждение. Из краткого жизнеописания Яноша фон Неймана мы находим, что еще в раннем детстве ребенок поражал окружающих гениальными способностями: мог поделить в уме огромные числа, знал древние языки и т.п. Мозг - обласканный Высшими силами.
    Последнее редактирование: 24 июл 2020
  5. Бардина О.Н.

    Бардина О.Н. Участник

    Очень интересно. Я подумала об этом в контексте диагностики болезней (на фоне активных обсуждений теста на коронавирус). Получается, если каждый отдельный тест не точен, то все равно можно найти минимальную критическую величину (сколько нужно замеров), чтобы иметь уверенность в результате?
    Правильно я понимаю, что согласно этой теореме, каждый исходный "ненадежный" элемент все равно должен иметь процент попадания выше (существенно выше?) 50%? Тогда их корректнее называть "слабо-надежными" элементами.
  6. Кроник А.А.

    Кроник А.А. Локомотив Команда форума

    От Неймана до Аумана - вдохновляющий путь для математически мыслящего психолога!
    Неймана читал, Аумана видал (благодаря косвенной информации на нашем форуме), но,
    не могу не поделиться злободневной новостью сhttps://ria.ru/20200724/1574867988.html:

    "По словам профессора Адама Грундхоффа, соавтора исследования и руководителя исследовательской группы Института
    экспериментальной вирусологии имени Генриха Петте (HPI), результаты исследования показали, что распространению
    коронавируса на большие расстояния способствуют такие факторы на предприятиях, как низкая температура и
    недостаточная подача свежего воздуха. "Весьма вероятно, что эти факторы играют решающую роль в возникновении
    вспышек, которые происходят на мясо- или рыбоперерабатывающих предприятиях по всему миру. По всей видимости,
    в этих условиях для предотвращения передачи инфекции недостаточно соблюдения расстояния от 1,5 до 3 метров".
    (Eсли сия новость как-то "не в тему", её, конечно, можно просто удалить.)

    Ну а для меня вывод очевиден: вегетарианство безопасней, если нет своего курятника или осетрины в своем пруду.
    Будьте здоровы, друзья и коллеги, для счастливых кооперативных неатомических игр человечества с природой!
    Последнее редактирование: 24 июл 2020
  7. Шмелев А.Г.

    Шмелев А.Г. Организатор Команда форума

    Да, Оля, Вы абсолютно правы - корректнее называть "слабонадежными элементами". И к диагностике плохоуловимого КОВИДА-19 это имеет прямое отношение. Надо всего лишь-навсего посетить несколько разных стран, в которых делают совершенно разные по технологии тесты, и тогда картина прорисуется вполне точная (!) :)

    С ув,
    АШ