1. Уважаемые посетители форума ЭСПП!

    Для просмотра сообщений достаточно прокрутить данное сообщение, а для просмотра списка разделов - вызвать "Каталог".

    Для комментариев необходимо предварительно ознакомиться c Правилами Форума и пройти регистрацию!



    Для того, чтобы быстро ознакомится с возможностями форума, загляните в подраздел Для новичков.

    Если при входе на форум появляется сообщение об ошибке, попробуйте восстановить или сменить пароль, нажав здесь.

Длина тестовой шкалы, границы оценок и ... метод Монте-Карло

Тема в разделе 'Шмелев А.Г.', создана пользователем Шмелев А.Г., 5 июл 2017.

  1. Шмелев А.Г.

    Шмелев А.Г. Организатор Команда форума

    Итак, коллеги, давайте-ка применим к нашей дискуссии самый надежный и наглядный метод - метод Монте-Карло, то есть метод моделирования (в данном случае распределения тестовых баллов) с помощью функции случайных чисел (в русскоязычной программе MS Excel эта функция называется СлЧис, а не Random).

    Напомню, что в ходе наших опросов и дискуссий большинство коллег высказались за то, что нижняя граница "тройки" (минимальной зачетной оценки) - это 50 процентов, а минимальная длина тестовой шкалы - 10 заданий. Посмотрим теперь с помощью метода Монте-Карло, совпадают ли эти требования к тесту , не противоречат ли они друг другу.

    С помощью программы Эксель (желающим я готов выслать эту расчетную таблицу по запросу) я сгенерировал по 10 000 (десять тысяч!) случайных наблюдений. Как будто 10 тысяч испытуемых нажимали случайным образом на кнопки (заполняли крестиками бланк ответов случайным образом). В одном случае они как будто отвечали на 10 вопросов с 4 готовыми ответами (один правильный), а во втором случае - на 20 вопросов. Таким образом, один тест у нас более короткий (за который голосует большинство коллег), а второй - более длинный (который требуется по документу СТП - Стандарт тестирования персонала). Напомню, что в тесте из 20 заданий с одним правильным ответом нельзя набрать более 20 сырых очков, то есть это шкала сырых баллов длиной от 0 до 20 (как написано в Стандарте).

    Пояснение к графикам: по горизонтальной оси X отложены сырые баллы, по вертикальной оси Y - процент испытуемых, набравших данный сырой балл.

    Как видим, на первой гистограмме целых 189 человек (из 10 тысяч) у нас набрали бы 6 баллов и выше из 10 возможных по первому (короткому тесту) - превзошли бы границу в 50 процентов сырых очков. Это означает, что примерно 2 человека из каждой сотни покажут положительную оценку, если мы ее установим на границе 50 процентов. Поясню, что число 189 я получил путем суммирования числа испытуемых, показавших баллы 6, 7 и 8. Их оказалось 158+25+6 = 189 человек.
    Итак, запоминаем следующее: 1 человек из группы в 50 испытуемых совершенно случайно у нас получил бы положительную оценку (!). Почувствовали, что мы получили противоречие, да? Вероятность случайного высокого результата в случае теста длиной в 10 заданий на самом деле слишком велика!




    Монте-Карло для 10 пунктов по 4 ответа.png


    Посмотрим, сколько же "человек" перешли границу в 50 процентов в тесте длиной в 20 заданий. Суммируем частоты для всех, кто показал баллы 11 и выше.
    Это 32+1+3=36 человек из 10 тысяч. Это менее 4 человек из 1000 или менее 1 человека из 100.
    Таким образом, в этом случае мы достигаем хотя бы стандартного уровня p<0,01 - такова вероятность ошибочного вывода в тесте длиной в 20 заданий (зачисления в успевающие заведомо неподготовленного студента, например). Ну как, чувствуете, что 20 заданий - это очень мягкий компромисс? Если брать уровень ошибки p<0,001 (1 случайный положительный результат из тысячи), то требование к длине теста получается еще жестче - требуется не 20, а уже 30 заданий.


    График распределения тестовых баллов для 30 заданий я опубликую позднее. Обещаю.

    Монте-Карло для 20 пунктов по 4 ответа.png

    Кстати, я сам ранее частенько грешил тем, что пользовался приближенной оценкой границ случайного интервала с помощью очень простого (на пальцах можно все посчитать) биномиального распределения Бернулли. Но при p<0,5 (при отклонение от равной вероятности правильного ответа и ошибки) этот критерий дает погрешность. Лучше и строже работает критерий Хи-квадрат. Он дает почти такую же строгую и жесткую оценку нижних границ, как и метод Монте-Карло.
    Последнее редактирование: 5 июл 2017
  2. Федорченко В.В.

    Федорченко В.В. Активист

    Александр Георгиевич, добрый день.
    Спасибо за наглядную иллюстрацию! Весьма убедительно.
    Вопрос новичка: а как быть с ипсативной технологией предъявления заданий? Все ли также - желаемые 20 заданий на каждую шкалу, просто одни вопрос для нескольких шкал или есть дополнительные условия / ограничения?
    Шмелев А.Г. нравится это.
  3. Шмелев А.Г.

    Шмелев А.Г. Организатор Команда форума

    Виталий,

    спасибо за Ваш позитивный отклик.

    Что касается ипсативных опросников, то они тоже бывают разные*. Это не всегда бинарный выбор "или-или". Бывают опросники, допускающие промежуточные градации в ответах. Но все равно ситуация нередко выглядит даже острее, чем при выборе из четырех-пяти ответов, так как при случайном выполнении ипсативного бинарного теста "или-или" ожидаемый балл оказывается в самом центре шкалы сырых баллов (так как вероятность выбора одного полюса ровна 0,5). Из-за этого область диагностически ценных баллов сдвигается еще ближе к полюсу. Правда, не только к высокому, но и к низкому полюсу (получаем биполярные тестовые шкалы, в которых низкий полюс тоже получает определенную интерпретацию).

    Стоит сделать такую оговорку, что сам по себе прием "ипсативности" не сильно меняет ситуацию в отношении надежности. Он направлен на снижение артефакта социальной желательности - на другое, стало быть, психометрическое свойство теста - на достоверность.

    Другое дело, что во многих психологических тестах в отличие от тестов знаний мы вообще не ставим перед собой прикладной задачи различения четырех градаций в оценочных итоговых категориях: "отлично-хорошо-удовлетворительно-неудовлетворительно". Мы ставим задачу различения трех диагностических категорий: "высокая группа", "средняя", "низкая". Поэтому зона неопределенности (случайных баллов) и "средняя" группа вообще не различимы. при десяти заданиях в бинарном ипсативном тесте можно отнести к высокой группе только баллы 9 и 10, а к низкой - баллы 0 и 1. А баллы 8 и 3 уже не попадают в крайние области, а попадают в область неопределенности - в среднюю область. Таким образом, полноценную стандартизированную шкалу стэнов для таких шкал создать, строго говоря, нельзя - имеется только 2, а не 3 градации внутри крайней группы (шкала стэнов, напомню, относит к высокой группе результат с баллами 8,9 и 10, а к низкой - 0,1 и 2).

    А вот если в одной шкале в бинарном ипсативном тесте присутствует 20 заданий, то граница высокой группы включает уже больше трех градаций на сырой шкале. По критерию Хи-квадрат значимым на уровне p<0,01 (хотя бы на этом уровне) оказывается уже балл 16 (и более высокие баллы), а на уровне p<0.001 балл 18.
    Таким образом, строго говоря, к высокой группе мы должны относить испытуемых с сырыми баллами 18,19 и 20, а к низкой группе - с баллами 0,1 и 2.
    Таким образом, в случае 20 заданий к такой сырой шкале вполне применим перевод (конвертация) в стандартизированную шкалу стэнов. Позднее сегодня (или завтра) я постараюсь для бинарного ипсативного теста тоже реализовать метод Монте-Карло и построить распределение случайных тестовых баллов.


    Ваш АШ

    * Примечание для тех читателей, которые не знакомы с термином "ипсативный опросник". Это опросник, где испытуемому в каждом задании надо выбирать между двумя индикаторами (дескрипторами) с полюсов двух шкал (как минимум, двух шкал в случае бинарного ипсативного теста). Пример такого вопроса сконструируем из известной пословицы: "Что лучше быть богатым или быть здоровым?".

  4. Шмелев А.Г.

    Шмелев А.Г. Организатор Команда форума

    Вот... решил тут повторить реплику, с которой разразился в группе TESTbyTEST на Фейсбуке:

    "Коллеги, меня тут покритиковали. что в связи с длиной теста (по числу заданий) я ухожу в такие "дебри", которые важны только для разработчиков тестов. А ведь ситуация в этой области давно сложилась как драматичная и парадоксальная. Можно так сказать, что "спасение пользователей - дело рук самих пользователей"... Почему? - А потому что тесты чаще всего начинают с огромной легкостью "лепить" как раз те горе-разработчики, которые не подозревают, что существуют в этом деле какие-то проблемы и ограничения. Вы представляете себе, если бы это было в области производства автомобилей или компьютеров? - Представляете, если бы все, кому не лень, взялись бы сочинять... компьютеры. Мда... впрочем, было бы сразу видно, что такой "горе-компьютер" не умеет даже дважды два посчитать. Да и пользователи в этой области (даже "блондинки") считают своим долгом немножко просветиться про память, про быстродействие.... А что с тестами? Кто-нибудь озадачивается, какой он должен быть длины (по числу заданий)? - Мне теперь все больше кажется, что пользователи скорее в этой области обретут грамотность, чем разработчики. Вот для этого я пытаюсь кого-то собрать здесь - на "виртуальные ужины" в группе TESTbyTEST. Пока... широкого понимания у пользователей не снискал..."
  5. Тукачев Ю.А.

    Тукачев Ю.А. Администратор Команда форума

    Для любителей R сделал пример https://beta.rstudioconnect.com/content/2875/scales_length.html

    Добавил шкалу из 30, а также шкалу из 10, но только 3 ответами (1 правильный). Как и ожидалось, при 10 заданиях с тремя ответами (очень любят проверять знания с помощью коротких тестов из 10 заданий с 3 ответами) -- 7 из 100 преодолеют границу в 50 процентов сырых очков.
  6. Шмелев А.Г.

    Шмелев А.Г. Организатор Команда форума

    Как и обещал утром, сегодня же вечером я публикую гистограмму для теста с 30 заданиями. Вот только в этом случае нижняя граница в 50% оказывается надежной на уровне ошибки p<0,001. Это легко посчитать "на пальцах". Граница 50% - это в данном случае 15 правильных ответов из 30 возможных. Ровно 15 баллов набирает еще довольно много "случайных людей". А вот больше 15 баллов набирают только 9 человек из 10 000. Это как раз меньше 1 человека на 1 тысячу.

    Монте-Карло для 30 пунктов по 4 ответа.png


    Завтра посчитаем и посмотрим, насколько дело меняется, если использовать не 4, а 5 вариантов ответа. Впрочем, Юрий А. Тукачев, если ему сегодня не спится, уже сегодня это сможет сделать с помощью своей программы в пакете R ;)
    Последнее редактирование: 5 июл 2017
  7. Шмелев А.Г.

    Шмелев А.Г. Организатор Команда форума

    Итак, коллеги, о чем красноречиво свидетельствуют опубликованные выше картинки?
    - О том, что информативная часть тестовой шкалы не так велика, как мы думаем,
    когда забываем про "артефакт случайного угадывания" (АСУ своего рода).
    Только в случае 30 заданий эта информативная часть занимает 50 процентов шкалы -
    это верхняя часть шкалы от 16 до 30 включительно. На ней вполне легко можно
    учредить три интервала для оценочных категорий равной длины:



    Отлично - от 26 до 30
    Хорошо - от 21 до 25
    Удов - от 16 до 20.


    А вся нижняя часть шкалы на самом деле - это область "неуда", так как
    она не различима с возможным баллом, полученным "левым путем" -
    с помощью стратегии случайного угадывания. Это область от 0 до 15 очков (!).
    Много? - Но все дело как раз в том, что при более коротком тесте относительная
    доля информативной области шкалы и "артефактной" еще больше изменяется
    в пользу артефактной области.


    На шкале из 20 баллов (в тесте из 20 заданий) информативная область -
    это только 9 баллов - начиная с 12 до 20 включительно. В этом случае
    на каждый из трех интервалов привычных для нас категориальных (словесных)
    оценок приходится уже не по 5 очков, а только по 3 очка:


    Отлично - от 18 до 20
    Хорошо - от 15 до 17
    Удов - от 12 до 14.


    Неинформативная часть шкалы на 20 заданиях занимает уже больше половины
    шкалы - от 0 до 11 баллов включительно.


    Ну а чем нам приходится себя ограничивать в тесте (тестовой шкале) из 10 заданий?
    - Информативной оказывается только 30 процентов от всех такой шкалы. А на каждый
    оценочный интервал приходится только 1 балл:


    Отлично - 10
    Хорошо - 9
    Удов - 8

    Интересно, кто-нибудь, у кого 10 заданий на шкалу, пользовался такой системой
    оценок, которую я указал выше - такой, чтобы только три балла "работали"?



    Ваш АШ
  8. Алтухов В.В.

    Алтухов В.В. Модератор Команда форума

    Александр Георгиевич, поправьте меня если я не прав, но:
    1) Для теста из 10 вопросов получается 189/10000 набирают балл выше среднего, то есть шансы примерно 0,02
    2) Для теста из 20 вопросов 36/10000 = 0.003.

    Вы пишите что p<0,01 справедливо для второго случая, но вроде как первый именно ближе к этому утверждению. А второй случай говорит еще о более строгой вероятности избегания этой ошибки.

    3) При 30 вопросах 9/10000 вообще дают вероятность в 0,0009 что гораздо меньше p<0,001.

    Нет ли тут занижения вероятностей?
  9. Савин Е.Ю.

    Савин Е.Ю. Локомотив

    Коллеги! Верно ли я понимаю, что если мы хотим иметь достаточно широкую информативную область, но при этом использовать тест из 10 вопросов (например, по каким-либо соображениям содержательного характера), то необходимо увеличивать число возможных ответов для каждого вопроса?
  10. Шмелев А.Г.

    Шмелев А.Г. Организатор Команда форума

    Евгений, верно!

    Но... при этом формальное увеличение числа ответов до 5 часто практически ничего не дает,
    ибо пятый дистрактор крайне трудно сделать ... привлекательным. Даже 4-й чаще всего
    не работает, увы (особенно у авторов-новичков в этом деле). А вот 6 вариантов ответа вообще
    никогда ничего не дает, так как испытуемый начинает испытывать трудности при понимающем
    восприятии такого числа ответов - дочитав до 6-го варианта забывает содержание 1-го.


    Ваш АШ


  11. Шмелев А.Г.

    Шмелев А.Г. Организатор Команда форума

    Виталий,

    я же пишу о неравенствах, а не о равенствах.

    Подумайте сами: ведь 0.02 БОЛЬШЕ 0.01 для первого случая, а мы требуем, чтобы было МЕНЬШЕ.
    А вот 0.003 в самом деле МЕНЬШЕ 0.01 именно во втором случае, хотя кажется, что уже ближе к 0,001,
    чем к 0,01.


    Поправьте меня, пожалуйста, если я сам что-то не увидел в своих же текстах.

    Ваш АШ


    Алтухов В.В. нравится это.
  12. Алтухов В.В.

    Алтухов В.В. Модератор Команда форума

    Александр Георгиевич, все верно.

    Я скорее хотел отметить то, что первый случай не так уж плох с точки зрения вероятности получения оценки выше среднего в случае угадывания, второй - вообще очень даже хорош, а в третьем нужно быть запредельным везунчиком. :)

  13. Савин Е.Ю.

    Савин Е.Ю. Локомотив

    Согласен, Александр Георгиевич. По своему опыту конструирования даже простых фактологических заданий - четвертый дистрактор действительно сложно бывает придумать.

    Шмелев А.Г. и Тукачев Ю.А. нравится это.
  14. Шмелев А.Г.

    Шмелев А.Г. Организатор Команда форума

    Виталий,

    1) Итак, давайте все-таки подумаем, для каких ситуаций 2-х процентная вероятность ошибки
    - это вполне допустимый уровень, а для каких - неприемлемый совершенно (!). На практике все дело
    не только в числовом значении 0,02, а в том какая ЦЕНА каждой отдельной ошибки за этим
    прячется. Допустим, мы отбираем 50 кассиров на испытательный срок и к нам из 50 попал
    1 профнепригодный кассир, у которого к концу дня в кассе появилась недостача в размере... 200
    рублей. Ну уволили такого кассира и разорились при этом всего только на... 200 рублей (я условную
    цифру привожу, конечно). Вроде бы ничего страшного. Другое дело, если мы набираем 50 операторов
    атомных станций и 1 из 50 вместо того, чтобы глушить ядерный реактор, начал действовать в
    противоположном направлении - разгонять его вплоть до перегрева и взрыва (немного утрирую,
    так как в Чернобыле случилось нечто похожее). Ну как в этом случае? - Цена ошибки одного
    оператора оказывается совершенно КАТАСТРОФИЧЕСКОЙ, то есть совершенно неприемлемой.
    Другой пример: мы набираем из сельских жителей 100 000 в армию. 2 процента предателей (тех,
    кто окажутся фактически диверсантами в нашем тылу) - это 2 тысячи человек (!). Это ведь
    целый полк? Что может сделать этот полк в нашем тылу? - Да, очень многое. Например,
    может напасть на штаб фронта и всех командиров, кто в этом штабе, взять в плен или уничтожить.
    Психологи, как правило, не только с вероятностями не работают (мысленно не работают),
    но и с ценой потерь тоже не работают. У них, как правило, отсутствуют зачатки экономического
    мышления - нет расчета "ожидаемой полезности", нет расчета "ожидаемых потерь". Отсюда
    идет их ПРОФНЕПРИГОДНОСТЬ для работы во многих отраслях практики. Я об этом писал,
    как Вы знаете, в главе 6 моей книги "Практическая тестология". Глава называется "Валидность
    и рентабельность". Мы с Вами эту главу как-то обсуждали. Эту главу-то психологи как раз и НЕ читают
    - считают, что это не их "сфера деятельности", путая при этом и сферу, и род деятельности (тестирование -
    это род деятельности).


    2) Виталий, спасибо, за ваши вопросы. Они меня надоумили, в чем будет заключаться
    тема очередного "виртуального ужина" TESTbyTEST. В ближайших ужинах очень
    нужна тематическая преемственность. Иначе... ни у кого не будет мотива заглянуть
    в стенограммы прежних "ужинов".


    Ваш АШ



  15. Алтухов В.В.

    Алтухов В.В. Модератор Команда форума

    Александр Георгиевич, пож-ста!

    Я поддерживаю тему - она действительно важная и конечно напрямую зависит от "важности" ставок оценки. И в стандартах же тоже речь идет про разную степень надежности (фактически обратной стороны меры ошибки) в зависимости от разных типов ассессмента - с низкими/средними/высокими ставками.

    Я то про ошибку в 2% писал про другое. Мы все в исследовательской психологии привыкли к тому, что p<0,05 - это нормально. Понятно, что физики над нами смеются (у них там ошибка идет в сотые процента), но все же. Именно про такую аналогию в общем тоже можно вспомнить в обсуждении.

  16. Тукачев Ю.А.

    Тукачев Ю.А. Администратор Команда форума

    Виталик, физикам отвечу, что измерять в психологии личностные качества с точностью до 6 знака, например, не имеет смысла, а в физике "такой фокус" не пройдет.

    Еремеев Б.А. нравится это.
  17. Шмелев А.Г.

    Шмелев А.Г. Организатор Команда форума

    Виталий,

    я признаюсь, что не в курсе истории вопроса, почему в научной экспериментальной
    психологии вероятность ошибки в 5 процентов вдруг стала считаться приемлемой величиной.
    Надо бы точно это изучить. Но... я предполагаю (только предполагаю из логических соображений),
    что в исследовательских, экспериментальных схемах в психологии действует столько артефактов

    (в силу сложности изучаемого объекта их гораздо больше, чем во многих отраслях физики),
    что вероятность p<0,05 на фоне этих помех хотя бы "обнадеживает" - в том, что можно
    исследовать гипотезу дальше. А вот подтвержденной при этом ее считать рано.
    Цена ошибки в этом случае (в случае исследовательской работы) вовсе не так
    велика и материальна, как в некоторых областях практики.


    Ваш АШ


    Еремеев Б.А. нравится это.
  18. Тукачев Ю.А.

    Тукачев Ю.А. Администратор Команда форума

    Александр Георгиевич, коллеги,
    нашлась свободная минутка, я сделал интерактивный вариант (можно менять количество вариантов ответа от 2 до 10, количество заданий от 10 до 60).
    Ссылка на интерактивную визуализацию: http://hr-datalab.ru/test_scale/
    Скриншот:
    test_scale.png
  19. Сугоняев К.В.

    Сугоняев К.В. Лидер Команда форума

    Юрий Александрович, потрясающе полезная утилита для тех, кому приходится заниматься конструированием новых когнитивных тестов (и критикой старых, кстати).
    Я прежде десятки раз делал это в "полуавтоматическом" режиме (программа заполняла N виртуальных бланков случайным образом с последующей обработкой), затрачивая часы. Теперь, благодаря Вам, появилась возможность получать результат за секунды. Огромное спасибо!!!

    Для того, чтобы не приходилось редактировать (обрезать) скриншот, предлагаю слегка изменить заголовок: "График распределения тестовых баллов для шкалы из ... заданий с ... опциями ответа при случайном реагировании"

    С уважением, К.Сугоняев
    Последнее редактирование: 10 дек 2017
    Шмелев А.Г. и Тукачев Ю.А. нравится это.
  20. Тукачев Ю.А.

    Тукачев Ю.А. Администратор Команда форума

    Константин Владимирович, спасибо, внесу изменения. Ещё пару шрихов для удобства, ну и возможность скачать график и сами сгенерированные данные. Сделал за 15 минут, поэтому не успел все задуманное там реализовать.