Многократное пси-тестирование: обсуждаем тему, поднятую Юрием Шатровым

Шмелев А.Г. · 18 июн 2018

Коллеги,

я вынужден для начала процитировать это сообщение, который Юрий разместил на ФБ.
Свой комментарий из-за занятости напишу позднее (скорее всего уже не сегодня).
А цитирование меня подхлестнет как некое публичное обязательство.

Ваш АШ

Юрий Шатров

8 ч ·

Неразрешимая проблема: многократное тестирование
Коллеги, давайте признаемся. Психологические тесты слабо подходят для многократного использования. Представьте ситуацию. Человек в рамках отбора в кадровый резерв прошёл тест способностей или личностный опросник. Через год или два прошёл тот же тест повторно (ведь КР, в идеале, регулярная процедура). Результаты поменяются – причём они могут поменяться достаточно сильно. К примеру, был 32 процентиль по шкале N – стал 76. Или наоборот. Причины:
1. Научение. Человек прошёл тест. Ему была дана обратная связь. Во второй раз ему уже легче – он или знает "правильные ответы (и шкалы)" в личностном опроснике, или уже знаком с временем тестирования, заданиями в тестах способностей. Ему легче.
А ещё есть люди, которые специально учатся проходить тесты способностей. Способность работать с числовой-вербальной информацией не растёт, но конкретный навык наращивается. Который, правда, практически никуда не переносится.
2. Ситуация в момент(ы) прохождения. Человек может быть более или менее мотивирован на получение высоких баллов в тесте. Даже в опроснике – он может давать менее или более социально-желательные ответы в зависимости от того, насколько ситуация оценки важна для него. А ещё человек может отвлекаться или болеть, быть уставшим. И это тоже влияет на результаты. К примеру, в первый раз он не был мотивирован / отвлекался / испытывал недомогание, а во второй раз – всё было наоборот.
3. Изменения в человеке. Да, человек и вправду может стать "немного другим" в промежутке между тестированиями. Он может изменить представления о себе, и по-другому отвечать в личностном опроснике. Есть метанаализы, указывающие на постоянство личностных черт, но это касается только верхнеуровневых черт уровня "Большой пятёрки". На более низком уровне – черт 2 и 3 порядка - человек более гибок. К примеру, общий уровень Добросовестности человека с годами меняется слабо, но составляющие Добросовестности – какие-нибудь Перфекционизм или Обязательность - могут меняться с большей амплитудой.
4. Погрешность теста. Любой тест имеет погрешность – грубо говоря, процентиль 50 означает, что истинные результаты человека находятся в интервале от 40 до 60 (интервал может быть больше). Комплексные тесты – измеряющие сразу несколько критериев c помощью ряда инструментов – это проблему отчасти решают. Но отчасти.
Итак, причины комплексны. И тут мы переходим к самому неприятному – в процентах 30 случаев изменения в результатах практически необъяснимы. Почему человек во второй раз получил более низкие баллы? А по этой шкале ничего не изменилось? Остаётся только предполагать. Потому что честный ответ – "Человек по-другому ответил на вопросы (жал на другие кнопки)" – мало кому нравится.
Знатоки скажут про ретестовую надёжность – мол, такие тесты обладают низкой ретестовой надёжностью и их не следует использовать. Ага, только парадокс в том, что ретест измеряется не в ситуации отбора, а в ситуации самопознания, в которой людям нет особого смысла улучшать свои результаты. Одно дело – лабораторно-студенческие условия, в которых обычно и проводится ретест, другое – реальная жизнь. Поэтому ретестовая надёжность показывает устойчивость теста только к погрешности теста и изменениям в человеке. Но не к научению или мотивации на прохождение. Ретест – не серебряная пуля, особенно – для оценки персонала.
Если кто-то из оценщиков скажет, что он однозначно решил проблему многократного психологического тестирования – грош цена ему. Или что его тест с мировым именем, прошедший 400 валидационных исследований, не подвержен факторам 1-4 выше. Проблема слишком глубока: прохождение теста само по себе влияет на человека. Поэтому решение лежит за пределами психологических тестов – в другом дистанционном инструментарии. Возможно, ответ связан с автоматизированной оценкой (видео / поведение в соц. сетях). А, возможно, и нет.
P.S. Всё это не обесценивает практики тестирования – психологические тесты обладают внушительной валидностью и в ряде случаев являются единственно применимым инструментом. Но это то существенное ограничение, которое должно отгородить компаний от тестирования одними и теми же тестами раз в N лет.
P.P.S. Скажете, что это проблема только тестов и очной оценки она не касается? Попробуйте один или тот же мануал ЦО прогнать на одном человеке с перерывом – даже – в год. Или пройтись с ним по одному интервью-гайду. Очная оценка также подвержены всё тем же влиянием, описанным выше, пусть и в меньшей степени. Кстати, это одна из причин, почему нужны компетенции (а с ними и очная оценка) и психометрика их не заменит. Компетенции, пусть и с оговорками, относятся к наблюдаемому поведению, а значит – в большей мере развиваемы (и это развитие фасилитируемо и объяснимо). Там, где нужна прокачка людей после оценки – нужны компетенции.

Алексеев А. А. · 18 июн 2018

Шмелев А.Г. сказал(а): ↑

Коллеги,

я вынужден для начала процитировать это сообщение, который Юрий разместил на ФБ.
Свой комментарий из-за занятости напишу позднее (скорее всего уже не сегодня).
А цитирование меня подхлестнет как некое публичное обязательство.

Ваш АШ

Юрий Шатров

8 ч ·

Неразрешимая проблема: многократное тестирование
Коллеги, давайте признаемся. Психологические тесты слабо подходят для многократного использования. Представьте ситуацию. Человек в рамках отбора в кадровый резерв прошёл тест способностей или личностный опросник. Через год или два прошёл тот же тест повторно (ведь КР, в идеале, регулярная процедура). Результаты поменяются – причём они могут поменяться достаточно сильно. К примеру, был 32 процентиль по шкале N – стал 76. Или наоборот. Причины:
1. Научение. Человек прошёл тест. Ему была дана обратная связь. Во второй раз ему уже легче – он или знает "правильные ответы (и шкалы)" в личностном опроснике, или уже знаком с временем тестирования, заданиями в тестах способностей. Ему легче.
А ещё есть люди, которые специально учатся проходить тесты способностей. Способность работать с числовой-вербальной информацией не растёт, но конкретный навык наращивается. Который, правда, практически никуда не переносится.
2. Ситуация в момент(ы) прохождения. Человек может быть более или менее мотивирован на получение высоких баллов в тесте. Даже в опроснике – он может давать менее или более социально-желательные ответы в зависимости от того, насколько ситуация оценки важна для него. А ещё человек может отвлекаться или болеть, быть уставшим. И это тоже влияет на результаты. К примеру, в первый раз он не был мотивирован / отвлекался / испытывал недомогание, а во второй раз – всё было наоборот.
3. Изменения в человеке. Да, человек и вправду может стать "немного другим" в промежутке между тестированиями. Он может изменить представления о себе, и по-другому отвечать в личностном опроснике. Есть метанаализы, указывающие на постоянство личностных черт, но это касается только верхнеуровневых черт уровня "Большой пятёрки". На более низком уровне – черт 2 и 3 порядка - человек более гибок. К примеру, общий уровень Добросовестности человека с годами меняется слабо, но составляющие Добросовестности – какие-нибудь Перфекционизм или Обязательность - могут меняться с большей амплитудой.
4. Погрешность теста. Любой тест имеет погрешность – грубо говоря, процентиль 50 означает, что истинные результаты человека находятся в интервале от 40 до 60 (интервал может быть больше). Комплексные тесты – измеряющие сразу несколько критериев c помощью ряда инструментов – это проблему отчасти решают. Но отчасти.
Итак, причины комплексны. И тут мы переходим к самому неприятному – в процентах 30 случаев изменения в результатах практически необъяснимы. Почему человек во второй раз получил более низкие баллы? А по этой шкале ничего не изменилось? Остаётся только предполагать. Потому что честный ответ – "Человек по-другому ответил на вопросы (жал на другие кнопки)" – мало кому нравится.
Знатоки скажут про ретестовую надёжность – мол, такие тесты обладают низкой ретестовой надёжностью и их не следует использовать. Ага, только парадокс в том, что ретест измеряется не в ситуации отбора, а в ситуации самопознания, в которой людям нет особого смысла улучшать свои результаты. Одно дело – лабораторно-студенческие условия, в которых обычно и проводится ретест, другое – реальная жизнь. Поэтому ретестовая надёжность показывает устойчивость теста только к погрешности теста и изменениям в человеке. Но не к научению или мотивации на прохождение. Ретест – не серебряная пуля, особенно – для оценки персонала.
Если кто-то из оценщиков скажет, что он однозначно решил проблему многократного психологического тестирования – грош цена ему. Или что его тест с мировым именем, прошедший 400 валидационных исследований, не подвержен факторам 1-4 выше. Проблема слишком глубока: прохождение теста само по себе влияет на человека. Поэтому решение лежит за пределами психологических тестов – в другом дистанционном инструментарии. Возможно, ответ связан с автоматизированной оценкой (видео / поведение в соц. сетях). А, возможно, и нет.
P.S. Всё это не обесценивает практики тестирования – психологические тесты обладают внушительной валидностью и в ряде случаев являются единственно применимым инструментом. Но это то существенное ограничение, которое должно отгородить компаний от тестирования одними и теми же тестами раз в N лет.
P.P.S. Скажете, что это проблема только тестов и очной оценки она не касается? Попробуйте один или тот же мануал ЦО прогнать на одном человеке с перерывом – даже – в год. Или пройтись с ним по одному интервью-гайду. Очная оценка также подвержены всё тем же влиянием, описанным выше, пусть и в меньшей степени. Кстати, это одна из причин, почему нужны компетенции (а с ними и очная оценка) и психометрика их не заменит. Компетенции, пусть и с оговорками, относятся к наблюдаемому поведению, а значит – в большей мере развиваемы (и это развитие фасилитируемо и объяснимо). Там, где нужна прокачка людей после оценки – нужны компетенции.
Нажмите, чтобы раскрыть...

Проблема не новая, есть люди, которые занимаются ею давно в более широком контексте, например http://www.drjrnesselroade.com/research.php. В советской психологии этим очень интересовался Иосиф Маркович Палей, но поскольку он практически ничего не писал, то...

Шмелев А.Г. · 22 июн 2018

Коллеги, начну с того, что мне очень понравилась проблемная направленность статьи, которую написал Юрий Шатров (давайте назовем это сообщение статьей).

Она заставляет задуматься и усомниться в том, что любят у нас делать большинство наших "практиков": раз тест - это автоматическая технология, то давайте автоматически засчитывать все результаты всех тестов, включая результаты повторного проведения. Ан нет! - Давайте-ка вначале проверим, являются ли результаты такого повторного проведения сколько-нибудь ОСМЫСЛЕННЫМИ, не то что корректными, а именно ОСМЫСЛЕННЫМИ.

Понравилось, что Юрий различает ситуацию консультирования (называет их ситуациями самопознания) и ситуацию экспертизы (называет "ситуацией отбора"). В самом деле осмысленность повторного тестирования (и сама возможность повторного проведения теста) резко снижается именно для "ситуации отбора". Почему? - Потому что мотивация гораздо выше на получение "желательного тестового балла" (не всегда это высокий балл, кстати).

В конце автор формулирует очень разумный вывод: если Вы приличная фирма, то это
просто неприлично много лет "гонять" один и тот же тест, каким бы авторитетным
этот тест не был (!).

А чего в статье явно не хватило?

Ну есть кое-что Важное, что не сказано по этой проблематике. Хотя в таком кратком формате и невозможно обо всем написать, тем более когда выбрана проблематизирующая направленность.

1) Явно недостаточным является акцент на различение РАЗНЫХ тестов. В тестах на знания и способности проблема повторного тестирования выглядит все-таки по -другому, чем в личностных опросниках. Особенно в современных тестах на знания и способности, которые опираются на большие банки тестовых заданий. Мы в настоящее время накопили немало данных о том, что повторное тестирование (второе, не говорю про третье и четвертое) не дает значимого прироста в результатах (если только испытуемые не мотивированы на обучение!), если банк заданий в 6-10 раз больше по численности, чем число заданий, которое предлагается в варианте. Вот если заданий много повторяется, то результаты растут ощутимо. А так - в пределах ошибки измерения (!). Важнейший аспект при этом - наличие или отсутствие в процедуре проведения ТОС - текущей обратной связи о правильно-ошибочности каждого отдельного ответа. Включение режима ТОС превращает процедуру из тестирования в нечто иное вообще - в обучение (тренинг)!

2) Почему-то не употребляется в статье ключевой для таких случаев термин "параллельная форма". Это почему? - Потому что из-за общего ускорения темпа разработки и внедрения инструментов теперь разработчики просто не успевают создавать параллельные формы? А ведь в случае классического 16PF, как мы знаем, Раймон Кэттелл предложит не одну, а целых три пары параллельных форм: A - B, C - D, E -F, причем каждая пара для своего уровня базового образования. Более того, сам Кэттелл строго-настрого завещал делать выводы только после проведения параллельной формы с двухнедельным интервалом (!). Что наши люди (в России) фактически никогда не делают (?).

3) У нас психологи О-ОЧЕНЬ любят приседать перед испытуемыми. Их даже словом "испытуемые" теперь нельзя называть, а то ведь обидятся ненароком, откажутся, видишь ли, от тестирования на все времена. А по делу-то часто требуется жестко и определенно сказать: "Уважаемый, респондент, Вы не получите никакую ОС немедленно после первого тестирования, а получите только после второго и через месяц (!). Ах, Вы не хотите? - Устраивайтесь тогда в другую организацию, которая не требует от сотрудников того, что требуется в нашей - более требовательной (!). Наша организация работает в интересах потребителей продукции и услуг, а не в интересах производителей". Как сам Юрий Шатров справедливо пишет, в отсутствие ОС после первого тестирования, респондент не очень знает, в какую сторону ему надо искажать результаты при выполнении повторного.

Итак... Это, конечно, не все. Но пора написать:

Общий мой ВЫВОД.

Призыв "ОСТОРОЖНО С ПОВТОРНЫМ ТЕСТИРОВАНИЕМ" должен все-таки звучать более дифференцированно. А иначе профи начинают выглядеть в своих призывать немножко "манипуляторами". Представьте себе профессионального специалиста по автомобилям, который вдруг заявляет: "Избегайте автоматические коробки передач, так как они не надежны!" - Ну и что? Способствует ли такой призыв прогрессу автомобильной техники? Ну более надежны механические КП, и что же - не надо тогда развивать автоматические коробки? А ведь автоматические теперь такие разные бывают: "роботы", "вариаторы" и т.п. Надо разбираться с каждой категорией КП отдельно!

Почему мы грешим в последнее время "лозунговыми текстами" в своей профессиональной области? - Мне кажется, что не последнюю роль тут играет атмосфера в большой, неспециализированной социальной сети, какой является ФБ. Я сам не понимаю, как можно добиться того, чтобы кто-нибудь разглядел там сообщение в огромной потоке информационного... шлака (?!). Приходится заострять это сообщение так, что оно начинает невольно содержать "перебор".

Ваш АШ

Вход

Многократное пси-тестирование: обсуждаем тему, поднятую Юрием Шатровым

Шмелев А.Г. Организатор Команда форума

Алексеев А. А. 21.09.1947 - 18.09.2020

Шмелев А.Г. Организатор Команда форума

Вход

Многократное пси-тестирование: обсуждаем тему, поднятую Юрием Шатровым

Шмелев А.Г. Организатор Команда форума

Алексеев А. А. 21.09.1947 - 18.09.2020

Шмелев А.Г. Организатор Команда форума

Быстрый поиск