Всех не перетестировать: В каких ситуациях можно назначать повторную оценку?

Тукачев Ю.А. · 29 июл 2016

Юра Шатров (@Шатров Ю.И. ) участник форума и один из экспертов проекта МОНЭКС ведет отдельный блог, посвященный оценке персонала. С его разрешения я публикую последнюю статью из его блога на тему повторной оценки.

Всех не перетестировать: В каких ситуациях можно назначать повторную оценку?

В 90-х годах исследователи пришли к удивительному открытию. С каждым прохождением теста MMPI человек диагностировался с меньшим количеством психических заболеваний (Kelley, Jacobs & Farr, 1994). В этот момент практики задались вопросом: как перетест влияет на результаты тестирования? Этот вопрос актуален и для оценки персонала, где повторное тестирование является относительно распространённой, но малоизученной практикой. Блог решил выяснить, что такое перетест и каковы его последствия. Пошумим?

На Западе ретест приобрёл статус проблемы. Руководства и стандарты проведения тестирования не содержат точных указаний на то, в каких обстоятельствах можно или необходимо перетестировать. Но при этом поощряют данную практику, т.к. она может добавить объективности и справедливости процедуре оценки (Society for Industrial and Organizational Psychology, 2003). Поэтому HR’ы зачастую неосознанно злоупотребляют повторным тестированием. Также сами участники могут использовать перетест как лазейку - сославшись на плохой Интернет, перепройти тест или его отдельные блоки. В России практика тестирования только начинает регламентироваться, поэтому данная проблема характерна и для нас.
Разберём основные ситуации перетеста в порядке их объективности.

Плановое повторное тестирование спустя год и больше
Встречается в компаниях, где психологические тесты встроены в процесс управления талантами, и работники раз в год / несколько лет заполняют методики. Улучшаются ли со временем их результаты? Ведь мы привыкли думать, что психологические тесты измеряют качества, устойчивые на протяжении 2–3 лет?
Ответ зависит от ситуации и инструмента. Результаты по тестам способностей – да, улучшатся. Для знающих: средний размер эффекта - 0,26 (мета-анализ, Hausknecht, Halpert, Di Paolo & Moriarty Gerrard, 2007). Причина – тесты способностей, конечно, измеряют способности, но всё-таки через конкретные задания. Человек может обучиться навыкам решения этих заданий - спонтанно, через многократные корпоративные тестирования, или намеренно с помощью соответствующих руководств. Факторы, которые помогут участникам улучшить свои результаты:

Маленький объём банка заданий или его отсутствие. Здесь решающим фактором станет не навыки решения заданий, а память участников и их сплочённость.

Использование того же формата заданий (Arendasy & Sommer, 2013; Villado, Randall & Zimmer, 2016). Банк заданий нивелирует эффект научения, но не до конца. Участники уже знают формат заданий, время их выполнения.

Привлечение других тестов способностей для перетеста затруднено по многим причинам. Это и затратно, и неэтично (участники будут оцениваться разными инструментами). Получается, у нас нет выхода: участники улучшат свои результаты.

С личностными опросниками ситуация сложнее. Зависит от конкретных используемых опросников - нормативных или ипсативных.

Если из года в год компания использует нормативные опросники – сотрудники будут улучшать свои результаты. Ведь результаты опросников вносят вклад в кадровое решение, и сотрудники это знают. Каждое прохождение будет для них ситуацией научения. Они будут учиться понимать, какое качество оценивает каждый вопрос. Насколько сильно каждый из них в итоге будет “врать” – зависит, в первую очередь, от следующих факторов:

Успешность прошлых прохождений личностных опросников (Holladay, David & Johnson, 2013). Если сотрудник в прошлые тестирования получал низкие результаты – он будет стараться их улучшить.

Значимость результатов для сотрудника (Hausknecht, 2010; Walmsley & Sackett 2013). Чем больше вес опросника в принятии решении - тем выше шанс того, что сотрудники будут стараться улучшить свои результаты.

Наличие обратной связи по результатам первого прохождения (Holladay et al., 2013). Каждая обратная связь – будь то отчёт или устный ответ – будет учить сотрудника понимать измеряемые качества.

Использование ипсативных опросников мешает сотрудникам улучшать свои результаты. Ведь эти опросники вынуждают делать выбор между качествами, равными по своей “желательности”. Тем не менее, и здесь сотрудники смогут улучшить свои результаты, узнав “желаемый” профиль качеств и заполнив опросник соответствующим образом. Улучшения могут быть существенными (Hausknecht, 2010).
Наконец, следует помнить, что личностные качества не выбиты на молекулах ДНК и могут меняться со временем (McAdams & Olson, 2010). Если опросник заполнялся через год и более, изменения в результатах могут отражать реальные изменения в человеке. Или в том, как он себя начал воспринимать

ВНЕплановое повторное тестирование

2. Неккоректно проведённая процедура тестирования
К примеру, участник не был вовремя проинформирован об оценке, ему дали меньше времени на заполнение, чем другим участникам, тест заполнялся в непригодных, или были нарушены какие-либо иные положения Российского стандарта тестирования персонала.
В этом случае важно разобрать каждое нарушение и то, насколько оно повлияло на результаты. Особое внимание надо уделить в том случае, если тестировались способности или знания. Доступное время и условия заполнения являются критичными факторами в этой ситуации. Личностные опросники менее чувствительны к этим факторам.
Будьте готовы: если участник не проходил тест способностей в совсем плохих условиях, второе заполнение улучшит его результаты. Если банка заданий нет или он небольшой - улучшение будет существенным. И даже в случае наличия объёмного объёма банка заданий участник улучшит свои результаты. Он уже знаком с процедурой – форматом заданий и временем их выполнения. Мы становимся заложниками ситуации: некорректная процедура тестирования, может быть, несильно повлияла на прохождение теста, но мы обязаны её повторить, тем самым дав участнику возможность улучшить свои результаты. Но у нас нет другого выбора.

3. Участник списывал или заполнял совместно с кем-то
Именно эта причина описана в Российском стандарте тестирования персонала как повод для перетеста (пункт 9.3). Основной вопрос заключается в источниках информации о том, что участник списывал или заполнял не сам / вместе с кем-то. Достоверность источников (от самого – к наименее):

Свидетельства администраторов, контролирующих тестирование.

Статистические методы, используемые в онлайн-тестировании. Это могут быть индексы соответствия ответов или среднее время ответа. Любой современный провайдер тестов может сказать, есть ли вероятность, что участник списывал.

Подозрения HR’а или руководителя участника.

Общая рекомендация - проводить тестирование под контролем администратора, который будет следить за участниками. Остальные рекомендации зависят от инструмента. Если это тест знаний – ситуация, скорее всего, не имеет простого выхода, т.к. тесты знаний редко содержат банки заданий и поэтому не могут быть адекватно перетестированы. Участники уже помнят большую часть заданий и ответов. Если это тесты способностей – следует назначить повторное тестирование с использованием альтернативной формы теста. Это более короткий вариант теста, не содержащих заданий из полной формы. Результаты повторного прохождения должны указать, в какой мере первичный результат был справедлив. Практически каждый провайдер тестов имеет такие альтернативные формы, и вы можете обратиться к нему для перетеста.

4. Проблемы с компьютером или Интернетом, повлиявшие на результат участника
Наиболее лёгкая для манипуляции ситуация. Если тестирование проводилось под контролем администратора и на корпоративных компьютерах - нам не остаётся ничего, кроме перетеста. Только важно удостовериться, что технические проблемы действительно повлияли на результат. Если тестирование проводилось кандидатом неизвестно где - это повод ещё более серьёзно разобраться в ситуации. Как это можно сделать:

Привлечь IT-специалистов и посмотреть, действительно ли происходили разрывы во время прохождения.

Проверить, на каком задании / блоке теста (в случае если тест состоит из частей) происходили разрывы. Перетестировать надо не весь тест, а только соответствующий блок.

Но это всё косвенные замеры, и мы не сможем 100% сказать, действительно ли были проблемы. Поэтому лучше прибегать к превентивным мерам – тестировать под контролем администратора и непосредственно перед тестированием проверять компьютеры и Интернет.
Важно помнить, что проблемы с Интернетом могут повлиять на выполнение только заданий, ограниченных по времени. Поэтому плохое Интернет-подключение не является поводом для перетеста личностных опросников.

5. Шкала лжи или согласованности в опроснике указывает на неправдоподобность ответов
Ситуация встречается в компаниях, которые используют нормативные личностные опросники (см. пункт 1). Это такие опросники, где участника прямо спрашивают о его уровне личностных черт. Чтобы хоть как-то защитить нормативные опросники от обмана, в них встраивают шкалы лжи или согласованности.Получив по ним высокие баллы, участник приглашается заполнить опросник ещё раз, “но уже более честно”.
Ситуация сложная и для организации, и для участника. Во-первых, перетест может оставить ситуацию прежней - высокие баллы по шкале лжи просто продублируются. Причина - шкалы лжи в основном измеряют не намерение человека обмануть опросник, а его склонность “слишком позитивно” мыслить о себе (McCrae & Costa, 1993; Ones, Viswesvaran & Reiss, 1996). Повторно заполнив опросник, он вновь репрезентирует эту склонность. Может сложится обратная ситуация, когда в перетесте участник получит более высокие баллы и по шкале лжи, и по шкалам опросника. Он уже сознательно будет давать более позитивные самоописания. Особенно если кадровое решение, которое будет принято по результатам, важно для участника. И он знает, что опросник обладает большим весом в этом решении. Чем более значима процедура оценки для участника, тем сильнее он будет стараться улучшить свои результаты (Hausknecht, 2010; Walmsley & Sackett 2013).
Также участник может подготовиться к повторному тестированию, прочитав про шкалы лжи и в итоге улучшив свои результаты. Как и все методы выявления социальной желательности, шкалы лжи достаточно уязвимы для подготовленных участников.

Что в итоге. Тестирование участника оплачено, но шкала лжи или согласованности указывает на не-истинность ответов. Перетест вряд ли выправит ситуацию. Компания в тупике. Рекомендация – не использовать нормативные опросники, или использовать их вместе с ипсативными заданиями (где просят сравнить несколько качеств между собой). Необходимость перетеста личностными опросниками отпадёт.

6. Участник получил низкие результаты, и это противоречит ожиданиям заказчика
Например, участник является сильным кандидатом, и его приём на работу / повышение важно для HR’а или руководителя.
Назначение перетеста в этом случае дискредитирует процедуру тестирования. По двум причинам:

Тесты не должны сильно коррелировать с оценкой менеджера или какого-либо другого человека (Connolly, Kavanagh & Viswesvaran, 2007). Важный нюанс: инструмент “создаёт” качество, которое он измеряет. Интеллект, измеренный руководителем, и интеллект, измеренный тестом – это не одно и то же качество. То же самое с личностными чертами. Это расхождение и делает тесты ценным инструментом – они рассматривают качество с уникального ракурса (и поэтому добавляют валидности).

Участник получит преимущество, т.к. сможет улучшить свои результаты в повторном тестировании. Что (а) несправедливо по отношению к другим участникам и (б) снижает объективность оценки (на которую тесты претендуют).

Мнение какого-либо человека не может быть поводом для перетеста.
Резюме
Повторное тестирование – это сложность и испытание не только для участника, но и для оценочной процедуры. Дабы вы ориентировались в этой процедуре, как итог статьи составлена "памятка" перетеста.

Литература:
1. Arendasy, M. E., & Sommer, M. (2013). Quantitative differences in retest effects across different methods used to construct alternate test forms. Intelligence, 41(3), 181–192.
2. Connolly, J. J., Kavanagh, E. J., & Viswesvaran, C. (2007). The convergent validity between self and observer ratings of personality: A meta‐analytic review.International Journal of Selection and Assessment, 15(1), 110-117.
3. McCrae, R. R., & Costa, P. T. (1983). Social desirability scales: More substance than style. Journal of consulting and clinical psychology, 51(6), 882.
4. Hausknecht, J. P., Halpert, J. A., Di Paolo, N. T., & Moriarty Gerrard, M. O. (2007). Retesting in selection: a meta-analysis of coaching and practice effects for tests of cognitive ability. Journal of Applied Psychology, 92(2), 373.
5. Hausknecht, J. P. (2010). Candidate persistence and personality test practice effects: Implications for staffing system management. Personnel Psychology, 63(2), 299–324.
6. Holladay, C. L., David, E., & Johnson, S. K. (2013). Retesting personality in employee selection: implications of the context, sample, and setting. Psychological reports, 112.
6. Kelley, P. L., Jacobs, R. R., & Farr, J. L. (1994). Effects of multiple administrations of the MMPI for employee screening. Personnel Psychology, 47, 575–591.
7. McAdams, D. P., & Olson, B. D. (2010). Personality development: Continuity and change over the life course. Annual review of psychology, 61, 517–542.
8. Ones, D. S., Viswesvaran, C., & Reiss, A. D. (1996). Role of social desirability in personality testing for personnel selection: The red herring. Journal of Applied Psychology, 81(6), 660.
9. Villado, A. J., Randall, J. G., & Zimmer, C. U. (2016). The effect of method characteristics on retest score gains and criterion-related validity. Journal of Business and Psychology, 31(2), 233–248.
10. Walmsley, P. T., & Sackett, P. R. (2013). Factors affecting potential personality retest improvement after initial failure. Human Performance, 26(5), 390–408.

Волкова Н.Б. · 29 июл 2016

Спасибо, Юрий, что перенесли эту тему на форум. Обязательно подключусь... не вечером пятницы

Чемеков В.П. · 29 июл 2016

Отличная тема и отличный анализ. Действительно, нередко сломаешь голову, чтобы принять решение - стоит ли перетестировать.
Спасибо!

Попова О.С. · 29 июл 2016

Спасибо, актуальная тема.

Собчик Л.Н. · 30 июл 2016

Хороший анализ проблемы. Очень актуальны все положения, не могу не согласиться. Одно только не учтено: если применять дополнительно еще одну-две методики, то сравнительный анализ позволить понять и степень и качество искажений. Кроме того, нужно учитывать разработанный мной параметр личностных свойств - диапазон изменчивости, который у разных личностей отличается и в какой-то степени влияет на результаты тестирования в значимых для обследуемого лица ситуациях (см. Психология индивидуальности. Теория и практика психодиагностики. Собчик Л.Н. 2000-2005-2008 гг)

Чупров Л.Ф. · 30 июл 2016

Согласен полностью с Людмилой Николаевной. Все вербальные методики (и невербальные тоже( при повторном применении дают несколько отличный результат. Для этого еще С.Я. Рубинштейн (в 1970 году) сформулировала правила, что "результаты полученные одной методикой должны проверяться другой" (цитирование по памяти, могут быть искажения в тексте, но не в смысле). Вообще это какое-то поветрие среди психологов: взяли методику (тест, опросник) и результат готов по окончанию. А где проверка другим тестом (методикой, опросником)? Еще хуже, когда читаем: "Исследовать не смогла, т.к. нет нужной методики". Интересно, а врач-невропатолог смог ли бы поставить правильный диагноз, не окажись у него молоточка с каучуковыми наболдашниками? Думаю, что смог бы.

Шмелев А.Г. · 1 авг 2016

Коллеги,

я вчера на ФБ написал короткую реплику по этому поводу на стене у Виталия Алтухова.
Она во много созвучно с тем, что здесь выше сформулировали Людмила Николаевна
и Леонид Чупров.

Впрочем, ниже (уже в ответ на реплику К.В.Сугоняева) я здесь же разместил
несколько больше своих слов на эту тему. Но... судя по распределению лайков
многие до конца обсуждения просто еще не дошли. ;(

АШ

НЕЛЬЗЯ ПОМЫШЛЯТЬ ПРО ПРОВЕРКУ ПУТЕМ ПЕРЕТЕСТИРОВАНИЯ, Если у Вас нет параллельной формы теста или у Вас банк заданий не обладает четерых-пятикратным запасом по отношению к численности заданий, попадающих в вариант методом "случайной сборки". Но... проверку можно производить не только с помощью повторного тестирования, но и с помощью других оценочных методов (включая банальное устное собеседование). Уже одна эта перспектива повышает достоверность первого дистанционного тестирования очень значительно.

Сугоняев К.В. · 31 июл 2016

С большим интересом прочитал статью Юры Шатрова. Есть такая проблема, несомненно. Со многим согласен. Но не во всем. Со знающим человеком приятно подискутировать, что я и попытаюсь сделать.

Эссе начинается с анализа зарубежной практики.
«Руководства и стандарты проведения тестирования не содержат точных указаний на то, в каких обстоятельствах можно или необходимо перетестировать. Но при этом поощряют данную практику, т.к. она может добавить объективности и справедливости процедуре оценки».
Так ли это? Если взять стандарт APA-AERA-NCME (1999) то да, там точных указаний не сыскать. В основном – многословные увещевания. Не удивительно: ведь сей документ является продуктом многолетнего поиска консенсуса среди десятков тысяч спецов действующих в разных сферах… Но в более сфокусированных областях вырабатываются и действуют свои стандарты, и там уже совсем другая картина. Прежде всего, в отборе.
1) Возьмем, к примеру, отбор машинистов ж/д транспорта в Великобритании, заглянем в регламентирующие документы.
Psychometric Testing – A Review of the Train Driver Selection Process // http://www.rssb.co.uk/pdf/reports/research/T340
Rail Safety and Standards Board. RIS-3751-TOM Issue One: August 2008 // http://www.ltscotland.org.uk/virtualworkexperience/dswmedia/jobprofiles/ transport/TrainDriver.pdf
Узнаем, что в случае непрохождения тестирования, повторная попытка разрешается не ранее, чем через 6 месяцев. В случае повторного провала кандидат вообще теряет шансы когда-либо претендовать на должность машиниста поезда.
2) Отбор кандидатов на военную службу в ВС США (согласно USMEPCOM Regulation 611-1):
П.3.4: Предусмотрена возможность повторного прохождения кандидатом ASVAB не ранее чем через месяц и при наличии определенных условий (например, результаты первичного тестирования утрачены; имеются уважительные причины не завершения первой тестовой сессии; оценки по AFQT оказались лишь чуть ниже пороговых). Если и вторая попытка оказалась неудачной, третья возможна не ранее чем через полгода.
При ретестировании в течение полугода применяется обязательно другая параллельная форма теста (к сведению: тестовая батарея ASVAB в каждый период времени используется в 8 (!) бумажно-карандашных параллельных формах и еще пара держится в резерве на случай форс-мажора. Это не считая нескольких адаптивных компьютерных форм). Прохождение одной и той же формы ASVAB допускается не ранее, чем через полгода.
Кстати: если кандидат ответил хотя бы на 1 пункт ASVAB, он считается протестированным и в дальнейшем подпадает под действие положений, регламентирующих ретестирование.

Некоторые виды войск обусловливают возможность ретестирования прохождением определенных учебных программ или положительными результатами дополнительного собеседования с кандидатом.
Для уже зачисленных военнослужащих ВС США предусмотрена возможность прохождения повторного тестирования по любому из тестов, применяемых в войсках, не ранее чем через полгода и с применением параллельной формы.
Правда: если выполнялся КАТ и сессия прервалась по техническим причинам, ретестирование дозволяется немедленно.

У них то они (параллельные формы) есть. Но мы для чего поминаем всуе некие мифические «параллельные формы» отечественных тестов? Много ли их у нас? (перестановка позиций ключевых ответов не в счет).

Если не секрет, какой же из стандартов «поощряет практику перетестирования», да еще и связывает ее с «повышением объективности и справедливости»?

«Результаты по тестам способностей – да, улучшатся. Для знающих: средний размер эффекта - 0,26 (мета-анализ, Hausknecht, Halpert, Di Paolo & Moriarty Gerrard, 2007)».
Для "незнающих" эффект измеряется другой величиной?

«С личностными опросниками ситуация сложнее. Зависит от конкретных используемых опросников - нормативных или ипсативных».
Дальше – тень на плетень, ставшее уже почти обязательными в бизнес среде «ку» в сторону ипсативных опросников…, с последующим дезавуированием их преимуществ!

«Улучшения могут быть существенными (Hausknecht, 2010)»
Ну почему же не показать, насколько существенными? Ведь только что была дана оценка для когнитивных тестов 0,26. Давайте уж играть по-честному: Hausknecht (2010) оценивает сдвиги в 0,4–0,6 для «неудачников», но 0,02 для «проходимцев».
Отметим: речь идет о «частично ипсативном» опроснике, т.е. как раз о том варианте конструирования личностного теста, который многими выдвигается на роль панацеи от всяческих искажений. Очевидно, надо признавать, что до панацеи пока еще далековато…

Сравним:
1) Ellingson, Sackett & Connelly (2007), используя результаты вполне себе нормативного опросника (CPI) в сходном по дизайну исследовании никаких существенных искажений не выявили (стандартизированные различия в районе 0,03–0,12).
2) То же самое - Hogan J., Barrett P., Hogan R. (2007): использовали нормативный опросник HPI на весьма впечатляющей выборке кандидатов – и ничего…
«Results suggest that faking on personality measures is not a significant problem in real-world selection settings»

Действительно, ситуация сложнее. Но уж если на Хаускнехта ссылаться, то ситуация оказывается почти противоположной тому, что анонсировано в статье: деструктивное влияние ретестирования на результаты опросников оказывается почти вдвое больше, чем в когнитивных тестах…

И все-таки: в чем же состоит заявленная (но так и не освещенная) зависимость влияния типа опросника «нормативный / ипсативный» на эффект от ретестирования? Нельзя ли поконкретнее?

В качестве основания для внепланового ретестирования указана ситуация, когда «Участник списывал или заполнял совместно с кем-то»; указывается, что именно эта ситуация, якобы, оговорена в п.9.3 российского стандарта тестирования персонала.
Извините, но я в п.9.3 увидел совсем другое, а именно – ситуацию, когда получены неправдоподобно высокие результаты и можно заподозрить списывание, а вовсе не "взятие с поличным".
Для ситуаций отбора (настоящего, а не декоративно-имитационного) представленная ситуация должна трактоваться совершенно иначе: попался на «шпоре» - «выдь вон из дверей», как пел Высоцкий. И никакого перетестирования, по крайней мере, на ближайшее время!
Вот как трактуется эта ситуация в уже цитированном документе USMEPCOM Regulation 611-1 (ВС США), п.3.4.а 2:
любой кандидат, замеченный за списыванием или иной формой нарушения дисциплины, удаляется с процедуры обследования, результаты его тестов инвалидизируются и он не допускается к повторному тестированию ранее, чем через 6 месяцев.

«Любой современный провайдер тестов может сказать, есть ли вероятность, что участник списывал»
Ну, зачем Вы так, батенька… Имена-пароли-явки этого замечательного провайдера нельзя ли в студию?

«Практически каждый провайдер тестов имеет такие альтернативные формы, и вы можете обратиться к нему для перетеста»
Без комментариев. Но как хочется дожить!

«Тестирование участника оплачено, но шкала лжи или согласованности указывает на не-истинность ответов».
Ну, о том, что никакие шкалы «лжи» никакую «неистинность ответов» на самом деле не выявляют, я уже на этом форуме писал и эмпирического материала гору представлял (11.12.2015 г., на ветке «Достоверность протоколов тестирования»); правда, никаких комментов не удостоился. Повторяться не буду.

«Некорректно проведенная процедура тестирования» – повод для ретестирования?
Я бы, перефразируя автора эссе, на этот пассаж ответил бы так:
Практически каждый провайдер тестов имеет в запасе взвод или роту профессиональных тестологов. А того, кто проводит тестирование некорректно, практически каждый провайдер должен быстренько уволить.

Таким образом, в качестве поводов для внепланового перетестирования я бы оставил только технический сбой (свет/Интернет отрубился) или форс-мажорные обстоятельства во внешней среде (пожар, землетрясение, цунами, Челябинский метеорит упал рядом и т.п.) и нечего более.

Попробую сформулировать свои взгляды на проблему.
1. Проблема ретестирования существует только в high-stake ситуациях. В LS – ретестируйся, сколько душе угодно.
2. В high-stake ситуациях проблема ретестирования – один из аспектов более общей проблемы тестовой безопасности и тесно связанной с ней проблемы беспристрастности (справедливости) тестирования. Любое ретестирование – если оно не является тотальным и не охватывает всех без исключения кандидатов – есть нарушение принципа беспристрастности, какими бы "бантиками" это не украшалось.
3. Отношение к ретестированию – зеркало отношения организации к психологическому отбору в целом. Чем это отношение серьезнее, тем тщательнее прописываются алгоритмы поведения тестологов по отношению к любым отклонениям от идеальной процедуры, в том числе таким, которые могут повлечь за собой необходимость ретестирования. Там, где тестирование при отборе не более чем декорация, эти вопросы замалчиваются… и позволяют лицам, причастным к тестированию ловить свою рыбку в мутноватой воде.
В том числе, как совершенно верно отмечено в эссе, в этом качестве нередко выступает руководитель – дабы протолкнуть нужного человечка.
В итоге мы получаем то, что имеем во множестве вариантов: имитационное тестирование.

Завершу еще одной цитатой:
В контексте организационной психологии «тест – это, прежде всего, корпоративный инструмент защиты интересов третьих лиц и организации в целом от потенциального ущерба, который может им нанести ошибочно зачисленный или выдвинутый на повышение (несмотря на фактическую непригодность) кандидат» (А.Г. Шмелев, 2013, с. 563).
В этом смысле ретестирование – всегда, увы, брешь в этой защите.

Шмелев А.Г. · 31 июл 2016

Уважаемый Константин Владимирович,

большое Вам спасибо за такой подробный и профессиональный текст,
содержащий точные данные о зарубежных работах и документах в этой области.

Я полностью согласен с этим Вашим остро-критическим высказыванием:

"Там, где тестирование при отборе не более чем декорация, эти вопросы замалчиваются… и позволяют лицам, причастным к тестированию ловить свою рыбку в мутноватой воде".

Таким образом, нам очень важно подчеркнуть следующее понимание смысла
повторного тестирования, которое, увы, пока не является общепринятым
(особенно в нашей стране, где лишь только вылупилась на свет культура исследовательского
применения тестов, а культура практического применения вообще находится
в стадии...эмбриона):

Повторное тестирование даже более важно не для измерения надежности,
а для ОБЕСПЕЧЕНИЯ достоверности (для защиты от фальсификаций).
Но такую функцию оно не может выполнить, если просто бездумно
проводить тот же самый тест на той же самой выборке тестируемых.

Однако, одновременно с нашим пониманием значимости повторного тестирования,
мы не можем не замечать, что практические измерения в этой области
дают СЛИШКОМ большой разброс данных, чтобы можно было вывести
общие закономерности. Слишком сильно результат в этой области зависит
от организационного контекста, который различается не только в разных
отраслях, но и в одной отрасли между разными предприятиями-организациями.
Нам приходится при формулировании стандартов (требований, на которые
должны ориентироваться практики) исходить не столько из эмпирико-статистических
данных, сколько из теоретически-разумных допущений. Например, вполне
разумным допущением следует считать, что появление значимых различий
между средними баллами (по всей выборке) в пользу повторного тестирования
СЛЕДУЕТ ИНТЕРПРЕТИРОВАТЬ, как появление либо эффекта научения,
либо сохранения (памяти), либо... утечки ключей. И чем больше эти
различия, тем сильней эти нежелательные эффекты. Если они приводят
к погрешности в принятии решений в размере выше стандартной погрешности
(более 5 процентов ошибок), то тогда повторное тестирование нельзя
считать инструментом эффективной перепроверки. Но... и тут надо учитывать
кучу "мелочей", включающих не только временной лаг (интервал), но и
совпадение-несовпадении личности тестирующих (администраторов) и т.п.

Ваш АШ

Шатров Ю.И. · 2 авг 2016

Константин Владимирович, мне очень радостно читать Ваше сообщение! Отвечу по пунктам.
1. Вы указали конкретные руководства, в которых есть рекомендации по перетесту.
Я же ориентировался на "общие руководства", без привязки к конкретной отрасли:
- Society for Industrial and Organizational Psychology. (2003). Principles
for the validation and use of personnel selection procedures (4th ed.).
Bowling Green, OH: Author. URL: http://www.siop.org/_principles/principles.pdf
- American Educational Research Association, American Psychological Association,
& National Council on Measurement in Education. (2014).
Standards for educational and psychological testing. Washington, DC:
American Psychological Association. URL: http://www.apa.org/science/programs/testing/standards.aspx
- U.S. Department of Labor, Employment and Training Administration.
(1999). Testing and assessment: An employer’s guide to good practices.
Washington, DC: Author. URL: http://www.uniformguidelines.com/testassess.pdf
2. В каком документе есть "поощрения" перетеста?
К примеру в последнем из перечисленных руководств есть следующие строки:
"If you believe that the test was not valid for an individual, you should consider a retest. If other versions of the test are not available, consider alternative means of assessment", "All honesty and integrity measures have appreciable prediction errors. To minimize prediction errors, thoroughly follow up on poor-scoring individuals with retesting, interviews, or reference checks".
"Is not valid for and individual" - это абстрактная формулировка, пусть и дополненная в тексте далее примером негодных для заполнения условий (шум и проч.). Это и есть на мой взгляд, поощрение к перетесту. Упоминание опросников благонадёжности как инструмента, который можно перетестировать, также удивляет - ведь это, по сути, личностные (или биографические) опросники.
3. Для "незнающих" эффект измеряется другой величиной?
Что Вы, я пытался написать свой текст максимально понятным рядовому HR'ру. Вставка "для знающих" была обращением к тем учёным людям, которые знают про размер эффекта как таковой))
4. С Вашей критикой ипсативных опросников согласен. НО в орг. контексте, кроме ипсатизации и её различных вариантов (IRT-модели, делающие данные нормативными, а не релятивными, к примеру), - у нас ничего нет. Потому что (а) влияние соц. желательности слишком высоко, причём такой. соц. желательности, не когда респондент пытается "дать" свой лучший образ, а когда он просто отвечает в соответствии с правильными вариантами ответами; (б) заказчика уже другого не знать не хотят из-за пункта "а".
5. В чём отличие перетеста ипсативных и нормативных опросников?
В том, как их обманывают. В статье я намеренно опустил описание того, как можно обмануть ипсативные опросники (не хочу прослыть фокусником, раскрывающим фокусы публике, да и публика в лице респондентов у нас пока не готова, будут злоупотреблять). Тут опишу.
- попытка "подстроиться" под профиль, который нужен для позиции / компании путём простого размышления, использования раздела на сайте компании с описанием ценностей или с помощью знаний, полученных на сессии обратной связи.
- использование крайних категорий шкалы (extreme blatant responding) в случае, если опросник подразумевает выбор значения на шкале между двумя утверждениями (как в 11 ЛФ от Human Technologies). В итоге это даёт большие баллы по шкале.
Эти методы обмана требуют куда более сильных ухищрений, чем нормативные опросники. Как следствие, в последних встречается увеличение результатов до 2,83 (на фоне которых 0,2-0,4 выглядят безобидно). К слову, Вам может быть интересно - в случае 2,83 оценивались силовики:
Young, M. C. (2003, June). Effects of retesting on a new army measure of motivational attributes: Implications for
response distortion, test validity, and operational use. Paper presented at the annual meeting of the International Public
Management Association Assessment Council, Baltimore, MD.
Таким образом, ретест ипсативных опросников приводит к куда меньшим негативным последствиям.
6. "Выйди вон, если списывал".
Простите, но в орг. контексте это, я уверен, неприменимо. Для компании сотрудник представляет ценность, его оценка - важная процедура. Поэтому да, мы должны его оценить. Не мне Вам рассказывать.
7. Кто показывает, списывал ли участник или нет?
Мы, ЭКОПСИ, делаем попытки в виде анализа неправильных ответов респондентов (Error-Similarity Analysis). Это проектная вещь, т.е. в продукте она на постоянной основе не используется. SHL, насколько мне известно, тоже такое могут сделать, только в уже более автоматизированном - продуктовом - виде.
Bellezza, F. S., & Bellezza, S. F. (1989). Detection of cheating on multiple-choice tests by using error-similarity analysis. Teaching of Psychology, 16(3), 151-155.
8. Кто обладает альтернативными формами тестов?
Если брать крупных провайдеров психометрики (SHL, TalentQ, Saville Consulting) - у них есть альтернативные "валидационные" формы тестов способностей. Укороченные и по форме повторяющие задания оригинального теста. У ЭКОПСИ тоже есть. Есть ли у Human Technologies - не знаю, но уверен, что тоже есть. В конце концов, большой банк заданий позволяет проводить перетест без страха предъявить участнику те же пункты.
9. Когда я написал, что шкалы лжи указывают на не-истинность ответов, я имел в виду в первую очередь их восприятие HR'ми. Что они не про ложь (по большей части) - я с Вами согласен.

Волкова Н.Б. · 2 авг 2016

Юрий, Вы, возможно, с чем-то спутали. Тип заданий 11ЛФ не предполагает "шкалы" между двумя утверждениями. Пример тестового пункта: http://maintest.ru/tests/motiv/11lf/

Шатров Ю.И. · 2 авг 2016

Надежда, Вы правы, спутал с СТМ: http://maintest.ru/tests/motiv/stm/

Сугоняев К.В. · 3 авг 2016

Юра, спасибо за Ваш развернутый ответ на мои колкости.
Ваша аргументация мне в основном понятна, где-то я даже готов Вам посочувствовать…
Но:
1) Ссылка на некое выступление Янга (с его позитивными работами, связанными с разработкой опросников для отбора в ВС – ABLE, AIM и др. – я отчасти знаком) не убеждает. Та цифра, которую Вы приводите, вызывает сомнения. Первоисточника мне найти не удалось; сам автор, почему-то, в опубликованных в последующие годы отчетах и статьях, (например, статье в MilitaryPsychology, 2011) это открытие тоже замалчивает…его коллеги эту удивительную цифру тоже почему-то не цитируют… Так был ли мальчик?
По моим наблюдениям, даже в искусственно смоделированной в реторте ситуации, имеющей мало общего с практическим контекстом, такую величину различий достичь едва ли возможно. Ну, разве что, с помощью очень плохого инструмента.
Вообще не думаю, что апелляция в дискуссии к отклоняющимся величинам - взвешенная позиция; мета-анализ недаром ведь появился на свет божий.
Должен признаться, что тема искажений мне все же не понаслышке знакома. Мнения авторитетов (или бизнес-заказчиков) это, конечно, важно, но помимо чтения литературы надобно и собственные исследования проводить, полагаю. Поэтому сам не упускаю никаких возможностей, чтобы почерпнуть из практики какую-нибудь эмпирическую реальность. Слава богу, многотысячные выборки доступны…
Поэтому все же не могу считать тему превосходства ипсативных опросников над нормативными - в части защиты от искажений - закрытой. Ну нет в этой области безупречного сравнительного мета-анализа пока.

2) Практика бизнес-тестирования (здесь я уже, естественно, пускаюсь в домыслы дилетанта) и научная персонология, к сожалению, не вполне согласуются друг с другом. Вон, в недавно опубликованной книге Employee Recruitment, Selection, and Assessment... (2015) есть статья Дикман и Кёниг с анализом бизнес-практики применения личностных тестов. Так там практически на первом месте – MBTI (Большая Пятерка в это время отдыхает где-то в арьергарде). А ведь как к этому инструменту относятся серьезные исследователи – не мне Вам рассказывать… Поэтому как-то надо заказчиков образовывать пытаться…

Это я глупость сказал, конечно. Как можно изменить мнение человека при деньгах? Ведь он по определению – самый умный

Вход

Всех не перетестировать: В каких ситуациях можно назначать повторную оценку?

Тукачев Ю.А. Администратор Команда форума

Волкова Н.Б. Участник

Чемеков В.П. Участник

Попова О.С. Модератор Команда форума

Собчик Л.Н. Локомотив Команда форума

Чупров Л.Ф. 06.11.1951-14.07.2022

Шмелев А.Г. Организатор Команда форума

Сугоняев К.В. Лидер Команда форума

Шмелев А.Г. Организатор Команда форума

Шатров Ю.И. Активист

Волкова Н.Б. Участник

Шатров Ю.И. Активист

Сугоняев К.В. Лидер Команда форума

Вход

Всех не перетестировать: В каких ситуациях можно назначать повторную оценку?

Тукачев Ю.А. Администратор Команда форума

Волкова Н.Б. Участник

Чемеков В.П. Участник

Попова О.С. Модератор Команда форума

Собчик Л.Н. Локомотив Команда форума

Чупров Л.Ф. 06.11.1951-14.07.2022

Шмелев А.Г. Организатор Команда форума

Сугоняев К.В. Лидер Команда форума

Шмелев А.Г. Организатор Команда форума

Шатров Ю.И. Активист

Волкова Н.Б. Участник

Шатров Ю.И. Активист

Сугоняев К.В. Лидер Команда форума

Быстрый поиск