Обсуждение методологии и анализа данных в публикациях

Пантюхин С.С. · 5 фев 2023

Новый раздел все-таки должен получить импульс.

В данной теме хочу предложить оценивать методологию и анализ данных в отдельных публикациях. Не ради критики как таковой, потому что пространство для критики очень большое. Глядя на то, что публикуется в журналах и сборниках конференций, не могу не отметить, что есть вопросы к методологии и обработке данных не в отношении какой-то отдельной, а в отношении почти каждой публикации. Поэтому актуальнее выглядит не критика, а конструктивное обсуждение: как именно проблемы, поднятые в какой-то отдельной публикации, можно было бы проанализировать с большей эффективностью.

Если эта идея имеет право на жизнь, то в качестве пробного шага предлагаю оценить статью из журнала "Экспериментальная психология" по теме безопасного вождения, про которую мы вскользь говорили в теме про этику, т.к. в ней есть немало моментов, которые, на мой взгляд, не являются очевидными. Я попробую дать краткое описание дизайна и методологии, но для того, чтобы не навязывать свой взгляд, хочу сначала услышать чужое мнение по поводу этой работы. Можно ограничиться моим наброском того, что используется в качестве методологии в статье, но лучше прочитать саму статью.

Итак, в работе "Формирование установок безопасного вождения у начинающих водителей" предлагается исследование с 2 группами (экспериментальной из 68 человек и контрольной из 44 человек), в котором в ходе обучения вождению одна из групп (экспериментальная) проходила дополнительный модуль обучения. Дизайн похож на классический вариант двухгруппового эксперимента с 2 измерениями, за исключением того, что группы не отбирались случайно, и контрольная группа диагностировалась лишь один раз (в работе указано "после", но по факту вроде бы "до").
Данные "нормализовались" (сырые баллы пересчитывались в z-значения), для того чтобы можно было использовать параметрические методы. Результаты по одному блоку представлены ниже.

В качестве средств анализа использовался анализ различий в средних и анализ дисперсий в двух вариантах - анализ различий между результатами "до" и "после" в экспериментальной группе, а также анализ различий результатов "после" в экспериментальной и контрольной группах. Под критерием F Фишера, как я понял, понимается то, что обычно называется критерием Гартли (у авторов для 2 выборок).

Также примечательно, что "для диагностики отношения курсантов к употреблению алкоголя во время вождения водителем и другими участниками дорожного движения была выбрана проективная методика (ЦТО) с целью некоторого ослабления сознательного контроля и сглаживания действия фактора социальной желательности". Результаты представлены ниже.

Как вы оцениваете подход авторов?

Завоеванная Н.С. · 5 фев 2023

Спасибо большое, Сергей Сергеевич

Пантюхин С.С. · 9 фев 2023

Не за что!

Не очень оживленная дискуссия получается. Поделюсь тем, что я увидел в этой статье.

Первый и очень важный момент, который может вызвать вопросы к корректности всего мероприятия, - отбор участников в экспериментальную и контрольную группы. Группы не отбирались случайно, это частое явление, но есть нюанс. Может быть, это тоже частая практика, подскажите, кто в теме, - авторы пишут, что использовали первый замер

для контроля эквивалентности групп испытуемых (группы уравнивались по математическим ожиданиям и дисперсиям).
Нажмите, чтобы раскрыть...

Я нечто подобное видел только в самой первой статье с использованием контрольной группы в эксперименте (Г.Уинч, 1908 г.). «Эквивалентными» такие группы назвать никак нельзя.

Следующее предложение в статье вызывает не меньше вопросов:

"Сырые" баллы дидактического теста на всей выборке испытуемых были переведены в нормализованные показатели (z-оценки), что позволило в дальнейшем использовать параметрические критерии Стьюдента и Фишера для сравнения математических ожиданий и дисперсий.
Нажмите, чтобы раскрыть...

Вопрос – как это позволяет использовать критерии Стьюдента и Фишера (последний из которых – это тест Гартли), что меняется в данных? Предлагаю сомневающимся перевести любую пару нескольких десятков цифр в значения z, и сравнить результаты по расчету критерия Стьюдента для сырых и для z-значений (рассчитанных по обеим группам). Сырые данные могут быть получены обратно из z-значений, поэтому это просто линейная трансформация данных.

Далее у авторов приведены результаты диагностики, и там есть моменты, которые невозможно точно понять. Так, теперь у авторов в качестве условия применения критериев Стьюдента и Фишера упоминается «предварительная процентильная трансформация», но про нее нет никаких подробностей. Надо учесть, что перевод в процентили (как и в любые другие квантили – квартили, децили и прочие) – это результат нелинейной трансформации, которая идет с потерей информации. Трансформация в процентили обычно выполняется для увеличения наглядности результатов, но использовать ее на предварительном этапе анализа данных не выглядит очевидным решением. Авторы также не раскрывают подробности авторской методики, которая использовалась для сбора данных по когнитивному компоненту.

Таблица 1 содержит описательную статистику по когнитивному компоненту. Видно, что методология отличается от типичного двухгруппового дизайна с 2 измерениями. В контрольной группе был проведено только одно измерение (причем хронологически «до», а не «после», как пишут авторы), поэтому очень странно, что она названа «контрольной». Что она позволяет контролировать? Тем более, что тестирование явно имеет обучающий эффект, а участники, вполне возможно, дополнительно занимаются по предмету.

Эта же таблица вызывает вопросы к единицам измерения. Авторы пишут, что

уровни усвоения информации с помощью дидактических тестов в экспериментальной и контрольной группах представлены в табл. 1, в которой в качестве показателей описаны среднее арифметическое (оценка математического ожидания) и выборочная дисперсия (оценка генеральной дисперсии) нормализованных z-оценок.
Нажмите, чтобы раскрыть...

Не секрет, что среднее при использовании z-оценок равно 0, но все три групповые средние заметно выше 0. Уровень стандартного отклонения тоже выше 1 (с учетом того, что надо извлечь корень из дисперсии). И даже если отбросить результаты ЭГ «после», которые, может быть, рассчитаны на основе z-шкалы, построенной на результатах «до», то легче не становится.

Тест Гартли сегодня не считается лучшим средством для проверки однородности дисперсий, и у него есть ограничения – нормальное распределение данных и равный объем выборок (есть мнение, что можно использовать объем большей выборки), наличие 2 независимых выборок (то есть для сравнения данных «до» и «после» в одной группе он не годится). И примечательно, что в данной работе тест Гартли используется не для проверки условия наличия однородности дисперсий, а как самостоятельный критерий, на основе которого делаются какие-то выводы.

Оставляю без внимания результаты количественных расчетов, выполненных аналогично, по проективной методике ЦТО. Зависимой переменной заявлены аттитюды, результаты по дидактическим тестам трудно назвать аттитюдами. Вероятно, диагностика аттитюдов ограничена только тестом ЦТО.

Лично я не верю, что сообщение информации вообще значимо вызывает положительное изменение установок. Более того, можно вспомнить отрицательный эффект от попыток внедрения прививочных техник формирования негативных установок к курению, пьянству и перееданию в американских школах.

Хотелось бы услышать мнение, как можно улучшить концепцию этого исследования, не сильно изменяя его масштаб? Интересен чужой опыт.

Завоеванная Н.С. · 10 фев 2023

Обещаю на выходных все внимательно прочесть))

Завоеванная Н.С. · 12 фев 2023

Ох, печально мне , что подобные работы публикуются. Насколько я понимаю дизайн исследования двух групп: экспериментальной и контрольной предполагает рондомное формирование групп, замеры в ДВУХ группах До и После воздействия. И собственно оценку сдвига. В замерах до и после. По сути -это же классический дизайн исследования на педагогическом факультете.

Хохлов Н.А. · 12 фев 2023

Завоеванная Н.С. сказал(а): ↑

Ох, печально мне , что подобные работы публикуются. Насколько я понимаю дизайн исследования двух групп: экспериментальной и контрольной предполагает рондомное формирование групп, замеры в ДВУХ группах До и После воздействия. И собственно оценку сдвига. В замерах до и после. По сути -это же классический дизайн исследования на педагогическом факультете.
Нажмите, чтобы раскрыть...

Нет, это далеко не единственный план эксперимента. Можно делать иначе при определённых условиях:
Корнилова Т.В. Экспериментальная психология: учебник для бакалавров. - 2-е изд., перераб. и доп.- М.: Юрайт, 2012. - 640 с.

Завоеванная Н.С. · 12 фев 2023

Хохлов Н.А. сказал(а): ↑

Нет, это далеко не единственный план эксперимента. Можно делать иначе при определённых условиях:
Корнилова Т.В. Экспериментальная психология: учебник для бакалавров. - 2-е изд., перераб. и доп.- М.: Юрайт, 2012. - 640 с.
Нажмите, чтобы раскрыть...

Спасибо за ссылку. Справедливости ради, я не утверждала, что он единственный

Пантюхин С.С. · 12 фев 2023

Завоеванная Н.С. сказал(а): ↑

Ох, печально мне , что подобные работы публикуются. Насколько я понимаю дизайн исследования двух групп: экспериментальной и контрольной предполагает рондомное формирование групп, замеры в ДВУХ группах До и После воздействия. И собственно оценку сдвига. В замерах до и после. По сути -это же классический дизайн исследования на педагогическом факультете.
Нажмите, чтобы раскрыть...

Строго говоря, да, но термин "контрольная группа" часто используется вместо "сравнительной группы", и есть как минимум 2 квазиэкспериментальных дизайна для 2 групп и 2 измерений:

NEGD-дизайн (Non-equivalent groups design), который в точности пытается соблюдать все другие особенности настоящего эксперимента. Можно простыми тестами (критерий Стьюдента и т.п.) сравнить различия в разностях между "до" и "после" в выборках. Должны соблюдаться 2 основных условия - корреляция данных "до" и данных "после" на уровне не менее 0,6 в каждой группе и почти полное соответствие показателей двух групп на этапе "до" (d Коэна меньше 0,05). В указанной статье второе условие точно не соблюдается (средние и дисперсии отличаются заметно), для проверки первого не хватает данных.

Дизайн с сопоставлением (matching) участников. Сейчас, насколько я понимаю, есть один известный вариант - propensity score matching, в котором этот показатель сопоставления участников рассчитывается на большом количестве переменных (на данных, собранных до эксперимента). Там много разных подходов, но ни одного простого.

Я бы не говорил про анализ сдвига в контексте всех этих дизайнов, о сдвиге можно говорить в контексте одной группы.

В педагогике (и не только) проблему выбора метода решают кто во что горазд, и боюсь, что решается она, в основном, некорректно. Я когда-то в начале преподавания сам долго ломал голову, как и что лучше предлагать делать, т.к. на русском найти ничего не смог. Сборник

Кэмпбелл, Д. Модели экспериментов в социальной психологии и прикладных исследованиях : Пер. с англ. / Д. Кэмпбелл; Сост. и общ. ред. М. И. Бобневой. - Москва : Прогресс, 1980. - 391 с. :
Нажмите, чтобы раскрыть...

слегка устарел, и содержит мало подробностей в отношении анализа данных. При этом, насколько я понимаю, он до сих пор продолжает оставаться источником вдохновения для многих авторов, пишущих по теме методологии и дизайна на русском (учебник Т.В.Корниловой - не исключение). На английском есть его сильно переработанный наследник, очень часто цитируемый.

Shadish, W. R., Cook, T. D., & Campbell, D. T. (2002). Experimental and quasi-experimental designs for generalized causal inference. Houghton, Mifflin and Company.
Нажмите, чтобы раскрыть...

Завоеванная Н.С. · 13 фев 2023

Да, Сергей Сергеевич, оценка сдвига, естественно, в рамках одной группы. Книжку Кэмпбелл, Д. , когда-то давно использовала в работе, но В.Н. Дружинин и его Экспериментальная психология мне больше понравился еще на этапе обучения

Вход

Обсуждение методологии и анализа данных в публикациях

Пантюхин С.С. Локомотив

Завоеванная Н.С. Администратор Команда форума

Пантюхин С.С. Локомотив

Завоеванная Н.С. Администратор Команда форума

Завоеванная Н.С. Администратор Команда форума

Хохлов Н.А. Администратор Команда форума

Завоеванная Н.С. Администратор Команда форума

Пантюхин С.С. Локомотив

Завоеванная Н.С. Администратор Команда форума

Вход

Обсуждение методологии и анализа данных в публикациях

Пантюхин С.С. Локомотив

Завоеванная Н.С. Администратор Команда форума

Пантюхин С.С. Локомотив

Завоеванная Н.С. Администратор Команда форума

Завоеванная Н.С. Администратор Команда форума

Хохлов Н.А. Администратор Команда форума

Завоеванная Н.С. Администратор Команда форума

Пантюхин С.С. Локомотив

Завоеванная Н.С. Администратор Команда форума

Быстрый поиск