1. Уважаемые посетители форума ЭСПП!

    Для просмотра сообщений достаточно прокрутить данное сообщение, а для просмотра списка разделов - вызвать "Каталог".

    Для комментариев необходимо предварительно ознакомиться c Правилами Форума и пройти регистрацию!

    Если при входе на форум появляется сообщение об ошибке, попробуйте восстановить или сменить пароль, нажав здесь.

Должны ли индикаторы одного фактора тесно коррелировать?

Тема в разделе 'Виноградов А.Г.', создана пользователем Виноградов А.Г., 3 фев 2016.

  1. Виноградов А.Г.

    Виноградов А.Г. Модератор Команда форума

    Тема всплыла при обсуждении другого вопроса, но представляет особый интерес в связи с методологическими и прикладными проблемами конструирования тестов. Как отметил Константин Владимирович, очень легко построить шкалу с якобы удовлетворительными показателями надежности-согласованности за счет индикаторов-парафраз. Раймонд Кеттел называл такие факторы "раздутыми специфичностями". Сегодня часто ссылаются на его высказывания о том, что надежность-согласованность не должна быть очень высокой, корреляции между индикаторами должны быть в пределах 0.2-0.4. На самом деле Кеттел говорил следующее: пункты не должны быть слишком тесно связаны между собой, но их нагрузки на общий фактор обязаны быть высокими. В рамках принятой сегодня факторной модели это невыполнимое требование, потому что факторы должны воспроизводить наблюдаемые корреляции индикаторов. Чем больше нагрузки, тем меньше ошибка измерения и теснее взаимосвязи наблюдаемых переменных. Модное сегодня моделирование структурными уравнениями как раз и строится на этой закономерности, в результате чего и получаются факторы, состоящие из парафраз. Замкнутый круг

  2. Шмелев А.Г.

    Шмелев А.Г. Организатор Команда форума

    Александр Геннадьевич,

    Полностью с Вами согласен, что погоня за высокой однородностью шкалы снижает валидность шкалы. В том числе я считаю неуместным для практической психодиагностики (тестологии) безоглядное увлечение структурным моделированием. Это метод для корреляционных экспериментов, а не инструмент конструирования тестов.

    Ваш АШ

  3. Хохлов Н.А.

    Хохлов Н.А. Администратор Команда форума

    В структурном моделировании тесно коррелирующие индикаторы также не приветствуются, т.к. возникает проблема коллинеарности. Но как метод конструирования тестов структурное моделирование используется во многих зарубежных, да и в ряде продвинутых отечественных публикаций по психодиагностике. Например, структурную модель очень удобно применять при IRT-конструировании теста.
    Терентьева В.И. нравится это.
  4. Виноградов А.Г.

    Виноградов А.Г. Модератор Команда форума

    ничего подобного, никаких особых проблем с коллинеарностью не возникает. Вот пример программы в MPlus, генерирующей массив с 10 индикаторами, нагружающими один фактор, дисперсии ошибок установлены в 0.05, нагрузки в 0.95. Корреляции индикаторов порядка 0.95

    TITLE: example

    MONTECARLO:
    NAMES ARE y1-y10;
    NOBSERVATIONS = 500;
    NREPS = 500;

    MODEL POPULATION:
    f1 BY y1-y10*0.95;
    f1@1;
    y1-y10*0.05;

    MODEL:
    f1 BY y1-y10*0.95;
    f1@1;
    y1-y10*0.05;

    OUTPUT:
    TECH9;

    Тукачев Ю.А. нравится это.
  5. Сугоняев К.В.

    Сугоняев К.В. Локомотив Команда форума

    Уважаемый Александр Геннадьевич
    Ваш пост и тема в целом очень актуальны
    Диапазон мнений здесь чрезвычайно велик: одни (Кэттелл, Коста и Макрэй и др.) отстаивают "либеральный" взгляд на одномоментную надежность, другие (часто это ортодоксальные психометристы, которые сами тестов не разрабатывают, но учат других, как это нужно делать) требуют чуть ли не 0,95 (Nunnaly, Bernstein).
    Мне в этом вопросе ближе позиция Streiner.
    Мое впечатление относительно моделирования структурными уравнениями (включая CFA) совпадает с мнением Александра Георгиевича: агрессивное навязывание в последние 15-20 лет моды на CFA загоняет разработчиков в прокрустово ложе тавтологичных шкал, состоящих из пунктов "из пробирки" (т.е. не имеющих заметных вторичных нагрузок на смежные факторы). Тогда с критериями model fit будет все OK.
    По сути это требование к поведению (мыслям, чувствам и т.д.), чтобы в каждый момент времени оно (они) детерминировалось лишь одним латентным свойством. Но это абсурд, по-моему.
    В результате CFA "хорошо" работает лишь на коротких компактных опросничках, состоящих из пунктов-парафраз.
    Думаю, Л.Голдберг прав, когда пишет (и делом доказывает), что возможности EFA далеко не исчерпаны.
    Полагаю, что методология CFA пока еще находится в младенческом периоде и со временем будут найдены более разумные подходы или скорректированы критерии. Кажется, ESEM - пример движения в этом направлении.

    Сегодня не редкость такая ситуация.
    Некий авторитет публикует некие количественные критерии (rule of thumb), его начинают дружно цитировать и "руководствоваться". Вместо того, чтобы уточнять, при каких условиях и в каких пределах эти критерии вообще работают.
    Есть и гораздо более приземленные (чем МСУ) примеры бездумного применения статистических критериев.
    Возьмем, к примеру, еще одну "городскую легенду" - о сакральном значении нормального распределения тестовых оценок. Когда данных - кот наплакал (50 - 100), в ходу критерий Колмогорова-Смирнова (редко омега квадрат и т.п.) Но как только данных становится много, все эти замечательные критерии перестают показывать исследователям столь вожделенный для них результат: что распределение нормально.
    Тогда из широких штанин извлекается и за уши подтягивается очередной rule of thumb: считать "нормальным" любое распределение, в котором коэффициент асимметрии не выходит за пределы +-1.
    Когда у вас 50-200 данных, это работает: критерий весьма чувствителен и при заметном на глаз отклонении формы распределения от колокола Белла реагирует повышением коэффициента за пределы 1.
    Но если у вас 5 тысяч данных, можно получить коэффициент асимметрии меньше 1 даже при распределении Парето.
    Но автору до этого нет дела - искомый результат достигнут, можно объявлять полученное распределение нормальным.
    Думаю, что-то в этом духе имеет место в сегодняшнем CFA с его жестко установленными "авторитетными" fit-критериями.
  6. Шмелев А.Г.

    Шмелев А.Г. Организатор Команда форума

    Константин Владимирович,

    Вы очень точно охарактеризовали психометристов, которые требуют высокую одномоментную надежность, как "абстрактных теоретиков". Если бы они работали руками с внешними критериями
    по таким "высококонсистентным тестам", то сразу бы поняли, что корреляция с внешними критериями падает, ибо любой внешний критерий имеет более широкую область валидность, чем измерительный тест, и лучше прогнозируется широкими и "рыхлыми" конструктами, чем узкими и сфокусированными, а еще лучше прогнозируется с помощью батареи тестов, а не с помощью одного какого-то теста.


    А вот разговор о методах анализа распределения тестовых баллов я предлагаю вообще вынести из этой ветке в отдельную тему. Ибо "икона нормальности" давно нуждается в развенчании хотя бы в узком кругу экспертов. Я там буду готов на примере пояснить, почему определенная асимметрия для очень хороших тестов фактически неизбежна... А иногда неизбежны даже локальные провалы, которые будут носить устойчивый характер независимо от численности выборки стандартизации.

    Ваш АШ

    Сугоняев К.В. и Тукачев Ю.А. нравится это.
  7. Виноградов А.Г.

    Виноградов А.Г. Модератор Команда форума

    Константин Владимирович,

    хотя Ваша позиция мне близка, побуду "адвокатом дьявола". Похоже, SEM вполне осмыслен в случае с когнитивными методиками. Если конструируется тест на умение складывать числа, то задания 1+3=? и 2+9=? не воспринимаются как тавтологии - вншне это разные задачи при сохранении глубинного (содержательного?) сходства. Затруднения возникают при использовании SEM в области личностного тестирования, где внешнее и внутреннее перестают быть хорошо отделимым, а коэффициент корреляции эту задачу не способен решать в принципе. Сильная связь может говорить как о банальном парафразе (одновременно подобны внутренние и внешние характеристики), так и о содержательном подобии (формально не совпадающие формулировки, сходные по содержанию). Создавать тесты на основе подобия второго типа гораздо сложнее, чем первого, поэтому-то плохих тестов больше и создавать их ("клепать") несравненно легче.

    Однако, если смотреть на личностные тесты как на формализацию диалога, даже парафразы оказываются не таким уж злом. В конце концов, они помогают убедиться в том, что мы правильно поняли собеседника, дают возможность уточнять, зондировать и увеличивать уверенность (т.е., усиливают надежность). Другое дело, что, сваленные в одну кучу, корреляции на основе внешнего и внутреннего сходства не позволяют адекватно распознать глубинную психологическую структуру явления. Какой же тогда видится выход? Может быть следующий (да, далеко не новый): парафразы используются для всех пунктов (как это делал Эндрю Комрей, за что был жестоко критикуем Кеттелом), а на их основе создаются парселы с высокой надежностью и шкалой, которая приближается к непрерывной. Смысловое наполнение парсел обеспечивается другим алгоритмом на основе логико-семантического анализа с опорой на экспертные оценки, при этом должна гарантироваться репрезентативность парсел принятому определению многомерного конструкта. Тогда проблема корреляции с внешним критерием снимается - внешний критерий никогда не обусловливается действием одного чистого фактора, поэтому усиливая согласованность одного-единственного компонента мы критериальную валидность снижаем. Следовательно, SEM вовсе не является лишним в этом процессе. Вопрос лишь в том, как соединять статистические критерии с содержательными. Например, обязаны ли парселы коррелировать, чтобы мы их считали составными частями одного конструкта? Похоже, это вовсе не обязательно

  8. Митина О.В.

    Митина О.В. Участник Команда форума

    Мне кажется SEM важно тем, что позволяет СРАВНИВАТЬ модели между собой: что лучше - когда все пункты объединены в одну шкалу или в субшкалы, если два пункта коррелируют между собой, то это в значительной степени объясняется тем, что один детерминированны одним фактором, или у них есть много общего за пределами данного фактора (т.е. главный вклад в корреляцию вносят остаточные члены), а к шкале это отношения не имеет.
    Можно посмотреть насколько воспроизводится факторная структура на разных подвыборках и все это оценить статистически.
    Отрицание возможностей структурного моделирование подобно отрицанию автомобиля на том основании, что существуют люди, которые водят машины таким образом, что постоянно являются виновниками ДТП.
    Что касается эксплораторного факторного анализа, то о каких его перспективах у нас сейчас можно говорить, пока люди не понимают отличия между методом главных компонент и факторным анализом, я уж не говорю про более тонкие вещи вроде различий в типах поворотов. Посмотрите отечественные работы использующие эксплораторный факторный анализ: 90% - "метод главных компонент с вращением варимакс" (как мантра произносится).
    Так что я полагаю, что в психометрике все методы хороши, если они используются грамотно и с должным уровнем рефлексии.
  9. Шмелев А.Г.

    Шмелев А.Г. Организатор Команда форума

    Ольга Валентиновна,

    я бы немножко скорректировал вашу последнюю фразу. Не "все методы хороши", а "хорошо бы сочетать разные методы". Когда результаты хорошо структурированы, то "факторный анализ" (Вы этот термин трактуете в узком смысле) и метод главных компонент дают очень близкие и одинаково хорошо интерпретируемые результаты. И это повышает уверенность исследователя. Когда результаты плоховато структурированы, то между этими двумя методами возникают ощутимые расхождения (хотя это вовсе не всегда, как можно было бы Вас понять). Причем в случае расхождений иногда именно пресловутые "главные компоненты и последующее варимакс-вращение" дает БОЛЕЕ интерпретируемые результаты, чем факторный анализ и тот же облимин, например.

    Люди без опыта это не знают. А самое печальное - есть такая категория спецов (имеющих, как правило, очень важный вид), которые имеют хорошее математическое образование, но не имеют никакого экспериментального опыта. Вот от их рекомендаций, как правило, ничего хорошего не жди. Они вообще не понимают смысла такого почти неформализованного критерия оценки качества многомерного решения, как "удачная содержательная интерпретация".

    Ваш АШ

  10. Митина О.В.

    Митина О.В. Участник Команда форума

    Да, Александр Георгиевич, вы правы, что "все методы хороши в их адекватном сочетании". Безусловно главным критерием должен быть критерий содержательной интерпретируемости, а неожиданностей с точки зрения теории должно быть не более 5%, да и то, нужно подумать как в дальнейшем все-таки подтвердить статистически полученные неожиданные связи.
    Разумно сочетать ЭФА и КФА, деля выборку случайным образом пополам и на одной части строй ЭФА-модель, а на другой проверяя ее значимость с помощью КФА.
    Метод главных компонент хорош, на этапе пилотажного исследования, когда детерминант матрицы корреляций равен нулю (т.е. много высококоррелирующих пунктов, которые потом будут отброшены, как дублирующие), но когда метод главных компонент используется для вычисления шкальных баллов в тесте, то тут нужно быть осторожнее.
    С вращением варимакс тоже не понятно. Почему мы полагаем априорно, что все шкалы независимы? Не коррелируют друг с другом? Т.е. нужно уметь отличить ситуацию когда нужно делать косоугольное вращение, а когда ортогональное. Кулаичев полагает, что вращения вообще делать не нужно, и у него есть свое объяснение.
    И конечно ответ, что "так Шмелев делает" - это не аргумент. Хотя даже этот ответ не все могут дать, а изумленно пожимают плечами: "разве возможны другие варианты?".
  11. Виноградов А.Г.

    Виноградов А.Г. Модератор Команда форума

    Мне кажется, что пока не создан удовлетворительный "интерфейс" между современными многомерными методами и психологической теорией, вот это сегодня основная проблема. В результате исследователи часто не знают, каким образом переходить от понятийной схемы к эмпирическим данным, или интенсивно "массажируют" модель, вводя пост фактум многочисленные поправки и подпорки, пока она якобы не станет адекватной данным

  12. Сугоняев К.В.

    Сугоняев К.В. Локомотив Команда форума

    Принимая во внимание, что в российских академических журналах доминируют выборки сравнительно немногочисленные и by convenience, идея делить выборки пополам и проводить ЭФА в одной половине и подтверждать его результаты в другой с помощью КФА все же кажется легким лукавством. Даже если все окажется так, как этого хочет исследователь, подобные результаты не выглядят слишком убедительными. Возможные идиосинкразические особенности выборки никто не отменял... Не говоря уже о разнообразных и не всегда учитываемых взаимосвязях между стилем ответов (например, долей в выборке немотивированных респондентов), полярностью формулировок и результатами ФА.
    Конечно, все эти уловки проистекают от бедности нашей психологической науки.
    Но все-таки хотелось бы видеть результаты КФА (кросс-валидизации модели) на независимой выборке.
    Не говоря уже о том, что любое произвольное деление выборки пополам (как и выделение парселов) - всегда мутная водица, где можно ловить разную рыбку. Например, моделирование оценок надежности по Спирмену-Брауну дает довольно широкий разброс результатов
    Виноградов А.Г. и Шмелев А.Г. нравится это.
  13. Шмелев А.Г.

    Шмелев А.Г. Организатор Команда форума

    Константин Владимирович,

    Как Вы знаете, в любом методе есть определенная доля допущений и натяжек. Это же
    относится, как Вы справедливо заметили, и к методу расщепления выборки пополам. Но...
    я с Вами и нашими форумчанами хочу поделиться таким фактом. Я использовал этот метод
    десятки раз (!) больше 30 лет (уже сбился со счету) и НИ РАЗУ я не смог получить сколько-нибудь
    совпадающего результата при выборках численностью менее 200 человек. Так
    что ... этот "лукавый метод" кусается лучше всякого журнального рецензента,
    уверяю Вас :)


    С ув,
    АШ


  14. Виноградов А.Г.

    Виноградов А.Г. Модератор Команда форума

    Соглашусь, чаще всего у психологов объем исходной выборки не позволяет иметь достаточную мощность, а уж деление выборки пополам эту мощность вообще может опустить ниже пола

  15. Сугоняев К.В.

    Сугоняев К.В. Локомотив Команда форума

    Фрэнк Шмидт всегда очень вкусно пишет по поводу микро-выборок и их "полезности" для накопления знаний в психологии.

    Есть один интересный факт, на который хотелось бы получит коммент поклонников КФА.
    Как известно, ни один из получивших признание в научной персонологии многофакторных личностных опросников, претендующих на более-менее полное описание личности, не смог получить удовлетворительного подтверждения средствами КФА. А вот такой довольно сомнительный (и с помощью довольно изощренных манипуляций сформированный) инструмент, как MBTI, такую поддержку получил (RMSEA=0,08).
    Мне кажется, это звоночек о том, что нужно "следить за руками".
    А как думаете вы?
  16. Виноградов А.Г.

    Виноградов А.Г. Модератор Команда форума

    Ну вроде Маршу удалось при помощи ESEM (на огромной выборке) построить конфирматорную модель для NEO

    Тукачев Ю.А. и Низовских Н.А. нравится это.
  17. Виноградов А.Г.

    Виноградов А.Г. Модератор Команда форума

    К вопросу о возможности для опытного психометрика строить адекватные конфирматорные модели, опираясь на свой опыт и "анализ невооруженным глазом". Константин Владимирович верно подметил, что N1 и N2 - психометрические синонимы, даже не зная формулировок вопросов. Действительно, они очень похожи: "я легко раздражаюсь" и "я легко сержусь". Их синонимичность, однако, складывается из двух частей: формы и содержания. Раздражение и гнев - близкие, но не тождественные эмоции. Признать раздражительность испытуемым проще, чем гнев, это видно по распределениям ответов на эти два вопроса. У каждого из них своя роль, потому что они дифференцируют людей в разных участках шкалы конструкта. Формальное сходство выражается в подобии формулировок. При проведении конфирматорного анализа этот факт легко учитывается введением в модель ковариации сотатков для этих пунктов (модель существенно улучшается).

    Что касается пунктов E2 и E4, то это наблюдение не оказалось таким эвристичным, ковариация остатков здесь модель не улучшает. Вместо этого сработала пара e3 with e5. Так вот мне интересно, могут ли разработчики тестов натренировать способность подобные эффекты предощущать или логически выявлять до проведения количественного анализа?