В поисках наглядной иллюстрации метода независимых экспертных оценок

Шмелев А.Г. · 23 июл 2019

Коллеги, ниже я цитирую свое сообщение, которое сегодня опубликовал в группе TESTbyTEST на ФБ. Это была моя реакция на еще один запрос (в личку): почему, мол, я считаю, что рост числа экспертов в проекте ТЕЗАЛ-онлайн повышает объективность.

Задумался по ходу дела вот над чем. А не провести ли нам такой наглядный эксперимент - по оценке "на глазок" линейных размеров отрезка. В отличие от оценки фотографий человека, линейную оценку длины отрезка прямой линии можно реализовать в режиме онлайн-тестирования.

Например, оцените, какова длина в см. на вашем экране вот этой линии из знаков "равно":

===========================================

Вы скажите, что на разных экран включен разный размер отображения этой линии? - Да! Но и это не беда, так как оценку можно произвести в других единицах: не в сантиметрах, а просто в числе знаков "равно".
Можно просить оценить "на глазок", а не считать пальцем по экрану.
Вот Вы можете это сделать точно (путем подсчета)?
У Вас получилось число 43?
Если не 43, то сколько?

Ваш АШ

Итак, коллеги на сегодня мы имеем 80 экспертов, которые зарегистрировались в проекте ТЕЗАЛ-ОНЛАЙН (!). Это очень неплохой результат. Но... чем больше, тем лучше. Почему? - Дело в том, что в любом краудсорсинг-проекте каждый новый эксперт позволяет подправить ошибки, которые совершили предыдущие эксперты. Как это понять? - Многим не понятно, как суммирование (усреднение) экспертных оценок позволяет сократить, а не увеличить количество ошибок в базе данных. На самом деле несущественные связи, которые установил один эксперт, другие не видят и не устанавливают, и это делает его суждение случайной ошибкой типа "ложная тревога" и это единичное суждение "выбывает из игры". А также существенную связь, которую один эксперт пропускает, большинство других видят, и это компенсирует ошибку типа "пропуск". Вот таким образом, множество экспертов позволяет нивелировать ошибки, и усредненное суждение ( с удалением выбросов - редких суждений) лучше приближается к объективной реальности по мере расширения экспертной выборки.

Приведу такой простой НАГЛЯДНЫЙ пример. Допустим, Вам нужно на глазок оценить рост человека, который объективно равен 180 см. Если Вы всего лишь один оценщик, то Вы можете этот рост преуменьшить (скажите 178 см) или преувеличить (скажите 182 см). Если Вас трое пытаются "на глазок" оценить, то все трое тоже могут ошибиться в одну сторону - в сторону преуменьшения или преувеличения. Но... с большей вероятностью, все-таки один из троих ошибется в другую сторону. Если Вас 10 человек, то скорее всего примерно 5 ошибутся в сторону преувеличения, а еще 5 - в сторону преуменьшения. Поэтому 10 человек почти всегда гарантированно лучше оценят рост на глазок (интуитивно), чем 3 человека. Понятный пример?

Хохлов Н.А. · 23 июл 2019

А сталкивались Вы с ситуациями, когда среди множества экспертов с не очень высокой согласованностью оценок в результате кластерного анализа выделяется несколько групп, внутри которых согласованность очень высокая, а вот между собой они существенно различаются?

Шмелев А.Г. · 23 июл 2019

Никита,

я начинал применение этого метода как раз с этого самого ожидания: что у меня будут получаться сгустки экспертов в многомерном пространстве оценок, которые между собой будут различаться сильно, а внутри - слабо (внутри кластеров все будут сходны). Но к моему удивлению, в ходе психосемантических исследований близости словесных значений я практически НЕ встречался с такой структурой данных (?!). Я провел по этому методу десятки (больше 40 - это точно) разных исследований за период более 40 лет (!). Я НЕ помню ни одного такого случая (!). Как правило, имеется достаточно многочисленный один кластер - это "планеты вокруг одного солнца", а все остальные - это разные "экзопланеты", которые все реже встречаются, чем больше удаление от "главной звезды", то есть один общий кластер доминирует настолько, что более мелкими скоплениями "планет" можно пренебречь. Я не помню, чтобы хотя бы один "Юпитер" мне встретился, у которого целое множество спутников (сейчас уже открыли 79). Как правило, 1-2 спутника и все (!). Как у Марса (Фобос и Демос), или как у нашей Земли (Луна).

Извините, если я увлекся космической метафорой. Но мне кажется, что она повышает наглядность.

АШ

Хохлов Н.А. сказал(а): ↑

А сталкивались Вы с ситуациями, когда среди множества экспертов с не очень высокой согласованностью оценок в результате кластерного анализа выделяется несколько групп, внутри которых согласованность очень высокая, а вот между собой они существенно различаются?
Нажмите, чтобы раскрыть...

Тукачев Ю.А. · 23 июл 2019

Я своим студентам приводил другой пример -- как принять решение о том, на какой фильм пойти в ближайшие выходные:
Спросить 1-2 человек или 10, какая усредненная оценка фильма будет ближе к реальности?

Ну и помните, мы в свое время проводили на форуме конкурс прогнозистов, где прогнозировали исход выборов (% голосов за кандидатов/партии). Если мне память не изменяет, то "коллективная оценка" в виде усредненного значения лучше всего соответствовало реальным результатам выборов, как и усредненная оценка нескольких социологических служб

Орлова Е.А. · 24 июл 2019

Ох, Юра, ставлю лайк, но аналогии с кино это тонкий лед. 10 друзей скажут мне пойти на "Король Лев", "Алису" Тима Бертона или какой-нибудь "Форсаж", и только один посоветует сходить на странный непопулярный фильм с Хоакином Фениксом и попадет в точку. А может, так и вообще с экспертными оценками - все сложнее, чем кажется?

Тукачев Ю.А. сказал(а): ↑

Я своим студентам приводил другой пример -- как принять решение о том, на какой фильм пойти в ближайшие выходные:
Спросить 1-2 человек или 10, какая усредненная оценка фильма будет ближе к реальности?

Ну и помните, мы в свое время проводили на форуме конкурс прогнозистов, где прогнозировали исход выборов (% голосов за кандидатов/партии). Если мне память не изменяет, то "коллективная оценка" в виде усредненного значения лучше всего соответствовало реальным результатам выборов, как и усредненная оценка нескольких социологических служб
Нажмите, чтобы раскрыть...

Савин Е.Ю. · 24 июл 2019

Гальтон, насколько я помню, проводил подобный эксперимент с оценками массы туши животного на ярмарке.

Тукачев Ю.А. · 24 июл 2019

Я том, что оценка фильма 10 экспертами, будет лучше отражать рейтинг фильма, чем на основании оценок 1-2 экспертов. Что касается "индивидуальных рекомендаций", то это несколько другая тема, но и в ней есть решения, в том числе самые простые, где в основе именно большинство.

Орлова Е.А. сказал(а): ↑

Ох, Юра, ставлю лайк, но аналогии с кино это тонкий лед. 10 друзей скажут мне пойти на "Король Лев", "Алису" Тима Бертона или какой-нибудь "Форсаж", и только один посоветует сходить на странный непопулярный фильм с Хоакином Фениксом и попадет в точку. А может, так и вообще с экспертными оценками - все сложнее, чем кажется?
Нажмите, чтобы раскрыть...

Орлова Е.А. · 24 июл 2019

Вот вторая часть - это очень интересно! Какой-то алгоритм вроде того, что использует Кинопоиск, когда в выдаче по фильму говорит "Вам также может понравиться"? И он довольно часто попадает в точку.
В allmusic guide тоже есть свой механизм опросов и рекомендаций. Не знаю, как сейчас, а раньше там про каждого исполнителя или альбом устраивали опрос - просили соотнести с кучей прилагательных на инглише. Видимо, на этих оценках пользователей потом и строились аналогичные подстановки "Вам также может понравиться".

Тукачев Ю.А. сказал(а): ↑

Я том, что оценка фильма 10 экспертами, будет лучше отражать рейтинг фильма, чем на основании оценок 1-2 экспертов. Что касается "индивидуальных рекомендаций", то это несколько другая тема, но и в ней есть решения, в том числе самые простые, где в основе именно большинство.
Нажмите, чтобы раскрыть...

Тукачев Ю.А. · 24 июл 2019

Коллаборативная фильтрация https://habr.com/ru/post/150399/

Орлова Е.А. сказал(а): ↑

Вот вторая часть - это очень интересно! Какой-то алгоритм вроде того, что использует Кинопоиск, когда в выдаче по фильму говорит "Вам также может понравиться"? И он довольно часто попадает в точку.
В allmusic guide тоже есть свой механизм опросов и рекомендаций. Не знаю, как сейчас, а раньше там про каждого исполнителя или альбом устраивали опрос - просили соотнести с кучей прилагательных на инглише. Видимо, на этих оценках пользователей потом и строились аналогичные подстановки "Вам также может понравиться".
Нажмите, чтобы раскрыть...

Тукачев Ю.А. · 24 июл 2019

еще как работают рекомендательные системы https://habr.com/ru/company/lanit/blog/420499/

Шмелев А.Г. · 24 июл 2019

Женя,

не стоит путать 2 РАЗНЫХ вида информации:

1) Информация, отражающая некоторые типичные свойства и связи.
Про это я здесь пишу.

2) Информация, которая содержит индивидуальные рекомендации.
К этому виду относится рекомендация посмотреть фильм, который
отражает именно Ваши вкусы. Это вообще несколько о другом.

Первый вид информации: больше всего население России съедает
картошки (столько-то кг на человека в год), на втором месте - хлеб и т.п.

Второй вид информации: Вам лично не подходит картошка, Вам
больше подойдут макароны.

Ваш АШ

Орлова Е.А. сказал(а): ↑

Ох, Юра, ставлю лайк, но аналогии с кино это тонкий лед. 10 друзей скажут мне пойти на "Король Лев", "Алису" Тима Бертона или какой-нибудь "Форсаж", и только один посоветует сходить на странный непопулярный фильм с Хоакином Фениксом и попадет в точку. А может, так и вообще с экспертными оценками - все сложнее, чем кажется?
Нажмите, чтобы раскрыть...

Орлова Е.А. · 24 июл 2019

О, эта разница мне как раз понятна, я отвечала прицельно на слова Юры: "как принять решение о том, на какой фильм пойти в ближайшие выходные" - это же именно про индивидуальные рекомендации, ваш второй тип. На информацию 1 типа в этом случае можно вообще не полагаться.

Шмелев А.Г. сказал(а): ↑

Женя,

не стоит путать 2 РАЗНЫХ вида информации:

1) Информация, отражающая некоторые типичные свойства и связи.
Про это я здесь пишу.

2) Информация, которая содержит индивидуальные рекомендации.
К этому виду относится рекомендация посмотреть фильм, который
отражает именно Ваши вкусы. Это вообще несколько о другом.

Первый вид информации: больше всего население России съедает
картошки (столько-то кг на человека в год), на втором месте - хлеб и т.п.

Второй вид информации: Вам лично не подходит картошка, Вам
больше подойдут макароны.

Ваш АШ
Нажмите, чтобы раскрыть...

Тукачев Ю.А. · 24 июл 2019

Нет, не про индивидуальные рекомендации, речь именно шла о том, стоит ли идти на фильм на основе "рейтинга" фильма. В данном случае, рейтинг -- это оценка нескольких человек (10 экспертов лучше, чем 1-2).
Я например не смотрю в кинотеатрах фильмы с рейтингом меньше 6.

Орлова Е.А. сказал(а): ↑

О, эта разница мне как раз понятна, я отвечала прицельно на слова Юры: "как принять решение о том, на какой фильм пойти в ближайшие выходные" - это же именно про индивидуальные рекомендации, ваш второй тип. На информацию 1 типа в этом случае можно вообще не полагаться.
Нажмите, чтобы раскрыть...

Орлова Е.А. · 25 июл 2019

Тукачев Ю.А. сказал(а): ↑

Нет, не про индивидуальные рекомендации, речь именно шла о том, стоит ли идти на фильм на основе "рейтинга" фильма. В данном случае, рейтинг -- это оценка нескольких человек (10 экспертов лучше, чем 1-2).
Я например не смотрю в кинотеатрах фильмы с рейтингом меньше 6.
Нажмите, чтобы раскрыть...

А я пойду, если там играет мой любимый актер, даже на рейтинг смотреть не буду, рейтинг тут, пожалуй, последнее дело.

Вход

В поисках наглядной иллюстрации метода независимых экспертных оценок

Шмелев А.Г. Организатор Команда форума

Хохлов Н.А. Администратор Команда форума

Шмелев А.Г. Организатор Команда форума

Тукачев Ю.А. Администратор Команда форума

Орлова Е.А. Модератор Команда форума

Савин Е.Ю. Локомотив

Тукачев Ю.А. Администратор Команда форума

Орлова Е.А. Модератор Команда форума

Тукачев Ю.А. Администратор Команда форума

Тукачев Ю.А. Администратор Команда форума

Шмелев А.Г. Организатор Команда форума

Орлова Е.А. Модератор Команда форума

Тукачев Ю.А. Администратор Команда форума

Орлова Е.А. Модератор Команда форума

Вход

В поисках наглядной иллюстрации метода независимых экспертных оценок

Шмелев А.Г. Организатор Команда форума

Хохлов Н.А. Администратор Команда форума

Шмелев А.Г. Организатор Команда форума

Тукачев Ю.А. Администратор Команда форума

Орлова Е.А. Модератор Команда форума

Савин Е.Ю. Локомотив

Тукачев Ю.А. Администратор Команда форума

Орлова Е.А. Модератор Команда форума

Тукачев Ю.А. Администратор Команда форума

Тукачев Ю.А. Администратор Команда форума

Шмелев А.Г. Организатор Команда форума

Орлова Е.А. Модератор Команда форума

Тукачев Ю.А. Администратор Команда форума

Орлова Е.А. Модератор Команда форума

Быстрый поиск