Флейсс каппа - Fleiss kappa

Каппа Флейса (названный в честь Джозеф Л. Флейсс ) это статистическая мера для оценки надежность соглашения между фиксированным количеством оценщиков при назначении категориальные рейтинги к ряду предметов или классифицирующих предметов. Это контрастирует с другими каппами, такими как Каппа Коэна, которые работают только при оценке согласия не более чем между двумя оценщиками или надежности внутри оценщика (для одного оценщика против них самих). Эта мера рассчитывает степень совпадения классификации по сравнению с той, которую можно было бы ожидать случайно.

Каппа Флейса может использоваться с двоичными или номинальная шкала. Его также можно применить к Порядковые данные (ранжированные данные): онлайн-документация MiniTab [1] приводит пример. Однако в этом документе отмечается: «Если у вас есть порядковые рейтинги, такие как рейтинги серьезности дефекта по шкале от 1 до 5, Коэффициенты Кендалла, которые учитывают упорядочение, обычно являются более подходящей статистикой для определения ассоциации, чем одна каппа ». Однако имейте в виду, что коэффициенты ранга Кендалла подходят только для данных ранжирования.

Вступление

Каппа Флейса является обобщением Пи Скотта статистика[2] а статистический Мера межэкспертная надежность.[3] Это также связано со статистикой Каппа Коэна и Статистика Юдена J что может быть более подходящим в определенных случаях[4][5]. В то время как пи Скотта и каппа Коэна работают только для двух оценщиков, каппа Флейсс работает с любым количеством оценщиков, дающих категориальные оценки, для фиксированного количества элементов. Его можно интерпретировать как выражение степени, в которой наблюдаемая степень согласия между оценщиками превышает то, что можно было бы ожидать, если бы все оценщики выставляли свои оценки совершенно случайным образом. Важно отметить, что в то время как каппа Коэна предполагает, что одни и те же два оценщика оценили набор предметов, каппа Флейсс конкретно допускает, что, хотя существует фиксированное количество оценщиков (например, три), разные предметы могут оцениваться разными людьми ( Fleiss, 1971, с. 378). То есть элемент 1 оценивается оценщиками A, B и C; но пункт 2 может быть оценен оценщиками D, E и F.

Согласие можно представить следующим образом: если фиксированное количество людей присваивает числовые рейтинги нескольким элементам, то каппа дает меру того, насколько согласованы оценки. Каппа, , можно определить как,

(1)

Фактор дает степень согласия, достижимую сверх случайности, и, дает степень согласия выше шанса. Если оценщики полностью согласны, то . Если между оценщиками нет согласия (кроме того, что можно было бы ожидать случайно), тогда .

Примером использования каппа Флейсса может быть следующий. Допустим, четырнадцати психиатрам предлагается осмотреть десять пациентов. Каждый психиатр ставит каждому пациенту один из пяти возможных диагнозов. Они составлены в матрицу, и каппа Флейсса может быть вычислена из этого матрица (видеть пример ниже ), чтобы показать степень согласия между психиатрами выше уровня согласия, ожидаемого случайно.

Определение

Позволять N общее количество предметов, пусть п быть количеством оценок по каждому предмету, и пусть k быть количеством категорий, в которые делаются назначения. Предметы индексируются я = 1, ... N и категории индексируются j = 1, ... k. Позволять пij представляют количество оценщиков, присвоивших я-й предмет j-я категория.

Сначала посчитайте пj, доля всех заданий, которые были j-я категория:

(2)

Теперь посчитайте , степень согласия оценщиков я-й предмет (т. е. вычислить, сколько пар оценщик-оценщик находятся в согласии относительно числа всех возможных пар оценщик-оценщик):

(3)

Теперь вычислите , среднее значение 'песок которые входят в формулу для :

(4)

(5)

Пример работы

12345
10000141.000
2026420.253
3003560.308
4039200.440
5228110.330
6770000.462
7326300.242
8253220.176
9652100.286
10022370.286
Общий2028392132
0.1430.2000.2790.1500.229
Таблица значений для расчета отработанного примера

В следующем примере четырнадцать оценщиков () назначьте десять "предметов" () до пяти категорий (). Категории представлены в столбцах, а тематика - в строках. В каждой ячейке указано количество оценщиков, отнесших указанную (строку) к указанной категории (столбец).

Данные

См. Таблицу справа.

N = 10, п = 14, k = 5

Сумма всех ячеек = 140
Сумма пя = 3.780

Расчеты

Значение - доля всех присвоений (, здесь ), которые были сделаны я категория. Например, взяв первый столбец,

И взяв второй ряд,

Чтобы рассчитать , нам нужно знать сумму ,

По всему листу,

Интерпретация

Ландис и Кох (1977) дали следующую таблицу для интерпретации значения.[6] Однако эта таблица ни в коем случае общепринятый. Они не представили никаких доказательств в поддержку этого, а основали это на личном мнении. Было отмечено, что эти рекомендации могут быть скорее вредными, чем полезными,[7] количество категорий и предметов повлияет на величину стоимости. Каппа будет выше, когда будет меньше категорий.[8]

Интерпретация
< 0Плохое согласие
0.01 – 0.20Незначительное согласие
0.21 – 0.40Справедливое соглашение
0.41 – 0.60Умеренное согласие
0.61 – 0.80Существенное согласие
0.81 – 1.00Почти идеальное согласие

В упомянутой ранее документации MiniTab говорится, что Automotive Industry Action Group (AIAG) «предполагает, что значение каппа не менее 0,75 указывает на хорошее согласие. Однако более высокие значения каппа, такие как 0,90, предпочтительны».

Тесты значимости

Статистические пакеты могут рассчитать стандартная оценка (Z-оценка) для Каппа Коэна или каппа Флейсса, которую можно превратить в P-значение. Однако даже когда значение P достигает порога статистической значимости (обычно менее 0,05), это указывает только на то, что согласие между экспертами значительно лучше, чем можно было бы ожидать случайно. Значение p само по себе не говорит вам о том, достаточно ли хорошее согласие, чтобы иметь высокую прогностическую ценность.

Смотрите также

Рекомендации

  1. ^ Статистика Каппа MiniTab Inc. для анализа согласования атрибутов. https://support.minitab.com/en-us/minitab/18/help-and-how-to/quality-and-process-improvement/measurement-system-analysis/how-to/attribute-agreement-analysis/ атрибут-соглашение-анализ / интерпретация-результаты / все-статистики-и-графики / каппа-статистика / Доступ 22 января 2019 г.
  2. ^ Флейс, Дж. Л. (1971) "Измерение номинальной шкалы согласия среди многих оценщиков". Психологический бюллетень, Vol. 76, № 5, с. 378–382
  3. ^ Скотт, В. (1955). «Надежность контент-анализа: пример кодирования номинальной шкалы». Общественное мнение Ежеквартально, Vol. 19, № 3, с. 321–325.
  4. ^ Пауэрс, Д. М. У. (2011). «Оценка: от точности, отзыва и F-меры к ROC, информированности, значимости и корреляции». Журнал технологий машинного обучения 2 (1): 37–63.
  5. ^ Пауэрс, Дэвид М. В. (2012). «Проблема с каппой». Конференция Европейского отделения Ассоциации компьютерной лингвистики (EACL2012) Совместный семинар ROBUS-UNSUP.
  6. ^ Ландис, Дж. Р. и Кох, Г. Г. (1977) "Измерение согласия наблюдателя для категориальных данных" в Биометрия. Vol. 33. С. 159–174.
  7. ^ Гвет, К. Л. (2014) Справочник по надежности между оценщиками (4-е издание), глава 6. (Гейтерсбург: Advanced Analytics, LLC) ISBN  978-0970806284. http://www.agreestat.com/book4/9780970806284_chap2.pdf
  8. ^ Сим, Дж. И Райт, К. С. (2005) «Каппа-статистика в исследованиях надежности: требования к использованию, интерпретации и размеру выборки» в Физиотерапия. Vol. 85, № 3, с. 257–268

дальнейшее чтение

  • Флейсс, Дж. Л. и Коэн, Дж. (1973) «Эквивалентность взвешенного каппа и коэффициента внутриклассовой корреляции как меры надежности» в Образовательные и психологические измерения, Vol. 33 с. 613–619.
  • Флейсс, Дж. Л. (1981) Статистические методы расчета ставок и пропорций. 2-е изд. (Нью-Йорк: Джон Уайли) стр. 38–46.
  • Гвет, К. Л. (2008) "Вычисление межэкспертной надежности и ее дисперсии при наличии высокого согласия ", Британский журнал математической и статистической психологии, Vol. 61, стр. 29–48

внешняя ссылка