Оценка бинарных классификаторов - Evaluation of binary classifiers

Терминология и производные
из матрица путаницы
положительное состояние (P)
количество реальных положительных случаев в данных
условие отрицательное (N)
количество реальных отрицательных случаев в данных

истинно положительный (TP)
экв. с хитом
истинно отрицательный (TN)
экв. с правильным отклонением
ложное срабатывание (FP)
экв. с ложная тревога, Ошибка типа I
ложноотрицательный (FN)
экв. с мисс, Ошибка типа II

чувствительность, отзывать, частота попаданий, или же истинно положительная ставка (TPR)
специфичность, избирательность или же истинно отрицательная ставка (TNR)
точность или же положительная прогностическая ценность (PPV)
отрицательная прогностическая ценность (ЧПС)
рейтинг промахов или ложноотрицательная ставка (FNR)
выпадать или же ложноположительный рейтинг (FPR)
коэффициент ложного обнаружения (FDR)
коэффициент ложных пропусков (ЗА)
Порог распространенности (PT)
Оценка угрозы (TS) или индекс критического успеха (CSI)

точность (АКК)
сбалансированная точность (BA)
Оценка F1
это гармоническое среднее из точность и чувствительность
Коэффициент корреляции Мэтьюза (MCC)
Индекс Фаулкса – Маллоуса (FM)
информированность или букмекерской конторы (BM)
отмеченность (МК) или deltaP

Источники: Fawcett (2006),[1] Полномочия (2011),[2] Тинг (2011),[3] CAWCR,[4] Д. Чикко и Г. Джурман (2020),[5] Тарват (2018).[6]

От матрица путаницы вы можете получить четыре основных показателя

В оценка бинарных классификаторов сравнивает два метода присвоения двоичного атрибута, один из которых обычно является стандартным, а другой исследуется. Есть много метрик, которые можно использовать для измерения производительности классификатора или предиктора; разные поля имеют разные предпочтения для конкретных показателей из-за разных целей. Например, в медицине чувствительность и специфичность часто используются, а в информатике точность и отзыв являются предпочтительными. Важное различие между метриками, которые не зависят от распространенность (как часто каждая категория встречается в популяции) и показатели, зависящие от распространенности - оба типа полезны, но имеют очень разные свойства.

Таблица сопряженности

Для данного набора данных классификация (результат работы классификатора для этого набора) дает два числа: количество положительных результатов и количество отрицательных, которые в сумме составляют общий размер набора. Чтобы оценить классификатор, один сравнивает его результат с другой справочной классификацией - в идеале идеальная классификация, но на практике результат другой. Золотой стандарт тест - и перекрестные таблицы данные в 2 × 2 Таблица сопряженности, сравнивая две классификации. Затем оценивают классификатор относительный к золотому стандарту путем вычисления сводные статистические данные из этих 4 номеров. Как правило, эта статистика будет масштабный инвариант (масштабирование всех чисел одним и тем же коэффициентом не влияет на результат), чтобы сделать их независимыми от размера популяции, что достигается за счет использования соотношений однородные функции, проще всего однородный линейный или же однородный квадратичный функции.

Допустим, мы проверяем некоторых людей на наличие болезни. Некоторые из этих людей больны, и наш тест правильно говорит, что они положительные. Они называются истинные положительные моменты (TP). У некоторых есть болезнь, но тест ошибочно утверждает, что это не так. Они называются ложные отрицания (FN). У некоторых нет болезни, и тест говорит, что нет - истинные негативы (TN). Наконец, могут быть здоровые люди с положительным результатом теста - ложные срабатывания (FP). Их можно объединить в таблицу непредвиденных обстоятельств 2 × 2 (матрица путаницы ), обычно с результатом испытания по вертикальной оси и фактическим состоянием по горизонтальной оси.

Затем эти числа могут быть суммированы, что даст как Общая сумма и предельные итоги. Суммируя всю таблицу, количество истинных положительных, ложно отрицательных, истинных отрицательных и ложных срабатываний составляет в сумме 100% от набора. Суммирование строк (добавление по горизонтали) количества истинных положительных и ложных положительных результатов дает в сумме 100% положительных результатов теста, а также для отрицательных результатов. Суммируя столбцы (складывая по вертикали), количество истинных положительных и ложных отрицательных результатов составляет 100% положительных результатов условия (и наоборот для отрицательных результатов). Базовая статистика предельного отношения получается путем деления значений 2 × 2 = 4 в таблице на предельные итоги (строки или столбцы), что дает 2 вспомогательные таблицы 2 × 2, всего 8 соотношений. Эти отношения представлены в 4 дополнительных парах, каждая пара в сумме равна 1, и поэтому каждую из этих производных таблиц 2 × 2 можно суммировать как пару из 2 чисел вместе с их дополнениями. Дополнительную статистику можно получить, взяв отношения этих соотношений, соотношения соотношений или более сложные функции.

Таблица непредвиденных обстоятельств и наиболее распространенные производные коэффициенты резюмируются ниже; подробности см. в продолжении.

Истинное состояние
Всего населенияСостояние положительноеСостояние отрицательноеРаспространенность = Σ Условие положительное/Σ Всего населенияТочность (АКК) = Σ Истинно положительный + Σ Истинно отрицательный/Σ Всего населения
Прогнозируемое состояние
Прогнозируемое состояние
положительный
Истинно положительныйЛожный положительный результат,
Ошибка типа I
Положительная прогностическая ценность (PPV), Точность = Σ Истинно положительный/Σ Прогнозируемое состояние положительноеУровень ложного обнаружения (FDR) = Σ Ложноположительный/Σ Прогнозируемое состояние положительное
Прогнозируемое состояние
отрицательный
Ложноотрицательный,
Ошибка типа II
Правда отрицательныйУровень ложных пропусков (ДЛЯ) = Σ Ложноотрицательный/Σ Прогнозируемое состояние отрицательноеОтрицательная прогностическая ценность (ЧПС) = Σ Истинно отрицательный/Σ Прогнозируемое состояние отрицательное
Истинно положительная оценка (TPR), Отзывать, Чувствительность, вероятность обнаружения, Мощность = Σ Истинно положительный/Σ Условие положительноеЛожноположительная ставка (FPR), Выпадать, вероятность ложной тревоги = Σ Ложноположительный/Σ Условие отрицательноеОтношение положительного правдоподобия (LR +) = TPR/FPRСоотношение диагностических шансов (DOR) = LR +/LR−F1 счет = 2 · Точность · Отзыв/Точность + отзыв
Ложноотрицательная ставка (FNR), Рейтинг промахов = Σ Ложноотрицательный/Σ Условие положительноеСпецифика (SPC), селективность, Истинная отрицательная ставка (TNR) = Σ Истинно отрицательный/Σ Условие отрицательноеОтрицательное отношение правдоподобия (LR-) = FNR/TNR

Обратите внимание, что столбцы соответствуют состояние на самом деле положительные или отрицательные (или классифицированные как таковые по золотому стандарту), на что указывает цветовая кодировка, и соответствующая статистика не зависит от распространенности, в то время как строки соответствуют тест положительные или отрицательные, а соответствующая статистика зависит от распространенности. Существуют аналогичные отношения правдоподобия для значений прогноза, но они используются реже и не показаны выше.

Чувствительность и специфичность

Основные статистические данные, не зависящие от распространенности: чувствительность и специфичность.

Чувствительность или же Истинно положительный рейтинг (TPR), также известный как отзывать, - это доля людей, у которых был положительный результат теста (истинно положительный результат, TP), от всех людей, которые действительно были положительными (положительное состояние, CP = TP + FN). Это можно рассматривать как вероятность того, что тест будет положительным, учитывая, что пациент болен. При более высокой чувствительности меньше фактических случаев заболевания остается незамеченным (или, в случае заводского контроля качества, на рынок поступает меньше бракованной продукции).

Специфика (SPC) или Истинная отрицательная ставка (TNR) - это доля людей с отрицательным результатом и отрицательным результатом (True Negative, TN) от всех людей с отрицательным результатом (Condition Negative, CN = TN + FP). Как и в случае с чувствительностью, это можно рассматривать как вероятность того, что результат теста будет отрицательным, при условии, что пациент не болен. Чем выше специфичность, тем меньше здоровых людей маркируются как больные (или, в случае фабрики, меньше хороших продуктов выбрасывается).

Связь между чувствительностью и специфичностью, а также эффективность классификатора можно визуализировать и изучить с помощью Рабочая характеристика приемника (ROC) кривая.

Теоретически чувствительность и специфичность независимы в том смысле, что можно достичь 100% в обоих случаях (например, в примере с красным / синим шаром, приведенном выше). Однако в более практичных, менее надуманных случаях обычно приходится идти на компромисс, так что они в некоторой степени обратно пропорциональны друг другу. Это происходит потому, что мы редко измеряем то, что хотим классифицировать; скорее, мы обычно измеряем показатель того, что мы хотели бы классифицировать, называемый суррогатный маркер. Причина, по которой в примере с мячом достижимо 100%, заключается в том, что покраснение и голубизна определяется путем непосредственного определения покраснения и синевы. Однако индикаторы иногда оказываются под угрозой, например, когда индикаторы имитируют индикаторы или индикаторы зависят от времени, становясь очевидными только после определенного времени задержки. В следующем примере теста на беременность будет использоваться такой индикатор.

Современные тесты на беременность не использовать саму беременность для определения статуса беременности; скорее, хорионический гонадотропин человека используется, или ХГЧ, присутствует в моче беременный самки, как суррогатный маркер для обозначения что женщина беременна. Поскольку ХГЧ также может производиться опухоль, специфичность современных тестов на беременность не может быть 100% (поскольку возможны ложноположительные результаты). Кроме того, поскольку ХГЧ присутствует в моче в таких малых концентрациях после оплодотворения и на ранних этапах эмбриогенез, чувствительность современных тестов на беременность не может быть 100% (поскольку возможны ложноотрицательные результаты).

Отношения правдоподобия

Положительные и отрицательные прогнозные значения

В дополнение к чувствительности и специфичности, эффективность теста бинарной классификации может быть измерена с помощью положительная прогностическая ценность (PPV), также известный как точность, и отрицательная прогностическая ценность (ЧПС). Положительное значение прогноза отвечает на вопрос "Если результат теста положительный, насколько хорошо это предсказывать фактическое наличие заболевания? ». Рассчитывается как TP / (TP + FP), то есть это доля истинно положительных результатов от всех положительных результатов. Отрицательное значение прогноза такое же, но, естественно, для отрицательных.

Влияние распространенности на значения прогнозов

Распространенность оказывает значительное влияние на значения прогнозов. В качестве примера предположим, что существует тест на заболевание с чувствительностью 99% и специфичностью 99%. Если обследовано 2000 человек и распространенность (в выборке) составляет 50%, то 1000 из них больны и 1000 здоровы. Таким образом, вероятны около 990 истинных положительных и 990 истинно отрицательных результатов, из которых 10 ложноположительных и 10 ложно отрицательных. Положительные и отрицательные значения прогноза будут 99%, поэтому результат может быть высоким.

Однако, если распространенность составляет всего 5%, так что из 2000 человек действительно болеют только 100, то значения прогнозов значительно изменятся. Вероятный результат - 99 истинных положительных результатов, 1 ложный отрицательный результат, 1881 истинно отрицательный результат и 19 ложных положительных результатов. Из 19 + 99 человек, получивших положительный результат, только 99 действительно болеют - это интуитивно означает, что, учитывая положительный результат теста пациента, вероятность того, что он действительно болен, составляет только 84%. С другой стороны, учитывая, что результат теста пациента отрицательный, существует только 1 шанс из 1882, или 0,05% вероятности, что у пациента есть болезнь, несмотря на результат теста.

Отношения правдоподобия

Точность и отзыв

Отношения

Между этими соотношениями существуют различные отношения.

Если распространенность, чувствительность и специфичность известны, положительная прогностическая ценность может быть получена из следующих данных:

Если распространенность, чувствительность и специфичность известны, отрицательная прогностическая ценность может быть получена из следующих данных:

Единые показатели

Помимо парных показателей, существуют также отдельные показатели, которые дают единое число для оценки теста.

Возможно, самая простая статистика точность или же дробь правильная (FC), который измеряет долю всех экземпляров, которые правильно категоризированы; это отношение количества правильных классификаций к общему количеству правильных или неправильных классификаций: (TP + TN) / общая популяция = (TP + TN) / (TP + TN + FP + FN). Это часто не очень полезно по сравнению с предельными соотношениями, поскольку не дает полезных маргинальных интерпретаций из-за смешивания истинно положительных (положительный тест, положительный результат по условию) и истинно отрицательного (отрицательный результат теста, отрицательный результат) - с точки зрения условия таблица, суммирующая диагональ; кроме того, это зависит от распространенности. Дополнением является дробь неверна (FiC): FC + FiC = 1, или (FP + FN) / (TP + TN + FP + FN) - это сумма антидиагональный, деленное на общую численность населения.

В отношение шансов диагностики (DOR) - более полезный общий показатель, который может быть определен непосредственно как (TP × TN) / (FP × FN) = (TP / FN) / (FP / TN) или косвенно как отношение отношения соотношений ( отношение отношений правдоподобия, которые сами по себе являются отношениями истинных значений или значений прогноза). Это имеет полезную интерпретацию - как отношение шансов - и не зависит от распространенности.

An F-оценка представляет собой комбинацию точность и отзывать, обеспечивая единую оценку. Существует однопараметрическое семейство статистики с параметром β, который определяет относительный вес точности и отзыва. Традиционный или сбалансированный F-балл (Оценка F1 ) это гармоническое среднее точности и отзывчивости:

.

Альтернативные метрики

Обратите внимание, однако, что F-баллы не принимают во внимание истинную отрицательную норму и больше подходят для поиск информации и извлечение информации оценка, где истинные негативы неисчислимы. Вместо этого такие меры, как коэффициент фи, Коэффициент корреляции Мэтьюза, информированность или же Каппа Коэна может быть предпочтительнее для оценки производительности двоичного классификатора.[7][8] Как коэффициент корреляции, коэффициент корреляции Мэтьюза - это среднее геометрическое из коэффициенты регрессии проблемы и ее двойной. Коэффициенты компонентной регрессии коэффициента корреляции Мэтьюза равны отмеченность (дельтап) и информированность (Статистика Юдена J или дельтап ').[9]

Смотрите также

Рекомендации

  1. ^ Фосетт, Том (2006). «Введение в ROC-анализ» (PDF). Письма с распознаванием образов. 27 (8): 861–874. Дои:10.1016 / j.patrec.2005.10.010.
  2. ^ Пауэрс, Дэвид М. В. (2011). «Оценка: от точности, отзыва и F-меры к ROC, информированности, значимости и корреляции». Журнал технологий машинного обучения. 2 (1): 37–63.
  3. ^ Тинг, Кай Мин (2011). Саммут, Клод; Уэбб, Джеффри I (ред.). Энциклопедия машинного обучения. Springer. Дои:10.1007/978-0-387-30164-8. ISBN  978-0-387-30164-8.
  4. ^ Брукс, Гарольд; Браун, Барб; Эберт, Бет; Ферро, Крис; Джоллифф, Ян; Ко, Тие-Йонг; Роббер, Пол; Стивенсон, Дэвид (26 января 2015 г.). «Совместная рабочая группа ВПМИ / РГЧЭ по исследованиям для проверки прогнозов». Сотрудничество в области исследований погоды и климата Австралии. Всемирная метеорологическая организация. Получено 2019-07-17.
  5. ^ Chicco D, Jurman G (январь 2020 г.). «Преимущества коэффициента корреляции Мэтьюза (MCC) над оценкой F1 и точность оценки бинарной классификации». BMC Genomics. 21 (1): 6-1–6-13. Дои:10.1186 / s12864-019-6413-7. ЧВК  6941312. PMID  31898477.
  6. ^ Тарват А. (август 2018 г.). «Классификационные методы оценки». Прикладные вычисления и информатика. Дои:10.1016 / j.aci.2018.08.003.
  7. ^ Пауэрс, Дэвид М. В. (2011). «Оценка: от точности, запоминания и F-Score до ROC, информированности, значимости и корреляции». Журнал технологий машинного обучения. 2 (1): 37–63. HDL:2328/27165.
  8. ^ Пауэрс, Дэвид М. В. (2012). «Проблема с каппой» (PDF). Конференция Европейского отделения Ассоциации компьютерной лингвистики (EACL2012) Совместный семинар ROBUS-UNSUP. Архивировано из оригинал (PDF) на 2016-05-18. Получено 2012-07-20.
  9. ^ Perruchet, P .; Переман, Р. (2004). «Использование распределительной информации при обработке слогов». J. Нейролингвистика. 17 (2–3): 97–119. Дои:10.1016 / S0911-6044 (03) 00059-9. S2CID  17104364.