Функции потерь для классификации - Loss functions for classification

Функции согласованных потерь по Байесу: потеря ноль-единица (серый), дикая потеря (зеленый), логистическая потеря (оранжевый), экспоненциальная потеря (фиолетовый), касательная потеря (коричневый), квадратная потеря (синий)

В машинное обучение и математическая оптимизация, функции потерь для классификации вычислительно возможны функции потерь представляет собой цену, заплаченную за неточность прогнозов в проблемы классификации (проблемы определения, к какой категории принадлежит конкретное наблюдение).^[1] Данный ${ displaystyle { mathcal {X}}}$ как пространство всех возможных входов (обычно ${ Displaystyle { mathcal {X}} subset mathbb {R} ^ {d}}$ ), и ${ Displaystyle { mathcal {Y}} = {- 1,1 }}$ как набор меток (возможных выходов), типичная цель алгоритмов классификации - найти функцию ${ displaystyle f: { mathcal {X}} mapsto mathbb {R}}$ который лучше всего предсказывает этикетку ${ displaystyle y}$ для данного входа ${ displaystyle { vec {x}}}$ .^[2] Однако из-за неполной информации, шума в измерениях или вероятностных компонентов в базовом процессе возможно то же ${ displaystyle { vec {x}}}$ генерировать разные ${ displaystyle y}$ .^[3] В результате цель задачи обучения - минимизировать ожидаемые потери (также известные как риск), определяемые как

{ displaystyle I [f] = displaystyle int _ {{ mathcal {X}} times { mathcal {Y}}} V (f ({ vec {x}}), y) p ({ vec {x}}, y) , d { vec {x}} , dy}

куда ${ Displaystyle V (е ({ vec {x}}), y)}$ - заданная функция потерь, а ${ displaystyle p ({ vec {x}}, y)}$ это функция плотности вероятности процесса, который сгенерировал данные, которые эквивалентно можно записать как

{ displaystyle p ({ vec {x}}, y) = p (y mid { vec {x}}) p ({ vec {x}}).}

В рамках классификации несколько часто используемых функции потерь написаны исключительно с точки зрения продукта настоящей этикетки ${ displaystyle y}$ и предсказанная метка ${ displaystyle f ({ vec {x}})}$ . Следовательно, их можно определить как функции только одной переменной. ${ displaystyle upsilon = yf ({ vec {x}})}$ , так что ${ Displaystyle В (е ({ vec {x}}), y) = phi (yf ({ vec {x}})) = phi ( upsilon)}$ с подходящим образом выбранной функцией ${ displaystyle phi: mathbb {R} to mathbb {R}}$ . Они называются функции потерь на основе маржи. Выбор функции потерь на основе маржи сводится к выбору ${ displaystyle phi}$ . Выбор функции потерь в рамках этой структуры влияет на оптимальный ${ displaystyle f _ { phi} ^ {*}}$ что минимизирует ожидаемый риск.

В случае бинарной классификации можно упростить расчет ожидаемого риска на основе указанного выше интеграла. Конкретно,

{ displaystyle { begin {align} I [f] & = int _ {{ mathcal {X}} times { mathcal {Y}}} V (f ({ vec {x}}), y ) p ({ vec {x}}, y) , d { vec {x}} , dy [6pt] & = int _ { mathcal {X}} int _ { mathcal { Y}} phi (yf ({ vec {x}})) p (y mid { vec {x}}) p ({ vec {x}}) , dy , d { vec { x}} [6pt] & = int _ { mathcal {X}} [ phi (f ({ vec {x}})) p (1 mid { vec {x}}) + phi (-f ({ vec {x}})) p (-1 mid { vec {x}})] p ({ vec {x}}) , d { vec {x}} [6pt] & = int _ { mathcal {X}} [ phi (f ({ vec {x}})) p (1 mid { vec {x}}) + phi (-f ({ vec {x}})) (1-p (1 mid { vec {x}}))] p ({ vec {x}}) , d { vec {x}} end {выровнено}}}

Второе равенство следует из описанных выше свойств. Третье равенство следует из того факта, что 1 и −1 - единственные возможные значения для ${ displaystyle y}$ , а четвертый, потому что ${ Displaystyle р (-1 середина х) = 1-р (1 середина х)}$ . Термин в скобках ${ displaystyle [ phi (е ({ vec {x}})) p (1 mid { vec {x}}) + phi (-f ({ vec {x}})) (1- p (1 mid { vec {x}}))]}$ известен как условный риск.

Можно решить для минимизатора ${ displaystyle I [f]}$ взяв функциональную производную от последнего равенства по ${ displaystyle f}$ и установив производную равной 0. Это приведет к следующему уравнению

{ displaystyle { frac { partial phi (f)} { partial f}} eta + { frac { partial phi (-f)} { partial f}} (1- eta) = 0 ; ; ; ; ; (1)}

что также эквивалентно установке производной условного риска равной нулю.

Учитывая бинарный характер классификации, естественный отбор функции потерь (при условии равной стоимости для ложные срабатывания и ложные отрицания ) будет 0-1 функция потерь (0–1 индикаторная функция ), который принимает значение 0, если прогнозируемая классификация равна истинному классу, или 1, если прогнозируемая классификация не соответствует истинному классу. Этот выбор смоделирован

{ Displaystyle V (е ({ vec {x}}), y) = H (-yf ({ vec {x}}))}

куда ${ displaystyle H}$ указывает на Ступенчатая функция Хевисайда Однако эта функция потерь невыпуклая и негладкая, и поиск оптимального решения NP-жесткий комбинаторная задача оптимизации.^[4] В итоге лучше заменить суррогаты функции потерь которые подходят для обычно используемых алгоритмов обучения, поскольку они обладают удобными свойствами, такими как выпуклость и гладкость. В дополнение к их вычислительной управляемости, можно показать, что решения проблемы обучения с использованием этих суррогатов потерь позволяют восстановить фактическое решение исходной проблемы классификации.^[5] Некоторые из этих суррогатов описаны ниже.

На практике распределение вероятностей ${ displaystyle p ({ vec {x}}, y)}$ неизвестно. Следовательно, используя обучающий набор ${ displaystyle n}$ независимо и одинаково распределены точки отбора проб

{ displaystyle S = {({ vec {x}} _ {1}, y_ {1}), dots, ({ vec {x}} _ {n}, y_ {n}) }}

взяты из данных пространство образца, каждый стремится минимизировать эмпирический риск

{ displaystyle I_ {S} [f] = { frac {1} {n}} sum _ {i = 1} ^ {n} V (f ({ vec {x}} _ {i}), y_ {i})}

как показатель ожидаемого риска.^[3] (Видеть теория статистического обучения для более подробного описания.)

Последовательность Байеса

Использование Теорема Байеса, можно показать, что оптимальная ${ displaystyle f_ {0/1} ^ {*}}$ , то есть тот, который минимизирует ожидаемый риск, связанный с потерей нуля или единицы, реализует правило оптимального решения Байеса для задачи двоичной классификации и имеет форму

{ displaystyle f_ {0/1} ^ {*} ({ vec {x}}) ; = ; { begin {cases} ; ; ; 1 & { text {if}} p (1 mid { vec {x}})> p (-1 mid { vec {x}}) ; ; ; 0 & { text {if}} p (1 mid { vec { x}}) = p (-1 mid { vec {x}}) - 1 & { text {if}} p (1 mid { vec {x}})

.

Функция потерь называется калиброванная по классификации или согласованная по Байесу если это оптимально ${ displaystyle f _ { phi} ^ {*}}$ таково, что ${ displaystyle f_ {0/1} ^ {*} ({ vec {x}}) = operatorname {sgn} (f _ { phi} ^ {*} ({ vec {x}}))}$ и поэтому является оптимальным согласно правилу принятия решения Байеса. Байесовская согласованная функция потерь позволяет нам найти байесовскую функцию оптимального решения. ${ displaystyle f _ { phi} ^ {*}}$ путем прямой минимизации ожидаемого риска и без явного моделирования функций плотности вероятности.

Для выпуклой потери маржи ${ displaystyle phi ( upsilon)}$ , можно показать, что ${ displaystyle phi ( upsilon)}$ согласован по Байесу тогда и только тогда, когда он дифференцируем в 0 и ${ displaystyle phi '(0) = 0}$ .^[6]^[1] Тем не менее, этот результат не исключает существования невыпуклых байесовских согласованных функций потерь. Более общий результат утверждает, что байесовские согласованные функции потерь могут быть получены с использованием следующей формулировки ^[7]

{ Displaystyle фи (v) = С [е ^ {- 1} (v)] + (1-е ^ {- 1} (v)) С '[е ^ {- 1} (v)] ; ; ; ; ; (2)}

,

куда ${ Displaystyle е ( эта), (0 leq eta leq 1)}$ - любая обратимая функция такая, что ${ Displaystyle f ^ {- 1} (- v) = 1-f ^ {- 1} (v)}$ и ${ Displaystyle C ( eta)}$ - любая дифференцируемая строго вогнутая функция такая, что ${ Displaystyle C ( eta) = C (1- eta)}$ . Таблица-I показывает сгенерированные байесовские согласованные функции потерь для некоторых примеров выбора ${ Displaystyle C ( eta)}$ и ${ displaystyle f ^ {- 1} (v)}$ . Обратите внимание, что потери Savage и Tangent не являются выпуклыми. Было показано, что такие невыпуклые функции потерь полезны при работе с выбросами при классификации.^[7]^[8] Для всех функций потерь, полученных из (2), апостериорная вероятность ${ displaystyle p (y = 1 | { vec {x}})}$ можно найти с помощью обратимого функция ссылки в качестве ${ Displaystyle p (y = 1 | { vec {x}}) = eta = f ^ {- 1} (v)}$ . Такие функции потерь, в которых апостериорная вероятность может быть восстановлена с помощью обратимой связи, называются правильные функции потерь.

Таблица-I
Имя потери	${ displaystyle phi (v)}$	${ Displaystyle C ( eta)}$	${ displaystyle f ^ {- 1} (v)}$	${ displaystyle f ( eta)}$
Экспоненциальный	${ displaystyle e ^ {- v}}$	${ displaystyle 2 { sqrt { eta (1- eta)}}}$	${ Displaystyle { frac {е ^ {2v}} {1 + е ^ {2v}}}}$	${ displaystyle { frac {1} {2}} log ({ frac { eta} {1- eta}})}$
Логистика	${ displaystyle { frac {1} { log (2)}} log (1 + e ^ {- v})}$	${ displaystyle { frac {1} { log (2)}} [- eta log ( eta) - (1- eta) log (1- eta)]}$	${ displaystyle { frac {e ^ {v}} {1 + e ^ {v}}}}$	${ displaystyle log ({ гидроразрыва { eta} {1- eta}})}$
Квадрат	${ displaystyle (1-v) ^ {2}}$	${ displaystyle 4 eta (1- eta)}$	${ displaystyle { frac {1} {2}} (v + 1)}$	${ displaystyle 2 eta -1}$
дикий	${ displaystyle { frac {1} {(1 + е ^ {v}) ^ {2}}}}$	${ displaystyle eta (1- eta)}$	${ displaystyle { frac {e ^ {v}} {1 + e ^ {v}}}}$	${ displaystyle log ({ гидроразрыва { eta} {1- eta}})}$
Касательная	${ Displaystyle (2 arctan (v) -1) ^ {2}}$	${ displaystyle 4 eta (1- eta)}$	${ displaystyle arctan (v) + { frac {1} {2}}}$	${ displaystyle tan ( eta - { frac {1} {2}})}$

Единственный минимизатор ожидаемого риска, ${ displaystyle f _ { phi} ^ {*}}$ , связанные с приведенными выше сгенерированными функциями потерь, можно непосредственно найти из уравнения (1) и показать, что они равны соответствующему ${ displaystyle f ( eta)}$ . Это справедливо даже для невыпуклых функций потерь, что означает, что алгоритмы на основе градиентного спуска, такие как повышение градиента можно использовать для построения минимизатора.

Правильные функции потерь, маржа потерь и регуляризация

(Красный) стандартные логистические потери (

{ Displaystyle гамма = 1, му = 2}

) и (синий) увеличенная маржа Логистические убытки (

{ displaystyle gamma = 0,2}

).

Для правильных функций потерь маржа убытков можно определить как ${ displaystyle mu _ { phi} = - { frac { phi '(0)} { phi' '(0)}}}$ и показано, что они напрямую связаны со свойствами регуляризации классификатора.^[9] В частности, функция потерь с большим запасом увеличивает регуляризацию и дает лучшие оценки апостериорной вероятности. Например, маржа потерь может быть увеличена для логистических потерь путем введения ${ displaystyle gamma}$ параметр и запись логистических потерь как ${ displaystyle { frac {1} { gamma}} log (1 + e ^ {- gamma v})}$ где меньше ${ displaystyle 0 < gamma <1}$ увеличивает маржу убытка. Показано, что это прямо эквивалентно снижению скорости обучения в повышение градиента ${ Displaystyle F_ {m} (x) = F_ {m-1} (x) + gamma h_ {m} (x),}$ где уменьшается ${ displaystyle gamma}$ улучшает регуляризацию усиленного классификатора. Теория проясняет, что когда скорость обучения ${ displaystyle gamma}$ используется правильная формула для получения апостериорной вероятности. ${ Displaystyle eta = е ^ {- 1} ( гамма F (х))}$ .

В заключение, выбрав функцию потерь с большим запасом (меньшим ${ displaystyle gamma}$ ) мы усиливаем регуляризацию и улучшаем наши оценки апостериорной вероятности, что, в свою очередь, улучшает ROC-кривую окончательного классификатора.

Квадратная потеря

Хотя функция квадратичных потерь чаще используется в регрессии, ее можно переписать как функцию ${ displaystyle phi (yf ({ vec {x}}))}$ и используется для классификации. Его можно сгенерировать с помощью (2) и Таблицы-I следующим образом.

{ Displaystyle phi (v) = C [е ^ {- 1} (v)] + (1-f ^ {- 1} (v)) C '[f ^ {- 1} (v)] = 4 ({ frac {1} {2}} (v + 1)) (1 - { frac {1} {2}} (v + 1)) + (1 - { frac {1} {2}} (v + 1)) (4-8 ({ frac {1} {2}} (v + 1))) = (1-v) ^ {2}.}

Квадратная функция потерь бывает выпуклой и гладкой. Однако функция квадратичных потерь имеет тенденцию чрезмерно наказывать выбросы, что приводит к более медленным скоростям сходимости (в отношении сложности выборки), чем для функций логистических потерь или потерь на шарнирах.^[1] Кроме того, функции, которые дают высокие значения ${ displaystyle f ({ vec {x}})}$ для некоторых ${ displaystyle x in X}$ будет плохо работать с функцией квадратичных потерь, поскольку высокие значения ${ displaystyle yf ({ vec {x}})}$ будут строго наказаны, независимо от наличия признаков ${ displaystyle y}$ и ${ displaystyle f ({ vec {x}})}$ матч.

Преимущество функции квадратичных потерь состоит в том, что ее структура позволяет легко перекрестную проверку параметров регуляризации. Специально для Тихоновская регуляризация, можно найти параметр регуляризации, используя перекрестная проверка в то же время, которое потребуется для решения одной проблемы.^[10]

Минимизатор ${ displaystyle I [f]}$ для квадрата функции потерь можно непосредственно найти из уравнения (1) как

{ displaystyle f _ { text {Square}} ^ {*} = 2 eta -1 = 2p (1 mid x) -1.}

Логистическая потеря

Функцию логистических потерь можно сгенерировать с помощью (2) и Таблицы-I следующим образом.

{ Displaystyle { begin {align} phi (v) & = C [f ^ {- 1} (v)] + left (1-f ^ {- 1} (v) right) , C ' left [f ^ {- 1} (v) right] & = { frac {1} { log (2)}} left [{ frac {-e ^ {v}} {1+ e ^ {v}}} log { frac {e ^ {v}} {1 + e ^ {v}}} - left (1 - { frac {e ^ {v}} {1 + e ^ {v}}} right) log left (1 - { frac {e ^ {v}} {1 + e ^ {v}}} right) right] + left (1 - { frac {e ^ {v}} {1 + e ^ {v}}} right) left [{ frac {-1} { log (2)}} log left ({ frac { frac { e ^ {v}} {1 + e ^ {v}}} {1 - { frac {e ^ {v}} {1 + e ^ {v}}}}} right) right] & = { frac {1} { log (2)}} log (1 + e ^ {- v}). end {align}}}

Логистические потери являются выпуклыми и линейно растут для отрицательных значений, что делает их менее чувствительными к выбросам. Логистическая потеря используется в Алгоритм LogitBoost.

Минимизатор ${ displaystyle I [f]}$ для функции логистических потерь можно непосредственно найти из уравнения (1) как

{ displaystyle f _ { text {Logistic}} ^ {*} = log left ({ frac { eta} {1- eta}} right) = log left ({ frac {p ( 1 mid x)} {1-p (1 mid x)}} right).}

Эта функция не определена, когда ${ Displaystyle р (1 середина х) = 1}$ или же ${ displaystyle p (1 mid x) = 0}$ (стремясь к ∞ и −∞ соответственно), но предсказывает плавную кривую, которая растет, когда ${ Displaystyle р (1 середина х)}$ увеличивается и равен 0, когда ${ displaystyle p (1 mid x) = 0,5}$ .^[3]

Легко проверить, что логистические потери и двоичный перекрестная энтропия потери (Log loss) фактически одинаковы (с точностью до мультипликативной константы ${ displaystyle { frac {1} { log (2)}}}$ Потеря кросс-энтропии тесно связана с Дивергенция Кульбака – Лейблера между эмпирическим распределением и предсказанным распределением. Потеря кросс-энтропии повсеместна в современных глубокие нейронные сети.

Экспоненциальный убыток

Экспоненциальная функция потерь может быть сгенерирована с использованием (2) и Таблицы-I следующим образом

{ Displaystyle phi (v) = C [е ^ {- 1} (v)] + (1-f ^ {- 1} (v)) C '[f ^ {- 1} (v)] = 2 { sqrt {({ frac {e ^ {2v}} {1 + e ^ {2v}}}) (1 - { frac {e ^ {2v}} {1 + e ^ {2v}}}) }} + (1 - { frac {e ^ {2v}} {1 + e ^ {2v}}}) ({ frac {1 - { frac {2e ^ {2v}} {1 + e ^ { 2v}}}} { sqrt {{ frac {e ^ {2v}} {1 + e ^ {2v}}} (1 - { frac {e ^ {2v}} {1 + e ^ {2v}) }})}}}) = e ^ {- v}}

Экспоненциальные потери выпуклые и экспоненциально возрастают для отрицательных значений, что делает их более чувствительными к выбросам. Экспоненциальная потеря используется в Алгоритм AdaBoost.

Минимизатор ${ displaystyle I [f]}$ для экспоненциальной функции потерь можно непосредственно найти из уравнения (1) как

{ displaystyle f _ { text {Exp}} ^ {*} = { frac {1} {2}} log left ({ frac { eta} {1- eta}} right) = { frac {1} {2}} log left ({ frac {p (1 mid x)} {1-p (1 mid x)}} right).}

Дикая потеря

Дикая потеря^[7] может быть сгенерировано с использованием (2) и Таблицы-I следующим образом

{ displaystyle phi (v) = C [f ^ {- 1} (v)] + (1-f ^ {- 1} (v)) C '[f ^ {- 1} (v)] = ( { frac {e ^ {v}} {1 + e ^ {v}}}) (1 - { frac {e ^ {v}} {1 + e ^ {v}}}) + (1- { frac {e ^ {v}} {1 + e ^ {v}}}) (1 - { frac {2e ^ {v}} {1 + e ^ {v}}}) = { frac {1 } {(1 + e ^ {v}) ^ {2}}}.}

Потери Сэвиджа квазивыпуклые и ограничены для больших отрицательных значений, что делает их менее чувствительными к выбросам. Убыток Savage был использован в повышение градиента и алгоритм SavageBoost.

Минимизатор ${ displaystyle I [f]}$ для функции потерь Сэвиджа можно непосредственно найти из уравнения (1) как

{ displaystyle f _ { text {Savage}} ^ {*} = log left ({ frac { eta} {1- eta}} right) = log left ({ frac {p ( 1 mid x)} {1-p (1 mid x)}} right).}

Касательная потеря

Касательная потеря^[11] может быть сгенерировано с использованием (2) и Таблицы-I следующим образом

{ Displaystyle { begin {align} phi (v) & = C [f ^ {- 1} (v)] + (1-f ^ {- 1} (v)) C '[f ^ {- 1 } (v)] = 4 ( arctan (v) + { frac {1} {2}}) (1 - ( arctan (v) + { frac {1} {2}})) + (1 - ( arctan (v) + { frac {1} {2}})) (4-8 ( arctan (v) + { frac {1} {2}})) & = (2 arctan (v) -1) ^ {2}. end {align}}}

Потери касательной квазивыпуклые и ограничены для больших отрицательных значений, что делает их менее чувствительными к выбросам. Интересно, что потеря касательной также назначает ограниченный штраф точкам данных, которые были классифицированы «слишком правильно». Это может помочь предотвратить перетренированность набора данных. Касательная потеря была использована в повышение градиента, алгоритм TangentBoost и леса альтернативных решений.^[12]

Минимизатор ${ displaystyle I [f]}$ для функции потерь по касательной можно непосредственно найти из уравнения (1) как

{ displaystyle f _ { text {Tangent}} ^ {*} = tan ( eta - { frac {1} {2}}) = tan (p (1 mid x) - { frac {1 } {2}}).}

Потеря шарнира

Функция потерь шарнира определяется как ${ Displaystyle фи ( ипсилон) = макс (0,1- ипсилон) = [1- ипсилон] _ {+}}$ , куда ${ Displaystyle [а] _ {+} = макс (0, а)}$ это положительная часть функция.

{ Displaystyle В (е ({ vec {x}}), y) = max (0,1-yf ({ vec {x}})) = [1-yf ({ vec {x}} )] _ {+}.}

Потеря на шарнире обеспечивает относительно жесткую, выпуклую верхнюю границу диапазона 0–1 индикаторная функция. В частности, шарнирные потери равны 0–1 индикаторная функция когда ${ displaystyle operatorname {sgn} (f ({ vec {x}})) = y}$ и ${ displaystyle | yf ({ vec {x}}) | geq 1}$ . Кроме того, минимизация эмпирического риска этих потерь эквивалентна классической формулировке для опорные векторные машины (SVM). Правильно классифицированные точки, лежащие за границами границ опорных векторов, не штрафуются, тогда как точки в пределах границ границ или на неправильной стороне гиперплоскости штрафуются линейно по сравнению с их расстоянием от правильной границы.^[4]

Хотя функция потерь шарнира является выпуклой и непрерывной, она не является гладкой (не дифференцируемой) при ${ displaystyle yf ({ vec {x}}) = 1}$ . Следовательно, функцию потерь петли нельзя использовать с градиентный спуск методы или стохастический градиентный спуск методы, основанные на дифференцируемости по всей области. Однако потери в шарнирах имеют субградиент при ${ displaystyle yf ({ vec {x}}) = 1}$ , что позволяет использовать методы субградиентного спуска.^[4] SVM, использующие функцию потерь шарнира, также могут быть решены с использованием квадратичное программирование.

Минимизатор ${ displaystyle I [f]}$ для функции потерь шарнира

{ displaystyle f _ { text {Hinge}} ^ {*} ({ vec {x}}) ; = ; { begin {cases} 1 & { text {if}} p (1 mid { vec {x}})> p (-1 mid { vec {x}}) - 1 & { text {if}} p (1 mid { vec {x}})

когда ${ Displaystyle р (1 середина х) neq 0,5}$ , что соответствует функции индикатора 0–1. Этот вывод делает потерю петли весьма привлекательной, поскольку можно установить границы разницы между ожидаемым риском и знаком функции потерь петли.^[1] Потери на шарнире не могут быть получены из (2), поскольку ${ displaystyle f _ { text {шарнир}} ^ {*}}$ не обратима.

Общая потеря плавности шарнира

Обобщенная функция потерь гладкого шарнира с параметром ${ displaystyle alpha}$ определяется как

{ displaystyle f _ { alpha} ^ {*} (z) ; = ; { begin {cases} { frac { alpha} { alpha +1}} - z & { text {if}} z leq 0 { frac {1} { alpha +1}} z ^ { alpha +1} -z + { frac { alpha} { alpha +1}} & { text {if}} 0

куда

{ displaystyle z = yf ({ vec {x}}).}

Он монотонно возрастает и достигает 0, когда ${ displaystyle z = 1}$ .