Регуляризация с помощью спектральной фильтрации - Regularization by spectral filtering

Спектральная регуляризация любой из класса регуляризация методы, используемые в машинное обучение контролировать воздействие шума и предотвращать переоснащение. Спектральная регуляризация может использоваться в широком спектре приложений, от устранения размытости изображений до классификации электронных писем в папку для спама и папку без спама. Например, в примере классификации электронной почты спектральная регуляризация может использоваться для уменьшения воздействия шума и предотвращения переобучения, когда система машинного обучения обучается на помеченном наборе электронных писем, чтобы научиться распознавать спам и не спам. Кроме.

Алгоритмы спектральной регуляризации основаны на методах, которые изначально были определены и изучены в теории некорректно обратные задачи (например, см.[1]) с упором на обращение линейного оператора (или матрицы), который, возможно, имеет плохую номер условия или неограниченное обратное. В этом контексте регуляризация сводится к замене исходного оператора на ограниченный оператор, называемый «оператором регуляризации», у которого есть номер условия, управляемый параметром регуляризации,[2] классический пример Тихоновская регуляризация. Для обеспечения стабильности этот параметр регуляризации настраивается в зависимости от уровня шума.[2] Основная идея спектральной регуляризации заключается в том, что каждый оператор регуляризации может быть описан с использованием спектрального исчисления в качестве подходящего фильтра на собственные значения оператора, определяющего проблему, и роль фильтра заключается в «подавлении колебательного поведения, соответствующего малым собственным значениям». .[2] Следовательно, каждый алгоритм в классе алгоритмов спектральной регуляризации определяется подходящей функцией фильтрации (которая должна быть получена для этого конкретного алгоритма). Три из наиболее часто используемых алгоритмов регуляризации, для которых спектральная фильтрация хорошо изучена, - это регуляризация Тихонова, Итерация Ландвебера, и усеченное сингулярное разложение (ЦВД). Что касается выбора параметра регуляризации, примеры возможных методов вычисления этого параметра включают принцип невязки, обобщенный перекрестная проверка, и критерий L-кривой.[3]

Следует отметить, что понятие спектральной фильтрации, изучаемое в контексте машинного обучения, тесно связано с литературой по аппроксимация функции (при обработке сигналов).

Обозначение

Обучающий набор определяется как , куда это входная матрица и - выходной вектор. Там, где это применимо, функция ядра обозначается как , а матрица ядра обозначается в котором есть записи и обозначает Воспроизведение гильбертова пространства ядра (РХС) с ядром . Параметр регуляризации обозначается как .

(Примечание: для и , с и являются гильбертовыми пространствами, заданными линейным непрерывным оператором , предположить, что держит. В этом случае прямая проблема будет заключаться в решении для данный а обратная задача - решить для данный . Если решение существует, единственно и устойчиво, обратная задача (т.е. проблема решения для ) хорошо поставлена; в противном случае это некорректно.)

Отношение к теории некорректных обратных задач

Связь между задачей оценивания регуляризованных наименьших квадратов (RLS) (установка регуляризации Тихонова) и теорией некорректных обратных задач является примером того, как алгоритмы спектральной регуляризации связаны с теорией некорректных обратных задач.

Оценщик RLS решает

и RKHS позволяет выразить эту оценку RLS как куда с .[4] Термин пенализации используется для контроля плавности и предотвращения переобучения. Поскольку решение минимизации эмпирического риска можно записать как такой, что , добавление штрафной функции приводит к следующему изменению в системе, которое необходимо решить:[5]

В этой настройке обучения матрица ядра может быть разложена как , с

и - соответствующие собственные векторы. Таким образом, в начальной настройке обучения выполняется следующее:

Таким образом, для небольших собственных значений даже небольшие возмущения в данных могут привести к значительным изменениям в решении. Следовательно, проблема плохо обусловлена, и решение этой проблемы RLS сводится к стабилизации, возможно, плохо обусловленной задачи обращения матрицы, которая изучается в теории некорректно поставленных обратных задач; в обеих задачах главное внимание уделяется проблеме числовой устойчивости.

Реализация алгоритмов

Каждый алгоритм в классе алгоритмов спектральной регуляризации определяется подходящей функцией фильтра, обозначенной здесь как . Если матрицу ядра обозначить как , тогда должен контролировать величину меньших собственных значений . В настройке фильтрации цель состоит в том, чтобы найти оценщики куда . Для этого скалярная функция фильтра определяется с помощью собственного разложения матрицы ядра:

что дает

Как правило, соответствующая функция фильтра должна иметь следующие свойства:[5]

1. Как идет в ноль, .

2. Величина (меньших) собственных значений контролируется .

Хотя приведенные выше пункты дают приблизительную характеристику общих свойств функций фильтрации для всех алгоритмов спектральной регуляризации, вывод функции фильтра (и, следовательно, ее точная форма) варьируется в зависимости от конкретного метода регуляризации, к которому применяется спектральная фильтрация.

Функция фильтра для регуляризации Тихонова

В настройке регуляризации Тихонова функция фильтрации для RLS описана ниже. Как показано в,[4] в этой обстановке, . Таким образом,

Нежелательные компоненты отфильтровываются с помощью регуляризации:

  • Если , тогда .
  • Если , тогда .

Таким образом, функция фильтра для регуляризации Тихонова определяется как:[5]

Функция фильтра для итерации Ландвебера

Идея итерации Ландвебера заключается в градиентный спуск:[5]

В этой настройке, если больше чем наибольшее собственное значение, указанная выше итерация сходится, выбирая как размер шага :.[5] Вышеупомянутая итерация эквивалентна минимизации (т.е. эмпирический риск) посредством градиентного спуска; по индукции можно доказать, что при -й итерации решение дается формулой [5]

Таким образом, соответствующая функция фильтра определяется следующим образом:

Можно показать, что эта функция фильтра соответствует усеченному разложению по мощности ;[5] чтобы увидеть это, обратите внимание, что отношение , все равно будет держаться, если заменяется матрицей; таким образом, если (матрица ядра), а точнее , считается, выполняется следующее:

В этой настройке количество итераций дает параметр регуляризации; грубо говоря, .[5] Если большой, переоснащение может быть проблемой. Если мала, чрезмерное сглаживание может вызывать беспокойство. Таким образом, выбор подходящего времени для ранней остановки итераций обеспечивает эффект регуляризации.

Функция фильтра для ЦВД

В настройке TSVD, учитывая собственное разложение и используя заданный порог , регуляризованная инверсия может быть сформирована для матрицы ядра путем отбрасывания всех собственных значений, которые меньше этого порога.[5]Таким образом, функцию фильтра для TSVD можно определить как

Можно показать, что TSVD эквивалентен (неконтролируемой) проекции данных с использованием (ядра) Анализ главных компонентов (PCA), и что это также эквивалентно минимизации эмпирического риска для прогнозируемых данных (без регуляризации).[5] Обратите внимание, что количество компонентов, сохраняемых для проекции, является единственным свободным параметром здесь.

Рекомендации

  1. ^ Х. В. Энгл, М. Ханке и А. Нойбауэр. Регуляризация обратных задач. Клювер, 1996.
  2. ^ а б c Л. Ло Герфо, Л. Росаско, Ф. Одоне, Э. Де Вито и А. Верри. Спектральные алгоритмы контролируемого обучения, Нейронные вычисления, 20(7), 2008.
  3. ^ П. К. Хансен, Дж. Г. Надь и Д. П. О'Лири. Удаление размытых изображений: матрицы, спектры и фильтрация, Основы алгоритмов 3, SIAM, Филадельфия, 2006.
  4. ^ а б Л. Росаско. Лекция 6 конспекта лекций для 9.520: Статистическая теория обучения и приложения. Массачусетский технологический институт, осень 2013 г. Доступно по адресу https://www.mit.edu/~9.520/fall13/slides/class06/class06_RLSSVM.pdf
  5. ^ а б c d е ж грамм час я j Л. Росаско. Лекция 7 конспектов лекции для 9.520: Статистическая теория обучения и ее приложения. Массачусетский технологический институт, осень 2013 г. Доступно по адресу https://www.mit.edu/~9.520/fall13/slides/class07/class07_spectral.pdf