Регуляризация с помощью спектральной фильтрации - Regularization by spectral filtering
Спектральная регуляризация любой из класса регуляризация методы, используемые в машинное обучение контролировать воздействие шума и предотвращать переоснащение. Спектральная регуляризация может использоваться в широком спектре приложений, от устранения размытости изображений до классификации электронных писем в папку для спама и папку без спама. Например, в примере классификации электронной почты спектральная регуляризация может использоваться для уменьшения воздействия шума и предотвращения переобучения, когда система машинного обучения обучается на помеченном наборе электронных писем, чтобы научиться распознавать спам и не спам. Кроме.
Алгоритмы спектральной регуляризации основаны на методах, которые изначально были определены и изучены в теории некорректно обратные задачи (например, см.[1]) с упором на обращение линейного оператора (или матрицы), который, возможно, имеет плохую номер условия или неограниченное обратное. В этом контексте регуляризация сводится к замене исходного оператора на ограниченный оператор, называемый «оператором регуляризации», у которого есть номер условия, управляемый параметром регуляризации,[2] классический пример Тихоновская регуляризация. Для обеспечения стабильности этот параметр регуляризации настраивается в зависимости от уровня шума.[2] Основная идея спектральной регуляризации заключается в том, что каждый оператор регуляризации может быть описан с использованием спектрального исчисления в качестве подходящего фильтра на собственные значения оператора, определяющего проблему, и роль фильтра заключается в «подавлении колебательного поведения, соответствующего малым собственным значениям». .[2] Следовательно, каждый алгоритм в классе алгоритмов спектральной регуляризации определяется подходящей функцией фильтрации (которая должна быть получена для этого конкретного алгоритма). Три из наиболее часто используемых алгоритмов регуляризации, для которых спектральная фильтрация хорошо изучена, - это регуляризация Тихонова, Итерация Ландвебера, и усеченное сингулярное разложение (ЦВД). Что касается выбора параметра регуляризации, примеры возможных методов вычисления этого параметра включают принцип невязки, обобщенный перекрестная проверка, и критерий L-кривой.[3]
Следует отметить, что понятие спектральной фильтрации, изучаемое в контексте машинного обучения, тесно связано с литературой по аппроксимация функции (при обработке сигналов).
Обозначение
Обучающий набор определяется как , куда это входная матрица и - выходной вектор. Там, где это применимо, функция ядра обозначается как , а матрица ядра обозначается в котором есть записи и обозначает Воспроизведение гильбертова пространства ядра (РХС) с ядром . Параметр регуляризации обозначается как .
(Примечание: для и , с и являются гильбертовыми пространствами, заданными линейным непрерывным оператором , предположить, что держит. В этом случае прямая проблема будет заключаться в решении для данный а обратная задача - решить для данный . Если решение существует, единственно и устойчиво, обратная задача (т.е. проблема решения для ) хорошо поставлена; в противном случае это некорректно.)
Отношение к теории некорректных обратных задач
Связь между задачей оценивания регуляризованных наименьших квадратов (RLS) (установка регуляризации Тихонова) и теорией некорректных обратных задач является примером того, как алгоритмы спектральной регуляризации связаны с теорией некорректных обратных задач.
Оценщик RLS решает
и RKHS позволяет выразить эту оценку RLS как куда с .[4] Термин пенализации используется для контроля плавности и предотвращения переобучения. Поскольку решение минимизации эмпирического риска можно записать как такой, что , добавление штрафной функции приводит к следующему изменению в системе, которое необходимо решить:[5]
В этой настройке обучения матрица ядра может быть разложена как , с
и - соответствующие собственные векторы. Таким образом, в начальной настройке обучения выполняется следующее:
Таким образом, для небольших собственных значений даже небольшие возмущения в данных могут привести к значительным изменениям в решении. Следовательно, проблема плохо обусловлена, и решение этой проблемы RLS сводится к стабилизации, возможно, плохо обусловленной задачи обращения матрицы, которая изучается в теории некорректно поставленных обратных задач; в обеих задачах главное внимание уделяется проблеме числовой устойчивости.
Реализация алгоритмов
Каждый алгоритм в классе алгоритмов спектральной регуляризации определяется подходящей функцией фильтра, обозначенной здесь как . Если матрицу ядра обозначить как , тогда должен контролировать величину меньших собственных значений . В настройке фильтрации цель состоит в том, чтобы найти оценщики куда . Для этого скалярная функция фильтра определяется с помощью собственного разложения матрицы ядра:
что дает
Как правило, соответствующая функция фильтра должна иметь следующие свойства:[5]
1. Как идет в ноль, .
2. Величина (меньших) собственных значений контролируется .
Хотя приведенные выше пункты дают приблизительную характеристику общих свойств функций фильтрации для всех алгоритмов спектральной регуляризации, вывод функции фильтра (и, следовательно, ее точная форма) варьируется в зависимости от конкретного метода регуляризации, к которому применяется спектральная фильтрация.
Функция фильтра для регуляризации Тихонова
В настройке регуляризации Тихонова функция фильтрации для RLS описана ниже. Как показано в,[4] в этой обстановке, . Таким образом,
Нежелательные компоненты отфильтровываются с помощью регуляризации:
- Если , тогда .
- Если , тогда .
Таким образом, функция фильтра для регуляризации Тихонова определяется как:[5]
Функция фильтра для итерации Ландвебера
Идея итерации Ландвебера заключается в градиентный спуск:[5]
В этой настройке, если больше чем наибольшее собственное значение, указанная выше итерация сходится, выбирая как размер шага :.[5] Вышеупомянутая итерация эквивалентна минимизации (т.е. эмпирический риск) посредством градиентного спуска; по индукции можно доказать, что при -й итерации решение дается формулой [5]
Таким образом, соответствующая функция фильтра определяется следующим образом:
Можно показать, что эта функция фильтра соответствует усеченному разложению по мощности ;[5] чтобы увидеть это, обратите внимание, что отношение , все равно будет держаться, если заменяется матрицей; таким образом, если (матрица ядра), а точнее , считается, выполняется следующее:
В этой настройке количество итераций дает параметр регуляризации; грубо говоря, .[5] Если большой, переоснащение может быть проблемой. Если мала, чрезмерное сглаживание может вызывать беспокойство. Таким образом, выбор подходящего времени для ранней остановки итераций обеспечивает эффект регуляризации.
Функция фильтра для ЦВД
В настройке TSVD, учитывая собственное разложение и используя заданный порог , регуляризованная инверсия может быть сформирована для матрицы ядра путем отбрасывания всех собственных значений, которые меньше этого порога.[5]Таким образом, функцию фильтра для TSVD можно определить как
Можно показать, что TSVD эквивалентен (неконтролируемой) проекции данных с использованием (ядра) Анализ главных компонентов (PCA), и что это также эквивалентно минимизации эмпирического риска для прогнозируемых данных (без регуляризации).[5] Обратите внимание, что количество компонентов, сохраняемых для проекции, является единственным свободным параметром здесь.
Рекомендации
- ^ Х. В. Энгл, М. Ханке и А. Нойбауэр. Регуляризация обратных задач. Клювер, 1996.
- ^ а б c Л. Ло Герфо, Л. Росаско, Ф. Одоне, Э. Де Вито и А. Верри. Спектральные алгоритмы контролируемого обучения, Нейронные вычисления, 20(7), 2008.
- ^ П. К. Хансен, Дж. Г. Надь и Д. П. О'Лири. Удаление размытых изображений: матрицы, спектры и фильтрация, Основы алгоритмов 3, SIAM, Филадельфия, 2006.
- ^ а б Л. Росаско. Лекция 6 конспекта лекций для 9.520: Статистическая теория обучения и приложения. Массачусетский технологический институт, осень 2013 г. Доступно по адресу https://www.mit.edu/~9.520/fall13/slides/class06/class06_RLSSVM.pdf
- ^ а б c d е ж грамм час я j Л. Росаско. Лекция 7 конспектов лекции для 9.520: Статистическая теория обучения и ее приложения. Массачусетский технологический институт, осень 2013 г. Доступно по адресу https://www.mit.edu/~9.520/fall13/slides/class07/class07_spectral.pdf