Нелинейный метод наименьших квадратов - Non-linear least squares

Нелинейный метод наименьших квадратов это форма наименьших квадратов анализ используется для соответствия набору м наблюдения с моделью, которая нелинейна по п неизвестные параметры (м ≥ п). Он используется в некоторых формах нелинейная регрессия. В основе метода - аппроксимация модели линейной и уточнение параметров последовательными итерациями. Есть много общего с линейный метод наименьших квадратов, но и некоторые значительные различия. В экономической теории нелинейный метод наименьших квадратов применяется в (i) пробит-регрессии, (ii) пороговой регрессии, (iii) гладкой регрессии, (iv) регрессии логистических связей, (v) регрессорах с преобразованием Бокса-Кокса ().

Теория

Рассмотрим набор точки данных, и кривая (модельная функция) что в дополнение к переменной также зависит от параметры, с Требуется найти вектор таких параметров, что кривая наилучшим образом соответствует заданным данным в смысле наименьших квадратов, то есть сумма квадратов

минимизируется, где остатки (ошибки предсказания в выборке) ря даны

за

В минимум значение S происходит, когда градиент равно нулю. Поскольку модель содержит п параметры есть п уравнения градиента:

В нелинейной системе производные являются функциями как независимой переменной, так и параметров, поэтому в общем случае эти градиентные уравнения не имеют замкнутого решения. Вместо этого для параметров должны быть выбраны начальные значения. Затем параметры уточняются итеративно, то есть значения получаются методом последовательного приближения,

Здесь, k - номер итерации и вектор приращений, известен как вектор сдвига. На каждой итерации модель линеаризуется приближением к первому порядку. Полином Тейлора расширение о

В Якобиан, J, является функцией констант, независимая переменная и параметры, поэтому он меняется от одной итерации к другой. Таким образом, с точки зрения линеаризованной модели, а остатки равны

Подставляя эти выражения в уравнения градиента, они становятся

которые при перестановке становятся п совместных линейных уравнений, нормальные уравнения

Нормальные уравнения записываются в матричных обозначениях как

Когда наблюдения не являются одинаково надежными, взвешенная сумма квадратов может быть минимизирована,

Каждый элемент диагональ матрица весов W в идеале должно быть равно обратной величине ошибки отклонение измерения.[1] Тогда нормальные уравнения имеют вид

Эти уравнения составляют основу Алгоритм Гаусса – Ньютона для нелинейной задачи наименьших квадратов.

Геометрическая интерпретация

В линейных наименьших квадратах целевая функция, S, это квадратичная функция параметров.

Когда есть только один параметр, график S по этому параметру будет парабола. При двух и более параметрах контуры S по любой паре параметров будет концентрическим эллипсы (предполагая, что матрица нормальных уравнений является положительно определенный ). Минимальные значения параметров находятся в центре эллипсов. Геометрию общей целевой функции можно описать как параболоид эллиптической формы. В NLLSQ целевая функция квадратична по параметрам только в области, близкой к ее минимальному значению, где усеченный ряд Тейлора является хорошим приближением к модели.

Чем больше значения параметров отличаются от своих оптимальных значений, тем больше контуры отклоняются от эллиптической формы. Следствием этого является то, что начальные оценки параметров должны быть как можно ближе к их (неизвестным!) Оптимальным значениям. Это также объясняет, как может возникнуть дивергенция, поскольку алгоритм Гаусса – Ньютона сходится только тогда, когда целевая функция приблизительно квадратична по параметрам.

Вычисление

Оценки начальных параметров

Некоторые проблемы плохой обусловленности и расхождения можно исправить, найдя начальные оценки параметров, близкие к оптимальным значениям. Хороший способ сделать это - компьютерное моделирование. И наблюдаемые, и расчетные данные отображаются на экране. Параметры модели настраиваются вручную до тех пор, пока соответствие между наблюдаемыми и расчетными данными не станет достаточно хорошим. Хотя это будет субъективное суждение, его достаточно, чтобы найти хорошую отправную точку для нелинейного уточнения. Начальные оценки параметров могут быть созданы с помощью преобразований или линеаризации. Более совершенные эволюционные алгоритмы, такие как алгоритм стохастической воронки, могут привести к выпуклому бассейну притяжения, окружающему оптимальные оценки параметров. Было показано, что гибридные алгоритмы, использующие рандомизацию и элитарность, за которыми следуют методы Ньютона, являются полезными и эффективными с точки зрения вычислений.

Решение

Любой метод из описанных ниже можно применить для поиска решения.

Критерии сходимости

Критерий сходимости, основанный на здравом смысле, состоит в том, что сумма квадратов не уменьшается от одной итерации к следующей. Однако этот критерий часто бывает трудно реализовать на практике по разным причинам. Полезный критерий сходимости:

Значение 0,0001 несколько произвольно и может нуждаться в изменении. В частности, его может потребоваться увеличить, если экспериментальные ошибки велики. Альтернативный критерий:

Опять же, числовое значение несколько произвольно; 0,001 эквивалентно указанию того, что каждый параметр должен быть уточнен с точностью до 0,1%. Это разумно, когда оно меньше наибольшего относительного стандартного отклонения параметров.

Вычисление якобиана численным приближением

Есть модели, для которых очень сложно или даже невозможно получить аналитические выражения для элементов якобиана. Тогда численное приближение

получается путем расчета за и . Приращение,, размер следует выбирать так, чтобы числовая производная не подвергалась ошибке аппроксимации из-за слишком большого размера, или округлять ошибка из-за того, что она слишком мала.

Ошибки параметров, доверительные границы, остатки и т. Д.

Некоторая информация приведена в соответствующий раздел на линейный метод наименьших квадратов страница.

Множественные минимумы

Множественные минимумы могут возникать при различных обстоятельствах, некоторые из которых:

  • Параметр возводится в степень двойки или более. Например, при подгонке данных к Лоренциан изгиб

куда высота, это позиция и - полуширина на половине высоты, есть два решения для полуширины, и которые дают такое же оптимальное значение для целевой функции.

  • Два параметра можно менять местами без изменения значения модели. Простой пример - модель содержит произведение двух параметров, поскольку даст то же значение, что и .
  • Параметр находится в тригонометрической функции, например , который имеет одинаковые значения при . Видеть Алгоритм Левенберга – Марквардта для примера.

Не все множественные минимумы имеют равные значения целевой функции. Ложные минимумы, также известные как локальные минимумы, возникают, когда значение целевой функции больше, чем ее значение на так называемом глобальном минимуме. Чтобы быть уверенным, что найденный минимум является глобальным минимумом, уточнение следует начинать с сильно различающихся начальных значений параметров. Когда один и тот же минимум найден независимо от начальной точки, он, скорее всего, будет глобальным минимумом.

Когда существует несколько минимумов, возникает важное последствие: целевая функция будет иметь максимальное значение где-то между двумя минимумами. Матрица нормальных уравнений не является положительно определенной в максимуме целевой функции, так как градиент равен нулю и не существует единственного направления спуска. Уточнение от точки (набора значений параметров), близкой к максимуму, будет плохо обусловлено, и его следует избегать в качестве отправной точки. Например, при подборе лоренцевой матрицы нормальная матрица уравнений не является положительно определенной, если полуширина полосы равна нулю.[2]

Преобразование к линейной модели

Иногда нелинейную модель можно преобразовать в линейную. Например, когда модель представляет собой простую экспоненциальную функцию,

ее можно преобразовать в линейную модель путем логарифмирования.

Графически это соответствует работе над полулогарифмический сюжет. Сумма квадратов становится

Этой процедуры следует избегать, если только ошибки не являются мультипликативными и лог-нормально распределенный потому что это может привести к ошибочным результатам. Это происходит из-за того, что независимо от экспериментальных ошибок у может быть, ошибки на войти y разные. Следовательно, при минимизации преобразованной суммы квадратов будут получены разные результаты как для значений параметров, так и для их рассчитанных стандартных отклонений. Однако с мультипликативными ошибками, которые распределены нормально логарифмически, эта процедура дает несмещенные и согласованные оценки параметров.

Другой пример представлен Кинетика Михаэлиса – Ментен, используется для определения двух параметров и :

.

В Заговор Лайнуивера – Берка

из против линейна по параметрам и , но очень чувствителен к ошибкам данных и сильно склонен к подгонке данных в конкретный диапазон независимой переменной .

Алгоритмы

Метод Гаусса – Ньютона

Нормальные уравнения

может быть решен для к Разложение Холецкого, как описано в линейный метод наименьших квадратов. Параметры обновляются итеративно

куда k - номер итерации. Хотя этот метод может быть подходящим для простых моделей, он потерпит неудачу, если произойдет расхождение. Следовательно, защита от расхождения имеет важное значение.

Посменная резка

Если происходит расхождение, простой способ - уменьшить длину вектора сдвига, , дробно, ж

Например, длина вектора сдвига может быть последовательно уменьшена вдвое, пока новое значение целевой функции не станет меньше, чем ее значение на последней итерации. Дробь, ж может быть оптимизирован линейный поиск.[3] Поскольку каждое пробное значение ж требует пересчета целевой функции, поэтому не стоит слишком строго оптимизировать ее значение.

При использовании переключения со сдвигом направление вектора сдвига не изменяется. Это ограничивает применимость метода к ситуациям, когда направление вектора сдвига не сильно отличается от того, что было бы, если бы целевая функция была приблизительно квадратичной по параметрам,

Параметр Марквардта

Если происходит расхождение и направление вектора сдвига настолько далеко от его «идеального» направления, что срезание сдвига не очень эффективно, то есть дробь, ж Требуется избежать расхождения очень мало, направление нужно менять. Этого можно добиться, используя Marquardt параметр.[4] В этом методе модифицируются нормальные уравнения.

куда - параметр Марквардта и я является единичной матрицей. Повышение стоимости имеет эффект изменения направления и длины вектора сдвига. Вектор сдвига поворачивается в направлении крутой спуск

когда

- вектор наискорейшего спуска. Так когда становится очень большим, вектор сдвига становится малой частью вектора наискорейшего спуска.

Предлагались различные стратегии определения параметра Марквардта. Как и при посменной резке, слишком строго оптимизировать этот параметр расточительно. Напротив, после того, как было найдено значение, которое вызывает уменьшение значения целевой функции, это значение параметра переносится на следующую итерацию, уменьшается, если возможно, или увеличивается, если необходимо. При уменьшении значения параметра Марквардта существует пороговое значение, ниже которого его можно безопасно установить на ноль, то есть продолжить использование немодифицированного метода Гаусса – Ньютона. Значение отсечки может быть установлено равным наименьшему сингулярному значению якобиана.[5] Граница для этого значения дается .[6]

QR-разложение

Минимум суммы квадратов может быть найден методом, не предполагающим составления нормальных уравнений. Остатки с линеаризованной моделью можно записать как

Якобиан подвергается ортогональному разложению; в QR-разложение будет служить для иллюстрации процесса.

куда Q является ортогональный матрица и р является матрица, которая разделенный в блокировать, , а нулевой блок. верхнетреугольный.

Остаточный вектор умножается слева на .

Это не влияет на сумму квадратов, поскольку потому что Q является ортогональный Минимальное значение S достигается, когда верхний блок равен нулю. Следовательно, вектор сдвига находится путем решения

Эти уравнения легко решаются как р верхнетреугольный.

Разложение по сингулярным числам

Вариант метода ортогональной декомпозиции включает разложение по сингулярным числам, в котором р диагонализуется дальнейшими ортогональными преобразованиями.

куда ортогонален, - диагональная матрица сингулярных чисел и - ортогональная матрица собственных векторов или, что то же самое, правые сингулярные векторы . В этом случае вектор сдвига определяется выражением

Относительная простота этого выражения очень полезна при теоретическом анализе нелинейных наименьших квадратов. Применение разложения по сингулярным числам подробно обсуждается у Лоусона и Хэнсона.[5]

Градиентные методы

В научной литературе есть много примеров, когда различные методы использовались для нелинейных задач аппроксимации данных.

Матрица ЧАС известен как Матрица Гессе. Хотя эта модель имеет лучшие свойства сходимости вблизи минимума, она намного хуже, когда параметры далеки от своих оптимальных значений. Расчет гессиана усложняет алгоритм. Этот метод не используется повсеместно.
  • Метод Дэвидона – Флетчера – Пауэлла. Этот метод, разновидность метода псевдоньютона, аналогичен приведенному выше, но вычисляет гессиан путем последовательного приближения, чтобы избежать использования аналитических выражений для вторых производных.
  • Крутой спуск. Хотя уменьшение суммы квадратов гарантируется, когда вектор сдвига указывает в направлении наискорейшего спуска, этот метод часто работает плохо. Когда значения параметров далеки от оптимальных, направление вектора наискорейшего спуска, которое перпендикулярно (перпендикулярно) контурам целевой функции, сильно отличается от направления вектора Гаусса – Ньютона. Это делает расхождение гораздо более вероятным, особенно потому, что минимум вдоль направления наискорейшего спуска может соответствовать небольшой части длины вектора наискорейшего спуска. Когда контуры целевой функции очень эксцентричны из-за высокой корреляции между параметрами, итерации наискорейшего спуска со сдвигом следуют по медленной зигзагообразной траектории к минимуму.
  • Поиск сопряженных градиентов. Это улучшенный метод наискорейшего спуска с хорошими теоретическими свойствами сходимости, хотя он может дать сбой на цифровых компьютерах конечной точности даже при использовании для решения квадратичных задач.[7]

Методы прямого поиска

Методы прямого поиска зависят от оценок целевой функции при различных значениях параметров и вообще не используют производные. Они предлагают альтернативы использованию численных производных в методе Гаусса – Ньютона и градиентных методах.

  • Поиск переменных переменных.[3] Каждый параметр изменяется по очереди путем добавления к нему фиксированного или переменного приращения и сохранения значения, которое приводит к уменьшению суммы квадратов. Этот метод прост и эффективен, когда параметры не сильно коррелированы. Он имеет очень плохие свойства сходимости, но может быть полезен для поиска начальных оценок параметров.
  • Поиск Нелдера – Мида (симплексный). А симплекс в этом контексте многогранник из п + 1 вершина в п размеры; треугольник на плоскости, тетраэдр в трехмерном пространстве и так далее. Каждая вершина соответствует значению целевой функции для определенного набора параметров. Форма и размер симплекса регулируются путем изменения параметров таким образом, чтобы значение целевой функции в самой высокой вершине всегда уменьшалось. Хотя сумма квадратов может сначала быстро уменьшаться, она может сходиться к нестационарной точке в квазивыпуклых задачах, на примере М. Дж. Д. Пауэлла.

Более подробные описания этих и других методов доступны в Числовые рецепты вместе с компьютерным кодом на разных языках.

Смотрите также

Рекомендации

  1. ^ Это означает, что наблюдения некоррелированы. Если наблюдения коррелированный, выражение
    применяется. В этом случае весовая матрица в идеале должна быть равна обратной величине ошибки ковариационная матрица наблюдений.
  2. ^ В отсутствие ошибка округления а из-за экспериментальной ошибки в независимой переменной матрица нормальных уравнений была бы сингулярной
  3. ^ а б М.Дж. Бокс, Д. Дэвис и У. Суонн, Нелинейные методы оптимизации, Оливер и Бойд, 1969 г.
  4. ^ Этот метод был независимо предложен Левенбергом (1944), Жираром (1958), Винном (1959), Моррисоном (1960) и Марквардтом (1963). Одно только имя Марквардта используется для этого в большей части научной литературы.
  5. ^ а б C.L. Лоусон и Р.Дж. Хэнсон, Решение задач наименьших квадратов, Прентис – Холл, 1974 г.
  6. ^ Р. Флетчер, Отчет UKAEA AERE-R 6799, H.M. Канцелярия, 1971 год
  7. ^ М. Дж. Д. Пауэлл, Компьютерный журнал, (1964), 7, 155.

дальнейшее чтение

  • Келли, К. Т. (1999). Итерационные методы оптимизации (PDF). SIAM Frontiers в прикладной математике. № 18. ISBN  0-89871-433-8.
  • Струтц, Т. (2016). Подгонка данных и неопределенность: практическое введение в взвешенный метод наименьших квадратов и не только (2-е изд.). Springer Vieweg. ISBN  978-3-658-11455-8.