Доказательства с использованием обыкновенных наименьших квадратов - Proofs involving ordinary least squares

Цель этой страницы - предоставить дополнительные материалы для обыкновенный метод наименьших квадратов статья, уменьшая загруженность основной статьи математикой и улучшая ее доступность, сохраняя при этом полноту изложения.

Вывод нормальных уравнений

Определить th остаточный быть

Тогда цель можно переписать

При условии S выпуклый, это минимизированный когда его вектор градиента равен нулю (Это следует по определению: если вектор градиента не равен нулю, есть направление, в котором мы можем двигаться, чтобы минимизировать его еще больше - см. максимумы и минимумы.) Элементы вектора градиента являются частными производными от S по параметрам:

Производные:

Подстановка выражений для невязок и производных в уравнения градиента дает

Таким образом, если сводит к минимуму S, у нас есть

После перестановки получаем нормальные уравнения:

Нормальные уравнения записываются в матричных обозначениях как

(куда ИксТ это матрица транспонировать из Икс).

Решение нормальных уравнений дает вектор оптимальных значений параметров.

Вывод непосредственно через матрицы

Нормальные уравнения могут быть получены непосредственно из матричного представления задачи следующим образом. Цель - минимизировать

Здесь имеет размерность 1x1 (количество столбцов ), поэтому он является скаляром и равен своему собственному транспонированию, поэтому и количество, которое нужно минимизировать, становится

Дифференцировать это в отношении и приравнивание нулю для удовлетворения условий первого порядка дает

что эквивалентно приведенным выше нормальным уравнениям. Достаточным условием выполнения условий минимума второго порядка является выполнение условия иметь полный ранг столбца, и в этом случае является положительно определенный.

Вывод без исчисления

Когда положительно определена, формула минимизирующего значения может быть получен без использования производных. Количество

можно записать как

куда зависит только от и , и это внутренний продукт определяется

Следует, что равно

и поэтому минимизируется именно тогда, когда

Обобщение для сложных уравнений

В общем случае коэффициенты матриц и может быть сложным. Используя Эрмитово транспонирование вместо простого транспонирования можно найти вектор что сводит к минимуму , как и в случае вещественной матрицы. Чтобы получить нормальные уравнения, мы идем по тому же пути, что и в предыдущих выводах:

куда расшифровывается как эрмитово транспонирование.

Теперь мы должны взять производные от по каждому из коэффициентов , но сначала мы разделяем действительную и мнимую части, чтобы иметь дело с сопряженными факторами в приведенном выше выражении. Для у нас есть

а производные превращаются в

После переписывания в форме суммирования и записи явно, мы можем вычислить обе частные производные с результатом:

которое после сложения и сравнения с нулем (условие минимизации для ) дает

В матричной форме:

Оценка методом наименьших квадратов для β

Используя матричные обозначения, сумма квадратов остатков определяется как

Поскольку это квадратичное выражение, вектор, дающий глобальный минимум, можно найти с помощью матричное исчисление дифференцированием по вектору (используя макет знаменателя) и установив равным нулю:

По матрице предположений Икс имеет полный ранг столбца, и поэтому ИксТИкс обратима, и оценка методом наименьших квадратов для β дан кем-то

Беспристрастность и вариативность

Затыкать у =  + ε в формулу для а затем используйте закон полного ожидания:

где E [ε|Икс] = 0 по предположениям модели. Поскольку ожидаемое значение равен параметру, который он оценивает, , это объективный оценщик из .

Для дисперсии пусть ковариационная матрица быть (куда это личность матрица) .Тогда

где мы использовали тот факт, что это просто аффинное преобразование из по матрице .

Для простой модели линейной регрессии, где ( это у-перехват и - наклон), получаем

Ожидаемая ценность и необъективность

Сначала мы вставим выражение для у в оценщик и используйте тот факт, что X'M = MX = 0 (матрица M проекции на пространство, ортогональное Икс):

Теперь мы можем распознать ε как матрица 1 × 1, такая матрица равна своей собственной след. Это полезно, потому что по свойствам оператора трассировки tr(AB) = tr(BA), и мы можем использовать это для разделения помех ε из матрицы M которая является функцией регрессоров Икс:

С использованием Закон повторного ожидания это можно записать как

Напомним, что M = я − п куда п проекция на линейное пространство, натянутое на столбцы матрицы Икс. По свойствам матрица проекции, она имеет п = ранг (Икс) собственные значения равны 1, а все остальные собственные значения равны 0. След матрицы равен сумме ее характеристических значений, поэтому tr (п) = п, а tr (M) = п − п. Следовательно,

Поскольку ожидаемое значение не соответствует оцениваемому параметру, , это предвзятый оценщик из . Примечание в следующем разделе «Максимальная вероятность» мы показываем, что при дополнительном предположении, что ошибки распределены нормально, оценка пропорционально распределению хи-квадрат с п – п степеней свободы, из которых немедленно следует формула ожидаемого значения. Однако результат, который мы показали в этом разделе, действителен независимо от распределения ошибок и, следовательно, имеет самостоятельное значение.

Непротиворечивость и асимптотическая нормальность

Оценщик можно записать как

Мы можем использовать закон больших чисел установить, что

К Теорема Слуцкого и теорема о непрерывном отображении эти результаты могут быть объединены для обеспечения согласованности оценки :

В Центральная предельная теорема говорит нам, что

куда

Применение Теорема Слуцкого снова у нас будет

Подход максимального правдоподобия

Оценка максимального правдоподобия - это общий метод оценки неизвестных параметров в статистической модели путем построения логарифмической функции правдоподобия, соответствующей совместному распределению данных, с последующим максимизацией этой функции по всем возможным значениям параметров. Чтобы применить этот метод, мы должны сделать предположение о распределении y при заданном X, чтобы можно было построить логарифмическую функцию правдоподобия. Связь оценки максимального правдоподобия с OLS возникает, когда это распределение моделируется как многомерный нормальный.

В частности, предположим, что ошибки ε имеют многомерное нормальное распределение со средним значением 0 и матрицей дисперсии σ2я. Тогда распределение у условно на Икс является

и функция логарифма правдоподобия данных будет

Дифференцируя это выражение относительно β и σ2 мы найдем ML-оценки этих параметров:

Мы можем убедиться, что это действительно максимум, посмотрев на Матрица Гессе логарифмической функции правдоподобия.

Распределение по конечной выборке

Поскольку в этом разделе мы предположили, что распределение членов ошибок заведомо нормальное, становится возможным получить явные выражения для распределений оценок и :

так что свойства аффинного преобразования многомерного нормального распределения

Аналогичным образом распределение следует из

куда симметричный матрица проекции на подпространство, ортогональное Икс, и поэтому MX = ИксM = 0. Мы спорили перед что эта матрица ранга п – п, а значит, по свойствам распределение хи-квадрат,

Более того, оценщики и оказалось независимый (при условии Икс), факт, который является фундаментальным для построения классических t- и F-тестов. Независимость легко увидеть из следующего: оценщик представляет собой коэффициенты векторного разложения на основе столбцов Икс, в качестве таких является функцией . В то же время оценщик норма вектора деленное на п, и, таким образом, эта оценка является функцией . Теперь случайные величины (, ) совместно нормальны как линейное преобразование ε, и они также некоррелированы, потому что ВЕЧЕРА = 0. По свойствам многомерного нормального распределения это означает, что и независимы, поэтому оценки и также будет независимым.

Вывод простых оценок линейной регрессии

Мы ищем и которые минимизируют сумму квадратов ошибок (SSE):

Чтобы найти минимум, возьмем частные производные по и

Прежде чем брать частную производную по , замените предыдущий результат на

Теперь возьмем производную по :

И наконец замените определить