Байесовский информационный критерий - Bayesian information criterion

В статистика, то Байесовский информационный критерий (BIC) или же Информационный критерий Шварца (также SIC, SBC, SBIC) является критерием выбор модели среди конечного набора моделей; модель с самым низким BIC является предпочтительной. Частично он основан на функция правдоподобия и это тесно связано с Информационный критерий Акаике (AIC).

При подборе моделей можно увеличить вероятность, добавив параметры, но это может привести к переоснащение. И BIC, и AIC пытаются решить эту проблему, вводя штрафной член для числа параметров в модели; срок штрафа больше в BIC, чем в AIC.

BIC был разработан Гидеоном Э. Шварцем и опубликован в статье 1978 г.[1] где он дал Байесовский аргумент в пользу его принятия.

Определение

BIC формально определяется как[2][а]

куда

  • = максимальное значение функция правдоподобия модели , т.е. , куда - значения параметров, максимизирующие функцию правдоподобия;
  • = наблюдаемые данные;
  • = количество точек данных в , количество наблюдения или, что то же самое, размер выборки;
  • = количество параметры оценивается по модели. Например, в множественная линейная регрессия, расчетные параметры - точка пересечения, параметры наклона и постоянная дисперсия ошибок; таким образом, .

Кониси и Китагава[4]:217 получить BIC для аппроксимации распределения данных, интегрируя параметры, используя Метод Лапласа, начиная со следующих модельное свидетельство:

куда является приоритетом для под моделью .

Журнал (вероятность), , затем расширяется до второго порядка Серия Тейлор о MLE, , предполагая, что он дважды дифференцируем следующим образом:

куда это средний наблюдаемая информация за наблюдение, и простое () обозначает транспонирование вектора . До такой степени, что незначительно и относительно линейно около , мы можем интегрировать получить следующее:

В качестве увеличивается, мы можем игнорировать и как они есть . Таким образом,

где BIC определяется, как указано выше, и либо (a) является байесовской апостериорной модой, либо (b) использует MLE и априорную имеет ненулевой наклон на MLE. Затем задняя

Характеристики

  • Это не зависит от приора.
  • Он может измерить эффективность параметризованной модели с точки зрения прогнозирования данных.
  • Он наказывает сложность модели, где сложность относится к количеству параметров в модели.
  • Это примерно равно минимальная длина описания критерий, но с отрицательным знаком.
  • Его можно использовать для выбора количества кластеров в соответствии с внутренней сложностью, присутствующей в конкретном наборе данных.
  • Это тесно связано с другими критериями вероятности наказания, такими как Информационный критерий отклонения и Информационный критерий Акаике.

Ограничения

У BIC есть два основных ограничения.[5]

  1. Приведенное выше приближение действительно только для размера выборки намного больше, чем число параметров в модели.
  2. BIC не может обрабатывать сложные коллекции моделей, как при выборе переменных (или выбор функции ) проблема в большой размерности.[5]

Гауссовский частный случай

В предположении, что ошибки или возмущения модели независимы и одинаково распределены в соответствии с нормальное распределение и что граничное условие, что производная от логарифмическая вероятность относительно истинной дисперсии равна нулю, это становится (с точностью до аддитивной постоянной, который зависит только от п а не на модели):[6]

куда - дисперсия ошибки. Дисперсия ошибки в этом случае определяется как

который является смещенной оценкой истинной дисперсии.

Что касается остаточная сумма квадратов (RSS) BIC

При тестировании нескольких линейных моделей по сравнению с насыщенной моделью, BIC можно переписать с точки зренияотклонение в качестве:[7]

куда - количество параметров модели в тесте.

При выборе из нескольких моделей предпочтительнее модель с самым низким BIC. BIC - это возрастающий функция дисперсии ошибки и возрастающая функция k. То есть необъяснимое изменение зависимая переменная а количество независимых переменных увеличивает ценность BIC. Следовательно, более низкий BIC подразумевает либо меньшее количество независимых переменных, либо лучшее соответствие, либо и то, и другое. Сила доказательств против модели с более высоким значением BIC можно резюмировать следующим образом:[7]

ΔBICДоказательства против более высокого BIC
От 0 до 2Не стоит больше упоминания
От 2 до 6Положительный
От 6 до 10Сильный
>10Очень сильный

BIC обычно наказывает свободные параметры сильнее, чем Информационный критерий Акаике, хотя это зависит от размера п и относительная величина п иk.

Важно помнить, что BIC можно использовать для сравнения оценочных моделей только тогда, когда числовые значения зависимой переменной[b] идентичны для всех сравниваемых моделей. Сравниваемые модели не обязательно вложенный, в отличие от случая, когда модели сравниваются с помощью F-тест или тест отношения правдоподобия.[нужна цитата ]

Смотрите также

Примечания

  1. ^ AIC, AICc и BIC, определенные Клаескенсом и Хьортом[3] являются отрицательными по отношению к тем, которые определены в этой статье и в большинстве других стандартных ссылок.
  2. ^ Зависимая переменная также называется переменная ответа или переменная результата. Видеть Регрессивный анализ.

Рекомендации

  1. ^ Шварц, Гидеон Э. (1978), "Оценка размерности модели", Анналы статистики, 6 (2): 461–464, Дои:10.1214 / aos / 1176344136, МИСТЕР  0468014.
  2. ^ Вит, Эрнст; Эдвин ван ден Хеувел; Ян-Виллем Ромейн (2012). "'Все модели ошибочны ... ': введение в неопределенность модели » (PDF). Statistica Neerlandica. 66 (3): 217–236. Дои:10.1111 / j.1467-9574.2012.00530.x.
  3. ^ Клаескенс, Г.; Хьорт, Н. Л. (2008), Выбор модели и усреднение модели, Издательство Кембриджского университета
  4. ^ Кониси, Саданори; Китагава, Генширо (2008). Информационные критерии и статистическое моделирование. Springer. ISBN  978-0-387-71886-6.
  5. ^ а б Жиро, К. (2015). Введение в многомерную статистику. Чепмен и Холл / CRC. ISBN  9781482237948.
  6. ^ Пристли, М. (1981). Спектральный анализ и временные ряды. Академическая пресса. ISBN  978-0-12-564922-3. (с. 375).
  7. ^ а б Касс, Роберт Э .; Рафтери, Адриан Э. (1995), «Байесовские факторы», Журнал Американской статистической ассоциации, 90 (430): 773–795, Дои:10.2307/2291091, ISSN  0162-1459, JSTOR  2291091.

дальнейшее чтение

внешняя ссылка