Байесовский информационный критерий - Bayesian information criterion
В статистика, то Байесовский информационный критерий (BIC) или же Информационный критерий Шварца (также SIC, SBC, SBIC) является критерием выбор модели среди конечного набора моделей; модель с самым низким BIC является предпочтительной. Частично он основан на функция правдоподобия и это тесно связано с Информационный критерий Акаике (AIC).
При подборе моделей можно увеличить вероятность, добавив параметры, но это может привести к переоснащение. И BIC, и AIC пытаются решить эту проблему, вводя штрафной член для числа параметров в модели; срок штрафа больше в BIC, чем в AIC.
BIC был разработан Гидеоном Э. Шварцем и опубликован в статье 1978 г.[1] где он дал Байесовский аргумент в пользу его принятия.
Определение
BIC формально определяется как[2][а]
куда
- = максимальное значение функция правдоподобия модели , т.е. , куда - значения параметров, максимизирующие функцию правдоподобия;
- = наблюдаемые данные;
- = количество точек данных в , количество наблюдения или, что то же самое, размер выборки;
- = количество параметры оценивается по модели. Например, в множественная линейная регрессия, расчетные параметры - точка пересечения, параметры наклона и постоянная дисперсия ошибок; таким образом, .
Кониси и Китагава[4]:217 получить BIC для аппроксимации распределения данных, интегрируя параметры, используя Метод Лапласа, начиная со следующих модельное свидетельство:
куда является приоритетом для под моделью .
Журнал (вероятность), , затем расширяется до второго порядка Серия Тейлор о MLE, , предполагая, что он дважды дифференцируем следующим образом:
куда это средний наблюдаемая информация за наблюдение, и простое () обозначает транспонирование вектора . До такой степени, что незначительно и относительно линейно около , мы можем интегрировать получить следующее:
В качестве увеличивается, мы можем игнорировать и как они есть . Таким образом,
где BIC определяется, как указано выше, и либо (a) является байесовской апостериорной модой, либо (b) использует MLE и априорную имеет ненулевой наклон на MLE. Затем задняя
Характеристики
Эта секция нужны дополнительные цитаты для проверка.Ноябрь 2011 г.) (Узнайте, как и когда удалить этот шаблон сообщения) ( |
- Это не зависит от приора.
- Он может измерить эффективность параметризованной модели с точки зрения прогнозирования данных.
- Он наказывает сложность модели, где сложность относится к количеству параметров в модели.
- Это примерно равно минимальная длина описания критерий, но с отрицательным знаком.
- Его можно использовать для выбора количества кластеров в соответствии с внутренней сложностью, присутствующей в конкретном наборе данных.
- Это тесно связано с другими критериями вероятности наказания, такими как Информационный критерий отклонения и Информационный критерий Акаике.
Ограничения
У BIC есть два основных ограничения.[5]
- Приведенное выше приближение действительно только для размера выборки намного больше, чем число параметров в модели.
- BIC не может обрабатывать сложные коллекции моделей, как при выборе переменных (или выбор функции ) проблема в большой размерности.[5]
Гауссовский частный случай
В предположении, что ошибки или возмущения модели независимы и одинаково распределены в соответствии с нормальное распределение и что граничное условие, что производная от логарифмическая вероятность относительно истинной дисперсии равна нулю, это становится (с точностью до аддитивной постоянной, который зависит только от п а не на модели):[6]
куда - дисперсия ошибки. Дисперсия ошибки в этом случае определяется как
который является смещенной оценкой истинной дисперсии.
Что касается остаточная сумма квадратов (RSS) BIC
При тестировании нескольких линейных моделей по сравнению с насыщенной моделью, BIC можно переписать с точки зренияотклонение в качестве:[7]
куда - количество параметров модели в тесте.
При выборе из нескольких моделей предпочтительнее модель с самым низким BIC. BIC - это возрастающий функция дисперсии ошибки и возрастающая функция k. То есть необъяснимое изменение зависимая переменная а количество независимых переменных увеличивает ценность BIC. Следовательно, более низкий BIC подразумевает либо меньшее количество независимых переменных, либо лучшее соответствие, либо и то, и другое. Сила доказательств против модели с более высоким значением BIC можно резюмировать следующим образом:[7]
ΔBIC | Доказательства против более высокого BIC |
---|---|
От 0 до 2 | Не стоит больше упоминания |
От 2 до 6 | Положительный |
От 6 до 10 | Сильный |
>10 | Очень сильный |
BIC обычно наказывает свободные параметры сильнее, чем Информационный критерий Акаике, хотя это зависит от размера п и относительная величина п иk.
Важно помнить, что BIC можно использовать для сравнения оценочных моделей только тогда, когда числовые значения зависимой переменной[b] идентичны для всех сравниваемых моделей. Сравниваемые модели не обязательно вложенный, в отличие от случая, когда модели сравниваются с помощью F-тест или тест отношения правдоподобия.[нужна цитата ]
Смотрите также
- Информационный критерий Акаике
- Сравнение байесовских моделей
- Информационный критерий отклонения
- Информационный критерий Ханнана – Куинна
- Расхождение Дженсена – Шеннона
- Дивергенция Кульбака – Лейблера
- Минимальная длина сообщения
Примечания
- ^ AIC, AICc и BIC, определенные Клаескенсом и Хьортом[3] являются отрицательными по отношению к тем, которые определены в этой статье и в большинстве других стандартных ссылок.
- ^ Зависимая переменная также называется переменная ответа или переменная результата. Видеть Регрессивный анализ.
Рекомендации
- ^ Шварц, Гидеон Э. (1978), "Оценка размерности модели", Анналы статистики, 6 (2): 461–464, Дои:10.1214 / aos / 1176344136, МИСТЕР 0468014.
- ^ Вит, Эрнст; Эдвин ван ден Хеувел; Ян-Виллем Ромейн (2012). "'Все модели ошибочны ... ': введение в неопределенность модели » (PDF). Statistica Neerlandica. 66 (3): 217–236. Дои:10.1111 / j.1467-9574.2012.00530.x.
- ^ Клаескенс, Г.; Хьорт, Н. Л. (2008), Выбор модели и усреднение модели, Издательство Кембриджского университета
- ^ Кониси, Саданори; Китагава, Генширо (2008). Информационные критерии и статистическое моделирование. Springer. ISBN 978-0-387-71886-6.
- ^ а б Жиро, К. (2015). Введение в многомерную статистику. Чепмен и Холл / CRC. ISBN 9781482237948.
- ^ Пристли, М. (1981). Спектральный анализ и временные ряды. Академическая пресса. ISBN 978-0-12-564922-3. (с. 375).
- ^ а б Касс, Роберт Э .; Рафтери, Адриан Э. (1995), «Байесовские факторы», Журнал Американской статистической ассоциации, 90 (430): 773–795, Дои:10.2307/2291091, ISSN 0162-1459, JSTOR 2291091.
дальнейшее чтение
- Bhat, H. S .; Кумар, Н. (2010). «О выводе байесовского информационного критерия» (PDF). Архивировано из оригинал (PDF) 28 марта 2012 г. Цитировать журнал требует
| журнал =
(помощь) - Финдли, Д. Ф. (1991). «Контрпримеры к бережливости и БИК». Летопись Института статистической математики. 43 (3): 505–514. Дои:10.1007 / BF00053369.
- Kass, R.E .; Вассерман, Л. (1995). «Эталонный байесовский тест для вложенных гипотез и его связь с критерием Шварца». Журнал Американской статистической ассоциации. 90 (431): 928–934. Дои:10.2307/2291327. JSTOR 2291327.
- Лиддл, А. Р. (2007). «Информационные критерии выбора астрофизической модели». Ежемесячные уведомления Королевского астрономического общества. 377 (1): L74 – L78. arXiv:astro-ph / 0701113. Bibcode:2007МНРАС.377Л..74Л. Дои:10.1111 / j.1745-3933.2007.00306.x.
- McQuarrie, A. D. R .; Цай, К.-Л. (1998). Выбор модели регрессии и временных рядов. Всемирный научный.