Информация Fisher - Fisher information

В математическая статистика, то Информация Fisher (иногда просто называют Информация[1]) - способ измерения количества Информация что наблюдаемый случайная переменная Икс несет в себе неизвестный параметр θ распределения, моделирующего Икс. Формально это отклонение из счет, или ожидаемое значение из наблюдаемая информация. В Байесовская статистика, то асимптотическое распределение из задний Режим зависит от информации Fisher, а не от прежний (согласно Теорема Бернштейна – фон Мизеса, чего ожидал Лаплас за экспоненциальные семейства ).[2] Роль информации Фишера в асимптотической теории оценка максимального правдоподобия было подчеркнуто статистиком Рональд Фишер (после некоторых первоначальных результатов Фрэнсис Исидро Эджворт ). Информация Фишера также используется при вычислении Джеффрис приор, который используется в байесовской статистике.

Информационная матрица Фишера используется для расчета ковариационные матрицы связана с максимальная вероятность оценки. Его также можно использовать при составлении статистики тестов, например Тест Вальда.

Было показано, что статистические системы научного характера (физические, биологические и т. Д.), Функции правдоподобия которых подчиняются инвариантности сдвига, подчиняются максимальной информации Фишера.[3] Уровень максимума зависит от характера ограничений системы.

Определение

Информация Фишера - это способ измерения количества информации, которую можно наблюдать. случайная переменная Икс несет о неизвестном параметр θ на котором вероятность Икс зависит от. Позволять ж(Икс; θ) быть функция плотности вероятности (или же функция массы вероятности ) за Икс зависит от стоимости θ. Он описывает вероятность того, что мы наблюдаем данный результат Икс, данный известная стоимость θ. Если ж резко пик по отношению к изменению θ, легко указать "правильное" значение θ из данных или, что то же самое, что данные Икс предоставляет много информации о параметре θ. Если вероятность ж плоский и разложенный, то потребуется много образцов Икс для оценки действительной «истинной» стоимости θ который бы быть полученным с использованием всей выборки. Это предполагает изучение некой дисперсии по отношению к θ.

Формально частная производная относительно θ из натуральный логарифм функции правдоподобия называется счет. При определенных условиях регулярности, если θ является истинным параметром (т.е. Икс фактически распространяется как ж(Икс; θ)), можно показать, что ожидаемое значение (первый момент ) оценки, оцененной при истинном значении параметра , равно 0:[4]

В отклонение оценки определяется как Информация Fisher:[5]

Обратите внимание, что . Случайная величина, несущая высокую информацию Фишера, означает, что абсолютное значение оценки часто бывает высоким. Информация Фишера не является функцией конкретного наблюдения, поскольку случайная величина Икс был усреднен.

Если бревнож(Икс; θ) дважды дифференцируема по θ, а при определенных условиях регулярности[4] тогда информация Фишера также может быть записана как[6]

поскольку

и

Таким образом, информацию Фишера можно рассматривать как кривизну кривая поддержки (график логарифма правдоподобия). Недалеко от максимальная вероятность оценка, поэтому низкая информация Фишера указывает на то, что максимум кажется «тупым», то есть максимум неглубоким и есть много близких значений с аналогичной логарифмической вероятностью. И наоборот, высокая информация Фишера указывает на резкость максимума.

Расхождение в определении

Существует две версии определения информации Фишера. Некоторые книги и заметки определяют

куда является логарифмической вероятностью для одного наблюдения, тогда как другие определяют

куда - функция логарифма правдоподобия для всех наблюдений.

В некоторых учебниках может даже использоваться один и тот же символ для обозначения обеих версий по разным темам (например, книга, которая определяет быть версией с полным наблюдением при обсуждении нижней границы Крамера – Рао и может по-прежнему позволять тому же символу относиться к версии с одним наблюдением при представлении асимптотического нормального распределения оценки максимального правдоподобия). Следует быть осторожным со значением в конкретном контексте; однако, если данные i.i.d. разница между двумя версиями просто фактор , количество точек данных в выборке.

Неформальный вывод границы Крамера – Рао

В Граница Крамера – Рао[7][8] утверждает, что инверсия информации Фишера является нижней границей дисперсии любого объективный оценщик из θ. H.L. Van Trees (1968) и Б. Рой Фриден (2004) предлагают следующий метод получения Граница Крамера – Рао, результат, который описывает использование информации Фишера.

Неформально мы начнем с рассмотрения объективный оценщик . Математически «беспристрастный» означает, что

Это выражение равно нулю независимо от θ, поэтому его частная производная по θ также должен быть равен нулю. Посредством правило продукта, эта частная производная также равна

Для каждого θ, функция правдоподобия является функцией плотности вероятности, и поэтому . Базовое вычисление подразумевает, что

Используя эти два факта выше, мы получаем

Факторизация подынтегральной функции дает

Возводя выражение в интеграл в квадрат, Неравенство Коши – Шварца дает

Второй фактор в квадратных скобках определяется как информация Фишера, а первый фактор в квадратных скобках - это ожидаемая среднеквадратичная ошибка оценки. . Переставляя, неравенство говорит нам, что

Другими словами, точность, с которой мы можем оценить θ фундаментально ограничен информацией Фишера о функции правдоподобия.

Однопараметрический эксперимент Бернулли

А Бернулли суд случайная величина с двумя возможными исходами: «успех» и «неудача», при этом вероятность успеха составляет θ. Результат можно представить как результат подбрасывания монеты с вероятностью выпадения орла. θ и вероятность выпадения хвостов 1 − θ.

Позволять Икс быть судом Бернулли. Информация Fisher, содержащаяся в Икс можно рассчитать как

Поскольку информация Fisher является аддитивной, информация Fisher, содержащаяся в п независимый Бернулли испытания следовательно является

Это обратное отклонение среднего числа успехов в п Бернулли испытания, поэтому в данном случае оценка Крамера – Рао является равенством.

Матричная форма

Когда есть N параметры, так что θ является N × 1 вектор тогда информация Фишера принимает форму N × N матрица. Эта матрица называется Информационная матрица Фишера (FIM) и имеет типовой элемент

FIM - это N × N положительно полуопределенная матрица. Если он положительно определен, то он определяет Риманова метрика на N-размерный пространство параметров. Тема информационная геометрия использует это для подключения информации Fisher к дифференциальная геометрия, и в этом контексте этот показатель известен как Информационная метрика Fisher.

При определенных условиях регулярности информационная матрица Фишера также может быть записана как

Результат интересен в нескольких отношениях:

  • Его можно получить как Гессен из относительная энтропия.
  • Его можно понимать как метрику, индуцированную Евклидова метрика, после соответствующей замены переменной.
  • В комплекснозначной форме это Метрика Фубини – Этюд.
  • Это ключевая часть доказательства Теорема Уилкса, что позволяет оценить доверительную область для оценка максимального правдоподобия (для тех условий, для которых он применяется) без необходимости Принцип правдоподобия.
  • В случаях, когда аналитические расчеты FIM выше затруднены, можно сформировать среднее из простых оценок Монте-Карло для Гессен функции отрицательного логарифма правдоподобия как оценки FIM.[9][10][11] Оценки могут быть основаны на значениях функции отрицательного логарифмического правдоподобия или градиента функции отрицательного логарифма правдоподобия; не требуется аналитического вычисления гессиана функции отрицательного логарифмического правдоподобия.

Ортогональные параметры

Мы говорим, что два параметра θя и θj ортогональны, если элемент яй ряд и j-й столбец информационной матрицы Фишера равен нулю. С ортогональными параметрами легко иметь дело в том смысле, что их оценки максимального правдоподобия независимы и могут быть рассчитаны отдельно. При решении исследовательских задач исследователь часто тратит некоторое время на поиски ортогональной параметризации плотностей, задействованных в проблеме.[нужна цитата ]

Сингулярная статистическая модель

Если информационная матрица Фишера положительно определена для всех θ, то соответствующий статистическая модель как говорят обычный; в противном случае говорят, что статистическая модель единственное число.[12] Примеры сингулярных статистических моделей включают следующее: нормальные смеси, биномиальные смеси, полиномиальные смеси, байесовские сети, нейронные сети, радиальные базисные функции, скрытые марковские модели, стохастические контекстно-свободные грамматики, регрессии с пониженным рангом, машины Больцмана.

В машинное обучение, если статистическая модель разработана так, что она извлекает скрытую структуру из случайного явления, то она естественно становится сингулярной.[13]

Многомерное нормальное распределение

FIM для N-variate многомерное нормальное распределение, имеет особую форму. Пусть K-мерный вектор параметров быть а вектор случайных нормальных величин равен . Предположим, что средние значения этих случайных величин равны , и разреши быть ковариационная матрица. Тогда для , (м, п) запись в FIM:[14]

куда обозначает транспонировать вектора, обозначает след из квадратная матрица, и:

Обратите внимание, что особый, но очень распространенный случай - это случай, когда, постоянная. потом

В этом случае информационная матрица Фишера может быть отождествлена ​​с матрицей коэффициентов нормальные уравнения из наименьших квадратов теория оценки.

Другой частный случай возникает, когда среднее значение и ковариация зависят от двух разных векторных параметров, скажем, β и θ. Это особенно популярно при анализе пространственных данных, который часто использует линейную модель с коррелированными остатками. В этом случае,[15]

куда

Характеристики

Правило цепи

Подобно энтропия или же взаимная информация, информация Фишера также обладает Правило цепи разложение. В частности, если Икс и Y являются совместно распределенными случайными величинами, отсюда следует, что:[16]

куда информация Фишера о Y относительно рассчитывается относительно условной плотности Y учитывая конкретное значениеИкс = Икс.

Как особый случай, если две случайные величины равны независимый, информация, полученная от двух случайных величин, представляет собой сумму информации от каждой случайной величины отдельно:

Следовательно, информация в случайной выборке п независимые и одинаково распределенные наблюдения п раз больше информации в выборке размером 1.

Достаточная статистика

Информация предоставлена достаточная статистика такой же, как у образца Икс. Это можно увидеть, используя Критерий факторизации Неймана для достаточной статистики. Если Т(Икс) достаточно для θ, тогда

для некоторых функций грамм и час. Независимость час(Икс) из θ подразумевает

тогда равенство информации следует из определения информации Фишера. В более общем смысле, если Т = т(Икс) это статистика, тогда

с равенством если и только если Т это достаточная статистика.[17]

Репараметризация

Информация Фишера зависит от параметризации проблемы. Если θ и η - две скалярные параметризации задачи оценивания, и θ это непрерывно дифференцируемый функция η, тогда

куда и информационные меры Фишера η и θ, соответственно.[18]

В векторном случае предположим и находятся k-векторы, которые параметризуют задачу оценивания, и предположим, что является непрерывно дифференцируемой функцией от , тогда,[19]

где (я, j) th элемент k × k Матрица якобиана определяется

и где транспонированная матрица

В информационная геометрия, это видится как изменение координат на Риманово многообразие, а внутренние свойства кривизны не изменяются при различной параметризации. В общем случае информационная матрица Фишера обеспечивает риманову метрику (точнее, метрику Фишера – Рао) для многообразия термодинамических состояний и может использоваться в качестве меры информационно-геометрической сложности для классификации фазовые переходы Например, скалярная кривизна термодинамического метрического тензора расходится в (и только в) точке фазового перехода.[20]

В термодинамическом контексте информационная матрица Фишера напрямую связана со скоростью изменения соответствующего параметры заказа.[21] В частности, такие соотношения идентифицируют фазовые переходы второго рода через расхождения отдельных элементов информационной матрицы Фишера.

Приложения

Оптимальный план экспериментов

Информация Fisher широко используется в оптимальный экспериментальный план. Из-за взаимности оценки дисперсии и информации Фишера, сведение к минимуму то отклонение соответствует максимизация то Информация.

Когда линейный (или же линеаризованный ) статистическая модель имеет несколько параметры, то иметь в виду оценщика параметров является вектор и это отклонение это матрица. Обратная матрица дисперсии называется «информационной матрицей». Поскольку дисперсия средства оценки вектора параметров является матрицей, проблема «минимизации дисперсии» усложняется. С помощью статистическая теория, статистики сжимают информационную матрицу, используя действительные значения сводные статистические данные; будучи функциями с действительным знаком, эти «информационные критерии» могут быть максимизированы.

Традиционно статистики оценивают оценки и планы, рассматривая некоторые сводная статистика ковариационной матрицы (несмещенной оценки), обычно с положительными действительными значениями (например, детерминант или же матричный след ). Работа с положительными действительными числами дает несколько преимуществ: если оценка одного параметра имеет положительную дисперсию, тогда и дисперсия, и информация Фишера являются положительными действительными числами; следовательно, они являются членами выпуклого конуса неотрицательных действительных чисел (ненулевые члены которого имеют обратные значения в этом же конусе).

Ковариационные и информационные матрицы для нескольких параметров являются элементами выпуклого конуса неотрицательно-определенных симметричных матриц в частично упорядоченное векторное пространство, под Loewner (Лёвнер) заказ. Этот конус замкнут при сложении и обращении матриц, а также при умножении положительных действительных чисел и матриц. Изложение теории матриц и порядка Лёвнера появляется в Пукельсхайме.[22]

Традиционными критериями оптимальности являются Информация матричные инварианты в смысле теория инвариантов; алгебраически традиционные критерии оптимальности функционалы из собственные значения информационной матрицы (Фишера) (см. оптимальный дизайн ).

Джеффрис приор в байесовской статистике

В Байесовская статистика, информация Фишера используется для расчета Джеффрис приор, который является стандартным неинформативным априорным методом для параметров непрерывного распределения.[23]

Вычислительная нейробиология

Информация Фишера использовалась для определения границ точности нейронных кодов. В таком случае, Икс обычно являются совместными ответами многих нейронов, представляющими низкоразмерную переменную θ (например, параметр стимула). В частности, изучалась роль корреляций в шуме нервных реакций.[24]

Вывод физических законов

Информация Фишера играет центральную роль в противоречивом принципе, выдвинутом Frieden как основание физических законов, требование, которое было оспорено.[25]

Машинное обучение

Информация Фишера используется в таких методах машинного обучения, как упругое уплотнение веса,[26] что уменьшает катастрофическое забывание в искусственные нейронные сети.

Отношение к относительной энтропии

Информация Fisher связана с относительная энтропия.[27] Относительная энтропия, или Дивергенция Кульбака – Лейблера, между двумя распределениями и можно записать как

Теперь рассмотрим семейство вероятностных распределений параметризовано . Тогда Дивергенция Кульбака – Лейблера, между двумя распределениями в семействе можно записать как

Если фиксировано, то относительная энтропия между двумя распределениями одного и того же семейства минимизируется на . За рядом с , можно расширить предыдущее выражение в ряду до второго порядка:

Но производную второго порядка можно записать как

Таким образом, информация Фишера представляет собой кривизна относительной энтропии.

Schervish (1995: §2.3) говорит следующее.

Одним из преимуществ информации Кульбака-Лейблера перед информацией Фишера является то, что на нее не влияют изменения параметризации. Другое преимущество состоит в том, что информацию Кульбака-Лейблера можно использовать, даже если рассматриваемые распределения не все являются членами параметрического семейства.

...

Еще одно преимущество информации Кульбака-Лейблера заключается в том, что условия гладкости для плотностей ... не требуются.

История

Информация Фишера обсуждалась несколькими ранними статистиками, в частности Ф. Я. Эджворт.[28] Например, Savage[29] говорит: «В нем [информация Фишера] он [Фишер] был в некоторой степени предвиден (Эджворт 1908–199, особенно 502, 507–8, 662, 677–8, 82–5 и ссылки, которые он [Эджворт] цитирует, включая Пирсона). и Филон 1898 [...]) ". Есть ряд ранних исторических источников[30] и ряд обзоров этой ранней работы.[31][32][33]

Смотрите также

Другие меры, применяемые в теория информации:

Примечания

  1. ^ Леманн и Казелла, стр. 115
  2. ^ Люсьен Ле Кам (1986) Асимптотические методы в статистической теории принятия решений: Страницы 336 и 618–621 (фон Мизес и Бернштейн).
  3. ^ Фриден и Гатенби (2013)
  4. ^ а б Суба Рао. «Лекции по статистическому выводу» (PDF).
  5. ^ Фишер (1922)
  6. ^ Lehmann & Casella, ур. (2.5.16), лемма 5.3, с.116.
  7. ^ Крамер (1946)
  8. ^ Рао (1945)
  9. ^ Сполл, Дж. К. (2005). «Вычисление Монте-Карло информационной матрицы Фишера в нестандартных условиях». Журнал вычислительной и графической статистики. 14 (4): 889–909. Дои:10.1198 / 106186005X78800.
  10. ^ Сполл, Дж. К. (2008), "Улучшенные методы оценки информационной матрицы Фишера методом Монте-Карло", Труды Американской конференции по контролю, Сиэтл, Вашингтон, 11–13 июня 2008 г., стр. 2395–2400. https://doi.org/10.1109/ACC.2008.4586850
  11. ^ Das, S .; Spall, J.C .; Ганем, Р. (2010). «Эффективное вычисление методом Монте-Карло информационной матрицы Фишера с использованием априорной информации». Вычислительная статистика и анализ данных. 54 (2): 272–289. Дои:10.1016 / j.csda.2009.09.018.
  12. ^ Watanabe, S. (2008), Accardi, L .; Freudenberg, W .; Охя, М. (ред.), "Алгебраико-геометрический метод в сингулярной статистической оценке", Квантовая биоинформатика, Всемирный научный: 325–336, Bibcode:2008qbi..conf..325 Вт, Дои:10.1142/9789812793171_0024, ISBN  978-981-279-316-4.
  13. ^ Ватанабэ, S (2013). «Широко применимый байесовский информационный критерий». Журнал исследований в области машинного обучения. 14: 867–897.
  14. ^ Малаго, Луиджи; Пистоне, Джованни (2015). Информационная геометрия распределения Гаусса с учетом стохастической оптимизации. Материалы конференции ACM 2015 г. по основам генетических алгоритмов XIII. С. 150–162. Дои:10.1145/2725494.2725510. ISBN  9781450334341.
  15. ^ Mardia, K. V .; Маршалл, Р. Дж. (1984). «Оценка максимального правдоподобия моделей остаточной ковариации в пространственной регрессии». Биометрика. 71 (1): 135–46. Дои:10.1093 / biomet / 71.1.135.
  16. ^ Замир, Р. (1998). «Доказательство информационного неравенства Фишера с помощью аргумента обработки данных». IEEE Transactions по теории информации. 44 (3): 1246–1250. CiteSeerX  10.1.1.49.6628. Дои:10.1109/18.669301.
  17. ^ Шервиш, Марк Дж. (1995). Теоретическая статистика. Springer-Verlag. п. 113.
  18. ^ Lehmann & Casella, ур. (2.5.11).
  19. ^ Lehmann & Casella, ур. (2.6.16)
  20. ^ Janke, W .; Johnston, D.A .; Кенна, Р. (2004). «Информационная геометрия и фазовые переходы». Physica A. 336 (1–2): 181. arXiv:cond-mat / 0401092. Bibcode:2004PhyA..336..181J. Дои:10.1016 / j.physa.2004.01.023.
  21. ^ Прокопенко, М .; Лизье, Джозеф Т .; Lizier, J. T .; Обст, О .; Ван, X. Р. (2011). «Связь информации Fisher с параметрами заказа». Физический обзор E. 84 (4): 041116. Bibcode:2011PhRvE..84d1116P. Дои:10.1103 / PhysRevE.84.041116. PMID  22181096. S2CID  18366894.
  22. ^ Пукельсхайм, Фридрик (1993). Оптимальный план экспериментов. Нью-Йорк: Вили. ISBN  978-0-471-61971-0.
  23. ^ Бернардо, Хосе М .; Смит, Адриан Ф. М. (1994). Байесовская теория. Нью-Йорк: Джон Вили и сыновья. ISBN  978-0-471-92416-6.
  24. ^ Эбботт, Ларри Ф .; Даян, Питер (1999). «Влияние коррелированной изменчивости на точность кода населения». Нейронные вычисления. 11 (1): 91–101. Дои:10.1162/089976699300016827. PMID  9950724.
  25. ^ Стритер, Р. Ф. (2007). Утраченные причины в физике и за ее пределами. Springer. п. 69. ISBN  978-3-540-36581-5.
  26. ^ Киркпатрик, Джеймс; Паскану, Разван; Рабиновиц, Нил; Венесс, Джоэл; Дежарден, Гийом; Русу, Андрей А .; Милан, Киран; Куан, Джон; Рамальо, Тьяго (28 марта 2017 г.). «Преодоление катастрофического забывания в нейронных сетях». Труды Национальной академии наук. 114 (13): 3521–3526. Дои:10.1073 / pnas.1611835114. ISSN  0027-8424. ЧВК  5380101. PMID  28292907.
  27. ^ Гурье и Монфор (1995), стр. 87
  28. ^ Дикарь (1976)
  29. ^ Дикарь (1976), стр.156
  30. ^ Эджворт (сентябрь 1908 г., декабрь 1908 г.)
  31. ^ Пратт (1976)
  32. ^ Стиглер (1978, 1986, 1999)
  33. ^ Халд (1998, 1999)

Рекомендации

  • Крамер, Харальд (1946). Математические методы статистики. Принстонский математический ряд. Принстон: Издательство Принстонского университета. ISBN  0691080046.