Дифференциальная энтропия - Differential entropy

Дифференциальная энтропия (также называемый непрерывная энтропия) - это концепция в теория информации это началось как попытка Шеннон расширить идею (Шеннон) энтропия, мера среднего неожиданный из случайная переменная, чтобы непрерывно распределения вероятностей. К сожалению, Шеннон не вывел эту формулу, а просто предположил, что это правильный непрерывный аналог дискретной энтропии, но это не так.[1]:181–218 Фактическая непрерывная версия дискретной энтропии - это предельная плотность дискретных точек (LDDP). Дифференциальная энтропия (описанная здесь) обычно встречается в литературе, но это предельный случай LDDP, который теряет свою фундаментальную связь с дискретными энтропия.

Определение

Позволять быть случайной величиной с функция плотности вероятности чей поддерживать это набор . В дифференциальная энтропия или же определяется как[2]:243

Для распределений вероятностей, которые не имеют явного выражения функции плотности, но имеют явное квантильная функция выражение, , тогда можно определить в терминах производной от т.е. квантильная функция плотности в качестве [3]:54–59

.

Как и в случае с его дискретным аналогом, единицы дифференциальной энтропии зависят от основания логарифм, что обычно равно 2 (т.е. биты ). Видеть логарифмические единицы для логарифмов, взятых по разным основаниям. Связанные понятия, такие как соединение, условный дифференциальная энтропия и относительная энтропия определяются аналогичным образом. В отличие от дискретного аналога, дифференциальная энтропия имеет смещение, которое зависит от единиц измерения, используемых для измерения. .[4]:183–184 Например, дифференциальная энтропия величины, измеренной в миллиметрах, будет на log (1000) больше, чем такая же величина, измеренная в метрах; безразмерная величина будет иметь дифференциальную энтропию на log (1000) больше, чем такая же величина, деленная на 1000.

Следует проявлять осторожность, пытаясь применить свойства дискретной энтропии к дифференциальной энтропии, поскольку функции плотности вероятности могут быть больше 1. Например, равномерное распределение имеет отрицательный дифференциальная энтропия

.

Таким образом, дифференциальная энтропия не обладает всеми свойствами дискретной энтропии.

Обратите внимание, что непрерывный взаимная информация отличается тем, что сохраняет свое фундаментальное значение в качестве меры дискретной информации, поскольку фактически является пределом дискретной взаимной информации перегородки из и поскольку эти перегородки становятся все тоньше и тоньше. Таким образом, он инвариантен относительно нелинейных гомеоморфизмы (непрерывные и однозначно обратимые отображения), [5] включая линейные [6] трансформации и , и по-прежнему представляет количество дискретной информации, которая может быть передана по каналу, допускающему непрерывное пространство значений.

О прямом аналоге дискретной энтропии, распространенном на непрерывное пространство, см. предельная плотность дискретных точек.

Свойства дифференциальной энтропии

  • Для плотностей вероятностей и , то Дивергенция Кульбака – Лейблера больше или равно 0 с равенством, только если почти всюду. Аналогично для двух случайных величин и , и с равенством если и только если и находятся независимый.
  • Цепное правило для дифференциальной энтропии выполняется так же, как и в дискретном случае[2]:253
.
  • Дифференциальная энтропия инвариантна относительно трансляции, т.е. для константы .[2]:253
  • Дифференциальная энтропия, вообще говоря, не инвариантна относительно произвольных обратимых отображений.
В частности, для постоянного
Для векторной случайной величины и обратимый (квадрат) матрица
[2]:253
  • В общем, для преобразования случайного вектора в другой случайный вектор той же размерности , соответствующие энтропии связаны соотношением
куда это Якобиан трансформации .[7] Вышеупомянутое неравенство становится равенством, если преобразование является биекцией. Кроме того, когда - жесткое вращение, перенос или их комбинация, определитель Якоби всегда равен 1, и .
  • Если случайный вектор имеет нулевое среднее значение и ковариация матрица , с равенством тогда и только тогда, когда является совместно гауссовский (видеть ниже ).[2]:254

Однако у дифференциальной энтропии нет других желаемых свойств:

  • Он не инвариантен относительно замена переменных, и поэтому наиболее полезен для безразмерных переменных.
  • Это может быть отрицательно.

Модификация дифференциальной энтропии, которая устраняет эти недостатки, представляет собой относительная информационная энтропия, также известное как расхождение Кульбака – Лейблера, которое включает инвариантная мера фактор (см. предельная плотность дискретных точек ).

Максимизация в нормальном распределении

Теорема

С нормальное распределение, дифференциальная энтропия максимизируется для данной дисперсии. Гауссовская случайная величина имеет самую большую энтропию среди всех случайных величин с равной дисперсией, или, альтернативно, максимальное распределение энтропии при ограничениях среднего и дисперсии является гауссовым.[2]:255

Доказательство

Позволять быть Гауссовский PDF со средним μ и дисперсией и произвольный PDF с такой же дисперсией. Поскольку дифференциальная энтропия инвариантна относительно сдвига, можно считать, что имеет то же среднее значение в качестве .

Рассмотрим Дивергенция Кульбака – Лейблера между двумя дистрибутивами

Обратите внимание, что

потому что результат не зависит от кроме как через дисперсию. Объединение двух результатов дает

с равенством, когда вытекающие из свойств расходимости Кульбака – Лейблера.

Альтернативное доказательство

Этот результат также можно продемонстрировать с помощью вариационное исчисление. Функция Лагранжа с двумя Лагранжевы множители можно определить как:

куда г (х) - некоторая функция со средним μ. Когда энтропия г (х) является максимальным, а уравнения связи, состоящие из условия нормировки и требование фиксированной дисперсии , оба выполняются, то небольшое изменение δграмм(Икс) о г (х) произведет вариацию δL о L который равен нулю:

Поскольку это должно выполняться для любого малого δграмм(Икс), член в скобках должен быть равен нулю, и решение для г (х) дает:

Используя уравнения связей для нахождения λ0 а λ дает нормальное распределение:

Пример: экспоненциальное распределение

Позволять быть экспоненциально распределенный случайная величина с параметром , то есть с функцией плотности вероятности

Тогда его дифференциальная энтропия равна

Здесь, был использован, а не чтобы было ясно, что логарифм взят за основу е, чтобы упростить расчет.

Связь с ошибкой оценщика

Дифференциальная энтропия дает нижнюю границу ожидаемой квадратичной ошибки оценщик. Для любой случайной величины и оценщик имеет место следующее:[2]

с равенством тогда и только тогда, когда - гауссовская случайная величина и среднее значение .

Дифференциальные энтропии для различных распределений

В таблице ниже это гамма-функция, это функция дигаммы, это бета-функция, а γE является Постоянная Эйлера.[8]:219–230

Таблица дифференциальных энтропий
Название дистрибутиваФункция плотности вероятности (pdf)Энтропия в нацПоддерживать
Униформа
Нормальный
Экспоненциальный
Рэлей
Бета за
Коши
Чи
Хи-квадрат
Erlang
F
Гамма
Лаплас
Логистика
Логнормальный
Максвелл – Больцманн
Обобщенный нормальный
Парето
Студенческий т
Треугольный
Weibull
Многомерный нормальный

Многие из дифференциальных энтропий происходят от.[9]:120–122

Варианты

Как описано выше, дифференциальная энтропия не обладает всеми свойствами дискретной энтропии. Например, дифференциальная энтропия может быть отрицательной; также он не инвариантен относительно непрерывных преобразований координат. Эдвин Томпсон Джейнс фактически показал, что приведенное выше выражение не является правильным пределом выражения для конечного набора вероятностей.[10]:181–218

Модификация дифференциальной энтропии добавляет инвариантная мера фактор, чтобы исправить это, (см. предельная плотность дискретных точек ). Если далее ограничивается как плотность вероятности, результирующее понятие называется относительная энтропия в теории информации:

Приведенное выше определение дифференциальной энтропии может быть получено путем разделения диапазона значений в ячейки длины с соответствующими точками отбора проб в ящиках для Риман интегрируемый. Это дает квантованный версия , определяется если . Тогда энтропия является[2]

Первый член справа аппроксимирует дифференциальную энтропию, а второй член приблизительно . Обратите внимание, что эта процедура предполагает, что энтропия в дискретном смысле непрерывная случайная величина должно быть .

Смотрите также

Рекомендации

  1. ^ Джейнс, Э. (1963). «Теория информации и статистическая механика» (PDF). Лекции по теоретической физике Летнего института Университета Брандейс. 3 (раздел 4b).
  2. ^ а б c d е ж грамм час Обложка, Томас М .; Томас, Джой А. (1991). Элементы теории информации. Нью-Йорк: Вили. ISBN  0-471-06259-6.
  3. ^ Васичек, Олдрих (1976), "Тест на нормальность, основанный на выборочной энтропии", Журнал Королевского статистического общества, серия B, 38 (1), JSTOR  2984828.
  4. ^ Гиббс, Джозия Уиллард (1902). Элементарные принципы статистической механики, разработанные с особым упором на рациональную основу термодинамики. Нью-Йорк: Сыновья Чарльза Скрибнера.
  5. ^ Красков, Александр; Stögbauer, Grassberger (2004). «Оценка взаимной информации». Физический обзор E. 60: 066138. arXiv:cond-mat / 0305641. Bibcode:2004PhRvE..69f6138K. Дои:10.1103 / PhysRevE.69.066138.
  6. ^ Фазлолла М.Реза (1994) [1961]. Введение в теорию информации. Dover Publications, Inc., Нью-Йорк. ISBN  0-486-68210-2.
  7. ^ "доказательство верхней границы дифференциальной энтропии f (X)". Обмен стеком. 16 апреля 2016 г.
  8. ^ Park, Sung Y .; Бера, Анил К. (2009). «Модель условной гетероскедастичности авторегрессии с максимальной энтропией» (PDF). Журнал эконометрики. Эльзевир. Архивировано из оригинал (PDF) на 2016-03-07. Получено 2011-06-02.
  9. ^ Лазо, А. и П. Рати (1978). «Об энтропии непрерывных распределений вероятностей». IEEE Transactions по теории информации. 24 (1): 120–122. Дои:10.1109 / TIT.1978.1055832.
  10. ^ Джейнс, Э. (1963). «Теория информации и статистическая механика» (PDF). Лекции по теоретической физике Летнего института Университета Брандейс. 3 (раздел 4b).

внешняя ссылка