Дифференциальная энтропия (также называемый непрерывная энтропия) - это концепция в теория информации это началось как попытка Шеннон расширить идею (Шеннон) энтропия, мера среднего неожиданный из случайная переменная, чтобы непрерывно распределения вероятностей. К сожалению, Шеннон не вывел эту формулу, а просто предположил, что это правильный непрерывный аналог дискретной энтропии, но это не так.[1]:181–218 Фактическая непрерывная версия дискретной энтропии - это предельная плотность дискретных точек (LDDP). Дифференциальная энтропия (описанная здесь) обычно встречается в литературе, но это предельный случай LDDP, который теряет свою фундаментальную связь с дискретными энтропия.
Для распределений вероятностей, которые не имеют явного выражения функции плотности, но имеют явное квантильная функция выражение, , тогда можно определить в терминах производной от т.е. квантильная функция плотности в качестве [3]:54–59
.
Как и в случае с его дискретным аналогом, единицы дифференциальной энтропии зависят от основания логарифм, что обычно равно 2 (т.е. биты ). Видеть логарифмические единицы для логарифмов, взятых по разным основаниям. Связанные понятия, такие как соединение, условный дифференциальная энтропия и относительная энтропия определяются аналогичным образом. В отличие от дискретного аналога, дифференциальная энтропия имеет смещение, которое зависит от единиц измерения, используемых для измерения. .[4]:183–184 Например, дифференциальная энтропия величины, измеренной в миллиметрах, будет на log (1000) больше, чем такая же величина, измеренная в метрах; безразмерная величина будет иметь дифференциальную энтропию на log (1000) больше, чем такая же величина, деленная на 1000.
Следует проявлять осторожность, пытаясь применить свойства дискретной энтропии к дифференциальной энтропии, поскольку функции плотности вероятности могут быть больше 1. Например, равномерное распределение имеет отрицательный дифференциальная энтропия
.
Таким образом, дифференциальная энтропия не обладает всеми свойствами дискретной энтропии.
Обратите внимание, что непрерывный взаимная информация отличается тем, что сохраняет свое фундаментальное значение в качестве меры дискретной информации, поскольку фактически является пределом дискретной взаимной информации перегородки из и поскольку эти перегородки становятся все тоньше и тоньше. Таким образом, он инвариантен относительно нелинейных гомеоморфизмы (непрерывные и однозначно обратимые отображения), [5] включая линейные [6] трансформации и , и по-прежнему представляет количество дискретной информации, которая может быть передана по каналу, допускающему непрерывное пространство значений.
В общем, для преобразования случайного вектора в другой случайный вектор той же размерности , соответствующие энтропии связаны соотношением
куда это Якобиан трансформации .[7] Вышеупомянутое неравенство становится равенством, если преобразование является биекцией. Кроме того, когда - жесткое вращение, перенос или их комбинация, определитель Якоби всегда равен 1, и .
Если случайный вектор имеет нулевое среднее значение и ковариация матрица , с равенством тогда и только тогда, когда является совместно гауссовский (видеть ниже ).[2]:254
Однако у дифференциальной энтропии нет других желаемых свойств:
Он не инвариантен относительно замена переменных, и поэтому наиболее полезен для безразмерных переменных.
Это может быть отрицательно.
Модификация дифференциальной энтропии, которая устраняет эти недостатки, представляет собой относительная информационная энтропия, также известное как расхождение Кульбака – Лейблера, которое включает инвариантная мера фактор (см. предельная плотность дискретных точек ).
Максимизация в нормальном распределении
Теорема
С нормальное распределение, дифференциальная энтропия максимизируется для данной дисперсии. Гауссовская случайная величина имеет самую большую энтропию среди всех случайных величин с равной дисперсией, или, альтернативно, максимальное распределение энтропии при ограничениях среднего и дисперсии является гауссовым.[2]:255
Доказательство
Позволять быть ГауссовскийPDF со средним μ и дисперсией и произвольный PDF с такой же дисперсией. Поскольку дифференциальная энтропия инвариантна относительно сдвига, можно считать, что имеет то же среднее значение в качестве .
куда г (х) - некоторая функция со средним μ. Когда энтропия г (х) является максимальным, а уравнения связи, состоящие из условия нормировки и требование фиксированной дисперсии , оба выполняются, то небольшое изменение δграмм(Икс) о г (х) произведет вариацию δL о L который равен нулю:
Поскольку это должно выполняться для любого малого δграмм(Икс), член в скобках должен быть равен нулю, и решение для г (х) дает:
Используя уравнения связей для нахождения λ0 а λ дает нормальное распределение:
Пример: экспоненциальное распределение
Позволять быть экспоненциально распределенный случайная величина с параметром , то есть с функцией плотности вероятности
Тогда его дифференциальная энтропия равна
Здесь, был использован, а не чтобы было ясно, что логарифм взят за основу е, чтобы упростить расчет.
Связь с ошибкой оценщика
Дифференциальная энтропия дает нижнюю границу ожидаемой квадратичной ошибки оценщик. Для любой случайной величины и оценщик имеет место следующее:[2]
с равенством тогда и только тогда, когда - гауссовская случайная величина и среднее значение .
Дифференциальные энтропии для различных распределений
Многие из дифференциальных энтропий происходят от.[9]:120–122
Варианты
Как описано выше, дифференциальная энтропия не обладает всеми свойствами дискретной энтропии. Например, дифференциальная энтропия может быть отрицательной; также он не инвариантен относительно непрерывных преобразований координат. Эдвин Томпсон Джейнс фактически показал, что приведенное выше выражение не является правильным пределом выражения для конечного набора вероятностей.[10]:181–218
Приведенное выше определение дифференциальной энтропии может быть получено путем разделения диапазона значений в ячейки длины с соответствующими точками отбора проб в ящиках для Риман интегрируемый. Это дает квантованный версия , определяется если . Тогда энтропия является[2]
Первый член справа аппроксимирует дифференциальную энтропию, а второй член приблизительно . Обратите внимание, что эта процедура предполагает, что энтропия в дискретном смысле непрерывная случайная величина должно быть .
^Лазо, А. и П. Рати (1978). «Об энтропии непрерывных распределений вероятностей». IEEE Transactions по теории информации. 24 (1): 120–122. Дои:10.1109 / TIT.1978.1055832.