Неравенство Дженсенса - Jensens inequality
Эта статья нужны дополнительные цитаты для проверка.Октябрь 2011 г.) (Узнайте, как и когда удалить этот шаблон сообщения) ( |
В математика, Неравенство Дженсена, названный в честь датского математика Йохан Йенсен, связывает значение выпуклая функция из интеграл интегралу от выпуклой функции. Это было доказано Дженсеном в 1906 году.[1] Учитывая его общность, неравенство проявляется во многих формах в зависимости от контекста, некоторые из которых представлены ниже. В своей простейшей форме неравенство утверждает, что выпуклое преобразование среднего меньше или равно среднему значению, примененному после выпуклого преобразования; это простое следствие, что обратное верно для вогнутых преобразований.
Неравенство Дженсена обобщает утверждение, что секущая линия выпуклой функции лежит над график функции, который является неравенством Йенсена для двух точек: секущая состоит из взвешенных средних значений выпуклой функции (для т ∈ [0,1]),
в то время как график функции является выпуклой функцией взвешенных средних,
Таким образом, неравенство Дженсена
В контексте теория вероятности, обычно это формулируется в следующей форме: если Икс это случайная переменная и φ - выпуклая функция, то
Разница между двумя сторонами неравенства, , называется Дженсен Гэп.[2]
Заявления
Классическая форма неравенства Дженсена включает несколько чисел и весов. Неравенство может быть сформулировано в самом общем виде, используя любой язык теория меры или (что эквивалентно) вероятность. В вероятностной постановке неравенство можно обобщить на полную силу.
Конечная форма
Для настоящего выпуклая функция , числа в своей области, а положительные веса , Неравенство Дженсена можно сформулировать как:
и неравенство отменяется, если является вогнутый, который
Равенство имеет место тогда и только тогда, когда или же линейна в области, содержащей .
Как частный случай, если веса все равны, то (1) и (2) становятся
Например, функция бревно(Икс) является вогнутый, поэтому подставив в предыдущей формуле (4) устанавливает (логарифм) знакомого неравенство среднего арифметического / среднего геометрического:
Обычное приложение имеет как функция другой переменной (или набора переменных) , то есть, . Все это прямо переносится на общий непрерывный случай: веса ая заменяются неотрицательной интегрируемой функцией ж (Икс), например, распределение вероятностей, а суммы заменяются интегралами.
Теоретико-мерная и вероятностная форма
Позволять быть вероятностное пространство, так что . Если это настоящий -значная функция, которая -интегрируемый, и если это выпуклая функция на реальной линии, тогда:
В реальном анализе нам может потребоваться оценка
куда , и неотрицательный Лебег-интегрируемый функция. В этом случае мера Лебега не должно быть единства. Однако путем интегрирования с заменой интервал можно масштабировать так, чтобы он имел единицу измерения. Тогда неравенство Дженсена можно применить, чтобы получить[3]
Тот же результат может быть эквивалентно сформулирован в теория вероятности настройка, просто изменив обозначения. Позволять быть вероятностное пространство, Икс ан интегрируемый ценный случайная переменная и φ а выпуклая функция. Потом:
В этой настройке вероятности мера μ предназначен как вероятность , интеграл по μ как ожидаемое значение , а функция как случайная переменная Икс.
Отметим, что равенство выполняется тогда и только тогда, когда φ является линейной функцией на некотором множестве такой, что (что следует из приведенного ниже доказательства теории меры).
Общее неравенство в вероятностной постановке
В общем, пусть Т быть настоящим топологическое векторное пространство, и Икс а Т-ценный интегрируемый случайная переменная. В этой общей настройке интегрируемый означает, что существует элемент в Т, такое, что для любого элемента z в двойное пространство из Т: , и . Тогда для любой измеримой выпуклой функции φ и любые суб-σ-алгебра из :
Здесь стоит за ожидание обусловлено к σ-алгебре . Это общее утверждение сводится к предыдущим, когда топологическое векторное пространство Т это реальная ось, и это тривиальный σ-алгебра {∅, Ω} (куда ∅ это пустой набор, и Ω это пространство образца ).[4]
Заостренная и обобщенная форма
Позволять Икс - одномерная случайная величина со средним и дисперсия . Позволять - дважды дифференцируемая функция, и определим функцию
потом[5]
В частности, когда выпукло, то , а стандартная форма неравенства Йенсена сразу следует для случая, когда дополнительно предполагается дважды дифференцируемой.
Доказательства
Неравенство Дженсена может быть доказано несколькими способами, и будут предложены три разных доказательства, соответствующих различным утверждениям выше. Однако прежде чем приступить к этим математическим выводам, стоит проанализировать интуитивно понятный графический аргумент, основанный на вероятностном случае, когда Икс является действительным числом (см. рисунок). Предполагая гипотетическое распределение Икс значения, можно сразу определить положение и его образ в графике. Замечая, что для выпуклых отображений Y = φ(Икс) соответствующее распределение Y values все больше «растягивается» для увеличения значений Икс, легко видеть, что распределение Y шире в интервале, соответствующем Икс > Икс0 и уже в Икс < Икс0 для любого Икс0; в частности, это верно и для . Следовательно, на этой картинке ожидание Y всегда будет смещаться вверх относительно положения . Аналогичное рассуждение справедливо, если распределение Икс покрывает убывающую часть выпуклой функции или как убывающую, так и возрастающую ее части. Это «доказывает» неравенство, т.е.
с равенством, когда φ(Икс) не является строго выпуклым, например когда это прямая линия, или когда Икс следует за вырожденное распределение (т.е. является константой).
Приведенные ниже доказательства формализуют это интуитивное понятие.
Доказательство 1 (конечная форма)
Если λ1 и λ2 - два произвольных неотрицательных действительных числа такие, что λ1 + λ2 = 1 то выпуклость φ подразумевает
Это легко обобщить: если λ1, ..., λп неотрицательные действительные числа такие, что λ1 + ... + λп = 1, тогда
для любого Икс1, ..., Иксп. Этот конечная форма неравенства Йенсена можно доказать с помощью индукция: по предположению выпуклости утверждение верно для п = 2. Предположим, что это верно и для некоторых п, нужно доказать это для п + 1. По крайней мере, один из λя строго положительно, скажем λ1; поэтому по неравенству выпуклости:
С
можно применить предположения индукции к последнему члену в предыдущей формуле, чтобы получить результат, а именно конечную форму неравенства Йенсена.
Чтобы получить общее неравенство из этой конечной формы, необходимо использовать аргумент плотности. Конечная форма может быть переписана как:
куда μп мера, заданная произвольным выпуклое сочетание из Дельты Дирака:
Поскольку выпуклые функции непрерывный, а так как выпуклые комбинации дельт Дирака равны слабо плотный в наборе вероятностных мер (что легко проверить) общее утверждение получается простой процедурой ограничения.
Доказательство 2 (теоретико-мерная форма)
Позволять грамм - вещественнозначная μ-интегрируемая функция на вероятностном пространстве Ω, и пусть φ - выпуклая функция от действительных чисел. С φ выпукло, на каждое действительное число Икс у нас есть непустой набор субпроизводные, которые можно представить как линии, касающиеся графика φ в Икс, но которые находятся на графике или ниже графика φ во всех точках (опорные линии графика).
Теперь, если мы определим
из-за существования субпроизводных для выпуклых функций мы можем выбрать а и б такой, что
для всех реальных Икс и
Но тогда у нас есть это
для всех Икс. Поскольку у нас есть вероятностная мера, интеграл монотонен с μ(Ω) = 1 так что
по желанию.
Доказательство 3 (общее неравенство в вероятностной постановке)
Позволять Икс быть интегрируемой случайной величиной, которая принимает значения в реальном топологическом векторном пространстве Т. С выпукло, для любого , количество
убывает как θ приближается к 0+. В частности, субдифференциальный из оценивается в Икс в направлении у хорошо определяется
Легко видеть, что субдифференциал линейен по у[нужна цитата ] (это неверно, и утверждение требует доказательства теоремы Хана-Банаха) и, поскольку нижняя грань, взятая в правой части предыдущей формулы, меньше, чем значение того же члена для θ = 1, получается
В частности, для произвольной суб-σ-алгебра мы можем оценить последнее неравенство, когда чтобы получить
Теперь, если мы возьмем ожидание, обусловленное по обе стороны от предыдущего выражения, мы получаем результат, так как:
по линейности субдифференциала по у переменной, и следующее известное свойство условное ожидание:
Приложения и особые случаи
Форма с функцией плотности вероятности
Предполагать Ω является измеримым подмножеством действительной прямой и ж(Икс) - неотрицательная функция такая, что
На вероятностном языке ж это функция плотности вероятности.
Тогда неравенство Йенсена превращается в следующее утверждение о выпуклых интегралах:
Если грамм - любая измеримая вещественнозначная функция и выпукла в диапазоне грамм, тогда
Если грамм(Икс) = Икс, то эта форма неравенства сводится к обычно используемому частному случаю:
Это применяется в Вариационные байесовские методы.
Пример: даже моменты случайной величины
Если грамм(Икс) = Икс2n, и Икс случайная величина, то грамм выпукла как
и так
В частности, если какой-то четный момент 2n из Икс конечно, Икс имеет конечное среднее. Расширение этого аргумента показывает Икс имеет конечные моменты каждого порядка разделение п.
Альтернативная конечная форма
Позволять Ω = {Икс1, ... Иксп}, и возьми μ быть счетная мера на Ω, то общая форма сводится к утверждению о суммах:
при условии, что λя ≥ 0 и
Также существует бесконечная дискретная форма.
Статистическая физика
Неравенство Йенсена имеет особое значение в статистической физике, когда выпуклая функция является экспоненциальной, что дает:
где ожидаемые значения относятся к некоторым распределение вероятностей в случайная переменная Икс.
Доказательство в этом случае очень простое (см. Чандлер, раздел 5.5). Желаемое неравенство следует непосредственно, записывая
а затем применяя неравенство еИкс ≥ 1 + Икс до последней экспоненты.
Теория информации
Если п(Икс) истинная плотность вероятности для Икс, и q(Икс) - другая плотность, тогда применяя неравенство Дженсена для случайной величины Y(Икс) = q(Икс)/п(Икс) и выпуклая функция φ(у) = −log (у) дает
Следовательно:
результат называется Неравенство Гиббса.
Это показывает, что средняя длина сообщения минимизируется, когда коды назначаются на основе истинных вероятностей. п а не любой другой дистрибутив q. Неотрицательная величина называется Дивергенция Кульбака – Лейблера из q из п.
С −log (Икс) - строго выпуклая функция при Икс > 0, то равенство выполняется при п(Икс) равно q(Икс) почти всюду.
Теорема Рао – Блэквелла
Если L - выпуклая функция и суб-сигма-алгебра, то из условной версии неравенства Дженсена получаем
Итак, если δ (Икс) это некоторые оценщик ненаблюдаемого параметра θ с учетом вектора наблюдаемых Икс; и если Т(Икс) это достаточная статистика для θ; затем улучшенная оценка в смысле меньшего ожидаемого убытка L, можно получить, вычислив
ожидаемое значение δ относительно θ, взятое по всем возможным векторам наблюдений Икс совместим с таким же значением Т(Икс) как то заметил. Кроме того, поскольку T - достаточная статистика, не зависит от θ, следовательно, становится статистикой.
Этот результат известен как Теорема Рао – Блэквелла.
Смотрите также
- Неравенство Караматы для более общего неравенства
- Неравенство Поповичу
- Закон средних чисел
- Доказательство без слов неравенства Дженсена
Примечания
- ^ Дженсен, Дж. Л. В. В. (1906). "Sur les fonctions convxes et les inégalités entre les valeurs moyennes". Acta Mathematica. 30 (1): 175–193. Дои:10.1007 / BF02418571.
- ^ Гао, Сян; Ситхарам, Мира; Ройтберг, Адриан (2019). «Границы разрыва Дженсена и последствия для средне-концентрированных распределений» (PDF). Австралийский журнал математического анализа и приложений. 16 (2). arXiv:1712.05267.
- ^ Никулеску, Константин П. «Интегральные неравенства», С. 12.
- ^ Внимание: в этой общности необходимы дополнительные предположения о выпуклой функции и / или топологическом векторном пространстве, см. Пример (1.3) на с. 53 дюйм Перлман, Майкл Д. (1974). «Неравенство Йенсена для выпуклой векторнозначной функции на бесконечномерном пространстве». Журнал многомерного анализа. 4 (1): 52–65. Дои:10.1016 / 0047-259X (74) 90005-0.
- ^ Liao, J .; Берг, А (2018). «Обострение неравенства Дженсена». Американский статистик. arXiv:1707.08644. Дои:10.1080/00031305.2017.1419145.
- ^ Брэдли, CJ (2006). Введение в неравенство. Лидс, Соединенное Королевство: Математический фонд Соединенного Королевства. п. 97. ISBN 978-1-906001-11-7.
Рекомендации
- Дэвид Чендлер (1987). Введение в современную статистическую механику. Оксфорд. ISBN 0-19-504277-8.
- Тристан Нидхэм (1993) «Визуальное объяснение неравенства Дженсена», Американский математический ежемесячный журнал 100(8):768–71.
- Никола Фуско; Паоло Марчеллини; Карло Сбордоне (1996). Analisi Matematica Due. Лигуори. ISBN 978-88-207-2675-1.
- Вальтер Рудин (1987). Реальный и комплексный анализ. Макгроу-Хилл. ISBN 0-07-054234-1.
внешняя ссылка
- Неравенство оператора Дженсена Хансена и Педерсена.
- «Неравенство Дженсена», Энциклопедия математики, EMS Press, 2001 [1994]
- Вайсштейн, Эрик В. «Неравенство Дженсена». MathWorld.
- Артур Лохуотер (1982). «Введение в неравенство». Электронная книга в формате PDF.