В теория вероятности , неравенство концентраций установить границы того, как случайная переменная отклоняется от некоторого значения (обычно ожидаемое значение ). В закон больших чисел классической теории вероятностей утверждает, что суммы независимых случайных величин при очень мягких условиях с большой вероятностью близки к их математическому ожиданию. Такие суммы являются наиболее простыми примерами случайных величин, сосредоточенных вокруг их иметь в виду . Недавние результаты показывают, что такое поведение характерно и для других функций независимых случайных величин.
Неравенства концентраций могут быть отсортированы по тому, сколько информации о случайной величине необходимо для их использования.
Неравенство Маркова
Позволять Икс { displaystyle X} быть неотрицательной случайной величиной (почти наверняка ). Тогда для каждой постоянной а > 0 { displaystyle a> 0} ,
Pr ( Икс ≥ а ) ≤ E ( Икс ) а . { displaystyle Pr (X geq a) leq { frac { operatorname {E} (X)} {a}}.} Обратите внимание на следующее расширение неравенства Маркова: если Φ { displaystyle Phi} - строго возрастающая неотрицательная функция, то
Pr ( Икс ≥ а ) = Pr ( Φ ( Икс ) ≥ Φ ( а ) ) ≤ E ( Φ ( Икс ) ) Φ ( а ) . { Displaystyle Pr (Икс geq a) = Pr ( Phi (X) geq Phi (a)) leq { frac { operatorname {E} ( Phi (X))} { Phi (а)}}.} Неравенство Чебышева
Неравенство Чебышева требует следующей информации о случайной величине Икс { displaystyle X} :
Ожидаемое значение E [ Икс ] { displaystyle operatorname {E} [X]} конечно. В отклонение Вар [ Икс ] = E [ ( Икс − E [ Икс ] ) 2 ] { displaystyle operatorname {Var} [X] = operatorname {E} [(X- operatorname {E} [X]) ^ {2}]} конечно. Тогда для каждой постоянной а > 0 { displaystyle a> 0} ,
Pr ( | Икс − E [ Икс ] | ≥ а ) ≤ Вар [ Икс ] а 2 , { Displaystyle Pr (| X- OperatorName {E} [X] | geq a) leq { frac { operatorname {Var} [X]} {a ^ {2}}},} или эквивалентно,
Pr ( | Икс − E [ Икс ] | ≥ а ⋅ Стандартное [ Икс ] ) ≤ 1 а 2 , { Displaystyle Pr (| X- OperatorName {E} [X] | geq a cdot operatorname {Std} [X]) leq { frac {1} {a ^ {2}}},} куда Стандартное [ Икс ] { displaystyle operatorname {Std} [X]} это стандартное отклонение из Икс { displaystyle X} .
Неравенство Чебышева можно рассматривать как частный случай обобщенного неравенства Маркова, примененного к случайной величине | Икс − E [ Икс ] | { Displaystyle | X- OperatorName {E} [X] |} с Φ ( Икс ) = Икс 2 { Displaystyle Phi (х) = х ^ {2}} .
Неравенство Высочанского – Петунина.
Неравенство Пэли – Зигмунда.
Неравенство Кантелли
Неравенство Гаусса
Границы Чернова
Общая граница Чернова[1] :63–65 требует только функция, производящая момент из Икс { displaystyle X} , определяется как: M Икс ( т ) := E [ е т Икс ] { displaystyle M_ {X} (t): = operatorname {E} ! left [e ^ {tX} right]} при условии, что он существует. Исходя из неравенства Маркова, для каждого т > 0 { displaystyle t> 0} :
Pr ( Икс ≥ а ) ≤ E [ е т ⋅ Икс ] е т ⋅ а , { Displaystyle Pr (Икс geq a) leq { frac { operatorname {E} [e ^ {t cdot X}]} {e ^ {t cdot a}}},} и для каждого т < 0 { displaystyle t <0} :
Pr ( Икс ≤ а ) ≤ E [ е т ⋅ Икс ] е т ⋅ а . { displaystyle Pr (X leq a) leq { frac { operatorname {E} [e ^ {t cdot X}]} {e ^ {t cdot a}}}.} Существуют разные границы Чернова для разных распределений и разных значений параметра т { displaystyle t} . Видеть [2] :5–7 для компиляции большего количества неравенств концентрации.
Оценки сумм независимых переменных
Позволять Икс 1 , Икс 2 , … , Икс п { displaystyle X_ {1}, X_ {2}, dots, X_ {n}} - независимые случайные величины такие, что для всех я :
а я ≤ Икс я ≤ б я { Displaystyle а_ {я} leq X_ {я} leq b_ {я}} почти наверняка . c я := б я − а я { displaystyle c_ {i}: = b_ {i} -a_ {i}} ∀ я : c я ≤ C { displaystyle forall i: c_ {i} leq C} Позволять S п { displaystyle S_ {n}} быть их суммой, E п { displaystyle E_ {n}} это ожидаемое значение и V п { displaystyle V_ {n}} его дисперсия:
S п := ∑ я = 1 п Икс я { Displaystyle S_ {п}: = сумма _ {я = 1} ^ {п} X_ {я}} E п := E [ S п ] = ∑ я = 1 п E [ Икс я ] { displaystyle E_ {n}: = operatorname {E} [S_ {n}] = sum _ {i = 1} ^ {n} operatorname {E} [X_ {i}]} V п := Вар [ S п ] = ∑ я = 1 п Вар [ Икс я ] { displaystyle V_ {n}: = operatorname {Var} [S_ {n}] = sum _ {i = 1} ^ {n} operatorname {Var} [X_ {i}]} Часто бывает интересно определить разницу между суммой и ее ожидаемым значением. Можно использовать несколько неравенств.
1. Неравенство Хёффдинга Говорит, что:
Pr [ | S п − E п | > т ] < 2 exp ( − 2 т 2 ∑ я = 1 п c я 2 ) < 2 exp ( − 2 т 2 п C 2 ) { displaystyle Pr left [| S_ {n} -E_ {n} |> t right] <2 exp left (- { frac {2t ^ {2}} { sum _ {i = 1 } ^ {n} c_ {i} ^ {2}}} right) <2 exp left (- { frac {2t ^ {2}} {nC ^ {2}}} right)} 2. Случайная величина S п − E п { displaystyle S_ {n} -E_ {n}} частный случай мартингейл , и S 0 − E 0 = 0 { displaystyle S_ {0} -E_ {0} = 0} . Следовательно, общий вид Неравенство Адзумы также можно использовать, и это дает аналогичную оценку:
Pr [ | S п − E п | > т ] < 2 exp ( − 2 т 2 ∑ я = 1 п c я 2 ) < 2 exp ( − 2 т 2 п C 2 ) { Displaystyle Pr left [| S_ {n} -E_ {n} |> t right] <2 exp left (- { frac {2t ^ {2}} { sum _ {i = 1 } ^ {n} c_ {i} ^ {2}}} right) <2 exp left (- { frac {2t ^ {2}} {nC ^ {2}}} right)} Это обобщение модели Хёффдинга, поскольку она может обрабатывать другие типы мартингалов, а также супермартингейлы и субмартингалы . Обратите внимание, что если используется более простая форма неравенства Адзумы, показатель степени в оценке будет хуже в 4 раза.
3. Функция суммы, S п = ж ( Икс 1 , … , Икс п ) { Displaystyle S_ {п} = е (X_ {1}, точки, X_ {n})} , является частным случаем функции п переменные. Эта функция изменяется ограниченным образом: если переменная я изменяется, значение ж изменяется не более чем на б я − а я < C { displaystyle b_ {i} -a_ {i} . Следовательно, Неравенство МакДиармида также можно использовать, и это дает аналогичную оценку:
Pr [ | S п − E п | > т ] < 2 exp ( − 2 т 2 ∑ я = 1 п c я 2 ) < 2 exp ( − 2 т 2 п C 2 ) { displaystyle Pr left [| S_ {n} -E_ {n} |> t right] <2 exp left (- { frac {2t ^ {2}} { sum _ {i = 1 } ^ {n} c_ {i} ^ {2}}} right) <2 exp left (- { frac {2t ^ {2}} {nC ^ {2}}} right)} Это другое обобщение Хёффдинга, поскольку оно может обрабатывать другие функции, помимо функции суммы, если они изменяются ограниченным образом.
4. Неравенство Беннета предлагает некоторое улучшение по сравнению с Хёффдингом, когда дисперсии слагаемых малы по сравнению с их почти верными границами C . В нем говорится, что:
Pr [ | S п − E п | > т ] ≤ 2 exp [ − V п C 2 час ( C т V п ) ] , { displaystyle Pr left [| S_ {n} -E_ {n} |> t right] leq 2 exp left [- { frac {V_ {n}} {C ^ {2}}} h left ({ frac {Ct} {V_ {n}}} right) right],} куда час ( ты ) = ( 1 + ты ) бревно ( 1 + ты ) − ты { Displaystyle ч (и) = (1 + и) журнал (1 + и) -у} 5. Первый из Неравенства Бернштейна Говорит, что:
Pr [ | S п − E п | > т ] < 2 exp ( − т 2 / 2 V п + C ⋅ т / 3 ) { Displaystyle Pr left [| S_ {n} -E_ {n} |> t right] <2 exp left (- { frac {t ^ {2} / 2} {V_ {n} + C cdot t / 3}} right)} Это обобщение теории Хёффдинга, поскольку она может обрабатывать случайные величины не только с почти надежной оценкой, но и с почти верной границей и границей дисперсии.
6. Границы Чернова имеют особенно простой вид в случае суммы независимых переменных, поскольку E [ е т ⋅ S п ] = ∏ я = 1 п E [ е т ⋅ Икс я ] { displaystyle operatorname {E} [e ^ {t cdot S_ {n}}] = prod _ {i = 1} ^ {n} { operatorname {E} [e ^ {t cdot X_ {i }}]}} .
Например,[3] предположим, что переменные Икс я { displaystyle X_ {i}} удовлетворить Икс я ≥ E ( Икс я ) − а я − M { displaystyle X_ {i} geq E (X_ {i}) - a_ {i} -M} , за 1 ≤ я ≤ п { Displaystyle 1 Leq я Leq п} . Тогда у нас есть неравенство нижнего хвоста:
Pr [ S п − E п < − λ ] ≤ exp ( − λ 2 2 ( V п + ∑ я = 1 п а я 2 + M λ / 3 ) ) { displaystyle Pr [S_ {n} -E_ {n} <- lambda] leq exp left (- { frac { lambda ^ {2}} {2 (V_ {n} + sum _ {i = 1} ^ {n} a_ {i} ^ {2} + M lambda / 3)}} right)} Если Икс я { displaystyle X_ {i}} удовлетворяет Икс я ≤ E ( Икс я ) + а я + M { displaystyle X_ {i} leq E (X_ {i}) + a_ {i} + M} , имеем неравенство верхнего хвоста:
Pr [ S п − E п > λ ] ≤ exp ( − λ 2 2 ( V п + ∑ я = 1 п а я 2 + M λ / 3 ) ) { displaystyle Pr [S_ {n} -E_ {n}> lambda] leq exp left (- { frac { lambda ^ {2}} {2 (V_ {n} + sum _ { i = 1} ^ {n} a_ {i} ^ {2} + M lambda / 3)}} right)} Если Икс я { displaystyle X_ {i}} i.i.d., | Икс я | ≤ 1 { displaystyle | X_ {i} | leq 1} и σ 2 { displaystyle sigma ^ {2}} это дисперсия Икс я { displaystyle X_ {i}} , типичный вариант неравенства Чернова:
Pr [ | S п | ≥ k σ ] ≤ 2 е − k 2 / 4 п за 0 ≤ k ≤ 2 σ . { displaystyle Pr [| S_ {n} | geq k sigma] leq 2e ^ {- k ^ {2} / 4n} { text {for}} 0 leq k leq 2 sigma.} 7. Подобные оценки можно найти в: Распределение Радемахера # Границы сумм
Неравенство Эфрона – Стейна.
Неравенство Эфрона – Стейна (или неравенство влияния, или оценка MG на дисперсию) ограничивает дисперсию общей функции.
Предположим, что Икс 1 … Икс п { Displaystyle X_ {1} точки X_ {n}} , Икс 1 ′ … Икс п ′ { displaystyle X_ {1} ' dots X_ {n}'} независимы с Икс я ′ { displaystyle X_ {i} '} и Икс я { displaystyle X_ {i}} одинаковое распределение для всех я { displaystyle i} .
Позволять Икс = ( Икс 1 , … , Икс п ) , Икс ( я ) = ( Икс 1 , … , Икс я − 1 , Икс я ′ , Икс я + 1 , … , Икс п ) . { displaystyle X = (X_ {1}, dots, X_ {n}), X ^ {(i)} = (X_ {1}, dots, X_ {i-1}, X_ {i} ', X_ {i + 1}, dots, X_ {n}).} потом
V а р ( ж ( Икс ) ) ≤ 1 2 ∑ я = 1 п E [ ( ж ( Икс ) − ж ( Икс ( я ) ) ) 2 ] . { displaystyle mathrm {Var} (f (X)) leq { frac {1} {2}} sum _ {i = 1} ^ {n} E [(f (X) -f (X ^ {(i)})) ^ {2}].} Неравенство Дворецкого – Кифера – Вулфовица.
Неравенство Дворецкого – Кифера – Вулфовица ограничивает разницу между действительным и эмпирическим кумулятивная функция распределения .
Учитывая натуральное число п { displaystyle n} , позволять Икс 1 , Икс 2 , … , Икс п { displaystyle X_ {1}, X_ {2}, dots, X_ {n}} иметь реальную ценность независимые и одинаково распределенные случайные переменные с кумулятивная функция распределения F (·). Позволять F п { displaystyle F_ {n}} обозначим связанный эмпирическая функция распределения определяется
F п ( Икс ) = 1 п ∑ я = 1 п 1 { Икс я ≤ Икс } , Икс ∈ р . { displaystyle F_ {n} (x) = { frac {1} {n}} sum _ {i = 1} ^ {n} mathbf {1} _ { {X_ {i} leq x }}, qquad x in mathbb {R}.} Так F ( Икс ) { Displaystyle F (х)} вероятность того, что Один случайная переменная Икс { displaystyle X} меньше чем Икс { displaystyle x} , и F п ( Икс ) { Displaystyle F_ {п} (х)} это среднее число случайных величин, меньших, чем Икс { displaystyle x} .
потом
Pr ( Как дела Икс ∈ р ( F п ( Икс ) − F ( Икс ) ) > ε ) ≤ е − 2 п ε 2 для каждого ε ≥ 1 2 п пер 2 . { displaystyle Pr left ( sup _ {x in mathbb {R}} { bigl (} F_ {n} (x) -F (x) { bigr)}> varepsilon right) leq e ^ {- 2n varepsilon ^ {2}} { text {для каждого}} varepsilon geq { sqrt {{ tfrac {1} {2n}} ln 2}}.} Антиконцентрационное неравенство
Антиконцентрационное неравенство , с другой стороны, верхняя граница на том, насколько случайная величина может концентрироваться вокруг количества.
Например, Рао и Иегудаофф[4] показать, что есть некоторые C > 0 { displaystyle C> 0} так что для большинства направлений гиперкуба Икс ∈ { ± 1 } п { Displaystyle х в { pm 1 } ^ {п}} , верно следующее:
Pr ( ⟨ Икс , Y ⟩ = k ) ≤ C п , { displaystyle Pr left ( langle x, Y rangle = k right) leq { frac {C} { sqrt {n}}},} куда Y { displaystyle Y} равномерно вытягивается из подмножества B ⊆ { ± 1 } п { Displaystyle B substeq { pm 1 } ^ {п}} достаточно большого размера.
Такое неравенство важно в нескольких областях, в том числе сложность коммуникации (например , в доказательствах проблема разрыва Хэмминга [5] ) и теория графов .[6]
Интересное неравенство антиконцентрации для взвешенных сумм независимых Радемахер случайные величины могут быть получены с помощью Пейли-Зигмунд и Хинчин неравенства.[7]
Рекомендации
^ Митценмахер, Майкл; Упфал, Эли (2005). Вероятность и вычисления: рандомизированные алгоритмы и вероятностный анализ . Издательство Кембриджского университета. ISBN 0-521-83540-2 . ^ Слэгл, Н. (2012). «Сто статистик и вероятностных неравенств» (PDF) . ^ Чанг, Фань ; Лу, Линьюань (2010). «Старое и новое неравенство концентрации» (PDF) . Сложные графы и сети . Американское математическое общество . Получено 14 августа, 2018 .^ Рао, Ануп; Иегудаофф, Амир (2018). «Антиконцентрация по большинству направлений» . Электронный коллоквиум по вычислительной сложности. ^ Шерстов, Александр А. (2012). «Коммуникационная сложность расстояния Хэмминга» . Теория вычислений . ^ Мэтью Кван; Бенни Судаков; Туан Тран (2018). «Антиконцентрация для статистики подграфов». Журнал Лондонского математического общества . 99 (3): 757–777. arXiv :1807.05202 . Bibcode :2018arXiv180705202K . Дои :10.1112 / jlms.12192 . S2CID 54065186 . ^ Вераар, Марк (2009). «О неравенствах Хинчина с весом». arXiv :0909.2586v1 [math.PR ]. внешняя ссылка
Картик Шридхаран "Мягкое введение в неравенство концентрации " —Корнелл Университет