Пример Штейна важный результат в теория принятия решений что можно сформулировать как
- Обычное решающее правило для оценки среднего многомерного распределения Гаусса недопустимо при среднеквадратическом риске ошибки в размерности не менее 3.
Ниже приводится схема его доказательства.[1] Читателя отсылаем к основная статья для дополнительной информации.
Набросал доказательство
В функция риска правила принятия решения
является
![{ Displaystyle R ( theta, d) = operatorname {E} _ { theta} [| mathbf { theta -X} | ^ {2}]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/e0eacb869ae5613edd603aea8a9035c70cca91f6)


Теперь рассмотрим правило принятия решения

куда
. Мы покажем, что
это лучшее решение, чем
. Функция риска
![{ Displaystyle R ( theta, d ') = operatorname {E} _ { theta} left [ left | mathbf { theta -X} + { frac { alpha} {| mathbf {X } | ^ {2}}} mathbf {X} right | ^ {2} right]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/53af2890b7cd27b63bffa5f567c3e16c7debcedc)
![{ displaystyle = operatorname {E} _ { theta} left [| mathbf { theta -X} | ^ {2} +2 ( mathbf { theta -X}) ^ {T} { frac { alpha} {| mathbf {X} | ^ {2}}} mathbf {X} + { frac { alpha ^ {2}} {| mathbf {X} | ^ {4}}} | mathbf {X} | ^ {2} right]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/d0d6bd94fd2a04861cc3855cc30155458f20913a)
![{ displaystyle = operatorname {E} _ { theta} left [| mathbf { theta -X} | ^ {2} right] +2 alpha operatorname {E} _ { theta} left [{ frac { mathbf {( theta -X) ^ {T} X}} {| mathbf {X} | ^ {2}}} right] + alpha ^ {2} operatorname {E} _ { theta} left [{ frac {1} {| mathbf {X} | ^ {2}}} right]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/b3c2b23e5eec4f665d7b3988b45f4851203ccce5)
- квадратичный по
. Мы можем упростить средний термин, рассмотрев общую функцию "хорошего поведения"
и используя интеграция по частям. За
, для любого непрерывно дифференцируемого
растет достаточно медленно для больших
у нас есть:
![{ displaystyle operatorname {E} _ { theta} [( theta _ {i} -X_ {i}) h ( mathbf {X}) | X_ {j} = x_ {j} (j neq i )] = int ( theta _ {i} -x_ {i}) h ( mathbf {x}) left ({ frac {1} {2 pi}} right) ^ {n / 2} e ^ {- (1/2) mathbf {(x- theta)} ^ {T} mathbf {(x- theta)}} m (dx_ {i})}](https://wikimedia.org/api/rest_v1/media/math/render/svg/abf79080d2c2797d6eb3a2cd63bca3836a690c31)
![= left [h ({ mathbf {x}}) left ({ frac {1} {2 pi}} right) ^ {{n / 2}} e ^ {{- (1/2) { mathbf {(x- theta)}} ^ {T} { mathbf {(x- theta)}}}} right] _ {{x_ {i} = - infty}} ^ { infty } - int { frac { partial h} { partial x_ {i}}} ({ mathbf {x}}) left ({ frac {1} {2 pi}} right) ^ { {n / 2}} e ^ {{- (1/2) { mathbf {(x- theta)}} ^ {T} { mathbf {(x- theta)}}}} m (dx_ { я})](https://wikimedia.org/api/rest_v1/media/math/render/svg/1290a9810a80bc9ed39483971d798fbdbc0bf94b)
![{ displaystyle = - operatorname {E} _ { theta} left [{ frac { partial h} { partial x_ {i}}} ( mathbf {X}) | X_ {j} = x_ { j} (j neq i) right].}](https://wikimedia.org/api/rest_v1/media/math/render/svg/805aad9850010a67778135aed1a70395f316d20d)
Следовательно,
![{ displaystyle operatorname {E} _ { theta} [( theta _ {i} -X_ {i}) h ( mathbf {X})] = - operatorname {E} _ { theta} left [{ frac { partial h} { partial x_ {i}}} ( mathbf {X}) right].}](https://wikimedia.org/api/rest_v1/media/math/render/svg/cb61a83c56c891d9e294b55bea3335aeb8367e08)
(Этот результат известен как Лемма Штейна.)
Теперь выбираем

Если
соответствует условию "хорошего поведения" (это не так, но это можно исправить - см. ниже), мы бы

и так
![{ displaystyle operatorname {E} _ { theta} left [{ frac { mathbf {( theta -X) ^ {T} X}} {| mathbf {X} | ^ {2}}} right] = sum _ {i = 1} ^ {n} operatorname {E} _ { theta} left [( theta _ {i} -X_ {i}) { frac {X_ {i} } {| mathbf {X} | ^ {2}}} right]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/02e2ec1d5947960d3006c776b41ed078a119d78a)
![{ displaystyle = - sum _ {i = 1} ^ {n} operatorname {E} _ { theta} left [{ frac {1} {| mathbf {X} | ^ {2}}} - { frac {2X_ {i} ^ {2}} {| mathbf {X} | ^ {4}}} right]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/c03a081bb181a5391ce9f473d3bc091e3ca1fc24)
![{ displaystyle = - (n-2) operatorname {E} _ { theta} left [{ frac {1} {| mathbf {X} | ^ {2}}} right].}](https://wikimedia.org/api/rest_v1/media/math/render/svg/e4d9f21e647c8da339e4f087293ffd9ac32e6b12)
Затем возвращаясь к функции риска
:
![{ Displaystyle R ( theta, d ') = п-2 альфа (п-2) operatorname {E} _ { theta} left [{ frac {1} {| mathbf {X} | ^ {2}}} right] + alpha ^ {2} operatorname {E} _ { theta} left [{ frac {1} {| mathbf {X} | ^ {2}}} right ].}](https://wikimedia.org/api/rest_v1/media/math/render/svg/3a406c5b50929abb1cffbf67a86c448e2340c5a5)
Эта квадратичная по
сводится к минимуму

давая
![{ Displaystyle R ( theta, d ') = R ( theta, d) - (n-2) ^ {2} operatorname {E} _ { theta} left [{ frac {1} {| mathbf {X} | ^ {2}}} right]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/36aef6769e6264751d25a514511de5c4d6de1b77)
что, конечно, удовлетворяет

изготовление
недопустимое решение.
Осталось обосновать использование

Эта функция не является непрерывно дифференцируемой, так как она сингулярна на
. Однако функция

непрерывно дифференцируема, и, проследив алгебру и допуская
, получаем тот же результат.
Рекомендации