В статистика, ожидаемые средние квадраты (EMS) являются ожидаемыми значениями некоторых статистических данных, возникающих при разбиении сумм квадратов в дисперсионный анализ (ANOVA). Их можно использовать для определения, какая статистика должна быть в знаменателе F-тест для тестирования нулевая гипотеза что особого эффекта нет.
Определение
Когда общая скорректированная сумма квадратов в ANOVA делится на несколько компонентов, каждый из которых отнесен к влиянию определенной переменной-предиктора, каждая из сумм квадратов в этом разделе является случайной величиной, которая имеет ожидаемое значение. Это ожидаемое значение, деленное на соответствующее количество степеней свободы, и есть ожидаемое средний квадрат для этой переменной-предиктора.
пример
Следующий пример взят из Продольный анализ данных Дональда Хедекера и Роберта Д. Гиббонса.[1]
Каждый из s лечение (одно из которых может быть плацебо) назначается выборке (столица) N случайно выбранные пациенты, у которых определенные измерения
наблюдаются на каждом из (строчных) п указанное время, для
(таким образом, количество пациентов, получающих разное лечение, может отличаться), и
Мы предполагаем, что группы пациентов, получающих разное лечение, не пересекаются, поэтому пациенты вложенный в рамках лечения и не пересекались с лечением. У нас есть

где

Общая скорректированная сумма квадратов равна

Таблица ANOVA ниже разбивает сумму квадратов (где
):
![{ displaystyle { begin {array} {| r | c | l | c | l |} hline { begin {array} {c} { text {источник}} { text {изменчивость}} end {array}} & { begin {array} {c} { text {степени}} { text {freedom}} end {array}} & { text {сумма квадратов}} & { text {средний квадрат}} & { begin {array} {c} { text {expected}} { text {mean}} { text {square}} end {array}} hline { text {treatment}} & s-1 & { text {SS}} _ { text {Tr}} = n sum _ {h = 1} ^ {s} N_ {h} ({ overline {Y}} _ {h cdot cdot} - { overline {Y}} _ { cdot cdot cdot}) ^ {2} & { dfrac {{ text {SS}} _ { text {Tr}}} {s-1}} & sigma _ { varepsilon} ^ {2} + n sigma _ { pi} ^ {2} + D _ { text {Tr}} [6pt] { text {time}} & n-1 & { text {SS}} _ { text {T}} = N sum _ {j = 1} ^ {n} ({ overline {Y}} _ { cdot cdot j} - { overline {Y}} _ { cdot cdot cdot}) ^ {2} & { dfrac {{ text {SS}} _ { text {T}}} {n -1}} & sigma _ { varepsilon} ^ {2} + D _ { text {T}} [6pt] { text {treatment}} times { text {time}} & (s- 1) (n-1) & { text {SS}} _ { text {Tr T}} = sum _ {h = 1} ^ {s} sum _ {j = 1} ^ {n} N_ {h} ({ overline {Y}} _ {h cdot j} - { overline {Y}} _ {h cdot cdot} - { overline {Y}} _ { cdot cdot j} + { overline { Y}} _ { cdot cdot cdot}) ^ {2} & { dfrac {{ text {SS}} _ { text {Tr T}}} {(n-1) (s-1) }} & sigma _ { varepsilon} ^ {2} + D _ { text {Tr T}} [6pt] { begin {array} {c} { text {пациенты}} { text {внутри}} { text {treatment}} end {array}} & N-s & { text {SS}} _ {{ text {S}} ({ text {Tr}})} = n sum _ {h = 1} ^ {s} sum _ {i = 1} ^ {N_ {h}} ({ overline {Y}} _ {hi cdot} - { overline {Y}} _ {h cdot cdot}) ^ {2} & { dfrac {{ text {SS}} _ {{ text {S}} ({ text {Tr}})}} {Ns}} & sigma _ { varepsilon} ^ {2} + n sigma _ { pi} ^ {2} [6pt] { text {error}} & (Ns) (n-1) & { text {SS }} _ { text {E}} = sum _ {h = 1} ^ {s} sum _ {i = 1} ^ {N_ {h}} sum _ {j = 1} ^ {n} (Y_ {hij} - { overline {Y}} _ {h cdot j} - { overline {Y}} _ {hi cdot} + { overline {Y}} _ {h cdot cdot} ) ^ {2} & { dfrac {{ text {SS}} _ { text {E}}} {(Ns) (n-1)}} & sigma _ { varepsilon} ^ {2} hline end {массив}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/2e224a806106a7cb45683a2bdb9a73dbabec4dcf)
Использование в F-тестах
Нулевая гипотеза, представляющая интерес, заключается в том, что нет никакой разницы между эффектами разных методов лечения - следовательно, нет разницы между методами лечения. Это можно выразить словами
(с обозначениями, используемыми в таблице выше). При этой нулевой гипотезе ожидаемый средний квадрат эффектов лечения равен 
Числитель в F-статистике для проверки этой гипотезы представляет собой средний квадрат из-за различий между видами лечения, т.е.
Однако знаменатель не
Причина в том, что приведенная ниже случайная величина, хотя при нулевой гипотезе имеет F-распределение, не наблюдается - это не статистика - потому что его значение зависит от ненаблюдаемых параметров
и 

Вместо этого в качестве тестовой статистики используется следующая случайная величина, которая не определена в терминах
:

Примечания и ссылки
- ^ Дональд Хедекер, Роберт Д. Гиббонс. Продольный анализ данных. Wiley Interscience. 2006. С. 21–24.