Ожидаемые средние квадраты - Expected mean squares

В статистика, ожидаемые средние квадраты (EMS) являются ожидаемыми значениями некоторых статистических данных, возникающих при разбиении сумм квадратов в дисперсионный анализ (ANOVA). Их можно использовать для определения, какая статистика должна быть в знаменателе F-тест для тестирования нулевая гипотеза что особого эффекта нет.

Определение

Когда общая скорректированная сумма квадратов в ANOVA делится на несколько компонентов, каждый из которых отнесен к влиянию определенной переменной-предиктора, каждая из сумм квадратов в этом разделе является случайной величиной, которая имеет ожидаемое значение. Это ожидаемое значение, деленное на соответствующее количество степеней свободы, и есть ожидаемое средний квадрат для этой переменной-предиктора.

пример

Следующий пример взят из Продольный анализ данных Дональда Хедекера и Роберта Д. Гиббонса.^[1]

Каждый из s лечение (одно из которых может быть плацебо) назначается выборке (столица) N случайно выбранные пациенты, у которых определенные измерения ${ textstyle Y_ {hij}}$ наблюдаются на каждом из (строчных) п указанное время, для ${ textstyle h = 1, ldots, s, quad i = 1, ldots, N_ {h}}$ (таким образом, количество пациентов, получающих разное лечение, может отличаться), и ${ textstyle j = 1, ldots, n.}$ Мы предполагаем, что группы пациентов, получающих разное лечение, не пересекаются, поэтому пациенты вложенный в рамках лечения и не пересекались с лечением. У нас есть

{ displaystyle Y_ {hij} = mu + gamma _ {h} + tau _ {j} + ( gamma tau) _ {hj} + pi _ {i (h)} + varepsilon _ { hij}}

где

{ displaystyle { begin {align} mu & = { text {grand mean}}, && { text {(fixed)}} gamma _ {h} & ​​= { text {эффект обработки} } h, && { text {(fixed)}} tau _ {j} & = { text {эффект времени}} j, && { text {(fixed)}} ( gamma tau) _ {hj} & = { text {эффект взаимодействия обработки}} h { text {и время}} j, && { text {(fixed)}} pi _ {i (h)} & = { text {индивидуальный эффект различия для пациента}} i { text {вложен в курс лечения}} h, && { text {(random)}} varepsilon _ {hij} & = { text {error для пациента}} i { text {в процессе лечения}} h { text {at time}} j. && { text {(random)}} sigma _ { pi} ^ {2} & = { text {дисперсия случайного эффекта пациентов, вложенных в лечение,}} sigma _ { varepsilon} & = { text {дисперсия ошибок.}} end {выравнивается}}}

Общая скорректированная сумма квадратов равна

{ displaystyle sum _ {hij} (Y_ {hij} - { overline {Y}}) ^ {2} quad { text {where}} { overline {Y}} = { frac {1} {n}} sum _ {hij} Y_ {hij}.}

Таблица ANOVA ниже разбивает сумму квадратов (где ${ textstyle N = сумма _ {h} N_ {h}}$ ):

{ displaystyle { begin {array} {| r | c | l | c | l |} hline { begin {array} {c} { text {источник}} { text {изменчивость}} end {array}} & { begin {array} {c} { text {степени}} { text {freedom}} end {array}} & { text {сумма квадратов}} & { text {средний квадрат}} & { begin {array} {c} { text {expected}} { text {mean}} { text {square}} end {array}} hline { text {treatment}} & s-1 & { text {SS}} _ { text {Tr}} = n sum _ {h = 1} ^ {s} N_ {h} ({ overline {Y}} _ {h cdot cdot} - { overline {Y}} _ { cdot cdot cdot}) ^ {2} & { dfrac {{ text {SS}} _ { text {Tr}}} {s-1}} & sigma _ { varepsilon} ^ {2} + n sigma _ { pi} ^ {2} + D _ { text {Tr}} [6pt] { text {time}} & n-1 & { text {SS}} _ { text {T}} = N sum _ {j = 1} ^ {n} ({ overline {Y}} _ { cdot cdot j} - { overline {Y}} _ { cdot cdot cdot}) ^ {2} & { dfrac {{ text {SS}} _ { text {T}}} {n -1}} & sigma _ { varepsilon} ^ {2} + D _ { text {T}} [6pt] { text {treatment}} times { text {time}} & (s- 1) (n-1) & { text {SS}} _ { text {Tr T}} = sum _ {h = 1} ^ {s} sum _ {j = 1} ^ {n} N_ {h} ({ overline {Y}} _ {h cdot j} - { overline {Y}} _ {h cdot cdot} - { overline {Y}} _ { cdot cdot j} + { overline { Y}} _ { cdot cdot cdot}) ^ {2} & { dfrac {{ text {SS}} _ { text {Tr T}}} {(n-1) (s-1) }} & sigma _ { varepsilon} ^ {2} + D _ { text {Tr T}} [6pt] { begin {array} {c} { text {пациенты}} { text {внутри}} { text {treatment}} end {array}} & N-s & { text {SS}} _ {{ text {S}} ({ text {Tr}})} = n sum _ {h = 1} ^ {s} sum _ {i = 1} ^ {N_ {h}} ({ overline {Y}} _ {hi cdot} - { overline {Y}} _ {h cdot cdot}) ^ {2} & { dfrac {{ text {SS}} _ {{ text {S}} ({ text {Tr}})}} {Ns}} & sigma _ { varepsilon} ^ {2} + n sigma _ { pi} ^ {2} [6pt] { text {error}} & (Ns) (n-1) & { text {SS }} _ { text {E}} = sum _ {h = 1} ^ {s} sum _ {i = 1} ^ {N_ {h}} sum _ {j = 1} ^ {n} (Y_ {hij} - { overline {Y}} _ {h cdot j} - { overline {Y}} _ {hi cdot} + { overline {Y}} _ {h cdot cdot} ) ^ {2} & { dfrac {{ text {SS}} _ { text {E}}} {(Ns) (n-1)}} & sigma _ { varepsilon} ^ {2} hline end {массив}}}

Использование в F-тестах

Нулевая гипотеза, представляющая интерес, заключается в том, что нет никакой разницы между эффектами разных методов лечения - следовательно, нет разницы между методами лечения. Это можно выразить словами ${ textstyle D _ { text {Tr}} = 0,}$ (с обозначениями, используемыми в таблице выше). При этой нулевой гипотезе ожидаемый средний квадрат эффектов лечения равен ${ textstyle sigma _ { varepsilon} ^ {2} + n sigma _ { pi} ^ {2}.}$

Числитель в F-статистике для проверки этой гипотезы представляет собой средний квадрат из-за различий между видами лечения, т.е. ${ textstyle left. { text {SS}} _ { text {Tr}} right / (s-1).}$ Однако знаменатель не ${ textstyle left. { text {SS}} _ { text {E}} right / { big (} (N-s) (n-1) { big)}.}$ Причина в том, что приведенная ниже случайная величина, хотя при нулевой гипотезе имеет F-распределение, не наблюдается - это не статистика - потому что его значение зависит от ненаблюдаемых параметров ${ textstyle sigma _ { pi} ^ {2}}$ и ${ textstyle sigma _ { varepsilon} ^ {2}.}$

{ displaystyle { frac { left. { frac {{ text {SS}} _ { text {Tr}}} { sigma _ { varepsilon} ^ {2} + n sigma _ { pi } ^ {2}}} right / (s-1)} { left. { Frac {{ text {SS}} _ { text {E}}} { sigma _ { varepsilon} ^ { 2}}} right / { big (} (Ns) (n-1) { big)}}} neq { frac {{ text {SS}} _ { text {Tr}} / ( s-1)} {{ text {SS}} _ { text {E}} / { big (} (Ns) (n-1) { big)}}}}

Вместо этого в качестве тестовой статистики используется следующая случайная величина, которая не определена в терминах ${ textstyle { text {SS}} _ { text {E}}}$ :

{ displaystyle F = { frac { left. { frac {{ text {SS}} _ { text {Tr}}} { sigma _ { varepsilon} ^ {2} + n sigma _ { pi} ^ {2}}} right / (s-1)} { left. { frac {{ text {SS}} _ {{ text {S}} ({ text {Tr}} )}} { sigma _ { varepsilon} ^ {2} + n sigma _ { pi} ^ {2}}} right / (Ns)}} = { frac { left. { text { SS}} _ { text {Tr}} right / (s-1)} { left. { Text {SS}} _ { text {S (Tr)}} right / (Ns)}} }

Примечания и ссылки

^ Дональд Хедекер, Роберт Д. Гиббонс. Продольный анализ данных. Wiley Interscience. 2006. С. 21–24.

[1] Дональд Хедекер, Роберт Д. Гиббонс. Продольный анализ данных. Wiley Interscience. 2006. С. 21–24.

[1]