Доброту соответствия - Goodness of fit

В степень соответствия из статистическая модель описывает, насколько хорошо он соответствует ряду наблюдений. Меры качества соответствия обычно суммируют расхождение между наблюдаемыми значениями и значениями, ожидаемыми в рамках рассматриваемой модели. Такие меры могут быть использованы в статистическая проверка гипотез, например к тест на нормальность из остатки, чтобы проверить, взяты ли две выборки из одинаковых распределений (см. Колмогоров – Смирнов теста), или следуют ли частоты результатов заданному распределению (см. Критерий хи-квадрат Пирсона ). в дисперсионный анализ, одним из компонентов, на которые разбивается дисперсия, может быть несоответствующая сумма квадратов.

Подгонка распределений

При оценке того, подходит ли данное распределение для набора данных, следующие тесты и их основные меры соответствия могут быть использованы:

Байесовский информационный критерий
Тест Колмогорова – Смирнова
Критерий Крамера – фон Мизеса
Тест Андерсона – Дарлинга
Тест Шапиро-Уилка
Тест хи-квадрат
Информационный критерий Акаике
Тест Хосмера – Лемешоу
Тест Койпера
Кернелизированное несоответствие Штейна^[1]^[2]
Zhang's Z_K, Z_C и Z_А тесты^[3]
Тест Морана

Регрессивный анализ

В регрессивный анализ, следующие темы относятся к степени соответствия:

Коэффициент детерминации (R-квадрат мера согласия);
Неподходящая сумма квадратов;
Уменьшенный хи-квадрат
Проверка регрессии
Критерий Cp Маллоуса

Категориальные данные

Ниже приведены примеры, возникающие в контексте категориальные данные.

Критерий хи-квадрат Пирсона

Критерий хи-квадрат Пирсона использует критерий согласия, который представляет собой сумму различий между наблюдаемыми и ожидаемый результат частоты (то есть количество наблюдений), каждая из которых возведена в квадрат и разделена на математическое ожидание:

{ displaystyle chi ^ {2} = sum _ {i = 1} ^ {n} {{ frac {(O_ {i} -E_ {i})} {E_ {i}}} ^ {2} }}

куда:

О_я = наблюдаемое количество для корзины я

E_я = ожидаемое количество для корзины я, утверждается нулевая гипотеза.

Ожидаемая частота рассчитывается следующим образом:

{ Displaystyle E_ {я} , = , { bigg (} F (Y_ {u}) , - , F (Y_ {l}) { bigg)} , N}

куда:

F = the кумулятивная функция распределения для распределение вероятностей проходит испытания.

Y_ты = верхний предел для класса я,

Y_л = нижний предел для класса я, и

N = размер выборки

Полученное значение можно сравнить с распределение хи-квадрат чтобы определить степень соответствия. Распределение хи-квадрат имеет (k − c) степени свободы, куда k - количество непустых ячеек и c - количество оценочных параметров (включая параметры местоположения и масштаба и параметры формы) для распределения плюс один. Например, для 3-параметрического Распределение Вейбулла, c = 4.

Пример: равные частоты мужчин и женщин

Например, чтобы проверить гипотезу о том, что случайная выборка из 100 человек была взята из популяции, в которой мужчины и женщины равны по частоте, наблюдаемое количество мужчин и женщин будет сравниваться с теоретической частотой 50 мужчин и 50 женщин. . Если бы в выборке было 44 мужчины и 56 женщин, то

{ displaystyle chi ^ {2} = {(44-50) ^ {2} более 50} + {(56-50) ^ {2} более 50} = 1,44}

Если нулевая гипотеза верна (т. Е. Мужчины и женщины выбираются с равной вероятностью в выборке), статистика теста будет получена из распределения хи-квадрат с одним степень свободы. Хотя можно ожидать двух степеней свободы (по одной для мужчин и женщин), мы должны принять во внимание, что общее количество мужчин и женщин ограничено (100), и, следовательно, существует только одна степень свободы (2-1 ). Другими словами, если известно количество самцов, определяется количество самок, и наоборот.

Консультация распределение хи-квадрат для 1 степени свободы показывает, что вероятность наблюдения за этой разницей (или более резкой разницей, чем это), если мужчин и женщин в популяции одинаково много, составляет примерно 0,23. Эта вероятность выше, чем обычные критерии для Статистическая значимость (.001–05), поэтому обычно мы не отвергаем нулевую гипотезу о том, что количество мужчин в популяции такое же, как и количество женщин (т. Е. Мы будем рассматривать нашу выборку в пределах того диапазона, который мы ожидаем соотношение мужчин и женщин 50/50.)

Обратите внимание на предположение, что механизм, который сформировал выборку, является случайным в смысле независимого случайного выбора с одинаковой вероятностью, здесь 0,5 как для мужчин, так и для женщин. Если, например, каждый из 44 выбранных мужчин привел друга-мужчину, а каждая из 56 женщин принесла приятеля-женщину, каждый ${ textstyle {(O_ {i} -E_ {i})} ^ {2}}$ увеличится в 4 раза, а каждый ${ textstyle E_ {i}}$ увеличится в 2 раза. Значение статистики удвоится до 2,88. Зная этот основной механизм, мы, конечно, должны считать пары. В общем, механизм, если не оправданно случайный, не будет известен. Соответственно, распределение, к которому следует отнести тестовую статистику, может сильно отличаться от хи-квадрат.^[4]

Биномиальный случай

Биномиальный эксперимент - это последовательность независимых испытаний, в которых испытания могут привести к одному из двух результатов: успеху или неудаче. Есть п испытания каждое с вероятностью успеха, обозначенное п. При условии, что нп_я ≫ 1 за каждые я (куда я = 1, 2, ..., k), тогда

${ displaystyle chi ^ {2} = sum _ {i = 1} ^ {k} { frac {(N_ {i} -np_ {i}) ^ {2}} {np_ {i}}} = sum _ { mathrm {all cells}} ^ {} { frac {( mathrm {O} - mathrm {E}) ^ {2}} { mathrm {E}}}.}$

Это имеет примерно распределение хи-квадрат с k - 1 степень свободы. Тот факт, что есть k - 1 степень свободы является следствием ограничения ${ Displaystyle сумма N_ {я} = п}$ . Мы знаем, что есть k наблюдаемое количество клеток, однако, как только k - 1 известен, оставшийся однозначно определен. В принципе, можно сказать, есть только k - 1 свободно определяемое количество клеток, таким образом k - 1 степень свободы.

грамм-тест

грамм-тесты находятся отношение правдоподобия тесты Статистическая значимость которые все чаще используются в ситуациях, когда ранее были рекомендованы критерии хи-квадрат Пирсона.^[5]

Общая формула для грамм является

{ displaystyle G = 2 sum _ {i} {O_ {i} cdot ln left ({ frac {O_ {i}} {E_ {i}}} right)},}

куда ${ textstyle O_ {i}}$ и ${ textstyle E_ {i}}$ такие же, как и для теста хи-квадрат, ${ textstyle ln}$ обозначает натуральный логарифм, и сумма берется по всем непустым ячейкам. Кроме того, общее наблюдаемое количество должно быть равно общему ожидаемому количеству:

{ Displaystyle сумма _ {я} O_ {я} = сумма _ {я} E_ {я} = N}

куда

{ textstyle N}

- общее количество наблюдений.

грамм-тесты рекомендуются по крайней мере с 1981 года издания популярного учебника статистики Роберт Р. Сокал и Ф. Джеймс Рольф.^[6]

Смотрите также

дальнейшее чтение

Huber-Carol, C .; Балакришнан, Н .; Никулин, М. С .; Месбах, М., ред. (2002), Тесты согласия и валидность модели, Springer
Ингстер, Ю. Я.; Суслина, И. А. (2003), Непараметрическая проверка согласия в гауссовских моделях, Springer
Rayner, J. C. W .; Thas, O .; Бест, Д. Дж. (2009), Плавные тесты на пригодность (2-е изд.), Wiley
Векслера, Альберт; Гуревич, Грегори (2010), «Эмпирические отношения правдоподобия, применяемые к критериям согласия на основе выборочной энтропии», Вычислительная статистика и анализ данных, 54: 531–545, Дои:10.1016 / j.csda.2009.09.025

[1] Лю, Цян; Ли, Джейсон; Джордан, Майкл (20 июня 2016 г.). «Кернелизованное несоответствие Штейна для тестов согласия». Материалы 33-й Международной конференции по машинному обучению. 33-я Международная конференция по машинному обучению. Нью-Йорк, Нью-Йорк, США: Материалы исследований в области машинного обучения. С. 276–284.

[2] Хвялковски, Кацпер; Стратманн, Хайко; Греттон, Артур (20 июня 2016 г.). «Ядровый тест на соответствие». Материалы 33-й Международной конференции по машинному обучению. 33-я Международная конференция по машинному обучению. Нью-Йорк, Нью-Йорк, США: Материалы исследований в области машинного обучения. С. 2606–2615.

[3] Чжан, Цзинь (2002). «Мощные тесты согласия на основе отношения правдоподобия» (PDF). J. R. Stat. Soc. B. 64: 281–294. Получено 5 ноября 2018.

[4] Maindonald, J. H .; Браун, В. Дж. (2010). Анализ данных и графики с использованием R. Подход на основе примеров (Третье изд.). Нью-Йорк: Издательство Кембриджского университета. стр.116 -118. ISBN 978-0-521-76293-9.

[5] Макдональд, Дж. (2014). «G – тест соответствия». Справочник по биологической статистике (Третье изд.). Балтимор, Мэриленд: Издательство Sparky House. С. 53–58.

[6] Sokal, R. R .; Рольф, Ф. Дж. (1981). Биометрия: принципы и практика статистики в биологических исследованиях (Второе изд.). В. Х. Фриман. ISBN 0-7167-2411-1.

[1]

[2]

[3]

[4]

[5]

[6]