Mallowss Cп - Mallowss Cp
В статистика, Mallows’s Cп,[1][2] назван в честь Колин Лингвуд Мэллоуз, используется для оценки поместиться из регрессионная модель это было оценено с использованием обыкновенный метод наименьших квадратов. Применяется в контексте выбор модели, где ряд переменные-предикторы доступны для прогнозирования некоторых результатов, и цель состоит в том, чтобы найти лучшую модель, включающую подмножество этих предикторов. Небольшое значение Cп означает, что модель относительно точная.
Mallows’s Cп было показано, что эквивалентно Информационный критерий Акаике в частном случае гауссовского линейная регрессия.[3]
Определение и свойства
Mallows’s Cп решает проблему переоснащение, в которой статистика выбора модели, такая как остаточная сумма квадратов, всегда уменьшается по мере добавления в модель большего количества переменных. Таким образом, если мы стремимся выбрать модель, дающую наименьшую остаточную сумму квадратов, всегда будет выбираться модель, включающая все переменные. Вместо этого Cп статистика рассчитана на образец данных оценивает среднеквадратичная ошибка прогноза (MSPE) как его численность населения цель
куда является подобранным значением из регрессионной модели для jй случай, E(Yj | Иксj) - ожидаемое значение для j-й случай, а σ2 - дисперсия ошибки (предполагается, что она постоянна во всех случаях). MSPE не будет автоматически уменьшаться по мере добавления дополнительных переменных. Оптимальная модель по этому критерию - это компромисс, зависящий от размера выборки, размеры эффекта различных предикторов, а также степень коллинеарность между ними.
Если п регрессоры выбираются из набора K > п, то Cп статистика для этого конкретного набора регрессоров определяется как:
куда
- это сумма квадратов ошибок для модели с п регрессоры,
- Yчисло Пи это предсказанный ценность я-е наблюдение Y от п регрессоры,
- S2 - средний квадрат невязки после регресс по комплектации K регрессоры и оценивается как среднеквадратичная ошибка MSE,
- и N это размер образца.
Альтернативное определение
Учитывая линейную модель, такую как:
куда:
- коэффициенты для переменных-предикторов
- представляет ошибку
Альтернативная версия Cп также можно определить как:[4]
куда
- RSS - это остаточная сумма квадратов на обучающем наборе данных.
- d количество предикторов
- и относится к оценке дисперсии, связанной с каждым ответом в линейной модели (оцененной на модели, содержащей все предикторы)
Обратите внимание, что эта версия Cп не дает значений, эквивалентных предыдущей версии, но модель с наименьшим Cп из этого определения также будет такая же модель с наименьшим Cп из более раннего определения.
Ограничения
В Cп критерий имеет два основных ограничения[5]
- то Cп приближение справедливо только для большого размера выборки;
- то Cп не может обрабатывать сложные коллекции моделей, как при выборе переменных (или выбор функции ) проблема.[5]
Практическое использование
В Cп статистика часто используется как правило остановки для различных форм пошаговая регрессия. Маллоуз предложил статистику в качестве критерия для выбора среди множества альтернативных регрессий подмножества. Под моделью, не страдающей от заметного несоответствия (смещения), Cп имеет ожидание почти равное п; в противном случае ожидание примерно п плюс положительный термин смещения. Тем не менее, даже несмотря на то, что ожидание больше или равно п, ничто не мешает Cп < п или даже Cп <0 в крайних случаях. Предлагается выбрать подмножество, имеющее Cп приближающийся п,[6] сверху, для списка подмножеств, упорядоченных по возрастанию п. На практике положительное смещение можно скорректировать, выбрав модель из упорядоченного списка подмножеств, так что Cп < 2п.
Поскольку на основе выборки Cп статистика - это оценка MSPE с использованием Cп выбор модели не полностью защищает от переоборудования. Например, возможно, что выбранная модель будет той, в которой образец Cп была особенно серьезной недооценкой MSPE.
Статистика выбора модели, такая как Cп обычно не используются вслепую, а скорее учитывается информация о сфере применения, предполагаемом использовании модели и любых известных смещениях в данных в процессе выбора модели.
Смотрите также
Рекомендации
- ^ Мэллоуз, К. Л. (1973). "Некоторые комментарии к Cп". Технометрика. 15 (4): 661–675. Дои:10.2307/1267380. JSTOR 1267380.
- ^ Гилмор, Стивен Г. (1996). "Интерпретация Маллоуз Cп-статистический ». Журнал Королевского статистического общества, серия D. 45 (1): 49–56. JSTOR 2348411.
- ^ Буасбунон, Орели; Кану, Стефан; Фурдринье, Доминик; Strawderman, Уильям; Уэллс, Мартин Т. (2013). «АПК, Cп и оценки потерь для эллиптически симметричных распределений ". arXiv:1308.2766 [math.ST ].
- ^ Джеймс, Гарет; Виттен; Хасти; Тибширани (24.06.2013). Введение в статистическое обучение. http://www-bcf.usc.edu/~gareth/ISL/ISLR%20Sixth%20Printing.pdf: Springer. стр.211. ISBN 978-1-4614-7138-7.CS1 maint: location (связь)
- ^ а б Жиро, К. (2015), Введение в многомерную статистику, Чепмен и Холл / CRC, ISBN 9781482237948
- ^ Daniel, C .; Вуд, Ф. (1980). Подгонка уравнений к данным (Ред. Ред.). Нью-Йорк: Wiley & Sons, Inc.
дальнейшее чтение
- Чоу, Грегори С. (1983). Эконометрика. Нью-Йорк: Макгроу-Хилл. стр.291–293. ISBN 978-0-07-010847-9.
- Хокинг, Р. Р. (1976). «Анализ и выбор переменных в линейной регрессии». Биометрия. 32 (1): 1–50. CiteSeerX 10.1.1.472.4742. Дои:10.2307/2529336. JSTOR 2529336.
- Судья, Джордж Г .; Гриффитс, Уильям Э .; Хилл, Р. Картер; Ли, Цунг-Чао (1980). Теория и практика эконометрики. Нью-Йорк: Вили. С. 417–423. ISBN 978-0-471-05938-7.