Логистическая регрессия - Logistic regression

В статистика, то логистическая модель (или же логит модель) используется для моделирования вероятности существования определенного класса или события, например, пройден / не пройден, выиграл / проиграл, жив / мертв или здоров / болен. Это может быть расширено для моделирования нескольких классов событий, таких как определение наличия на изображении кошки, собаки, льва и т. Д. Каждому обнаруживаемому на изображении объекту будет присвоена вероятность от 0 до 1 с суммой, равной единице.

Логистическая регрессия - это статистическая модель который в своей основной форме использует логистическая функция моделировать двоичный зависимая переменная, хотя многие более сложные расширения существовать. В регрессивный анализ, логистическая регрессия^[1] (или же логит-регрессия) является оценка параметры логистической модели (форма бинарная регрессия ). Математически бинарная логистическая модель имеет зависимую переменную с двумя возможными значениями, такими как годен / не годен, которая представлена индикаторная переменная, где два значения помечены как «0» и «1». В логистической модели логарифмические шансы (в логарифм из шансы ) для значения с меткой "1" является линейная комбинация одного или нескольких независимые переменные («предсказатели»); каждая независимая переменная может быть двоичной переменной (два класса, кодируемых индикаторной переменной) или непрерывная переменная (любое реальное значение). Соответствующие вероятность значения, помеченного «1», может варьироваться от 0 (обязательно значение «0») до 1 (безусловно, значение «1»), отсюда и маркировка; функция, которая преобразует логарифмические шансы в вероятность, является логистической функцией, отсюда и название. В единица измерения для логарифмической шкалы шансов называется логит, из бревноИстик ООНЭто, отсюда и альтернативные имена. Аналогичные модели с другим сигмовидная функция вместо логистической функции также может использоваться, например пробит модель; Определяющей характеристикой логистической модели является то, что увеличение одной из независимых переменных мультипликативно увеличивает шансы данного результата на постоянный ставка, при этом каждая независимая переменная имеет свой собственный параметр; для двоичной зависимой переменной это обобщает отношение шансов.

В модели бинарной логистической регрессии зависимая переменная имеет два уровня (категоричный ). Выходы с более чем двумя значениями моделируются полиномиальная логистическая регрессия и, если несколько категорий упорядоченный, к порядковая логистическая регрессия (например, порядковая логистическая модель пропорциональных шансов^[2]). Сама модель логистической регрессии просто моделирует вероятность выхода с точки зрения входных данных и не выполняет статистическая классификация (это не классификатор), хотя его можно использовать для создания классификатора, например, путем выбора порогового значения и классификации входных данных с вероятностью больше порогового значения как один класс, ниже порогового значения как другой; это обычный способ сделать двоичный классификатор. Коэффициенты обычно не вычисляются с помощью выражения в закрытой форме, в отличие от линейный метод наименьших квадратов; видеть § Примерка модели. Логистическая регрессия как общая статистическая модель была первоначально разработана и популяризирована в первую очередь Джозеф Берксон,^[3] начиная с Берксон (1944), где он изобрел «логит»; видеть § История.

Приложения

Логистическая регрессия используется в различных областях, включая машинное обучение, большинство областей медицины и социальных наук. Например, оценка травмы и тяжести травмы (ТРИСС ), который широко используется для прогнозирования смертности травмированных пациентов, изначально был разработан Бойдом. и другие. с помощью логистической регрессии.^[4] Многие другие медицинские шкалы, используемые для оценки степени тяжести состояния пациента, были разработаны с использованием логистической регрессии.^[5]^[6]^[7]^[8] Логистическая регрессия может использоваться для прогнозирования риска развития данного заболевания (например, сахарный диабет; ишемическая болезнь сердца ) на основе наблюдаемых характеристик пациента (возраст, пол, индекс массы тела, результаты различных анализы крови, так далее.).^[9]^[10] Другой пример может заключаться в прогнозировании того, проголосует ли непальский избиратель за Конгресс Непала, Коммунистическую партию Непала или любую другую партию, исходя из возраста, дохода, пола, расы, государства проживания, голосов на предыдущих выборах и т. Д.^[11] Техника также может быть использована в инженерное дело, особенно для прогнозирования вероятности отказа данного процесса, системы или продукта.^[12]^[13] Он также используется в маркетинг такие приложения, как прогнозирование склонности клиента к покупке продукта или прекращению подписки и т. д.^[14] В экономика его можно использовать для прогнозирования вероятности того, что человек выберет рабочую силу, а бизнес-приложение может предсказать вероятность того, что домовладелец не выполнит свои обязательства по ипотека. Условные случайные поля, расширение логистической регрессии на последовательные данные, используются в обработка естественного языка.

Примеры

Логистическая модель

Давайте попробуем понять логистическую регрессию, рассмотрев логистическую модель с заданными параметрами, а затем посмотрим, как можно оценить коэффициенты на основе данных. Рассмотрим модель с двумя предикторами, ${ displaystyle x_ {1}}$ и ${ displaystyle x_ {2}}$ , и одна бинарная (Бернулли) переменная ответа ${ displaystyle Y}$ , который мы обозначим ${ Displaystyle p = P (Y = 1)}$ . Мы предполагаем линейная связь между переменными-предикторами и логарифм (также называемое логитом) события, которое ${ displaystyle Y = 1}$ . Эта линейная зависимость может быть записана в следующей математической форме (где ℓ это логарифм шансов, ${ displaystyle b}$ является основанием логарифма, а ${ displaystyle beta _ {я}}$ параметры модели):

{ displaystyle ell = log _ {b} { frac {p} {1-p}} = beta _ {0} + beta _ {1} x_ {1} + beta _ {2} x_ {2}}

Мы можем восстановить шансы возведением в степень логарифма шансов:

{ displaystyle { frac {p} {1-p}} = b ^ { beta _ {0} + beta _ {1} x_ {1} + beta _ {2} x_ {2}}}

.

Путем простых алгебраических манипуляций вероятность того, что ${ displaystyle Y = 1}$ является

{ displaystyle p = { frac {b ^ { beta _ {0} + beta _ {1} x_ {1} + beta _ {2} x_ {2}}} {b ^ { beta _ { 0} + beta _ {1} x_ {1} + beta _ {2} x_ {2}} + 1}} = { frac {1} {1 + b ^ {- ( beta _ {0} + beta _ {1} x_ {1} + beta _ {2} x_ {2})}}} = S_ {b} ( beta _ {0} + beta _ {1} x_ {1} + beta _ {2} x_ {2})}

.

Где ${ displaystyle S_ {b}}$ это сигмовидная функция с базой ${ displaystyle b}$ Приведенная выше формула показывает, что однажды ${ displaystyle beta _ {я}}$ фиксированы, мы можем легко вычислить либо логарифмические шансы, что ${ displaystyle Y = 1}$ для данного наблюдения или вероятность того, что ${ displaystyle Y = 1}$ для данного наблюдения. Основным вариантом использования логистической модели является наблюдение. ${ displaystyle (x_ {1}, x_ {2})}$ , и оценим вероятность ${ displaystyle p}$ который ${ displaystyle Y = 1}$ . В большинстве приложений база ${ displaystyle b}$ логарифма обычно принимается равным е. Однако в некоторых случаях проще сообщить результаты, работая с основанием 2 или основанием 10.

Рассмотрим пример с ${ displaystyle b = 10}$ , а коэффициенты ${ displaystyle beta _ {0} = - 3}$ , ${ displaystyle beta _ {1} = 1}$ , и ${ displaystyle beta _ {2} = 2}$ . Чтобы быть конкретным, модель

{ displaystyle log _ {10} { frac {p} {1-p}} = ell = -3 + x_ {1} + 2x_ {2}}

куда ${ displaystyle p}$ вероятность того, что ${ displaystyle Y = 1}$ .

Это можно интерпретировать так:

${ displaystyle beta _ {0} = - 3}$ это у-перехват. Логарифмические шансы события ${ displaystyle Y = 1}$ , когда предикторы ${ displaystyle x_ {1} = x_ {2} = 0}$ . Возведя в степень, мы можем увидеть, что когда ${ displaystyle x_ {1} = x_ {2} = 0}$ шансы того, что ${ displaystyle Y = 1}$ от 1 до 1000, или ${ displaystyle 10 ^ {- 3}}$ . Аналогично вероятность того, что ${ displaystyle Y = 1}$ когда ${ displaystyle x_ {1} = x_ {2} = 0}$ можно вычислить как ${ displaystyle 1 / (1000 + 1) = 1/1001}$ .
${ displaystyle beta _ {1} = 1}$ означает, что увеличение ${ displaystyle x_ {1}}$ на 1 увеличивает логарифмические шансы на ${ displaystyle 1}$ . Так что если ${ displaystyle x_ {1}}$ увеличивается на 1, вероятность того, что ${ displaystyle Y = 1}$ увеличиться в раз ${ displaystyle 10 ^ {1}}$ . Обратите внимание, что вероятность из ${ displaystyle Y = 1}$ также увеличилось, но не настолько, насколько увеличились шансы.
${ displaystyle beta _ {2} = 2}$ означает, что увеличение ${ displaystyle x_ {2}}$ на 1 увеличивает логарифмические шансы на ${ displaystyle 2}$ . Так что если ${ displaystyle x_ {2}}$ увеличивается на 1, вероятность того, что ${ displaystyle Y = 1}$ увеличиться в раз ${ displaystyle 10 ^ {2}.}$ Обратите внимание, как эффект ${ displaystyle x_ {2}}$ на логарифм вдвое больше, чем эффект ${ displaystyle x_ {1}}$ , но влияние на шансы в 10 раз больше. Но влияние на вероятность из ${ displaystyle Y = 1}$ не в 10 раз больше, это только влияние на шансы в 10 раз больше.

Для оценки параметров ${ displaystyle beta _ {я}}$ исходя из данных, необходимо провести логистическую регрессию.

Вероятность сдачи экзамена по сравнению с часами обучения

Чтобы ответить на следующий вопрос:

Группа из 20 студентов тратит от 0 до 6 часов на подготовку к экзамену. Как количество часов, потраченных на обучение, влияет на вероятность сдачи студентом экзамена?

Причина использования логистической регрессии для этой проблемы заключается в том, что значения зависимой переменной, пройден и не пройден, хотя и представлены «1» и «0», не являются Количественные числительные. Если задача была изменена таким образом, что «годен / не годен» был заменен оценкой 0–100 (количественные числа), то простой регрессивный анализ может быть использован.

В таблице показано количество часов, проведенных каждым учащимся, и указано, прошли они (1) или не прошли (0).

Часы	0.50	0.75	1.00	1.25	1.50	1.75	1.75	2.00	2.25	2.50	2.75	3.00	3.25	3.50	4.00	4.25	4.50	4.75	5.00	5.50
Проходить	0	0	0	0	0	0	1	0	1	0	1	0	1	0	1	1	1	1	1	1

График показывает вероятность сдачи экзамена в зависимости от количества часов обучения, с кривой логистической регрессии, подобранной к данным.

График кривой логистической регрессии, показывающий вероятность сдачи экзамена в зависимости от количества часов обучения

Логистический регрессионный анализ дает следующий результат.

	Коэффициент	Std.Error	z-значение	P-значение (Вальд)
Перехватить	−4.0777	1.7610	−2.316	0.0206
Часы	1.5046	0.6287	2.393	0.0167

Вывод показывает, что количество часов обучения в значительной степени связано с вероятностью сдачи экзамена ( ${ displaystyle p = 0,0167}$ , Тест Вальда ). Вывод также предоставляет коэффициенты для ${ displaystyle { text {Intercept}} = - 4,0777}$ и ${ displaystyle { text {Hours}} = 1,5046}$ . Эти коэффициенты вводятся в уравнение логистической регрессии для оценки шансов (вероятности) сдачи экзамена:

{ displaystyle { begin {align} { text {Лог-шансы сдачи экзамена}} & = 1,5046 cdot { text {Hours}} - 4,0777 = 1,5046 cdot ({ text {Hours}} - 2,71) { text {Вероятность сдачи экзамена}} & = exp left (1.5046 cdot { text {Hours}} - 4.0777 right) = exp left (1.5046 cdot ({ text {Hours}) } -2.71) right) { text {Вероятность сдачи экзамена}} & = { frac {1} {1+ exp left (- left (1.5046 cdot { text {Hours}}) - 4.0777 right) right)}} end {align}}}

Предполагается, что один дополнительный час учебы увеличит логарифмическую вероятность успешного прохождения теста на 1,5046, таким образом, умножая шансы пройти мимо ${ displaystyle exp (1,5046) примерно 4,5.}$ Форма с Икс-перехват (2.71) показывает, что эта оценка равные шансы (логарифм-шансы 0, шансы 1, вероятность 1/2) для студента, который учится 2,71 часа.

Например, для студента, который учится 2 часа, введите значение ${ displaystyle { text {Часы}} = 2}$ в уравнении дает оценочную вероятность сдачи экзамена 0,26:

{ displaystyle { text {Вероятность сдачи экзамена}} = { frac {1} {1+ exp left (- left (1.5046 cdot 2-4.0777 right) right)}} = 0,26}

Аналогичным образом, для студента, который учится 4 часа, оценочная вероятность сдачи экзамена составляет 0,87:

{ displaystyle { text {Вероятность сдачи экзамена}} = { frac {1} {1+ exp left (- left (1.5046 cdot 4-4.0777 right) right)}} = 0,87}

В этой таблице показана вероятность сдачи экзамена для нескольких значений часов обучения.

Часы исследования	Сдача экзамена
Часы исследования	Лог-шансы	Шансы	Вероятность
1	−2.57	0.076 ≈ 1:13.1	0.07
2	−1.07	0.34 ≈ 1:2.91	0.26
3	0.44	1.55	0.61
4	1.94	6.96	0.87
5	3.45	31.4	0.97

Результат анализа логистической регрессии дает p-значение ${ displaystyle p = 0,0167}$ , который основан на z-оценке Вальда. Вместо метода Вальда рекомендуемый метод^{[нужна цитата ]} для расчета p-значения для логистической регрессии критерий отношения правдоподобия (LRT), что для этих данных дает ${ displaystyle p = 0,0006}$ .

Обсуждение

Логистическая регрессия может быть биномиальной, порядковой или полиномиальной. Биномиальная или бинарная логистическая регрессия имеет дело с ситуациями, в которых наблюдаемый результат для зависимая переменная может иметь только два возможных типа: «0» и «1» (которые могут представлять, например, «мертвый» против «живого» или «выигрышный» против «проигрышного»). Полиномиальная логистическая регрессия имеет дело с ситуациями, когда результат может иметь три или более возможных типа (например, «болезнь A» против «болезни B» против «болезни C»), которые не упорядочены. Порядковая логистическая регрессия имеет дело с упорядоченными зависимыми переменными.

В бинарной логистической регрессии результат обычно кодируется как «0» или «1», поскольку это приводит к наиболее простой интерпретации.^[15] Если конкретный наблюдаемый результат для зависимой переменной является заслуживающим внимания возможным результатом (называемым «успехом», «экземпляром» или «случаем»), он обычно кодируется как «1», а противоположный результат (называемый «сбой» или «неэкземпляр» или «не случай») как «0». Бинарная логистическая регрессия используется для прогнозирования шансы быть случаем, основанным на ценностях независимые переменные (предикторы). Шансы определяются как вероятность того, что конкретный исход является случаем, деленный на вероятность того, что это не случай.

Как и другие формы регрессивный анализ логистическая регрессия использует одну или несколько переменных-предикторов, которые могут быть непрерывными или категориальными. Однако, в отличие от обычной линейной регрессии, логистическая регрессия используется для прогнозирования зависимых переменных, которые принимают членство в одной из ограниченного числа категорий (рассматривая зависимую переменную в биномиальном случае как результат Бернулли суд ), а не постоянный результат. Учитывая эту разницу, предположения линейной регрессии нарушаются. В частности, остатки не могут быть нормально распределены. Кроме того, линейная регрессия может делать бессмысленные прогнозы для двоичной зависимой переменной. Что необходимо, так это способ преобразования двоичной переменной в непрерывную, которая может принимать любое реальное значение (отрицательное или положительное). Для этого биномиальная логистическая регрессия сначала вычисляет шансы события, происходящего на разных уровнях каждой независимой переменной, а затем принимает логарифм для создания непрерывного критерия в виде преобразованной версии зависимой переменной. Логарифм шансов - это $логит$ вероятности $логит$ определяется следующим образом:

{ displaystyle operatorname {logit} p = ln { frac {p} {1-p}} quad { text {for}} 0

Хотя зависимой переменной в логистической регрессии является Бернулли, логит имеет неограниченный масштаб.^[15] Функция logit - это функция ссылки в такой обобщенной линейной модели, т.е.

{ displaystyle operatorname {logit} operatorname { mathcal {E}} (Y) = beta _ {0} + beta _ {1} x}

$Y$ - переменная отклика, распределенная по Бернулли, и $Икс$ - переменная-предиктор; в $β$ значения - линейные параметры.

В $логит$ вероятности успеха затем подгоняется к предикторам. Прогнозируемое значение $логит$ преобразуется обратно в предсказанные шансы через обратный натуральный логарифм - экспоненциальная функция. Таким образом, хотя наблюдаемая зависимая переменная в бинарной логистической регрессии представляет собой переменную 0 или 1, логистическая регрессия оценивает шансы, как непрерывную переменную, того, что зависимая переменная является «успехом». В некоторых приложениях все, что нужно, - это ставки. В других случаях требуется конкретный прогноз типа «да» или «нет» для определения того, является ли зависимая переменная «успехом»; это категориальное предсказание может быть основано на вычисленных шансах на успех, при этом предсказанные шансы выше некоторого выбранного значения отсечения переводятся в предсказание успеха.

Предположение о линейных предсказательных эффектах можно легко ослабить с помощью таких методов, как сплайновые функции.^[16]

Логистическая регрессия против других подходов

Логистическая регрессия измеряет взаимосвязь между категориальной зависимой переменной и одной или несколькими независимыми переменными путем оценки вероятностей с использованием логистическая функция, которая является кумулятивной функцией распределения логистическая дистрибуция. Таким образом, он рассматривает тот же набор проблем, что и пробит регрессия используя аналогичные методы, причем последний использует вместо этого кумулятивную кривую нормального распределения. Точно так же в интерпретации скрытых переменных этих двух методов первый предполагает стандартную логистическая дистрибуция ошибок и второй эталон нормальное распределение ошибок.^[17]

Логистическую регрессию можно рассматривать как частный случай обобщенная линейная модель и таким образом аналогично линейная регрессия. Однако модель логистической регрессии основана на совершенно иных предположениях (о взаимосвязи между зависимыми и независимыми переменными) от предположений линейной регрессии. В частности, ключевые различия между этими двумя моделями можно увидеть в следующих двух особенностях логистической регрессии. Во-первых, условное распределение ${ displaystyle y mid x}$ это Распределение Бернулли а не Гауссово распределение, потому что зависимая переменная является двоичной. Во-вторых, предсказанные значения являются вероятностями и поэтому ограничены (0,1) через функция логистического распределения потому что логистическая регрессия предсказывает вероятность конкретных результатов, а не самих результатов.

Логистическая регрессия - альтернатива методу Фишера 1936 года, линейный дискриминантный анализ.^[18] Если допущения линейного дискриминантного анализа верны, обусловленность может быть отменена для получения логистической регрессии. Однако обратное неверно, потому что логистическая регрессия не требует многомерного нормального допущения дискриминантного анализа.^[19]

Скрытая интерпретация переменных

Логистическую регрессию можно понять просто как нахождение ${ displaystyle beta}$ параметры, которые лучше всего подходят:

{ displaystyle y = { begin {cases} 1 & beta _ {0} + beta _ {1} x + varepsilon> 0 0 & { text {else}} end {cases}}}

куда ${ displaystyle varepsilon}$ ошибка, распространяемая стандартом логистическая дистрибуция. (Если вместо этого используется стандартное нормальное распределение, это пробит модель.)

Связанная скрытая переменная ${ displaystyle y '= beta _ {0} + beta _ {1} x + varepsilon}$ . Срок ошибки ${ displaystyle varepsilon}$ не соблюдается, и поэтому ${ displaystyle y '}$ также ненаблюдаемый, поэтому называется «скрытым» (наблюдаемые данные представляют собой значения ${ displaystyle y}$ и ${ displaystyle x}$ ). Однако в отличие от обычной регрессии ${ displaystyle beta}$ параметры не могут быть выражены какой-либо прямой формулой ${ displaystyle y}$ и ${ displaystyle x}$ значения в наблюдаемых данных. Вместо этого они должны быть найдены с помощью итеративного процесса поиска, обычно реализуемого программой, которая находит максимум сложного «выражения вероятности», которое является функцией всех наблюдаемых ${ displaystyle y}$ и ${ displaystyle x}$ значения. Подход к оценке объясняется ниже.

Логистическая функция, шансы, отношение шансов и логит

Рисунок 1. Стандартная логистическая функция

{ Displaystyle sigma (т)}

; Обратите внимание, что

{ Displaystyle сигма (т) в (0,1)}

для всех

{ displaystyle t}

.

Определение логистической функции

Объяснение логистической регрессии можно начать с объяснения стандарта. логистическая функция. Логистическая функция - это сигмовидная функция, который принимает любые настоящий Вход ${ displaystyle t}$ , ( ${ Displaystyle т в mathbb {R}}$ ) и выводит значение от нуля до единицы;^[15] для логита это интерпретируется как ввод логарифм и имея выход вероятность. В стандарт логистическая функция ${ Displaystyle sigma: mathbb {R} rightarrow (0,1)}$ определяется следующим образом:

{ displaystyle sigma (t) = { frac {e ^ {t}} {e ^ {t} +1}} = { frac {1} {1 + e ^ {- t}}}}

График логистической функции на т-интервал (−6,6) показан на рисунке 1.

Предположим, что ${ displaystyle t}$ является линейной функцией одного объясняющая переменная ${ displaystyle x}$ (случай, когда ${ displaystyle t}$ это линейная комбинация множественных независимых переменных рассматривается аналогично). Затем мы можем выразить ${ displaystyle t}$ следующее:

{ displaystyle t = beta _ {0} + beta _ {1} x}

И общая логистическая функция ${ Displaystyle p: mathbb {R} rightarrow (0,1)}$ теперь можно записать как:

{ displaystyle p (x) = sigma (t) = { frac {1} {1 + e ^ {- ( beta _ {0} + beta _ {1} x)}}}}

В логистической модели ${ displaystyle p (x)}$ интерпретируется как вероятность зависимой переменной ${ displaystyle Y}$ приравнивается к успеху / кейсу, а не к провалу / отсутствию дела. Понятно, что переменные ответа ${ displaystyle Y_ {i}}$ не одинаково распределены: ${ Displaystyle P (Y_ {я} = 1 середина X)}$ отличается от одной точки данных ${ displaystyle X_ {i}}$ другому, хотя они независимы матрица дизайна ${ displaystyle X}$ и общие параметры ${ displaystyle beta}$ .^[9]

Определение обратной логистической функции

Теперь мы можем определить логит (логарифмические шансы) функционируют как обратная ${ displaystyle g = sigma ^ {- 1}}$ стандартной логистической функции. Легко видеть, что он удовлетворяет:

{ displaystyle g (p (x)) = sigma ^ {- 1} (p (x)) = operatorname {logit} p (x) = ln left ({ frac {p (x)} { 1-p (x)}} right) = beta _ {0} + beta _ {1} x,}

и, что то же самое, после возведения в степень обе стороны имеем шансы:

{ displaystyle { frac {p (x)} {1-p (x)}} = e ^ { beta _ {0} + beta _ {1} x}.}

Толкование этих терминов

В приведенных выше уравнениях используются следующие члены:

${ displaystyle g}$ это функция логита. Уравнение для ${ Displaystyle г (п (х))}$ показывает, что логит (т.е. логарифм шансов или натуральный логарифм шансов) эквивалентен выражению линейной регрессии.
${ displaystyle ln}$ обозначает натуральный логарифм.
${ displaystyle p (x)}$ - вероятность того, что зависимая переменная соответствует случаю, при некоторой линейной комбинации предикторов. Формула для ${ displaystyle p (x)}$ иллюстрирует, что вероятность того, что зависимая переменная приравнивается к случаю, равна значению логистической функции выражения линейной регрессии. Это важно, поскольку показывает, что значение выражения линейной регрессии может изменяться от отрицательной до положительной бесконечности, и все же после преобразования результирующее выражение для вероятности ${ displaystyle p (x)}$ колеблется от 0 до 1.
${ displaystyle beta _ {0}}$ это перехватить из уравнения линейной регрессии (значение критерия, когда предиктор равен нулю).
${ displaystyle beta _ {1} х}$ - коэффициент регрессии, умноженный на некоторое значение предиктора.
основание ${ displaystyle e}$ обозначает экспоненциальную функцию.

Определение шансов

Шансы зависимой переменной равны случаю (при некоторой линейной комбинации ${ displaystyle x}$ предикторов) эквивалентна экспоненциальной функции выражения линейной регрессии. Это показывает, как логит служит связующей функцией между вероятностью и выражением линейной регрессии. Учитывая, что логит находится в диапазоне от отрицательной до положительной бесконечности, он обеспечивает адекватный критерий для проведения линейной регрессии, а логит легко конвертируется обратно в шансы.^[15]

Итак, мы определяем шансы зависимой переменной, равной случаю (при некоторой линейной комбинации ${ displaystyle x}$ предикторов) следующим образом:

{ displaystyle { text {odds}} = e ^ { beta _ {0} + beta _ {1} x}.}

Отношение шансов

Для непрерывной независимой переменной отношение шансов можно определить как:

{ displaystyle mathrm {OR} = { frac { operatorname {odds} (x + 1)} { operatorname {odds} (x)}} = { frac { left ({ frac {F (x +1)} {1-F (x + 1)}} right)} { left ({ frac {F (x)} {1-F (x)}} right)}} = { frac {e ^ { beta _ {0} + beta _ {1} (x + 1)}} {e ^ { beta _ {0} + beta _ {1} x}}} = e ^ { бета _ {1}}}

Эта экспоненциальная зависимость дает интерпретацию ${ displaystyle beta _ {1}}$ : Шансы умножаются на ${ displaystyle e ^ { beta _ {1}}}$ на каждую единицу увеличения x.^[20]

Для двоичной независимой переменной отношение шансов определяется как ${ displaystyle { frac {ad} {bc}}}$ куда а, б, c и d клетки в 2 × 2 Таблица сопряженности.^[21]

Несколько независимых переменных

Если есть несколько независимых переменных, приведенное выше выражение ${ displaystyle beta _ {0} + beta _ {1} x}$ может быть изменен на ${ displaystyle beta _ {0} + beta _ {1} x_ {1} + beta _ {2} x_ {2} + cdots + beta _ {m} x_ {m} = beta _ { 0} + sum _ {i = 1} ^ {m} beta _ {i} x_ {i}}$ . Затем, когда это используется в уравнении, связывающем логарифм шансов успеха со значениями предикторов, линейная регрессия будет множественная регрессия с м толкователи; параметры ${ displaystyle beta _ {j}}$ для всех j = 0, 1, 2, ..., м все оцениваются.

Опять же, более традиционные уравнения:

{ displaystyle log { frac {p} {1-p}} = beta _ {0} + beta _ {1} x_ {1} + beta _ {2} x_ {2} + cdots + beta _ {m} x_ {m}}

и

{ displaystyle p = { frac {1} {1 + b ^ {- ( beta _ {0} + beta _ {1} x_ {1} + beta _ {2} x_ {2} + cdots + beta _ {m} x_ {m})}}}}

где обычно ${ displaystyle b = e}$ .

Примерка модели

Логистическая регрессия - важная машинное обучение алгоритм. Цель состоит в том, чтобы смоделировать вероятность случайной величины. ${ displaystyle Y}$ 0 или 1 с учетом экспериментальных данных.^[22]

Рассмотрим обобщенная линейная модель функция параметризована ${ displaystyle theta}$ ,

{ displaystyle h _ { theta} (X) = { frac {1} {1 + e ^ {- theta ^ {T} X}}} = Pr (Y = 1 mid X; theta)}

Следовательно,

{ Displaystyle Pr (Y = 0 середина X; theta) = 1-час _ { theta} (X)}

и с тех пор ${ displaystyle Y in {0,1 }}$ , Мы видим, что ${ Displaystyle Pr (у середина X; тета)}$ дан кем-то ${ displaystyle Pr (y mid X; theta) = h _ { theta} (X) ^ {y} (1-h _ { theta} (X)) ^ {(1-y)}.}$ Теперь рассчитаем функция правдоподобия предполагая, что все наблюдения в выборке независимо распределены по Бернулли,

{ Displaystyle { begin {align} L ( theta mid y; x) & = Pr (Y mid X; theta) & = prod _ {i} Pr (y_ {i} середина x_ {i}; theta) & = prod _ {i} h _ { theta} (x_ {i}) ^ {y_ {i}} (1-h _ { theta} (x_ {i} )) ^ {(1-год_ {i})} end {выровнено}}}

Обычно логарифмическая вероятность максимальна,

{ Displaystyle N ^ {- 1} log L ( theta mid y; x) = N ^ {- 1} sum _ {i = 1} ^ {N} log Pr (y_ {i} середина x_ {i}; theta)}

который максимизируется с помощью таких методов оптимизации, как градиентный спуск.

Если предположить ${ Displaystyle (х, у)}$ пары выбираются равномерно из основного распределения, то в пределе большихN,

{ displaystyle { begin {align} & lim limits _ {N rightarrow + infty} N ^ {- 1} sum _ {i = 1} ^ {N} log Pr (y_ {i} mid x_ {i}; theta) = sum _ {x in { mathcal {X}}} sum _ {y in { mathcal {Y}}} Pr (X = x, Y = y) log Pr (Y = y mid X = x; theta) [6pt] = {} & sum _ {x in { mathcal {X}}} sum _ {y in { mathcal {Y}}} Pr (X = x, Y = y) left (- log { frac { Pr (Y = y mid X = x)} { Pr (Y = y mid X = x; theta)}} + log Pr (Y = y mid X = x) right) [6pt] = {} & - D _ { text {KL}} (Y parallel Y _ { theta}) - H (Y mid X) end {выравнивается}}}

куда ${ Displaystyle H (X середина Y)}$ это условная энтропия и ${ displaystyle D _ { text {KL}}}$ это Дивергенция Кульбака – Лейблера. Это приводит к интуиции, что, максимизируя логарифмическую вероятность модели, вы сводите к минимуму отклонение KL вашей модели от максимального распределения энтропии. Интуитивно ищите модель, которая делает наименьшее количество предположений в своих параметрах.

«Правило десяти»

Широко используемое эмпирическое правило "правило один из десяти ", заявляет, что модели логистической регрессии дают стабильные значения для независимых переменных, если они основаны как минимум на примерно 10 событиях на каждую независимую переменную (EPV); где мероприятие обозначает случаи, относящиеся к менее частой категории в зависимой переменной. Таким образом, исследование предназначено для использования ${ displaystyle k}$ независимые переменные для события (например, инфаркт миокарда ) ожидается в пропорции ${ displaystyle p}$ участников исследования потребуется в общей сложности ${ displaystyle 10k / p}$ участников. Тем не менее, есть серьезные споры о надежности этого правила, которое основано на исследованиях моделирования и не имеет надежного теоретического обоснования.^[23] По мнению некоторых авторов^[24] правило слишком консервативно, некоторые обстоятельства; при этом авторы заявляют: «Если мы (несколько субъективно) считаем охват доверительного интервала менее 93 процентов, ошибку типа I более 7 процентов или относительную систематическую ошибку более 15 процентов как проблемные, наши результаты показывают, что проблемы довольно часты с 2–4 EPV, редко встречается при 5–9 EPV и все еще наблюдается при 10–16 EPV. Наихудшие случаи каждой проблемы не были серьезными при 5–9 EPV и обычно сопоставимы с таковыми при 10–16 EPV ».^[25]

Другие получили результаты, которые не согласуются с вышеизложенным, с использованием других критериев. Полезным критерием является то, будет ли подобранная модель, как ожидается, достичь той же прогностической дискриминации в новой выборке, которую она достигла в образце для разработки модели. Для этого критерия может потребоваться 20 событий для каждой переменной-кандидата.^[26] Кроме того, можно утверждать, что 96 наблюдений необходимы только для оценки точки пересечения модели с достаточной точностью, чтобы предел ошибки в предсказанных вероятностях составлял ± 0,1 при уровне достоверности 0,95.^[16]

Оценка максимального правдоподобия (MLE)

Коэффициенты регрессии обычно оцениваются с использованием оценка максимального правдоподобия.^[27]^[28] В отличие от линейной регрессии с нормально распределенными остатками, невозможно найти выражение в замкнутой форме для значений коэффициентов, которые максимизируют функцию правдоподобия, поэтому вместо этого следует использовать итерационный процесс; Например Метод Ньютона. Этот процесс начинается с предварительного решения, его немного изменяют, чтобы посмотреть, можно ли его улучшить, и повторяют это изменение до тех пор, пока улучшения не прекратятся, после чего процесс считается сходимым.^[27]

В некоторых случаях модель может не достичь сходимости. Несходимость модели указывает на то, что коэффициенты не имеют смысла, потому что итерационный процесс не смог найти подходящие решения. Неспособность сойтись может произойти по ряду причин: большое отношение предикторов к случаям, мультиколлинеарность, редкость, или заполнить разделение.

Большое отношение переменных к наблюдениям приводит к чрезмерно консервативной статистике Вальда (обсуждается ниже) и может привести к несходимости. Регулярный логистическая регрессия специально предназначена для использования в этой ситуации.
Мультиколлинеарность означает недопустимо высокие корреляции между предикторами. По мере увеличения мультиколлинеарности коэффициенты остаются несмещенными, но увеличиваются стандартные ошибки и уменьшается вероятность сходимости модели.^[27] Чтобы обнаружить мультиколлинеарность между предикторами, можно провести линейный регрессионный анализ с интересующими предикторами с единственной целью - изучить статистику толерантности. ^[27] используется для оценки недопустимо высокой мультиколлинеарности.
Разреженность данных означает наличие большой доли пустых ячеек (ячеек с нулевым счетчиком). Нулевое количество ячеек особенно проблематично с категориальными предикторами. С непрерывными предикторами модель может вывести значения для нулевого количества ячеек, но это не относится к категориальным предикторам. Модель не будет сходиться при нулевом количестве ячеек для категориальных предикторов, потому что натуральный логарифм нуля является неопределенным значением, поэтому окончательное решение модели не может быть достигнуто. Чтобы решить эту проблему, исследователи могут свернуть категории теоретически значимым образом или добавить константу ко всем ячейкам.^[27]
Другой числовой проблемой, которая может привести к отсутствию сходимости, является полное разделение, которое относится к случаю, когда предикторы идеально предсказывают критерий - все случаи точно классифицируются. В таких случаях следует повторно проверить данные, поскольку, вероятно, есть какая-то ошибка.^[15]^{[требуется дальнейшее объяснение ]}
Можно также использовать полупараметрический или непараметрический подходы, например, с помощью методов локального правдоподобия или непараметрических методов квази-правдоподобия, которые избегают предположений о параметрической форме для индексной функции и устойчивы к выбору функции связи (например, пробит или логит).^[29]

Функция потери кросс-энтропии

В приложениях машинного обучения, где для двоичной классификации используется логистическая регрессия, MLE минимизирует Перекрестная энтропия функция потерь.

Метод наименьших квадратов с итеративным перевесом (IRLS)

Бинарная логистическая регрессия ( ${ displaystyle y = 0}$ или же ${ displaystyle y = 1}$ ) можно, например, рассчитать с помощью методом наименьших квадратов с повторным взвешиванием (IRLS), что эквивалентно максимальному увеличению логарифмическая вероятность из Бернулли распределил процесс с использованием Метод Ньютона. Если задача записана в векторной матричной форме, с параметрами ${ displaystyle mathbf {w} ^ {T} = [ beta _ {0}, beta _ {1}, beta _ {2}, ldots]}$ , объясняющие переменные ${ Displaystyle mathbf {x} (я) = [1, x_ {1} (я), x_ {2} (я), ldots] ^ {T}}$ и математическое ожидание распределения Бернулли ${ Displaystyle му (я) = { гидроразрыва {1} {1 + е ^ {- mathbf {w} ^ {T} mathbf {x} (я)}}}}$ , параметры ${ displaystyle mathbf {w}}$ можно найти с помощью следующего итеративного алгоритма:

{ displaystyle mathbf {w} _ {k + 1} = left ( mathbf {X} ^ {T} mathbf {S} _ {k} mathbf {X} right) ^ {- 1} mathbf {X} ^ {T} left ( mathbf {S} _ {k} mathbf {X} mathbf {w} _ {k} + mathbf {y} - mathbf { boldsymbol { mu} } _ {k} right)}

куда ${ Displaystyle mathbf {S} = OperatorName {diag} ( му (я) (1- му (я)))}$ диагональная матрица весов, ${ Displaystyle { boldsymbol { mu}} = [ mu (1), mu (2), ldots]}$ вектор ожидаемых значений,

{ Displaystyle mathbf {X} = { begin {bmatrix} 1 & x_ {1} (1) & x_ {2} (1) & ldots 1 & x_ {1} (2) & x_ {2} (2) & ldots vdots & vdots & vdots end {bmatrix}}}

Матрица регрессора и ${ Displaystyle mathbf {y} (я) = [y (1), y (2), ldots] ^ {T}}$ вектор переменных ответа. Более подробную информацию можно найти в литературе.^[30]

Оценка степени соответствия

Доброту соответствия в моделях линейной регрессии обычно измеряется с помощью р². Поскольку у этого нет прямого аналога в логистической регрессии, различные методы^[31]^{:глава 21} вместо этого можно использовать следующее.

Тесты на отклонение и отношение правдоподобия

В линейном регрессионном анализе речь идет о разделении дисперсии с помощью сумма площадей расчеты - дисперсия критерия по существу делится на дисперсию, учитываемую предикторами, и остаточную дисперсию. В логистическом регрессионном анализе отклонение используется вместо вычисления суммы квадратов.^[32] Отклонение аналогично вычислению суммы квадратов в линейной регрессии.^[15] и является мерой несоответствия данным в модели логистической регрессии.^[32] Когда доступна «насыщенная» модель (модель с теоретически идеальным соответствием), отклонение рассчитывается путем сравнения данной модели с насыщенной моделью.^[15] Это вычисление дает критерий отношения правдоподобия:^[15]

{ displaystyle D = -2 ln { frac { text {вероятность подобранной модели}} { text {вероятность насыщенной модели}}}.}

В приведенном выше уравнении $D$ представляет отклонение, а ln представляет собой натуральный логарифм. Логарифм этого отношения правдоподобия (отношение подобранной модели к насыщенной модели) даст отрицательное значение, следовательно, потребуется отрицательный знак. $D$ можно показать, чтобы следовать приблизительному распределение хи-квадрат.^[15] Меньшие значения указывают на лучшее соответствие, поскольку подобранная модель меньше отклоняется от насыщенной модели. При оценке по распределению хи-квадрат незначительные значения хи-квадрат указывают на очень небольшую необъяснимую дисперсию и, следовательно, хорошее соответствие модели. И наоборот, значительное значение хи-квадрат указывает на то, что значительная величина дисперсии необъяснима.

Когда насыщенная модель недоступна (общий случай), отклонение рассчитывается просто как −2 · (логарифмическая вероятность подобранной модели), и ссылка на логарифмическую вероятность насыщенной модели может быть без вреда для всех последующих.

В логистической регрессии особенно важны два показателя отклонения: нулевое отклонение и отклонение модели. Нулевое отклонение представляет собой разницу между моделью только с точкой пересечения (что означает «без предикторов») и насыщенной моделью. Отклонение модели представляет собой разницу между моделью с хотя бы одним предиктором и насыщенной моделью.^[32] В этом отношении нулевая модель обеспечивает основу для сравнения моделей предикторов. Учитывая, что отклонение является мерой разницы между данной моделью и насыщенной моделью, меньшие значения указывают на лучшее соответствие. Таким образом, чтобы оценить вклад предиктора или набора предикторов, можно вычесть отклонение модели из нулевого отклонения и оценить разницу на ${ displaystyle chi _ {s-p} ^ {2},}$ распределение хи-квадрат с степени свободы^[15] равна разнице в количестве оцениваемых параметров.

Позволять

{ displaystyle { begin {align} D _ { text {null}} & = - 2 ln { frac { text {вероятность нулевой модели}} { text {вероятность насыщенной модели}}} [6pt] D _ { text {fit}} & = - 2 ln { frac { text {вероятность подобранной модели}} { text {вероятность насыщенной модели}}}. End {align}}}

Тогда разница обоих:

{ displaystyle { begin {align} D _ { text {null}} - D _ { text {fit}} & = - 2 left ( ln { frac { text {вероятность нулевой модели}} { text {вероятность насыщенной модели}}} - ln { frac { text {вероятность соответствия модели}} { text {вероятность насыщенной модели}}} right) [6pt] & = - 2 ln { frac { left ({ dfrac { text {вероятность нулевой модели}} { text {вероятность насыщенной модели}}} right)} { left ({ dfrac { text {вероятность подобранной модели}} { text {вероятность насыщенной модели}}} right)}} [6pt] & = - 2 ln { frac { text {вероятность нулевой модели}} { text {вероятность подобранной модели}}}. end {align}}}

Если отклонение модели значительно меньше нулевого отклонения, то можно сделать вывод, что предиктор или набор предикторов значительно улучшили соответствие модели. Это аналогично $F$ -тест используется в линейном регрессионном анализе для оценки значимости прогноза.^[32]

Псевдо-R-квадрат

В линейной регрессии квадрат множественной корреляции, $р$ ² используется для оценки степени соответствия, поскольку представляет собой долю отклонения критерия, которая объясняется предикторами.^[32] В логистическом регрессионном анализе нет согласованной аналогичной меры, но есть несколько конкурирующих мер, каждая из которых имеет ограничения.^[32]^[33]

На этой странице рассматриваются четыре наиболее часто используемых индекса и один менее часто используемый:

Отношение правдоподобия $р$ ²_L
Кокс и Снелл $р$ ²_CS
Нагелькерке $р$ ²_N
McFadden $р$ ²_McF
Тюр $р$ ²_Т

$р$ ²_L дается Коэном:^[32]

{ displaystyle R _ { text {L}} ^ {2} = { frac {D _ { text {null}} - D _ { text {fit}}} {D _ { text {null}}}}. }

Это наиболее аналогичный показатель квадрату множественных корреляций в линейной регрессии.^[27] Он представляет собой пропорциональное уменьшение отклонения, при этом отклонение рассматривается как мера отклонения, аналогичная, но не идентичная измерению. отклонение в линейная регрессия анализ.^[27] Одно ограничение отношения правдоподобия $р$ ² заключается в том, что он не связан монотонно с соотношением шансов,^[32] Это означает, что оно не обязательно увеличивается с увеличением отношения шансов и не обязательно уменьшается с уменьшением отношения шансов.

$р$ ²_CS альтернативный показатель качества соответствия, связанный с $р$ ² значение из линейной регрессии.^[33] Выдается:

{ displaystyle { begin {align} R _ { text {CS}} ^ {2} & = 1- left ({ frac {L_ {0}} {L_ {M}}} right) ^ {2 / n} [5pt] & = 1-e ^ {2 ( ln (L_ {0}) - ln (L_ {M})) / n} end {выровнено}}}

куда $L M$ и {{mvar | L₀} - это вероятность подгонки модели и нулевой модели соответственно. Индекс Кокса и Снелла проблематичен, поскольку его максимальное значение составляет ${ displaystyle 1-L_ {0} ^ {2 / n}}$ . Максимальное значение этого верхнего предела может составлять 0,75, но оно может легко достигать 0,48, когда предельная доля случаев мала.^[33]

$р$ ²_N обеспечивает исправление Кокса и Снелла $р$ ² так, чтобы максимальное значение было равно 1. Тем не менее, коэффициенты Кокса и Снелла и отношение правдоподобия $р$ ²s показывают большее согласие друг с другом, чем с Nagelkerke $р$ ².^[32] Конечно, это может быть не так для значений, превышающих 0,75, поскольку индекс Кокса и Снелла ограничен этим значением. Отношение правдоподобия $р$ ² часто предпочитают альтернативным вариантам, поскольку он наиболее аналогичен $р$ ² в линейная регрессия, не зависит от базовой ставки (как Кокса, так и Снелла и Нагелькерке $р$ ²s увеличивается при увеличении доли случаев от 0 до 0,5) и изменяется от 0 до 1.

$р$ ²_McF определяется как

{ displaystyle R _ { text {McF}} ^ {2} = 1 - { frac { ln (L_ {M})} { ln (L_ {0})}},}

и предпочтительнее $р$ ²_CS пользователя Allison.^[33] Два выражения $р$ ²_McF и $р$ ²_CS связаны соответственно соотношением

{ displaystyle { begin {matrix} R _ { text {CS}} ^ {2} = 1- left ({ dfrac {1} {L_ {0}}} right) ^ { frac {2 ( R _ { text {McF}} ^ {2})} {n}} [1.5em] R _ { text {McF}} ^ {2} = - { dfrac {n} {2}} cdot { dfrac { ln (1-R _ { text {CS}} ^ {2})} { ln L_ {0}}} end {matrix}}}

Однако сейчас Эллисон предпочитает $р$ ²_Т это относительно новая мера, разработанная Tjur.^[34] Его можно рассчитать в два этапа:^[33]

Для каждого уровня зависимой переменной найдите среднее значение прогнозируемых вероятностей события.
Возьмите абсолютное значение разности этих средних значений.

При интерпретации псевдо- $р$ ² статистика. Причина, по которой эти показатели соответствия упоминаются как псевдо $р$ ² заключается в том, что они не отражают пропорционального уменьшения ошибки, как $р$ ² в линейная регрессия делает.^[32] Линейная регрессия предполагает гомоскедастичность, что дисперсия ошибки одинакова для всех значений критерия. Логистическая регрессия всегда будет гетероскедастический - дисперсии ошибок различаются для каждого значения прогнозируемой оценки. Для каждого значения прогнозируемой оценки будет свое значение пропорционального уменьшения ошибки. Поэтому неуместно думать о $р$ ² как пропорциональное уменьшение ошибки в универсальном смысле логистической регрессии.^[32]

Тест Хосмера – Лемешоу

В Тест Хосмера – Лемешоу использует тестовую статистику, которая асимптотически следует за ${ displaystyle chi ^ {2}}$ распределение чтобы оценить, соответствует ли наблюдаемая частота событий ожидаемой частоте событий в подгруппах модельной популяции. Некоторые статистики считают этот тест устаревшим из-за его зависимости от произвольного объединения предсказанных вероятностей и относительно низкой мощности.^[35]

Коэффициенты

После подбора модели вполне вероятно, что исследователи захотят изучить вклад отдельных предикторов. Для этого они захотят изучить коэффициенты регрессии. В линейной регрессии коэффициенты регрессии представляют изменение критерия для каждого изменения единицы в предикторе.^[32] Однако в логистической регрессии коэффициенты регрессии представляют изменение логита для каждого изменения единицы в предикторе.Учитывая, что логит не является интуитивно понятным, исследователи, вероятно, сосредоточатся на влиянии предсказателя на экспоненциальную функцию коэффициента регрессии - отношения шансов (см. определение ). В линейной регрессии значимость коэффициента регрессии оценивается путем вычисления т тест. В логистической регрессии существует несколько различных тестов, предназначенных для оценки значимости отдельного предиктора, в первую очередь тест отношения правдоподобия и статистика Вальда.

Тест отношения правдоподобия

В критерий отношения правдоподобия Рассмотренная выше процедура оценки соответствия модели также является рекомендуемой процедурой для оценки вклада отдельных «предикторов» в данную модель.^[15]^[27]^[32] В случае модели с одним предиктором, просто сравнивают отклонение модели предиктора с отклонением от нулевой модели на распределении хи-квадрат с одной степенью свободы. Если модель предиктора имеет значительно меньшее отклонение (c.f хи-квадрат с использованием разницы в степенях свободы двух моделей), то можно сделать вывод, что существует значимая связь между "предиктором" и результатом. Хотя некоторые общие статистические пакеты (например, SPSS) действительно предоставляют статистику теста отношения правдоподобия, без этого требовательного к вычислениям теста было бы труднее оценить вклад отдельных предикторов в случае множественной логистической регрессии.^{[нужна цитата ]} Чтобы оценить вклад отдельных предикторов, можно ввести предикторы иерархически, сравнивая каждую новую модель с предыдущей, чтобы определить вклад каждого предиктора.^[32] Статистики спорят о целесообразности так называемых «пошаговых» процедур.^{[ласковые слова ]} Есть опасения, что они могут не сохранить номинальные статистические свойства и ввести в заблуждение.^[36]

Статистика Вальда

В качестве альтернативы, при оценке вклада отдельных предикторов в данной модели, можно исследовать значимость Статистика Вальда. Статистика Вальда, аналогичная т-тест в линейной регрессии, используется для оценки значимости коэффициентов. Статистика Вальда представляет собой отношение квадрата коэффициента регрессии к квадрату стандартной ошибки коэффициента и асимптотически распределяется как распределение хи-квадрат.^[27]

{ displaystyle W_ {j} = { frac { beta _ {j} ^ {2}} {SE _ { beta _ {j}} ^ {2}}}}

Хотя несколько статистических пакетов (например, SPSS, SAS) сообщают статистику Вальда для оценки вклада отдельных предикторов, статистика Вальда имеет ограничения. Когда коэффициент регрессии велик, стандартная ошибка коэффициента регрессии также имеет тенденцию быть больше, увеличивая вероятность Ошибка типа II. Статистика Вальда также имеет тенденцию к смещению, когда данные немногочисленны.^[32]

Выборка случай-контроль

Допустим, случаи редкие. Тогда мы могли бы пожелать отбирать их чаще, чем их распространенность в популяции. Например, предположим, что есть заболевание, которым страдает 1 человек из 10 000, и для сбора данных нам необходимо пройти полное обследование. Проведение тысяч медицинских осмотров здоровых людей для получения данных только по нескольким больным может оказаться слишком дорогостоящим. Таким образом, мы можем оценить большее количество больных, возможно, все редкие исходы. Это также ретроспективная выборка, или, что то же самое, ее называют несбалансированными данными. Как показывает практика, выборка элементов управления, в пять раз превышающих количество наблюдений, дает достаточные данные управления.^[37]

Логистическая регрессия уникальна тем, что она может быть оценена на несбалансированных данных, а не на случайно выбранных данных, и при этом дает правильные оценки коэффициентов влияния каждой независимой переменной на результат. То есть, если мы сформируем логистическую модель из таких данных, если модель верна в общей популяции, ${ displaystyle beta _ {j}}$ все параметры верны, кроме ${ displaystyle beta _ {0}}$ . Мы можем исправить ${ displaystyle beta _ {0}}$ если мы знаем истинную распространенность следующим образом:^[37]

{ displaystyle { widehat { beta}} _ {0} ^ {*} = { widehat { beta}} _ {0} + log { frac { pi} {1- pi}} - log {{ tilde { pi}} over {1 - { tilde { pi}}}}}

куда ${ displaystyle pi}$ истинная распространенность и ${ displaystyle { tilde { pi}}}$ - распространенность в выборке.

Формальная математическая спецификация

Существуют различные эквивалентные спецификации логистической регрессии, которые вписываются в различные типы более общих моделей. Эти разные спецификации позволяют делать разные полезные обобщения.

Настраивать

Базовая настройка логистической регрессии выглядит следующим образом. Нам дан набор данных, содержащий N точки. Каждая точка я состоит из набора м входные переменные Икс_1,я ... Икс_{м, я} (также называемый независимые переменные, предикторные переменные, функции или атрибуты) и двоичный переменная результата Y_я (также известный как зависимая переменная, переменная ответа, выходная переменная или класс), то есть он может принимать только два возможных значения: 0 (часто означает «нет» или «сбой») или 1 (часто означает «да» или «успех»). Целью логистической регрессии является использование набора данных для создания модели прогнозирования переменной результата.

Некоторые примеры:

Наблюдаемые результаты - это наличие или отсутствие данного заболевания (например, диабета) у группы пациентов, а объясняющими переменными могут быть характеристики пациентов, которые считаются соответствующими (пол, раса, возраст, артериальное давление, индекс массы тела, так далее.).
Наблюдаемые результаты - это голоса (например, Демократичный или же Республиканец ) группы людей на выборах, а объясняющими переменными являются демографические характеристики каждого человека (например, пол, раса, возраст, доход и т. д.). В таком случае один из двух результатов произвольно кодируется как 1, а другой как 0.

Как и в линейной регрессии, переменные результата Y_я предполагается, что они зависят от объясняющих переменных Икс_1,я ... Икс_{м, я}.

Объясняющие переменные

Как показано выше в приведенных выше примерах, объясняющие переменные могут быть любыми тип: ценный, двоичный, категоричный и т. д. Основное различие между непрерывные переменные (например, доход, возраст и артериальное давление ) и дискретные переменные (например, пол или раса). Дискретные переменные, относящиеся к более чем двум возможным вариантам, обычно кодируются с использованием фиктивные переменные (или же индикаторные переменные ), то есть отдельные независимые переменные, принимающие значение 0 или 1, создаются для каждого возможного значения дискретной переменной, где 1 означает «переменная имеет данное значение», а 0 означает «переменная не имеет этого значения».

Например, четырехсторонняя дискретная переменная группа крови с возможными значениями «A, B, AB, O» можно преобразовать в четыре отдельных двусторонних фиктивных переменных: «is-A, is-B, is-AB, is-O», где только одна из них имеет значение 1, а все остальные имеют значение 0. Это позволяет сопоставить отдельные коэффициенты регрессии для каждого возможного значения дискретной переменной. (В таком случае только три из четырех фиктивных переменных независимы друг от друга в том смысле, что, как только значения трех переменных известны, четвертая определяется автоматически. Таким образом, необходимо кодировать только три из четырех возможностей в качестве фиктивных переменных. Это также означает, что, когда все четыре возможности закодированы, общая модель не идентифицируемый при отсутствии дополнительных ограничений, таких как ограничение регуляризации. Теоретически это может вызвать проблемы, но на самом деле почти все модели логистической регрессии имеют ограничения регуляризации.)

Переменные результата

Формально итоги Y_я описываются как Распределенный по Бернулли данные, где каждый результат определяется ненаблюдаемой вероятностью п_я это специфично для конкретного результата, но связано с независимыми переменными. Это может быть выражено в любой из следующих эквивалентных форм:

{ displaystyle { begin {align} Y_ {i} mid x_ {1, i}, ldots, x_ {m, i} & sim operatorname {Bernoulli} (p_ {i}) имя оператора { mathcal {E}} [Y_ {i} mid x_ {1, i}, ldots, x_ {m, i}] & = p_ {i} Pr (Y_ {i} = y mid x_ {1, i}, ldots, x_ {m, i}) & = { begin {cases} p_ {i} & { text {if}} y = 1 1-p_ {i} & { text {if}} y = 0 end {cases}} Pr (Y_ {i} = y mid x_ {1, i}, ldots, x_ {m, i}) & = p_ {i } ^ {y} (1-p_ {i}) ^ {(1-y)} конец {выровнено}}}

Значения этих четырех строк:

Первая строка выражает распределение вероятностей каждого Y_я: При условии независимых переменных, следует Распределение Бернулли с параметрами п_я, вероятность исхода 1 для испытания я. Как отмечалось выше, каждое отдельное испытание имеет собственную вероятность успеха, так же как каждое испытание имеет свои собственные объясняющие переменные. Вероятность успеха п_я не наблюдается, только результат отдельного испытания Бернулли с использованием этой вероятности.
Вторая строка выражает тот факт, что ожидаемое значение каждого Y_я равна вероятности успеха п_я, что является общим свойством распределения Бернулли. Другими словами, если мы проведем большое количество испытаний Бернулли с одинаковой вероятностью успеха п_я, затем возьмите среднее значение для всех результатов 1 и 0, тогда результат будет близок к п_я. Это связано с тем, что вычисление среднего таким образом просто вычисляет долю увиденных успехов, которые, как мы ожидаем, сойдутся с основной вероятностью успеха.
В третьей строке записывается функция массы вероятности распределения Бернулли, определяя вероятность увидеть каждый из двух возможных результатов.
Четвертая строка - это еще один способ записи функции массы вероятности, который позволяет избежать написания отдельных случаев и более удобен для определенных типов вычислений. Это опирается на то, что Y_я может принимать только значение 0 или 1. В каждом случае один из показателей будет равен 1, «выбирая» значение под ним, а другой - 0, «отменяя» значение под ним. Следовательно, результат либо п_я или 1 -п_я, как в предыдущей строке.

Линейная функция предиктора

Основная идея логистической регрессии заключается в использовании механизма, уже разработанного для линейная регрессия путем моделирования вероятности п_я используя функция линейного предиктора, т.е. линейная комбинация объясняющих переменных и набора коэффициенты регрессии которые относятся к рассматриваемой модели, но одинаковы для всех испытаний. Функция линейного предиктора ${ Displaystyle f (я)}$ для конкретной точки данных я записывается как:

{ displaystyle f (i) = beta _ {0} + beta _ {1} x_ {1, i} + cdots + beta _ {m} x_ {m, i},}

куда ${ displaystyle beta _ {0}, ldots, beta _ {m}}$ находятся коэффициенты регрессии указывающий на относительный эффект конкретной объясняющей переменной на результат.

Модель обычно принимают в более компактном виде:

Коэффициенты регрессии β₀, β₁, ..., β_м сгруппированы в один вектор β размера м + 1.
Для каждой точки данных я, дополнительная объяснительная псевдо-переменная Икс_0,я добавляется с фиксированным значением 1, соответствующим перехватить коэффициент β₀.
Результирующие независимые переменные Икс_0,я, Икс_1,я, ..., Икс_{м, я} затем группируются в один вектор Икс_я размера м + 1.

Это позволяет записать функцию линейного предсказания следующим образом:

{ Displaystyle F (я) = { boldsymbol { beta}} cdot mathbf {X} _ {я},}

используя обозначения для скалярное произведение между двумя векторами.

Как обобщенная линейная модель

Конкретная модель, используемая логистической регрессией, которая отличает ее от стандартной линейная регрессия и из других видов регрессивный анализ используется для двоичный исходы - это способ, которым вероятность определенного результата связана с функцией линейного предиктора:

{ displaystyle operatorname {logit} ( operatorname { mathcal {E}} [Y_ {i} mid x_ {1, i}, ldots, x_ {m, i}]) = operatorname {logit} ( p_ {i}) = ln left ({ frac {p_ {i}} {1-p_ {i}}} right) = beta _ {0} + beta _ {1} x_ {1, i} + cdots + beta _ {m} x_ {m, i}}

Написано с использованием более компактных обозначений, описанных выше, это:

{ displaystyle operatorname {logit} ( operatorname { mathcal {E}} [Y_ {i} mid mathbf {X} _ {i}]) = operatorname {logit} (p_ {i}) = ln left ({ frac {p_ {i}} {1-p_ {i}}} right) = { boldsymbol { beta}} cdot mathbf {X} _ {i}}

Эта формулировка выражает логистическую регрессию как тип обобщенная линейная модель, который прогнозирует переменные с различными типами распределения вероятностей путем подгонки линейной функции-предиктора указанной выше формы к некоторому произвольному преобразованию ожидаемого значения переменной.

Интуиция для преобразования с использованием функции логита (натуральный логарифм шансов) объяснялась выше. Он также имеет практический эффект преобразования вероятности (которая ограничена между 0 и 1) в переменную, которая находится в диапазоне ${ Displaystyle (- infty, + infty)}$ - тем самым согласовывая потенциальный диапазон функции линейного прогнозирования в правой части уравнения.

Обратите внимание, что обе вероятности п_я а коэффициенты регрессии не наблюдаются, и средства их определения не являются частью самой модели. Обычно они определяются какой-либо процедурой оптимизации, например оценка максимального правдоподобия, который находит значения, которые наилучшим образом соответствуют наблюдаемым данным (т. е. дают наиболее точные прогнозы для уже наблюдаемых данных), обычно с учетом регуляризация условия, которые стремятся исключить маловероятные значения, например чрезвычайно большие значения для любого из коэффициентов регрессии. Использование условия регуляризации эквивалентно выполнению максимум апостериори (MAP) оценка, расширение максимального правдоподобия. (Регуляризация чаще всего выполняется с помощью квадрат регуляризующей функции, что эквивалентно установке нулевого среднего Гауссовский предварительное распространение на коэффициенты, но возможны и другие регуляризаторы.) Независимо от того, используется ли регуляризация, обычно невозможно найти решение в замкнутой форме; вместо этого необходимо использовать итеративный численный метод, например методом наименьших квадратов с повторным взвешиванием (IRLS) или, что чаще в наши дни, квазиньютоновский метод такой как L-BFGS метод.^[38]

Интерпретация β_j оценки параметров как аддитивный эффект на журнал шансы для изменения единицы в j объясняющая переменная. В случае дихотомической объясняющей переменной, например, пол ${ displaystyle e ^ { beta}}$ это оценка шансов получить результат, скажем, для мужчин по сравнению с женщинами.

Эквивалентная формула использует обратную функцию логита, которая является логистическая функция, то есть:

{ displaystyle operatorname { mathcal {E}} [Y_ {i} mid mathbf {X} _ {i}] = p_ {i} = operatorname {logit} ^ {- 1} ({ boldsymbol { beta}} cdot mathbf {X} _ {i}) = { frac {1} {1 + e ^ {- { boldsymbol { beta}} cdot mathbf {X} _ {i}} }}}

Формулу также можно записать в виде распределение вероятностей (в частности, используя функция массы вероятности ):

{ displaystyle Pr (Y_ {i} = y mid mathbf {X} _ {i}) = {p_ {i}} ^ {y} (1-p_ {i}) ^ {1-y} = left ({ frac {e ^ {{ boldsymbol { beta}} cdot mathbf {X} _ {i}}} {1 + e ^ {{ boldsymbol { beta}} cdot mathbf { X} _ {i}}}} right) ^ {y} left (1 - { frac {e ^ {{ boldsymbol { beta}} cdot mathbf {X} _ {i}}} { 1 + e ^ {{ boldsymbol { beta}} cdot mathbf {X} _ {i}}}} right) ^ {1-y} = { frac {e ^ {{ boldsymbol { beta }} cdot mathbf {X} _ {i} cdot y}} {1 + e ^ {{ boldsymbol { beta}} cdot mathbf {X} _ {i}}}}}}

Как модель со скрытыми переменными

Вышеупомянутая модель имеет эквивалентную формулировку: модель со скрытыми переменными. Эта формулировка распространена в теории дискретный выбор моделей и упрощает расширение до некоторых более сложных моделей с множественными коррелированными вариантами, а также сравнение логистической регрессии с тесно связанными пробит модель.

Представьте себе, что для каждого испытания ясуществует непрерывный скрытая переменная Y_я^* (т.е. ненаблюдаемый случайная переменная ), который распределяется следующим образом:

{ displaystyle Y_ {i} ^ { ast} = { boldsymbol { beta}} cdot mathbf {X} _ {i} + varepsilon ,}

куда

{ Displaystyle varepsilon sim operatorname {Logistic} (0,1) ,}

т.е. скрытая переменная может быть записана непосредственно в терминах функции линейного предсказания и аддитивного случайного переменная ошибки который распространяется согласно стандарту логистическая дистрибуция.

потом Y_я можно рассматривать как индикатор того, является ли эта скрытая переменная положительной:

{ displaystyle Y_ {i} = { begin {cases} 1 & { text {if}} Y_ {i} ^ { ast}> 0 { text {ie}} - varepsilon <{ boldsymbol { beta}} cdot mathbf {X} _ {i}, 0 & { text {в противном случае.}} end {cases}}}

Выбор моделирования переменной ошибки специально со стандартным логистическим распределением, а не с общим логистическим распределением с произвольными значениями местоположения и масштаба, кажется ограничительным, но на самом деле это не так. Следует иметь в виду, что мы можем сами выбирать коэффициенты регрессии и очень часто можем использовать их для компенсации изменений параметров распределения переменной ошибки. Например, распределение переменных логистической ошибки с ненулевым параметром местоположения μ (который устанавливает среднее значение) эквивалентно распределению с нулевым параметром местоположения, где μ был добавлен к коэффициенту перехвата. Обе ситуации дают одинаковое значение для Y_я^* независимо от настроек объясняющих переменных. Аналогично, произвольный масштабный параметр s эквивалентно установке параметра масштаба на 1 и последующему делению всех коэффициентов регрессии на s. В последнем случае результирующее значение Y_я^* будет меньше в раз s чем в первом случае, для всех наборов объясняющих переменных - но, что критически важно, он всегда будет оставаться по ту же сторону от 0 и, следовательно, приведет к тому же Y_я выбор.

(Обратите внимание, что это предсказывает, что несоответствие параметра масштаба не может быть перенесено на более сложные модели, где доступно более двух вариантов.)

Оказывается, эта формулировка в точности эквивалентна предыдущей, сформулированной в терминах обобщенная линейная модель и без каких-либо скрытые переменные. Это можно показать следующим образом, используя тот факт, что кумулятивная функция распределения (CDF) стандарта логистическая дистрибуция это логистическая функция, что является обратным функция logit, т.е.

{ Displaystyle Pr ( varepsilon

Потом:

{ Displaystyle { begin {align} Pr (Y_ {i} = 1 mid mathbf {X} _ {i}) & = Pr (Y_ {i} ^ { ast}> 0 mid mathbf {X} _ {i}) [5pt] & = Pr ({ boldsymbol { beta}} cdot mathbf {X} _ {i} + varepsilon> 0) [5pt] & = Pr ( varepsilon> - { boldsymbol { beta}} cdot mathbf {X} _ {i}) [5pt] & = Pr ( varepsilon <{ boldsymbol { beta}} cdot mathbf {X} _ {i}) && { text {(поскольку логистическое распределение является симметричным)}} [5pt] & = operatorname {logit} ^ {- 1} ({ boldsymbol { beta} } cdot mathbf {X} _ {i}) & [5pt] & = p_ {i} && { text {(см. выше)}} end {выровнено}}}

Эта формулировка - стандартная в дискретный выбор модели - проясняет взаимосвязь между логистической регрессией («логит-модель») и пробит модель, который использует переменную ошибки, распределенную согласно стандарту нормальное распределение вместо стандартной логистической дистрибуции. Как логистическое, так и нормальное распределения симметричны базовой унимодальной форме «колоколообразной кривой». Единственное отличие состоит в том, что логистическая дистрибуция несколько более тяжелые хвосты, что означает, что он менее чувствителен к удаленным данным (и, следовательно, несколько больше крепкий для моделирования неверных спецификаций или ошибочных данных).

Двусторонняя модель со скрытыми переменными

Еще одна формулировка использует две отдельные скрытые переменные:

{ displaystyle { begin {align} Y_ {i} ^ {0 ast} & = { boldsymbol { beta}} _ {0} cdot mathbf {X} _ {i} + varepsilon _ {0 } , Y_ {i} ^ {1 ast} & = { boldsymbol { beta}} _ {1} cdot mathbf {X} _ {i} + varepsilon _ {1} , конец {выровнен}}}

куда

{ displaystyle { begin {align} varepsilon _ {0} & sim operatorname {EV} _ {1} (0,1) varepsilon _ {1} & sim operatorname {EV} _ { 1} (0,1) конец {выровнено}}}

куда Электромобиль₁(0,1) - стандартный тип-1 распределение экстремальных значений: т.е.

{ Displaystyle Pr ( varepsilon _ {0} = x) = Pr ( varepsilon _ {1} = x) = e ^ {- x} e ^ {- e ^ {- x}}}

потом

{ displaystyle Y_ {i} = { begin {cases} 1 & { text {if}} Y_ {i} ^ {1 ast}> Y_ {i} ^ {0 ast}, 0 & { text {в противном случае.}} end {case}}}

Эта модель имеет отдельную скрытую переменную и отдельный набор коэффициентов регрессии для каждого возможного результата зависимой переменной. Причина такого разделения заключается в том, что оно позволяет легко расширить логистическую регрессию на многоцелевые категориальные переменные, как в полиномиальный логит модель. В такой модели естественно моделировать каждый возможный результат, используя другой набор коэффициентов регрессии. Также можно мотивировать каждую из отдельных скрытых переменных в качестве теоретической полезность связанных с принятием соответствующего выбора, и, таким образом, мотивируют логистическую регрессию с точки зрения теория полезности. (С точки зрения теории полезности рациональный субъект всегда выбирает вариант с наибольшей связанной полезностью.) Это подход, используемый экономистами при формулировании дискретный выбор models, потому что он обеспечивает теоретически прочную основу и облегчает интуитивное понимание модели, что, в свою очередь, упрощает рассмотрение различных видов расширений. (См. Пример ниже.)

Выбор типа-1 распределение экстремальных значений кажется довольно произвольным, но он заставляет математику работать, и его использование может быть оправдано с помощью теория рационального выбора.

Оказывается, эта модель эквивалентна предыдущей модели, хотя это кажется неочевидным, поскольку теперь существует два набора коэффициентов регрессии и переменных ошибок, а переменные ошибок имеют другое распределение. Фактически, эта модель непосредственно сводится к предыдущей со следующими заменами:

{ displaystyle { boldsymbol { beta}} = { boldsymbol { beta}} _ {1} - { boldsymbol { beta}} _ {0}}

{ displaystyle varepsilon = varepsilon _ {1} - varepsilon _ {0}}

Интуиция для этого исходит из того факта, что, поскольку мы выбираем на основе максимум двух значений, имеет значение только их разница, а не точные значения - и это эффективно удаляет одно степень свободы. Другой важный факт заключается в том, что разница двух переменных с распределением экстремальных значений типа 1 - это логистическое распределение, т.е. ${ displaystyle varepsilon = varepsilon _ {1} - varepsilon _ {0} sim operatorname {Logistic} (0,1).}$ Мы можем продемонстрировать эквивалент следующим образом:

{ displaystyle { begin {align} Pr (Y_ {i} = 1 mid mathbf {X} _ {i}) = {} & Pr left (Y_ {i} ^ {1 ast}> Y_ {i} ^ {0 ast} mid mathbf {X} _ {i} right) & [5pt] = {} & Pr left (Y_ {i} ^ {1 ast} - Y_ {i} ^ {0 ast}> 0 mid mathbf {X} _ {i} right) & [5pt] = {} & Pr left ({ boldsymbol { beta}} _ {1} cdot mathbf {X} _ {i} + varepsilon _ {1} - left ({ boldsymbol { beta}} _ {0} cdot mathbf {X} _ {i} + varepsilon _ {0} right)> 0 right) & [5pt] = {} & Pr left (({ boldsymbol { beta}} _ {1} cdot mathbf {X} _ { i} - { boldsymbol { beta}} _ {0} cdot mathbf {X} _ {i}) + ( varepsilon _ {1} - varepsilon _ {0})> 0 right) & [5pt] = {} & Pr (({ boldsymbol { beta}} _ {1} - { boldsymbol { beta}} _ {0}) cdot mathbf {X} _ {i} + ( varepsilon _ {1} - varepsilon _ {0})> 0) & [5pt] = {} & Pr (({ boldsymbol { beta}} _ {1} - { boldsymbol { beta}} _ {0}) cdot mathbf {X} _ {i} + varepsilon> 0) && { text {(заменитель}} varepsilon { text {как указано выше)}} [5pt] = {} & Pr ({ boldsymbol { beta}} cdot mathbf {X} _ {i} + varepsilon> 0) && { text {(replace}} { boldsymbol { beta}} { text {как указано выше)}} [5pt] = { } & Pr ( varepsilon> - { boldsymbol { beta}} cdot mathbf {X} _ {i}) && { text {(теперь, как в модели выше)}} [5pt] = {} & Pr ( varepsilon <{ boldsymbol { beta}} cdot mathbf {X} _ {i}) & [5pt] = {} & operatorname {logit} ^ {- 1} ( { boldsymbol { beta}} cdot mathbf {X} _ {i}) [5pt] = {} & p_ {i} end {выровнено}}}

Пример

В качестве примера рассмотрим выборы на уровне провинции, где выбор делается между правоцентристской партией, левоцентристской партией и сепаратистской партией (например, Parti Québécois, который хочет Квебек отделиться от Канада ). Затем мы использовали бы три скрытые переменные, по одной для каждого выбора. Тогда в соответствии с теория полезности, тогда мы можем интерпретировать скрытые переменные как выражающие полезность это результат каждого выбора. Мы также можем интерпретировать коэффициенты регрессии как показывающие силу, которую связанный фактор (т. Е. Объясняющая переменная) имеет в содействии полезности, или, точнее, количество, на которое изменение единицы в объясняющей переменной изменяет полезность данного выбора. Избиратель может ожидать, что правоцентристская партия снизит налоги, особенно для богатых. Это не дало бы людям с низким доходом никакой выгоды, то есть никаких изменений в полезности (поскольку они обычно не платят налоги); принесет умеренную выгоду (то есть несколько больше денег или умеренное повышение полезности) для людей среднего уровня; принесет значительные выгоды людям с высокими доходами. С другой стороны, можно ожидать, что левоцентристская партия повысит налоги и компенсирует их повышением благосостояния и другой помощью для нижних и средних классов. Это принесет значительную положительную пользу людям с низкими доходами, возможно, слабую пользу для людей со средним доходом и значительную отрицательную выгоду для людей с высокими доходами. Наконец, сепаратистская партия не будет предпринимать никаких прямых действий в отношении экономики, а просто отделится. Избиратель с низким или средним доходом может в основном не ожидать от этого явной выгоды или убытка от полезности, но избиратель с высоким доходом может ожидать отрицательной полезности, поскольку он / она, вероятно, будет владеть компаниями, которым будет труднее вести бизнес. такая среда и, вероятно, потеряете деньги.

Эти интуиции можно выразить следующим образом:

Расчетная сила коэффициента регрессии для различных исходов (выбор стороны) и различных значений независимых переменных
	Центр-право	В центре слева	Сецессионист
Высокий доход	сильный +	сильный -	сильный -
Средний доход	умеренный +	слабый +	никто
Низкий уровень дохода	никто	сильный +	никто

Это ясно показывает, что

Для каждого выбора должны существовать отдельные наборы коэффициентов регрессии. Если сформулировать это с точки зрения полезности, это очень легко увидеть. Разные варианты по-разному влияют на чистую полезность; кроме того, эффекты различаются сложным образом, что зависит от характеристик каждого человека, поэтому должны быть отдельные наборы коэффициентов для каждой характеристики, а не просто одна дополнительная характеристика для каждого выбора.
Несмотря на то, что доход является непрерывной переменной, его влияние на полезность слишком сложно, чтобы его можно было рассматривать как единственную переменную. Либо его необходимо напрямую разделить на диапазоны, либо нужно добавить более высокие степени дохода, чтобы полиномиальная регрессия по доходу.

Как "лог-линейная" модель

Еще одна формулировка сочетает в себе формулировку с двусторонними латентными переменными, указанную выше, с исходной формулировкой выше, без скрытых переменных, и в процессе обеспечивает ссылку на одну из стандартных формулировок полиномиальный логит.

Здесь вместо того, чтобы писать логит вероятностей п_я В качестве линейного предсказателя мы разделяем линейный предсказатель на два, по одному для каждого из двух результатов:

{ displaystyle { begin {align} ln Pr (Y_ {i} = 0) & = { boldsymbol { beta}} _ {0} cdot mathbf {X} _ {i} - ln Z ln Pr (Y_ {i} = 1) & = { boldsymbol { beta}} _ {1} cdot mathbf {X} _ {i} - ln Z end {align}}}

Обратите внимание, что были введены два отдельных набора коэффициентов регрессии, как и в модели двусторонних скрытых переменных, и два уравнения представляют собой форму, которая записывает логарифм связанной вероятности в качестве линейного предиктора с дополнительным членом ${ displaystyle - ln Z}$ в конце. Этот термин, как выясняется, служит нормализующий коэффициент обеспечение того, чтобы результат был распределением. Это можно увидеть, возведя в степень обе стороны:

{ Displaystyle { begin {align} Pr (Y_ {i} = 0) & = { frac {1} {Z}} e ^ {{ boldsymbol { beta}} _ {0} cdot mathbf {X} _ {i}} [5pt] Pr (Y_ {i} = 1) & = { frac {1} {Z}} e ^ {{ boldsymbol { beta}} _ {1} cdot mathbf {X} _ {i}} конец {выровнено}}}

В таком виде ясно, что цель Z гарантировать, что полученное распределение по Y_я на самом деле распределение вероятностей, т.е. сумма равна 1. Это означает, что Z представляет собой просто сумму всех ненормированных вероятностей, и путем деления каждой вероятности на Z, вероятности становятся "нормализованный ". То есть:

{ displaystyle Z = e ^ {{ boldsymbol { beta}} _ {0} cdot mathbf {X} _ {i}} + e ^ {{ boldsymbol { beta}} _ {1} cdot mathbf {X} _ {i}}}

и результирующие уравнения

{ displaystyle { begin {align} Pr (Y_ {i} = 0) & = { frac {e ^ {{ boldsymbol { beta}} _ {0} cdot mathbf {X} _ {i }}} {e ^ {{ boldsymbol { beta}} _ {0} cdot mathbf {X} _ {i}} + e ^ {{ boldsymbol { beta}} _ {1} cdot mathbf {X} _ {i}}}} [5pt] Pr (Y_ {i} = 1) & = { frac {e ^ {{ boldsymbol { beta}} _ {1} cdot mathbf {X} _ {i}}} {e ^ {{ boldsymbol { beta}} _ {0} cdot mathbf {X} _ {i}} + e ^ {{ boldsymbol { beta}} _ {1} cdot mathbf {X} _ {i}}}}. End {align}}}

Или вообще:

{ displaystyle Pr (Y_ {i} = c) = { frac {e ^ {{ boldsymbol { beta}} _ {c} cdot mathbf {X} _ {i}}} { sum _ {h} e ^ {{ boldsymbol { beta}} _ {h} cdot mathbf {X} _ {i}}}}}

Это ясно показывает, как обобщить эту формулировку более чем на два результата, как в полиномиальный логит Обратите внимание, что эта общая формулировка в точности функция softmax как в

{ displaystyle Pr (Y_ {i} = c) = operatorname {softmax} (c, { boldsymbol { beta}} _ {0} cdot mathbf {X} _ {i}, { boldsymbol { beta}} _ {1} cdot mathbf {X} _ {i}, dots).}

Чтобы доказать, что это эквивалентно предыдущей модели, обратите внимание, что указанная выше модель является завышенной, в том числе ${ Displaystyle Pr (Y_ {i} = 0)}$ и ${ Displaystyle Pr (Y_ {я} = 1)}$ не может быть отдельно указан: скорее ${ Displaystyle Pr (Y_ {i} = 0) + Pr (Y_ {i} = 1) = 1}$ поэтому знание одного автоматически определяет другое. В результате модель неидентифицируемый, в нескольких комбинациях β₀ и β₁ даст одинаковые вероятности для всех возможных объясняющих переменных. Фактически, можно видеть, что добавление любого постоянного вектора к ним обоим даст одинаковые вероятности:

{ Displaystyle { begin {align} Pr (Y_ {i} = 1) & = { frac {e ^ {({ boldsymbol { beta}} _ {1} + mathbf {C}) cdot mathbf {X} _ {i}}} {e ^ {({ boldsymbol { beta}} _ {0} + mathbf {C}) cdot mathbf {X} _ {i}} + e ^ {({ boldsymbol { beta}} _ {1} + mathbf {C}) cdot mathbf {X} _ {i}}}} [5pt] & = { frac {e ^ {{ boldsymbol { beta}} _ {1} cdot mathbf {X} _ {i}} e ^ { mathbf {C} cdot mathbf {X} _ {i}}} {e ^ {{ boldsymbol { beta}} _ {0} cdot mathbf {X} _ {i}} e ^ { mathbf {C} cdot mathbf {X} _ {i}} + e ^ {{ boldsymbol { beta}} _ {1} cdot mathbf {X} _ {i}} e ^ { mathbf {C} cdot mathbf {X} _ {i}}}} [5pt] & = { frac {e ^ { mathbf {C} cdot mathbf {X} _ {i}} e ^ {{ boldsymbol { beta}} _ {1} cdot mathbf {X} _ {i}} } {e ^ { mathbf {C} cdot mathbf {X} _ {i}} (e ^ {{ boldsymbol { beta}} _ {0} cdot mathbf {X} _ {i}} + e ^ {{ boldsymbol { beta}} _ {1} cdot mathbf {X} _ {i}})}} [5pt] & = { frac {e ^ {{ boldsymbol { beta}} _ {1} cdot mathbf {X} _ {i}}} {e ^ {{ boldsymbol { beta}} _ {0} cdot mathbf {X} _ {i}} + e ^ {{ boldsymbol { beta}} _ {1} cdot mathbf {X} _ {i}}}}. end {выравнивается}} }

В результате мы можем упростить ситуацию и восстановить идентифицируемость, выбрав произвольное значение для одного из двух векторов. Мы выбираем установить ${ displaystyle { boldsymbol { beta}} _ {0} = mathbf {0}.}$ Потом,

{ displaystyle e ^ {{ boldsymbol { beta}} _ {0} cdot mathbf {X} _ {i}} = e ^ { mathbf {0} cdot mathbf {X} _ {i} } = 1}

и так

{ displaystyle Pr (Y_ {i} = 1) = { frac {e ^ {{ boldsymbol { beta}} _ {1} cdot mathbf {X} _ {i}}} {1 + e ^ {{ boldsymbol { beta}} _ {1} cdot mathbf {X} _ {i}}}} = { frac {1} {1 + e ^ {- { boldsymbol { beta}} _ {1} cdot mathbf {X} _ {i}}}} = p_ {i}}

что показывает, что эта формулировка действительно эквивалентна предыдущей формулировке. (Как и в формулировке двусторонней скрытой переменной, любые настройки, ${ displaystyle { boldsymbol { beta}} = { boldsymbol { beta}} _ {1} - { boldsymbol { beta}} _ {0}}$ даст эквивалентные результаты.)

Обратите внимание, что большинство методов лечения полиномиальный логит Модель начинается либо с расширения представленной здесь «лог-линейной» формулировки, либо с формулировки двусторонней скрытой переменной, представленной выше, поскольку обе четко показывают способ, которым модель может быть расширена для многосторонних результатов. В общем, представление со скрытыми переменными чаще встречается в эконометрика и политическая наука, куда дискретный выбор модели и теория полезности царствовать, в то время как "лог-линейная" формулировка здесь более распространена в Информатика, например машинное обучение и обработка естественного языка.

Как однослойный перцептрон

Модель имеет эквивалентную формулировку

{ displaystyle p_ {i} = { frac {1} {1 + e ^ {- ( beta _ {0} + beta _ {1} x_ {1, i} + cdots + beta _ {k } x_ {k, i})}}}. ,}

Эта функциональная форма обычно называется однослойной. перцептрон или однослойный искусственная нейронная сеть. Однослойная нейронная сеть вычисляет непрерывный вывод вместо ступенчатая функция. Производная от п_я относительно Икс = (Икс₁, ..., Икс_k) вычисляется по общей форме:

{ displaystyle y = { frac {1} {1 + e ^ {- f (X)}}}}

куда ж(Икс) является аналитическая функция в Икс. При таком выборе однослойная нейронная сеть идентична модели логистической регрессии. Эта функция имеет непрерывную производную, что позволяет использовать ее в обратное распространение. Эта функция также предпочтительна, потому что ее производная легко вычисляется:

{ displaystyle { frac { mathrm {d} y} { mathrm {d} X}} = y (1-y) { frac { mathrm {d} f} { mathrm {d} X}} . ,}

С точки зрения биномиальных данных

Тесно связанная модель предполагает, что каждый я связана не с одним судом Бернулли, а с п_я независимые одинаково распределенные испытания, где наблюдение Y_я - количество наблюдаемых успехов (сумма отдельных случайных величин, распределенных по Бернулли), и, следовательно, следует биномиальное распределение:

{ displaystyle Y_ {i} , sim operatorname {Bin} (n_ {i}, p_ {i}), { text {for}} i = 1, dots, n}

Примером такого распределения является доля семян (п_я), которые прорастают после п_я посажены.

С точки зрения ожидаемые значения, эта модель выражается следующим образом:

{ displaystyle p_ {i} = operatorname { mathcal {E}} left [ left. { frac {Y_ {i}} {n_ {i}}} , right | , mathbf {X } _{Я прав],,}

так что

{ displaystyle operatorname {logit} left ( operatorname { mathcal {E}} left [ left. { frac {Y_ {i}} {n_ {i}}} , right | , mathbf {X} _ {i} right] right) = operatorname {logit} (p_ {i}) = ln left ({ frac {p_ {i}} {1-p_ {i}}} right) = { boldsymbol { beta}} cdot mathbf {X} _ {i} ,,}

Или эквивалентно:

{ displaystyle Pr (Y_ {i} = y mid mathbf {X} _ {i}) = {n_ {i} select y} p_ {i} ^ {y} (1-p_ {i}) ^ {n_ {i} -y} = {n_ {i} select y} left ({ frac {1} {1 + e ^ {- { boldsymbol { beta}} cdot mathbf {X}) _ {i}}}} right) ^ {y} left (1 - { frac {1} {1 + e ^ {- { boldsymbol { beta}} cdot mathbf {X} _ {i }}}} right) ^ {n_ {i} -y} ,.}

Эта модель может быть подобрана с использованием тех же методов, что и описанная выше более базовая модель.

Байесовский

Сравнение логистическая функция с масштабированной обратной пробит функция (т.е. CDF из нормальное распределение ), сравнивая

{ Displaystyle sigma (х)}

против.

{ Displaystyle Phi ({ sqrt { frac { pi} {8}}} х)}

, что делает уклоны одинаковыми в начале координат. Это показывает более тяжелые хвосты логистической дистрибуции.

В Байесовская статистика контекст предыдущие распределения обычно помещаются в коэффициенты регрессии, обычно в форме Гауссовы распределения. Здесь нет сопряженный предшествующий из функция правдоподобия в логистической регрессии. Когда байесовский вывод был выполнен аналитически, это сделало апостериорное распределение трудно рассчитать, за исключением очень малых размеров. Однако теперь автоматическое программное обеспечение, такое как OpenBUGS, JAGS, PyMC3 или же Стэн позволяет вычислить эти апостериорные данные с помощью моделирования, поэтому отсутствие сопряженности не является проблемой. Однако, когда размер выборки или количество параметров велико, полное байесовское моделирование может быть медленным, и люди часто используют приближенные методы, такие как вариационные байесовские методы и распространение ожидания.

История

Подробная история логистической регрессии приведена в Крамер (2002). Логистическая функция была разработана как модель рост населения и назван "логистическим" Пьер Франсуа Верхюльст в 1830-х и 1840-х годах под руководством Адольф Кетле; видеть Логистическая функция § История для подробностей.^[39] В своей самой ранней статье (1838) Ферхюльст не уточнил, как он подгоняет кривые к данным.^[40]^[41] В своей более подробной статье (1845) Ферхюльст определил три параметра модели, заставив кривую проходить через три наблюдаемые точки, что дало плохие прогнозы.^[42]^[43]

Логистическая функция была независимо разработана в химии как модель автокатализ (Вильгельм Оствальд, 1883).^[44] Автокаталитическая реакция - это реакция, в которой один из продуктов сам по себе катализатор для той же реакции, при фиксированной подаче одного из реагентов. Это естественным образом приводит к логистическому уравнению по той же причине, что и рост населения: реакция является самоусиливающейся, но ограниченной.

Логистическая функция была независимо заново открыта как модель роста населения в 1920 г. Раймонд Перл и Лоуэлл Рид, опубликовано как Жемчуг и тростник (1920), что привело к его использованию в современной статистике. Первоначально они не знали о работе Ферхюльста и, вероятно, узнали о ней от Л. Густав дю Паскье, но они не поверили ему и не приняли его терминологию.^[45] Признание приоритета Verhulst и возрождение термина «логистика» Удный Йоль в 1925 году и с тех пор отслеживается.^[46] Перл и Рид сначала применили модель к населению Соединенных Штатов, а также сначала подогнали кривую, проведя ее через три точки; как и в случае с Verhulst, это снова дало плохие результаты.^[47]

В 1930-е гг. пробит модель был разработан и систематизирован Честер Иттнер Блисс, который ввел термин "пробит" в Блаженство (1934), и по Джон Гэддум в Гаддум (1933), и модель соответствовала оценка максимального правдоподобия к Рональд А. Фишер в Фишер (1935), как дополнение к работе Блисс. Модель пробит в основном использовалась в биоанализ, и ему предшествовали более ранние работы, датированные 1860 годом; видеть Пробит модель § История. Пробит-модель повлияла на последующее развитие логит-модели, и эти модели конкурировали друг с другом.^[48]

Логистическая модель, вероятно, впервые была использована в качестве альтернативы пробит-модели в биотестах. Эдвин Бидвелл Уилсон и его ученик Джейн Вустер в Уилсон и Вустер (1943).^[49] Однако разработка логистической модели как общей альтернативы пробит-модели была в основном связана с работой Джозеф Берксон на протяжении многих десятилетий, начиная с Берксон (1944), где он придумал «логит» по аналогии с «пробит», и продолжая Берксон (1951) и последующие годы.^[50] Первоначально логит-модель была отклонена как уступающая пробит-модели, но «постепенно достигла равенства с логит-моделью»,^[51] особенно между 1960 и 1970 годами. К 1970 году логит-модель достигла паритета с пробит-моделью, используемой в статистических журналах, и впоследствии превзошла ее. Эта относительная популярность объяснялась принятием логита за пределами биотеста, а не вытеснением пробита в биотесте, и его неформальным использованием на практике; Популярность логита объясняется вычислительной простотой, математическими свойствами и универсальностью модели логита, что позволяет использовать ее в различных областях.^[52]

За это время были внесены различные усовершенствования, в частности Дэвид Кокс, как в Кокс (1958).^[2]

Полиномиальная логит-модель была введена независимо в Кокс (1966) и Тиль (1969), что значительно увеличило сферу применения и популярность модели logit.^[53] В 1973 г. Дэниел Макфадден связал полиномиальный логит с теорией дискретный выбор, конкретно Аксиома выбора Люси, показывая, что полиномиальный логит следует из предположения независимость от нерелевантных альтернатив и интерпретация вероятностей альтернатив как относительных предпочтений;^[54] это дало теоретическую основу для логистической регрессии.^[53]

Расширения

Есть большое количество расширений:

Полиномиальная логистическая регрессия (или же полиномиальный логит) обрабатывает случай многоходового категоричный зависимая переменная (с неупорядоченными значениями, также называемая «классификацией»). Обратите внимание, что общий случай наличия зависимых переменных с более чем двумя значениями называется политомическая регрессия.
Упорядоченная логистическая регрессия (или же заказанный логит) ручки порядковый зависимые переменные (упорядоченные значения).
Смешанный логит - это расширение полиномиального логита, которое позволяет устанавливать корреляции между вариантами выбора зависимой переменной.
Расширением логистической модели до наборов взаимозависимых переменных является условное случайное поле.
Условная логистическая регрессия ручки совпадает или же стратифицированный данные, когда пласты небольшие. В основном он используется при анализе наблюдательные исследования.

Программного обеспечения

Наиболее статистическое программное обеспечение может выполнять бинарную логистическую регрессию.

SPSS
- [1] для базовой логистической регрессии.
Stata
SAS
- ПРОЦЕДУРА ЛОГИСТИКА для базовой логистической регрессии.
- PROC CATMOD когда все переменные категоричны.
- ПРОЦЕДУРА GLIMMIX за многоуровневая модель логистическая регрессия.
р
- glm в пакете статистики (с использованием family = binomial)^[55]
- lrm в пакет rms
- Пакет GLMNET для эффективной реализации регуляризованной логистической регрессии
- lmer для логистической регрессии со смешанными эффектами
- Команда пакета Rfast gm_logistic для быстрых и тяжелых вычислений с крупномасштабными данными.
- пакет arm для байесовской логистической регрессии
Python
- Logit в Статистические модели модуль.
- Логистическая регрессия в Scikit-Learn модуль.
- LogisticRegressor в TensorFlow модуль.
- Полный пример логистической регрессии в учебнике Theano [2]
- Байесовская логистическая регрессия с предварительным ARD код, руководство
- Вариационная байесовская логистическая регрессия с предварительным ARD код , руководство
- Байесовская логистическая регрессия код, руководство
NCSS
- Логистическая регрессия в NCSS
Matlab
- mnrfit в Инструменты статистики и машинного обучения (с "неправильным" кодом 2 вместо 0)
- fminunc / fmincon, fitglm, mnrfit, fitclinear, mle могут все сделать логистическую регрессию.
Ява (JVM )
- LibLinear
- Apache Flink
- Apache Spark
  - SparkML поддерживает логистическую регрессию
FPGA
- Логистическая регрессия IP-ядра в HLS за FPGA.

В частности, Майкрософт Эксель пакет расширения статистики не включает его.

Смотрите также

Логистическая функция
Дискретный выбор
Модель Ярроу – Тернбулла
Ограниченная зависимая переменная
Полиномиальная логит-модель
Заказал логит
Тест Хосмера – Лемешоу
Оценка Бриера
mlpack - содержит C ++ реализация логистической регрессии
Выборка для местного контроля
Дерево логистической модели

дальнейшее чтение

Кокс, Дэвид Р. (1958). «Регрессионный анализ двоичных последовательностей (с обсуждением)». J R Stat Soc B. 20 (2): 215–242. JSTOR 2983890.
Кокс, Дэвид Р. (1966). «Некоторые процедуры, связанные с логистической качественной кривой ответа». В F. N. David (1966) (ред.). Исследования по вероятности и статистике (Festschrift для Дж. Неймана). Лондон: Уайли. С. 55–71.
Крамер, Дж. С. (2002). Истоки логистической регрессии (PDF) (Технический отчет). 119. Институт Тинбергена. С. 167–178. Дои:10.2139 / ssrn.360300.
- Опубликовано в: Крамер, Дж. С. (2004). «Ранние истоки логит-модели». Исследования по истории и философии науки Часть C: Исследования по истории и философии биологических и биомедицинских наук. 35 (4): 613–626. Дои:10.1016 / j.shpsc.2004.09.003.
Тиль, Анри (1969). «Мультиномиальное расширение линейной логитовой модели». Международное экономическое обозрение. 10 (3): 251–59. Дои:10.2307/2525642. JSTOR 2525642.

Уилсон, Э.; Вустер, Дж. (1943). «Определение L.D.50 и его ошибка отбора проб в биопробе». Труды Национальной академии наук Соединенных Штатов Америки. 29 (2): 79–85. Bibcode:1943ПНАС ... 29 ... 79Вт. Дои:10.1073 / пнас.29.2.79. ЧВК 1078563. PMID 16588606.

Агрести, Алан. (2002). Категориальный анализ данных. Нью-Йорк: Wiley-Interscience. ISBN 978-0-471-36093-3.
Амемия, Такеши (1985). «Модели качественного ответа». Продвинутая эконометрика. Оксфорд: Бэзил Блэквелл. С. 267–359. ISBN 978-0-631-13345-2.
Балакришнан, Н. (1991). Справочник по логистической дистрибуции. Марсель Деккер, Inc. ISBN 978-0-8247-8587-1.
Гурье, Кристиан (2000). «Простая дихотомия». Эконометрика качественных зависимых переменных. Нью-Йорк: Издательство Кембриджского университета. С. 6–37. ISBN 978-0-521-58985-7.
Грин, Уильям Х. (2003). Эконометрический анализ, пятое издание. Прентис Холл. ISBN 978-0-13-066189-0.
Хильбе, Джозеф М. (2009). Модели логистической регрессии. Чепмен и Холл / CRC Press. ISBN 978-1-4200-7575-5.
Хосмер, Дэвид (2013). Прикладная логистическая регрессия. Хобокен, Нью-Джерси: Wiley. ISBN 978-0470582473.
Хауэлл, Дэвид С. (2010). Статистические методы психологии, 7-е изд.. Бельмонт, Калифорния; Томсон Уодсворт. ISBN 978-0-495-59786-5.
Peduzzi, P .; Дж. Конкато; Э. Кемпер; T.R. Холфорд; A.R. Файнштейн (1996). «Имитационное исследование количества событий на переменную в логистическом регрессионном анализе». Журнал клинической эпидемиологии. 49 (12): 1373–1379. Дои:10.1016 / s0895-4356 (96) 00236-3. PMID 8970487.
Берри, Майкл Дж. А .; Линофф, Гордон (1997). Методы интеллектуального анализа данных для маркетинга, продаж и поддержки клиентов. Вайли.

внешняя ссылка

СМИ, связанные с Логистическая регрессия в Wikimedia Commons
Лекция по эконометрике (тема: Логит-модель) на YouTube к Марк Тома
Учебник по логистической регрессии
mlelr: программное обеспечение в C в учебных целях

[1] Толлес, Юлиана; Мерер, Уильям Дж (2016).«Логистическая регрессия, связывающая характеристики пациентов с результатами». JAMA. 316 (5): 533–4. Дои:10.1001 / jama.2016.7653. ISSN 0098-7484. OCLC 6823603312. PMID 27483067.

[wal67est-2] а ^б Уокер, SH; Дункан, ДБ (1967). «Оценка вероятности события как функции нескольких независимых переменных». Биометрика. 54 (1/2): 167–178. Дои:10.2307/2333860. JSTOR 2333860.

[FOOTNOTECramer20028-3] Крамер 2002, п. 8.

[4] Boyd, C. R .; Толсон, М. А .; Копс, В. С. (1987). «Оценка помощи при травмах: метод TRISS. Оценка травмы и оценка тяжести травмы». Журнал травм. 27 (4): 370–378. Дои:10.1097/00005373-198704000-00005. PMID 3106646.

[5] Кологлу, М .; Elker, D .; Алтун, Х .; Сайек, И. (2001). «Валидация MPI и PIA II в двух разных группах пациентов со вторичным перитонитом». Гепатогастроэнтерология. 48 (37): 147–51. PMID 11268952.

[6] Biondo, S .; Ramos, E .; Deiros, M .; Ragué, J.M .; De Oca, J .; Moreno, P .; Farran, L .; Джаурриета, Э. (2000). «Прогностические факторы смертности при перитоните левой толстой кишки: новая система баллов». Журнал Американского колледжа хирургов. 191 (6): 635–42. Дои:10.1016 / S1072-7515 (00) 00758-4. PMID 11129812.

[7] Marshall, J.C .; Кук, Д. Дж .; Christou, N.V .; Бернард, Г. Р .; Sprung, C.L .; Сиббальд, В. Дж. (1995). «Оценка множественной дисфункции органов: надежный дескриптор сложного клинического исхода». Реанимационная медицина. 23 (10): 1638–52. Дои:10.1097/00003246-199510000-00007. PMID 7587228.

[8] Le Gall, J. R .; Lemeshow, S .; Saulnier, F. (1993). «Новая упрощенная оценка острой физиологии (SAPS II) на основе многоцентрового исследования в Европе и Северной Америке». JAMA. 270 (24): 2957–63. Дои:10.1001 / jama.1993.03510240069035. PMID 8254858.

[Freedman09-9] а ^б Дэвид А. Фридман (2009). Статистические модели: теория и практика. Издательство Кембриджского университета. п. 128.

[10] Truett, J; Кукурузное поле, Дж; Каннел, W. (1967). «Многомерный анализ риска ишемической болезни сердца во Фрамингеме». Журнал хронических болезней. 20 (7): 511–24. Дои:10.1016/0021-9681(67)90082-3. PMID 6028270.

[Harrell-11] Харрелл, Фрэнк Э. (2001). Стратегии регрессионного моделирования (2-е изд.). Springer-Verlag. ISBN 978-0-387-95232-1.

[strano05-12] М. Страно; Б.М. Колозимо (2006). «Логистический регрессионный анализ для экспериментального определения построения предельных диаграмм». Международный журнал станков и производства. 46 (6): 673–682. Дои:10.1016 / j.ijmachtools.2005.07.005.

[safety-13] Palei, S.K .; Дас, С. К. (2009). «Модель логистической регрессии для прогнозирования рисков обрушения кровли при выработках бортов и колонн в угольных шахтах: подход». Наука о безопасности. 47: 88–96. Дои:10.1016 / j.ssci.2008.01.002.

[14] Берри, Майкл Дж. А. (1997). Методы интеллектуального анализа данных для маркетинга, продаж и поддержки клиентов. Вайли. п. 10.

[Hosmer-15] а ^б ^c ^d ^е ^ж ^грамм ^час ^я ^j ^k Хосмер, Дэвид В .; Лемешоу, Стэнли (2000). Прикладная логистическая регрессия (2-е изд.). Вайли. ISBN 978-0-471-35632-5.^{[страница нужна ]}

[rms-16] а ^б Харрелл, Фрэнк Э. (2015). Стратегии регрессионного моделирования. Серия Спрингера в статистике (2-е изд.). Нью-Йорк; Springer. Дои:10.1007/978-3-319-19425-7. ISBN 978-3-319-19424-0.

[17] Родригес, Г. (2007). Конспект лекций по обобщенным линейным моделям. стр. Глава 3, стр. 45 - через http://data.princeton.edu/wws509/notes/.

[18] Гарет Джеймс; Даниэла Виттен; Тревор Хасти; Роберт Тибширани (2013). Введение в статистическое обучение. Springer. п. 6.

[19] Похар, Майя; Блас, Матея; Терк, Сандра (2004). «Сравнение логистической регрессии и линейного дискриминантного анализа: имитационное исследование». Методолошки Звездки. 1 (1).

[20] «Как интерпретировать отношение шансов в логистической регрессии?». Институт цифровых исследований и образования.

[21] Эверит, Брайан (1998). Кембриджский статистический словарь. Кембридж, Великобритания Нью-Йорк: Издательство Кембриджского университета. ISBN 978-0521593465.

[22] Нг, Эндрю (2000). "Лекционные заметки CS229" (PDF). CS229 Лекционные заметки: 16–19.

[23] Ван Смеден, М .; Де Гроот, Дж. А .; Луны, К. Г .; Коллинз, Г. С .; Альтман, Д. Г .; Eijkemans, M. J .; Рейцма, Дж. Б. (2016). «Нет обоснования для 1 переменной на 10 критериев событий для бинарного логистического регрессионного анализа». BMC Методология медицинских исследований. 16 (1): 163. Дои:10.1186 / s12874-016-0267-3. ЧВК 5122171. PMID 27881078.

[24] Peduzzi, P; Конкато, Дж; Кемпер, Э; Холфорд, TR; Файнштейн, АР (декабрь 1996 г.). «Имитационное исследование количества событий на переменную в логистическом регрессионном анализе». Журнал клинической эпидемиологии. 49 (12): 1373–9. Дои:10.1016 / s0895-4356 (96) 00236-3. PMID 8970487.

[25] Vittinghoff, E .; Маккаллох, К. Э. (12 января 2007 г.). «Ослабление правила десяти событий на переменную в логистической регрессии и регрессии Кокса». Американский журнал эпидемиологии. 165 (6): 710–718. Дои:10.1093 / aje / kwk052. PMID 17182981.

[plo14mod-26] ван дер Плоег, Тьерд; Остин, Питер С .; Стейерберг, Юут В. (2014). «Современные методы моделирования требуют данных: имитационное исследование для прогнозирования дихотомических конечных точек». BMC Методология медицинских исследований. 14: 137. Дои:10.1186/1471-2288-14-137. ЧВК 4289553. PMID 25532820.

[Menard-27] а ^б ^c ^d ^е ^ж ^грамм ^час ^я Менард, Скотт В. (2002). Прикладная логистическая регрессия (2-е изд.). МУДРЕЦ. ISBN 978-0-7619-2208-7.^{[страница нужна ]}

[28] Гурье, Кристиан; Монфор, Ален (1981). «Асимптотические свойства оценки максимального правдоподобия в дихотомических логит-моделях». Журнал эконометрики. 17 (1): 83–97. Дои:10.1016/0304-4076(81)90060-9.

[sciencedirect.com-29] Park, Byeong U .; Симар, Леопольд; Зеленюк, Валентин (2017). «Непараметрическая оценка динамических моделей дискретного выбора для данных временных рядов» (PDF). Вычислительная статистика и анализ данных. 108: 97–120. Дои:10.1016 / j.csda.2016.10.024.

[30] Видеть например. Мерфи, Кевин П. (2012). Машинное обучение - вероятностная перспектива. MIT Press. стр. 245с. ISBN 978-0-262-01802-9.

[Greene-31] Грин, Уильям Н. (2003). Эконометрический анализ (Пятое изд.). Прентис-Холл. ISBN 978-0-13-066189-0.

[Cohen-32] а ^б ^c ^d ^е ^ж ^грамм ^час ^я ^j ^k ^л ^м ^п ^о Коэн, Джейкоб; Коэн, Патрисия; Уэст, Стивен Дж .; Айкен, Леона С. (2002). Прикладная множественная регрессия / корреляционный анализ для поведенческих наук (3-е изд.). Рутледж. ISBN 978-0-8058-2223-6.^{[страница нужна ]}

[:0-33] а ^б ^c ^d ^е Эллисон, Пол Д. «Меры соответствия для логистической регрессии» (PDF). Statistical Horizons LLC и Пенсильванский университет.

[34] Тюрь, Вт (2009). «Коэффициенты детерминации в моделях логистической регрессии». Американский статистик: 366–372. Дои:10.1198 / вкус.2009.08210.^{[требуется полная цитата ]}

[35] Хосмер, Д.В. (1997). «Сравнение критериев согласия для модели логистической регрессии». Stat Med. 16 (9): 965–980. Дои:10.1002 / (sici) 1097-0258 (19970515) 16: 9 <965 :: help-sim509> 3.3.co; 2-f.

[36] Харрелл, Фрэнк Э. (2010). Стратегии регрессионного моделирования: с приложениями к линейным моделям, логистической регрессии и анализу выживаемости. Нью-Йорк: Спрингер. ISBN 978-1-4419-2918-1.^{[страница нужна ]}

[islr-37] а ^б https://class.stanford.edu/c4x/HumanitiesScience/StatLearning/asset/classification.pdf слайд 16

[38] Малуф, Роберт (2002). «Сравнение алгоритмов оценки максимального энтропийного параметра». Труды Шестой конференции по изучению естественного языка (CoNLL-2002). С. 49–55. Дои:10.3115/1118853.1118871.

[FOOTNOTECramer20023–5-39] Крамер 2002, стр. 3–5.

[40] Верхюльст, Пьер-Франсуа (1838). "Notice sur la loi que la population poursuit dans son accroissement" (PDF). Соответствие Mathématique et Physique. 10: 113–121. Получено 3 декабря 2014.

[41] Крамер 2002, п. 4, «Он не сказал, как он подогнал кривые».

[42] Верхюльст, Пьер-Франсуа (1845). "Recherches mathématiques sur la loi d'accroissement de la Population" [Математические исследования закона увеличения роста населения]. Nouveaux Mémoires de l'Académie Royale des Sciences et Belles-Lettres de Bruxelles. 18. Получено 2013-02-18.

[FOOTNOTECramer20024-43] Крамер 2002, п. 4.

[FOOTNOTECramer20027-44] Крамер 2002, п. 7.

[FOOTNOTECramer20026-45] Крамер 2002, п. 6.

[FOOTNOTECramer20026–7-46] Крамер 2002, п. 6–7.

[FOOTNOTECramer20025-47] Крамер 2002, п. 5.

[FOOTNOTECramer20027–9-48] Крамер 2002, п. 7–9.

[FOOTNOTECramer20029-49] Крамер 2002, п. 9.

[50] Крамер 2002, п. 8: «Насколько я понимаю, введение логистики в качестве альтернативы нормальной функции вероятности - это работа одного человека, Джозефа Берксона (1899–1982), ...»

[FOOTNOTECramer200211-51] Крамер 2002, п. 11.

[FOOTNOTECramer200210–11-52] Крамер 2002, п. 10–11.

[FOOTNOTECramer13-53] а ^б Крамер, п. 13.

[54] Макфадден, Дэниел (1973). «Условный логит-анализ качественного выбора поведения» (PDF). В П. Зарембке (ред.). Границы в эконометрике. Нью-Йорк: Academic Press. С. 105–142. Архивировано из оригинал (PDF) на 2018-11-27. Получено 2019-04-20.

[55] Гельман, Андрей; Хилл, Дженнифер (2007). Анализ данных с использованием регрессии и многоуровневых / иерархических моделей. Нью-Йорк: Издательство Кембриджского университета. С. 79–108. ISBN 978-0-521-68689-1.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]