Somers D - Somers D
В статистике Somers ’ D, иногда неправильно называемый Somer’s D, является мерой порядковая ассоциация между двумя возможно зависимыми случайными величинами Икс и Y. Somers ’ D принимает значения между когда все пары переменных не совпадают и когда все пары переменных согласуются. Somers ’ D назван в честь Роберта Х. Сомерса, предложившего его в 1962 году.[1]
Somers ’ D играет центральную роль в ранговой статистике и является параметром многих непараметрических методов.[2] Он также используется как мера качества двоичный выбор или же порядковая регрессия (например., логистическая регрессия ) и кредитный скоринг модели.
Somers ’ D для образца
Мы говорим, что две пары и находятся согласный если ранги обоих элементов совпадают, или и или если и . Мы говорим, что две пары и противоречат друг другу, если ранги обоих элементов не совпадают, или если и или если и . Если или же пара не является ни согласованной, ни несогласной.
Позволять быть набором наблюдений двух возможно зависимых случайных векторов Икс и Y. Определять Коэффициент ранговой корреляции Кендалла тау в качестве
куда - количество согласованных пар и - количество дискордантных пар. Somers ’ D из Y относительно Икс определяется как .[2] Обратите внимание, что тау Кендалла симметричен в Икс и Y, тогда как Somers ’ D асимметричен в Икс и Y.
В качестве определяет количество пар с неравными Икс ценности, Somers ’ D - разница между количеством согласных и несогласованных пар, деленная на количество пар с Икс значения в паре не равны.
Somers ’ D для распространения
Пусть две независимые двумерные случайные величины и иметь такое же распределение вероятностей . Опять же, Сомерс D, который измеряет порядковую ассоциацию случайных величин Икс и Y в , можно определить через Тау Кендалла
или разница между вероятностями согласия и несогласия. Somers ’ D из Y относительно Икс определяется как . Таким образом, - это разница между двумя соответствующими вероятностями, обусловленная Икс значения не равны. Икс имеет непрерывное распределение вероятностей, тогда и тау Кендалла и Сомерс D совпадают. Somers ’ D нормализует тау Кендалла для возможных массовых точек переменной Икс.
Если Икс и Y оба двоичные со значениями 0 и 1, то Somers ’ D это разница между двумя вероятностями:
Сомерс ' D для двоичных зависимых переменных
На практике Сомерс ' D чаще всего используется, когда зависимая переменная Y это двоичная переменная,[2] то есть для двоичная классификация или предсказание бинарных результатов, включая модели бинарного выбора в эконометрике. Способы подбора таких моделей включают: логистика и пробит регресс.
Для количественной оценки качества таких моделей можно использовать несколько статистических данных: площадь под рабочая характеристика приемника (ROC) кривая, Гамма Гудмана и Крускала, Тау Кендалла (Тау-а), Somers ’ Dи др. Somers ’ D вероятно, наиболее широко используется из доступных статистических данных порядковых ассоциаций.[3] Идентичен Коэффициент Джини, Somers ’ D относится к площадь под кривой рабочей характеристики приемника (AUC),[2]
- .
В случае, когда независимая (предикторная) переменная Икс является дискретный и зависимая (исходная) переменная Y бинарный, Somers ’ D равно
куда это количество ни согласованных, ни несогласованных пар, связанных с переменной Икс а не по переменной Y.
Пример
Предположим, что независимая (предикторная) переменная Икс принимает три значения, 0.25, 0.5, или же 0.75, и зависимая (исходная) переменная Y принимает два значения, 0 или же 1. В таблице ниже представлены наблюдаемые комбинации Икс и Y:
Икс Y | 0.25 | 0.5 | 0.75 |
---|---|---|---|
0 | 3 | 5 | 2 |
1 | 1 | 7 | 6 |
Количество согласных пар равно
Количество дискордантных пар равно
Количество связанных пар равно общему количеству пар за вычетом согласованных и несогласованных пар.
Таким образом, Somers ’ D равно
Рекомендации
- ^ Сомерс, Р. Х. (1962). «Новая асимметричная мера ассоциации для порядковых переменных». Американский социологический обзор. 27 (6). Дои:10.2307/2090408. JSTOR 2090408.
- ^ а б c d Ньюсон, Роджер (2002). "Параметры" непараметрической "статистики: тау Кендалла, Сомерс D и медианные различия ». Stata Journal. 2 (1): 45–64.
- ^ О'Коннелл, А. А. (2006). Модели логистической регрессии для переменных порядкового ответа. Публикации SAGE.