| Эта статья нужны дополнительные цитаты для проверка. Пожалуйста помоги улучшить эту статью к добавление цитат в надежные источники. Материал, не полученный от источника, может быть оспорен и удален. Найдите источники: «Индекс несходства» – Новости · газеты · книги · ученый · JSTOR (Июль 2018 г.) (Узнайте, как и когда удалить этот шаблон сообщения) |
В индекс несходства это демографический мера равномерности, с которой две группы распределены по составляющим географическим областям, составляющим большую территорию. Показатель индекса также можно интерпретировать как процент одной из двух групп, включенных в расчет, которые должны были бы переместиться в разные географические области, чтобы получить распределение, соответствующее распределению в большей области. Индекс несходства может использоваться как мера сегрегации.
Основная формула
Основная формула индекса несходства:
![{ displaystyle D = { frac {1} {2}} sum _ {i = 1} ^ {N} left | { frac {a_ {i}} {A}} - { frac {b_ { i}} {B}} right |}](https://wikimedia.org/api/rest_v1/media/math/render/svg/800b3c3f9459481a9a646195ad1e66ab7d02aae7)
где (например, сравнивая черно-белое население):
- ая = население группы А в яth площадь, например переписной тракт
- А = общая численность населения в группе А в крупном географическом объекте, для которого рассчитывается индекс несходства.
- бя = население группы B в яth площадь
- B = общая численность населения в группе B в крупном географическом объекте, для которого рассчитывается индекс несходства.
Индекс несходства применим к любому категориальная переменная (демографический или нет) и благодаря своим простым свойствам полезен для ввода в программы многомерного масштабирования и кластеризации. Он широко использовался при изучении социальная мобильность для сравнения распределения по профессиональным категориям происхождения (или назначения).
Перспектива линейной алгебры
Формулу для индекса несходства можно сделать гораздо более компактной и содержательной, если рассматривать ее с точки зрения Линейная алгебра. Предположим, мы изучаем распределение богатых и бедных людей в городе (например, Лондон ). Допустим, в нашем городе есть
блоки:
![{ displaystyle {{ text {block 1}}, { text {block 2}}, ldots, { text {block N}} }}](https://wikimedia.org/api/rest_v1/media/math/render/svg/21d850032e9e580097be655d24a861cf8cfae192)
Создадим вектор
который показывает количество богатых людей в каждом квартале нашего города:
![{ Displaystyle mathbf {r} = [r_ {1}, r_ {2}, cdots, r_ {N}]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/0d70c2519dd3462da3a6b80e15b57e751ef2260b)
Аналогично создадим вектор
который показывает количество бедных в каждом квартале нашего города:
![{ Displaystyle mathbf {p} = [p_ {1}, p_ {2}, cdots, p_ {N}]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/1d7b2f686950264a53a63b0ae13b4ae5522056ec)
Теперь
-норма вектора - это просто сумма (величина) каждой записи в этом векторе.[1] То есть для вектора
, у нас есть
-норма:
![{ displaystyle | mathbf {v} | _ {1} = sum _ {i = 1} ^ {N} | v_ {i} |}](https://wikimedia.org/api/rest_v1/media/math/render/svg/42502ad5b4f0e7e4590722f496c13c25064e5634)
Если обозначить
как общее количество богатых людей в нашем городе, чем компактный способ подсчитать
было бы использовать
-норма:
![{ Displaystyle R = | mathbf {r} | _ {1} = sum _ {i = 1} ^ {N} | r_ {i} |}](https://wikimedia.org/api/rest_v1/media/math/render/svg/22a7a145514387eff7d73a7e7000e868883e3da2)
Аналогично, если обозначить
как общее количество бедных в нашем городе, то:
![{ Displaystyle P = | mathbf {p} | _ {1} = sum _ {i = 1} ^ {N} | p_ {i} |}](https://wikimedia.org/api/rest_v1/media/math/render/svg/50529e1eef7e071435cf6706d16a77a6784fa516)
Когда мы делим вектор
по его норме мы получаем так называемый нормализованный вектор или Единичный вектор
:
![{ displaystyle { hat { mathbf {v}}} = { frac { mathbf {v}} {| mathbf {v} | _ {1}}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/13b95b3fa4f917ed027922ae77fd6c399d751538)
Нормализуем богатый вектор
и бедный вектор
:
![{ displaystyle { hat { mathbf {r}}} = { frac { mathbf {r}} {| mathbf {r} | _ {1}}} = { frac { mathbf {r}} {Р}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/67da921052b287720b76c89b53c2403d5b4cfc7a)
![{ displaystyle { hat { mathbf {p}}} = { frac { mathbf {p}} {| mathbf {r} | _ {1}}} = { frac { mathbf {p}} {П}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/f9c06187c5058a2c5a78adbe18793dd56968c7ab)
Наконец, вернемся к формуле для индекса несходства (
); он просто равен половине
-норма разности векторов
и
:
Индекс несходства(в линейно-алгебраической записи)![{ displaystyle D = { frac {1} {2}} | { hat { mathbf {r}}} - { hat { mathbf {p}}} | _ {1}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/2b4b6811dbc71b8752a0ebbf7b1314f105fc027a)
Числовой пример
Рассмотрим город, состоящий из четырех кварталов по 2 человека в каждом. Один блок состоит из 2 богатых людей. Один блок состоит из 2 бедняков. Два блока состоят из 1 богатого и 1 бедного человека. Каков показатель непохожести этого города?
В нашем вымышленном городе 4 квартала: в одном - 2 богатых человека; в другом 2 бедных человека; и два блока, содержащие 1 богатого и 1 бедного человека.
Сначала найдем богатый вектор
и плохой вектор
:
![{ Displaystyle mathbf {r} = [2,0,1,1]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/c57ec499882203cb63bd74b19f783419e5f52308)
![{ Displaystyle mathbf {p} = [0,2,1,1]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/bd4f16db6b6038779fc7e0d23ce8345e20fdda7e)
Далее посчитаем общее количество богатых и бедных в нашем городе:
![{ Displaystyle R = 2 + 0 + 1 + 1 = 4}](https://wikimedia.org/api/rest_v1/media/math/render/svg/cad98691450ac5e46401dcfb572b14cb2e2e2cf1)
![{ Displaystyle P = 0 + 2 + 1 + 1 = 4}](https://wikimedia.org/api/rest_v1/media/math/render/svg/a34708f226ee3f3deb28e45cf65e27f932930953)
Далее, давайте нормализуем богатые и бедные векторы:
![{ displaystyle { hat { mathbf {r}}} = { frac { mathbf {r}} {R}} = { frac {1} {4}} [2,0,1,1] = [0,5,0,0,25,0,25]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/b979f6ec1d4618f296f13f5edd29b439f8837074)
![{ displaystyle { hat { mathbf {p}}} = { frac { mathbf {p}} {P}} = { frac {1} {4}} [0,2,1,1] = [0,0.5,0.25,0.25]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/e58fa8dd2602d43cb4cc404bd1371ba4fcdc844e)
Теперь мы можем вычислить разницу
:
![{ displaystyle { hat { mathbf {r}}} - { hat { mathbf {p}}} = [0.5,0,0.25,0.25] - [0,0.5,0.25,0.25] = [0,5, -0,5,0,0]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/12a12da2c7184b198b250270844c028e4f154f33)
Наконец, найдем индекс несходства (
):
![{ displaystyle D = { frac {1} {2}} | { hat { mathbf {r}}} - { hat { mathbf {p}}} | _ {1} = { frac {1 } {2}} (| 0,5 | + | -0,5 |) = 0,5}](https://wikimedia.org/api/rest_v1/media/math/render/svg/67d8fc85c67e8b9270d339653cdaa94d1523be9b)
Эквивалентность формул
Мы можем доказать, что линейная алгебраическая формула для
идентична основной формуле для
. Начнем с формулы линейной алгебры:
![{ displaystyle D = { frac {1} {2}} | { hat { mathbf {r}}} - { hat { mathbf {p}}} | _ {1}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/2b4b6811dbc71b8752a0ebbf7b1314f105fc027a)
Заменим нормализованные векторы
и
с:
![{ displaystyle D = { frac {1} {2}} left | { frac { mathbf {r}} {R}} - { frac { mathbf {p}} {P}} right | _ {1}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/d8a5c64f3224b374f906df174d4ee782c47cca88)
Наконец, из определения
-norm, мы знаем, что можем заменить его суммированием:
![{ displaystyle D = { frac {1} {2}} sum _ {i = 1} ^ {N} | { frac {r_ {i}} {R}} - { frac {p_ {i} } {P}} |}](https://wikimedia.org/api/rest_v1/media/math/render/svg/ed9b4f8eb4ee404780ea40554bf3a2d8f7426ff5)
Таким образом, мы доказываем, что формула линейной алгебры для индекса несходства эквивалентна основной формуле для него:
![{ displaystyle D = { frac {1} {2}} | { hat { mathbf {r}}} - { hat { mathbf {p}}} | _ {1} = { frac {1 } {2}} sum _ {i = 1} ^ {N} | { frac {r_ {i}} {R}} - { frac {p_ {i}} {P}} |}](https://wikimedia.org/api/rest_v1/media/math/render/svg/bbfbcc5b23717ee35956b9ef26841e22bafa5494)
Нулевая сегрегация
Когда индекс несходства равен нулю, это означает, что в изучаемом нами сообществе отсутствует сегрегация. Например, если мы изучаем сегрегацию богатых и бедных в городе, то если
, это означает, что:
- В городе нет кварталов, которые были бы «богатыми кварталами», и в городе нет кварталов, которые были бы «бедными кварталами».
- Богатые и бедные люди равномерно распределены по всему городу.
Если мы установим
в линейной алгебраической формуле мы получаем необходимое условие наличия нулевой сегрегации:
![{ displaystyle mathbf { hat {r}} = mathbf { hat {p}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/615d8b6b5800d07c5f6cd2a3685d3958281978e2)
Например, предположим, что у вас есть город из двух кварталов. В каждом блоке 4 богатых и 100 бедных:
![{ Displaystyle mathbf {r} = [4,4]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/c35cc18197c09bc8c9e0c50f63d7864c5453dcb8)
![{ displaystyle mathbf {p} = [100 100]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/8c603ba525f368c02cbbefce113c187b762ee84e)
Тогда общее количество богатых людей будет
, а общее количество бедных составляет
. Таким образом:
![{ displaystyle mathbf { hat {r}} = [4 / 8,4 / 8] = [0,5,0,5]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/90d4af1292796db8396b0e37e62f5ea461597370)
![{ displaystyle mathbf { hat {p}} = [100 / 200,100 / 200] = [0,5,0,5]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/3d478a492886d7d426be873a12b55856b0120912)
Потому что
, таким образом, в этом городе нет сегрегации.
В качестве другого примера предположим, что у вас есть город из 3 кварталов:
![{ Displaystyle mathbf {r} = [1,2,3]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/0cb7cde73410468b7b932f7e4f38e45956e07b84)
![{ displaystyle mathbf {p} = [100,200,300]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/1d8beee582d9629fd6bc74e68f3e59dd18a3da52)
Тогда у нас есть
богатые люди в нашем городе, и
бедные люди. Таким образом:
![{ Displaystyle mathbf { шляпа {r}} = [1 / 6,2 / 6,3 / 6]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/711affc8bc9a39087b53646c12d0cf63c86f7c63)
![{ Displaystyle mathbf { шляпа {p}} = [100 / 600,200 / 600,300 / 600] = [1 / 6,2 / 6,3 / 6]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/51deb9a86171810b6cfea59120e905bab2362047)
Опять же, потому что
, таким образом, в этом городе также отсутствует сегрегация.
Смотрите также
Рекомендации
внешняя ссылка