Закон Ципфа - Zipfs law

Закон Ципфа
Вероятностная функция масс
График ВМП Ципфа для N = 10
Zipf PMF для N = 10 в логарифмическом масштабе. По горизонтальной оси отложен индекс k . (Обратите внимание, что функция определена только при целочисленных значениях k. Соединительные линии не указывают на непрерывность.)
Кумулятивная функция распределения
График ЦПФ Ципфа для N = 10
Zipf CDF для N = 10. По горизонтальной оси отложен индекс. k . (Обратите внимание, что функция определена только при целочисленных значениях k. Соединительные линии не указывают на непрерывность.)
Параметры (настоящий )
(целое число )
Поддерживать
PMF куда ЧАСN, с это Nй обобщенный номер гармоники
CDF
Иметь в виду
Режим
Дисперсия
Энтропия
MGF
CF

Закон Ципфа (/zɪж/, нет /тsɪпж/ как в немецком языке) является эмпирический закон сформулировано с использованием математическая статистика это относится к тому факту, что многие типы данных, изученные в физический и Социальное науки могут быть аппроксимированы распределением Ципфа, одним из семейства связанных дискретных сила закона распределения вероятностей. Распространение Zipf относится к дзета-распределение, но не идентичен.

Закон Ципфа изначально был сформулирован в терминах количественная лингвистика, заявив, что учитывая некоторые корпус из естественный язык произнесения, частота любого слова обратно пропорциональный к своему положению в таблица частот. Таким образом, наиболее часто встречающееся слово будет примерно в два раза чаще, чем второе по частоте слово, в три раза чаще, чем третье по частоте слово и т. Д .: рангово-частотное распределение является обратной зависимостью. Например, в Коричневый корпус в американском английском тексте слово "то "является наиболее часто встречающимся словом, и на него приходится почти 7% всех встречаемости слов (69 971 из чуть более 1 миллиона). Верно закону Ципфа, слово, занимающее второе место"из"составляет чуть более 3,5% слов (36 411 вхождений), за которым следует"и"(28 852). Всего 135 словарных единиц необходимо для того, чтобы составить половину Коричневого корпуса.[1]

Закон назван в честь американского лингвист Джордж Кингсли Зипф (1902–1950), который популяризировал это и пытался объяснить (Zipf 1935, 1949), хотя он и не утверждал, что является его автором.[2] Французская стенографистка Жан-Батист Эступ (1868–1950), кажется, заметил эту закономерность еще до Ципфа.[3][не проверено в теле ] Это также было отмечено в 1913 году немецким физиком. Феликс Ауэрбах (1856–1933).[4]

Другие наборы данных

Такая же взаимосвязь встречается во многих других рейтингах созданных человеком систем.[5], например, ранги математических выражений[6] или ряды нот в музыке[7]и даже в неконтролируемых средах, таких как численность населения в городах в разных странах, размеры корпораций, рейтинги доходов, количество людей, смотрящих один и тот же телеканал,[8] и так далее. Появление распределения в рейтингах городов по численности населения впервые заметил Феликс Ауэрбах в 1913 году.[4] Эмпирически можно проверить набор данных, чтобы увидеть, применяется ли закон Ципфа, проверив степень соответствия эмпирического распределения к гипотетическому степенному распределению с Тест Колмогорова – Смирнова, а затем сравнение (логарифмического) отношения правдоподобия степенного распределения с альтернативными распределениями, такими как экспоненциальное распределение или логнормальное распределение.[9] Когда закон Ципфа проверяется для городов, лучшее соответствие было найдено с показателем s = 1,07; то есть крупнейшее поселение размер самого большого населенного пункта.

Теоретический обзор

Закон Ципфа легче всего соблюдать заговор данные о журнал график с осями бревно (порядок ранжирования) и журнал (частота). Например, слово "the" (как описано выше) появится в Икс = журнал (1), у = журнал (69971). Также возможно построить график взаимного ранга против частоты или взаимной частоты или межсловного интервала против ранга.[2] Данные соответствуют закону Ципфа в той мере, в какой график линейный.

Формально пусть:

  • N быть количеством элементов;
  • k быть их званием;
  • s быть значением показателя, характеризующего распределение.

Затем закон Ципфа предсказывает, что из популяции N elements, нормализованная частота элемента ранга k, ж(k;s,N), является:

Закон Ципфа выполняется, если количество элементов с заданной частотой является случайной величиной со степенным распределением [10]

Утверждалось, что такое представление закона Ципфа больше подходит для статистического тестирования, и таким образом оно было проанализировано более чем в 30 000 английских текстов. Тесты согласия показывают, что только около 15% текстов статистически совместимы с этой формой закона Ципфа. Незначительные изменения в определении закона Ципфа могут увеличить этот процент почти до 50%.[11]

В примере с частотой слов в английском языке, N - количество слов в английском языке, и, если мы используем классическую версию закона Ципфа, показатель степени s равно 1. ж(ks,N) будет тогда долей времени, когда kвстречается наиболее частое слово.

В законе также можно написать:

куда ЧАСN, с это Nth обобщенный номер гармоники.

Простейший случай закона Ципфа - это "1/ж"функция. Учитывая набор распределенных частот Ципфа, отсортированных от наиболее распространенных к наименее распространенным, вторая по частоте частота будет встречаться вдвое реже первой, а третья по частоте будет 1/3 так часто, как первый, и пбудет самая частая частота 1/п так же часто, как и первый. Однако это не может выполняться точно, потому что элементы должны встречаться целое число раз; слово не может встречаться 2,5 раза. Тем не менее, в довольно широких пределах и с довольно хорошим приближением многие природные явления подчиняются закону Ципфа.

В человеческих языках частоты слов имеют очень тяжелое распределение, и поэтому их можно достаточно хорошо смоделировать с помощью распределения Zipf с s близко к 1.

Пока показатель s превышает 1, такой закон может выполняться с бесконечным числом слов, так как если s > 1 тогда

куда ζ является Дзета-функция Римана.

Статистическое объяснение

График зависимости рейтинга от частоты для первых 10 миллионов слов в 30 Википедиях (дамп с октября 2015 г.) в журнал шкала.

Хотя закон Ципфа справедлив для всех языков, даже для неестественных, таких как эсперанто,[12] причина до сих пор не совсем понятна.[13] Однако отчасти это можно объяснить статистическим анализом случайно сгенерированных текстов. Вэньтян Ли показал, что в документе, в котором каждый символ был выбран случайным образом из равномерного распределения всех букв (плюс пробел), «слова» с разной длиной следуют макротенденции закона Ципфа (более вероятный слова самые короткие с равной вероятностью).[14] Витольд Белевич в статье под названием О статистических законах лингвистического распространения, предлагает математический вывод. Он взял большой класс воспитанных статистические распределения (не только нормальное распределение ) и выразил их по рангу. Затем он расширил каждое выражение до Серия Тейлор. Во всех случаях Белевич получал замечательный результат, заключающийся в том, что обрезание ряда в первом порядке приводит к закону Ципфа. Кроме того, усечение второго порядка ряда Тейлора привело к Закон Мандельброта.[15][16]

В принцип наименьшего усилия Это еще одно возможное объяснение: сам Ципф предположил, что ни говорящие, ни слушатели, использующие данный язык, не хотят работать больше, чем необходимо, чтобы достичь понимания, и процесс, который приводит к примерно равному распределению усилий, приводит к наблюдаемому распределению Ципфа.[17][18]

По аналогии, преференциальная привязанность (интуитивно «богатые становятся богаче» или «успех порождает успех»), что приводит к Распределение Юла – Саймона было показано, что частота слов соответствует рангу в языке[19] и население по сравнению с рангом города[20] лучше, чем закон Ципфа. Первоначально он был получен Юлом для объяснения численности населения и ранга видов и применен к городам Саймоном.

Связанные законы

График частоты встречаемости слов в Википедии (27 ноября 2006 г.). Сюжет в журнал координаты. Икс - ранг слова в частотной таблице; у - общее количество вхождений слова. Как и ожидалось, наиболее популярными являются слова «the», «of» и «and». Закон Ципфа соответствует средней линейной части кривой, примерно следующей за зеленым (1 /Икс) линия, а ранняя часть ближе к пурпурному (1 /Икс0.5), а последняя часть ближе к голубому (1 / (k + Икс)2.0) линия. Эти линии соответствуют трем различным параметризациям распределения Ципфа – Мандельброта, в целом a нарушенный степенной закон с тремя сегментами: головой, серединой и хвостом.

Закон Ципфа фактически относится к распределению частот "ранговых данных", в котором относительная частота пэлемент с рейтингом th присваивается дзета-распределение, 1/(пsζ(s)), где параметр s > 1 индексирует членов этого семейства распределения вероятностей. В самом деле, Закон Ципфа иногда является синонимом «дзета-распределения», поскольку распределения вероятностей иногда называют «законами». Это распределение иногда называют Zipfian распределение.

Обобщением закона Ципфа является Закон Ципфа – Мандельброта, предложено Бенуа Мандельброт, частоты которого:

«Константа» - это величина, обратная величине Дзета-функция Гурвица оценивается в s. На практике, как это легко наблюдать на графиках распределения для больших корпусов, наблюдаемое распределение можно более точно смоделировать как сумму отдельных распределений для различных подмножеств или подтипов слов, которые следуют различным параметризациям распределения Ципфа-Мандельброта, в частности, замкнутого класса функциональных слов показывают s ниже 1, в то время как неограниченный рост словарного запаса с учетом размера документа и размера корпуса требует s больше 1 для сходимости Обобщенный гармонический ряд.[2]

Распределения Ципфиана можно получить из Распределения Парето путем обмена переменными.[10]

Распределение Zipf иногда называют дискретное распределение Парето[21] потому что он аналогичен непрерывному Распределение Парето так же, как дискретное равномерное распределение аналогичен непрерывное равномерное распределение.

Хвостовые частоты Распределение Юла – Саймона приблизительно

на любой выбор ρ > 0.

в параболическое фрактальное распределение, логарифм частоты является квадратичным многочленом от логарифма ранга. Это может заметно улучшить соответствие простым степенным отношениям.[22] Как и фрактальная размерность, можно вычислить размерность Zipf, которая является полезным параметром при анализе текстов.[23]

Утверждалось, что Закон Бенфорда является частным ограниченным случаем закона Ципфа,[22] причем связь между этими двумя законами объясняется тем, что оба они происходят из масштабно-инвариантных функциональных соотношений из статистической физики и критических явлений.[24] Отношения вероятностей в законе Бенфорда непостоянны. Старшие цифры данных, удовлетворяющих закону Ципфа с s = 1, удовлетворяют закону Бенфорда.

Закон Бенфорда:
10.30103000
20.17609126−0.7735840
30.12493874−0.8463832
40.09691001−0.8830605
50.07918125−0.9054412
60.06694679−0.9205788
70.05799195−0.9315169
80.05115252−0.9397966
90.04575749−0.9462848

Приложения

В теория информации, символ (событие, сигнал) вероятности содержит биты информации. Следовательно, закон Ципфа для натуральных чисел: эквивалентно числу содержащий биты информации. Чтобы добавить информацию из символа вероятности в информацию, уже сохраненную в натуральном числе , мы должны пойти в такой, что , или эквивалентно . Например, в стандартной двоичной системе мы имели бы , что оптимально для распределение вероятностей. С помощью правило для общего распределения вероятностей - это основа Асимметричные системы счисления семья энтропийное кодирование методы, используемые в Сжатие данных, распределение которых по штатам также регулируется законом Ципфа.

Закон Ципфа использовался для извлечения параллельных фрагментов текстов из сопоставимых корпусов.[25] Закон Ципфа также использовался Лоранс Дойл и другие на Институт SETI как часть поиск внеземного разума.[26]

Смотрите также

Рекомендации

  1. ^ Фэган, Стивен; Генчай, Рамазан (2010), «Введение в текстовую эконометрику», Уллах, Аман; Джайлз, Дэвид Э. А. (ред.), Справочник по эмпирической экономике и финансам, CRC Press, стр. 133–153, ISBN  9781420070361. С. 139.: «Например, в Коричневом корпусе, состоящем из более чем миллиона слов, половина объема слов состоит из повторных использований всего 135 слов».
  2. ^ а б c Пауэрс, Дэвид М. В. (1998). «Приложения и объяснения закона Ципфа». Ассоциация компьютерной лингвистики: 151–160. Цитировать журнал требует | журнал = (помощь)
  3. ^ Кристофер Д. Мэннинг, Хинрих Шютце Основы статистической обработки естественного языка, MIT Press (1999), ISBN  978-0-262-13360-9, п. 24
  4. ^ а б Ауэрбах Ф. (1913) Das Gesetz der Bevölkerungskonzentration. Petermann’s Geographische Mitteilungen 59, 74–76
  5. ^ Пиантадози, Стивен (25 марта 2014 г.). «Закон частотности слов Ципфа в естественном языке: критический обзор и будущие направления». Психон Бык Rev. 21 (5): 1112–1130. Дои:10.3758 / s13423-014-0585-6. ЧВК  4176592. PMID  24664880.
  6. ^ Грейнер-Петтер, Андре; Шуботц, Мориц; Мюллер, Фабиан; Брайтингер, Коринна; Кол, Ховард; Айзава, Акико; Гипп, Бела (20 апреля 2020 г.). Открытие математических объектов интереса - изучение математических обозначений. Веб-конференция (WWW). Тайбэй, Тайвань: ACM. arXiv:2002.02712. Дои:10.1145/3366423.3380218.
  7. ^ Занетт, Дамиан Х. (7 июня 2004 г.). «Закон Ципфа и создание музыкального контекста». arXiv:cs / 0406015.
  8. ^ М. Эрикссон, С. Хасибур Рахман, Ф. Фрайле, М. Шёстрём, Эффективная интерактивная многоадресная передача по DVB-T2 - использование динамических SFN и PARPS В архиве 2014-05-02 в Wayback Machine, Международная конференция IEEE по компьютерным и информационным технологиям (BMSB'13), 2013 г., Лондон, Великобритания, июнь 2013 г. Предлагается гетерогенная модель выбора телеканалов по закону Ципфа.
  9. ^ Клаузет А., Шализи К. Р. и Ньюман М. Э. Дж. (2009). Степенные распределения в эмпирических данных. SIAM Review, 51 (4), 661–703. Дои:10.1137/070710111
  10. ^ а б Адамич, Лада А. (2000) "Ципф, степенные законы и Парето - руководство по ранжированию", первоначально опубликованное на .parc.xerox.com В архиве 2007-10-26 на Wayback Machine
  11. ^ Морено-Санчес, я; Font-Clos, F; Корраль, А (2016). «Масштабный анализ закона Ципфа в английских текстах». PLOS ONE. 11 (1): e0147073. arXiv:1509.04486. Bibcode:2016PLoSO..1147073M. Дои:10.1371 / journal.pone.0147073. ЧВК  4723055. PMID  26800025.
  12. ^ Билл Манарис; Лука Пелликоро; Джордж Позеринг; Харланд Ходжес (13 февраля 2006 г.). ИССЛЕДОВАНИЕ СТАТИСТИЧЕСКИХ ПРОПОРЦИЙ ЭСПЕРАНТО ОТНОСИТЕЛЬНО ДРУГИХ ЯЗЫКОВ С ИСПОЛЬЗОВАНИЕМ НЕЙРОННЫХ СЕТЕЙ И ЗАКОНА ZIPF (PDF). Искусственный интеллект и приложения. Инсбрук, Австрия. С. 102–108. В архиве (PDF) из оригинала 5 марта 2016 г.
  13. ^ Леон Бриллюэн, La science et la théorie de l'information, 1959, редакция в 1988 году, английский перевод в 2004 году
  14. ^ Вэньтянь Ли (1992). «Случайные тексты демонстрируют распределение частот слов по закону Ципфа». IEEE Transactions по теории информации. 38 (6): 1842–1845. CiteSeerX  10.1.1.164.8422. Дои:10.1109/18.165464.
  15. ^ Нойман, Питер Г. «Статистическая металингвистика и Ципф / Парето / Мандельброт», Международная лаборатория компьютерных наук НИИ, доступ и в архиве 29 мая 2011г.
  16. ^ Белевич V (18 декабря 1959 г.). «О статистических законах лингвистических распределений» (PDF). Annales de la Société Scientifique de Bruxelles. Я. 73: 310–326.
  17. ^ Ципф Г.К. (1949). Человеческое поведение и принцип наименьшего усилия. Кембридж, Массачусетс: Аддисон-Уэсли. п. 1.
  18. ^ Рамон Феррер и Канчо и Рикар В. Соле (2003). «Наименьшее усилие и истоки масштабирования на человеческом языке». Труды Национальной академии наук Соединенных Штатов Америки. 100 (3): 788–791. Bibcode:2003ПНАС..100..788С. Дои:10.1073 / пнас.0335980100. ЧВК  298679. PMID  12540826.
  19. ^ Линь, Руокуанг; Ma, Qianli D. Y .; Биан, Чуньхуа (2014). «Законы масштабирования в человеческой речи, уменьшение появления новых слов и обобщенной модели». arXiv:1412.4846 [cs.CL ].
  20. ^ Витанов, Николай К .; Ослоос, Марсель; Биан, Чуньхуа (2015). «Проверка двух гипотез, объясняющих размер населения в системе городов». Журнал прикладной статистики. 42 (12): 2686–2693. arXiv:1506.08535. Bibcode:2015arXiv150608535V. Дои:10.1080/02664763.2015.1047744. S2CID  10599428.
  21. ^ Н. Л. Джонсон; С. Коц и А. В. Кемп (1992). Одномерные дискретные распределения (второе изд.). Нью-Йорк: John Wiley & Sons, Inc. ISBN  978-0-471-54897-3., п. 466.
  22. ^ а б Йохан Герард ван дер Галиен (2008-11-08). «Факторная случайность: законы Бенфорда и Зипфа относительно распределения первой цифры факторной последовательности из натуральных чисел». Архивировано из оригинал на 2007-03-05. Получено 8 июля 2016.
  23. ^ Али Эфтехари (2006) Фрактальная геометрия текстов. Журнал количественной лингвистики 13(2-3): 177–193.
  24. ^ Л. Пьетронеро, Э. Тосатти, В. Тосатти, А. Веспиньяни (2001) Объяснение неравномерного распределения чисел в природе: законы Бенфорда и Ципфа. Physica A 293: 297–304.
  25. ^ Мохаммади, Мехди (2016). «Параллельная идентификация документов с использованием закона Ципфа» (PDF). Материалы девятого семинара по созданию и использованию сопоставимых корпусов. LREC 2016. Порторож, Словения. С. 21–25. В архиве (PDF) из оригинала от 23.03.2018.
  26. ^ Doyle, Laurance R .; Мао, Тяньхуа (18.11.2016). «Почему чужой язык должен выделяться среди всего шума Вселенной». Nautilus Quarterly.

дальнейшее чтение

Начальный:

  • Джордж К. Зипф (1949) Человеческое поведение и принцип наименьшего усилия. Эддисон-Уэсли. "Интернет-текст [1] "
  • Джордж К. Зипф (1935) Психобиология языка. Houghton-Mifflin.

Вторичный:

внешняя ссылка

СМИ, связанные с Закон Ципфа в Wikimedia Commons