Закон кучи - Heaps law
В лингвистика, Закон кучи (также называемый Закон Хердана) является эмпирический закон который описывает количество отдельных слов в документе (или наборе документов) в зависимости от длины документа (так называемое отношение типа-токена). Его можно сформулировать как
куда Vр это количество отдельных слов в экземпляре текста размера п. K β - свободные параметры, определяемые эмпирически. С английским текстовые корпуса обычно K составляет от 10 до 100, а β составляет от 0,4 до 0,6.
Закон часто приписывают Гарольд Стэнли Хипс, но первоначально был обнаружен Густавом Херданом (1960 ).[1] При мягких предположениях закон Хердана – Хипса асимптотически эквивалентен Закон Ципфа относительно частот отдельных слов в тексте.[2] Это является следствием того факта, что отношение типа-лексема (в общем) однородного текста может быть получено из распределения его типов.[3]
Закон Кучи означает, что по мере сбора большего количества экземпляров текста будет уменьшаться отдача с точки зрения открытия полного словаря, из которого взяты отдельные термины.
Закон Хипса также применяется к ситуациям, в которых «словарь» - это всего лишь некоторый набор отдельных типов, которые являются атрибутами некоторого набора объектов. Например, объектами могут быть люди, а типами - страна происхождения человека. Если люди выбираются случайным образом (то есть мы отбираем не по стране происхождения), то закон Хипса гласит, что у нас быстро появятся представители из большинства стран (пропорционально их населению), но будет все труднее охватить всю набор стран, продолжая этот метод выборки.
Смотрите также
Рекомендации
Цитаты
- ^ Эгге (2007): «Закон Хердана в лингвистике и закон Хипса в поиске информации - это разные формулировки одного и того же явления».
- ^ Корнаи (1999); Баэза-Ятс и Наварро (2000) ; ван Лейенхорст и ван дер Вейде (2003) .
- ^ Миличка (2009)
Источники
- Баеза-Йейтс, Рикардо; Наварро, Гонсало (2000), «Индексы блочной адресации для приблизительного поиска текста», Журнал Американского общества информационных наук, 51 (1): 69–82, CiteSeerX 10.1.1.31.4832, Дои:10.1002 / (sici) 1097-4571 (2000) 51: 1 <69 :: aid-asi10> 3.0.co; 2-c.
- Эгге, Л. (2007), "Распутывание закона Хердана и закона Хипса: математические и информатрические аргументы", Журнал Американского общества информационных наук и технологий, 58 (5): 702–709, Дои:10.1002 / asi.20524.
- Кучи, Гарольд Стэнли (1978), Информационный поиск: вычислительные и теоретические аспекты, Academic Press. Закон Хипса предложен в разделе 7.5 (стр. 206–208).
- Хердан, Густав (1960), Математика типа лексемы, Гаага: Мутон.
- Корнаи, Андрас (1999), «Закон Ципфа за пределами среднего диапазона», в Rogers, James (ed.), Материалы шестого заседания по математике языка, Университет Центральной Флориды, стр. 347–356..
- Миличка, Иржи (2009), «Отношение тип-токен и Hapax-токен: комбинаторная модель», Глоттотеория. Международный журнал теоретической лингвистики, 1 (2): 99–110, Дои:10.1515 / glot-2009-0009, S2CID 124490442.
- van Leijenhorst, D.C; van der Weide, Th. П. (2005), "Формальный вывод закона Кучи", Информационные науки, 170 (2–4): 263–272, Дои:10.1016 / j.ins.2004.03.006.
- В этой статье использован материал из закона Хипса о PlanetMath, который находится под лицензией Лицензия Creative Commons Attribution / Share-Alike.
Этот компьютерная лингвистика -связанная статья является заглушка. Вы можете помочь Википедии расширяя это. |