Точечная взаимная информация - Pointwise mutual information
Эта статья предоставляет недостаточный контекст для тех, кто не знаком с предметом.Февраль 2012 г.) (Узнайте, как и когда удалить этот шаблон сообщения) ( |
Точечная взаимная информация (PMI),[1] или же точка взаимной информации, является мерой ассоциация используется в теория информации и статистика. В отличие от взаимная информация (MI), который основан на PMI, относится к отдельным событиям, тогда как MI относится к среднему значению всех возможных событий.
Определение
PMI пары результаты Икс и у принадлежащий дискретные случайные величины Икс и Y определяет количество расхождений между вероятностью их совпадения с учетом их совместное распределение и их индивидуальные распределения, предполагая независимость. Математически:
В взаимная информация (MI) случайных величин Икс и Y - ожидаемое значение PMI (по всем возможным результатам).
Мера симметричная (). Может принимать положительные или отрицательные значения, но равен нулю, если Икс и Y находятся независимый. Обратите внимание, что даже если PMI может быть отрицательным или положительным, его ожидаемый результат по всем совместным мероприятиям (MI) положительный. PMI максимизируется, когда Икс и Y идеально связаны (т.е. или же ), что дает следующие оценки:
Ну наконец то, увеличится, если исправлено, но уменьшается.
Вот пример для иллюстрации:
Икс | у | п(Икс, у) |
---|---|---|
0 | 0 | 0.1 |
0 | 1 | 0.7 |
1 | 0 | 0.15 |
1 | 1 | 0.05 |
Используя эту таблицу, мы можем маргинализировать чтобы получить следующую дополнительную таблицу для отдельных распределений:
п(Икс) | п(у) | |
---|---|---|
0 | 0.8 | 0.25 |
1 | 0.2 | 0.75 |
В этом примере мы можем вычислить четыре значения для . Используя логарифмы с основанием 2:
pmi (х = 0; у = 0) | = | −1 |
pmi (х = 0; у = 1) | = | 0.222392 |
pmi (х = 1; у = 0) | = | 1.584963 |
pmi (х = 1; у = 1) | = | -1.584963 |
(Для справки: взаимная информация тогда будет 0,2141709)
Сходства с взаимной информацией
Точечная взаимная информация имеет многие из тех же отношений, что и взаимная информация. Особенно,
Где это самоинформация, или же .
Нормализованная поточечная взаимная информация (npmi)
Точечная взаимная информация может быть нормализована между [-1, + 1], в результате чего -1 (в пределе) никогда не встречается вместе, 0 для независимости и +1 для полной совпадение.[2]
Где это совместное самоинформация, который оценивается как .
Варианты PMI
Помимо упомянутого выше npmi, у PMI есть много других интересных вариантов. Сравнительное исследование этих вариантов можно найти в [3]
Цепное правило для pmi
Нравиться взаимная информация,[4] точечная взаимная информация следует за Правило цепи, то есть,
Это легко доказывается:
Приложения
В компьютерная лингвистика, PMI использовался для поиска словосочетания и ассоциации между словами. Например, подсчеты событий и совпадение слов в текстовый корпус можно использовать для аппроксимации вероятностей и соответственно. В следующей таблице показано количество пар слов, получивших наибольшее и наименьшее количество баллов PMI в первых 50 миллионах слов в Википедии (дамп за октябрь 2015 г.) с фильтрацией по 1000 или более совпадений. Частоту каждого подсчета можно получить, разделив его значение на 50 000 952. (Примечание: в этом примере для расчета значений PMI используется натуральный логарифм вместо логарифмической базы 2)
слово 1 | слово 2 | считать слово 1 | считать слово 2 | количество совпадений | PMI |
---|---|---|---|---|---|
Пуэрто | Рико | 1938 | 1311 | 1159 | 10.0349081703 |
гонг | Конг | 2438 | 2694 | 2205 | 9.72831972408 |
лос | Ангелес | 3501 | 2808 | 2791 | 9.56067615065 |
углерод | диоксид | 4265 | 1353 | 1032 | 9.09852946116 |
приз | лауреат | 5131 | 1676 | 1210 | 8.85870710982 |
сан | Франциско | 5237 | 2477 | 1779 | 8.83305176711 |
благородный | приз | 4098 | 5131 | 2498 | 8.68948811416 |
лед | хоккей | 5607 | 3002 | 1933 | 8.6555759741 |
звезда | поход | 8264 | 1594 | 1489 | 8.63974676575 |
машина | Водитель | 5578 | 2749 | 1384 | 8.41470768304 |
Это | то | 283891 | 3293296 | 3347 | -1.72037278119 |
находятся | из | 234458 | 1761436 | 1019 | -2.09254205335 |
это | то | 199882 | 3293296 | 1211 | -2.38612756961 |
является | из | 565679 | 1761436 | 1562 | -2.54614706831 |
и | из | 1375396 | 1761436 | 2949 | -2.79911817902 |
а | и | 984442 | 1375396 | 1457 | -2.92239510038 |
в | и | 1187652 | 1375396 | 1537 | -3.05660070757 |
к | и | 1025659 | 1375396 | 1286 | -3.08825363041 |
к | в | 1025659 | 1187652 | 1066 | -3.12911348956 |
из | и | 1761436 | 1375396 | 1190 | -3.70663100173 |
Хорошие пары словосочетаний имеют высокий PMI, потому что вероятность совпадения лишь немного ниже, чем вероятность появления каждого слова. И наоборот, пара слов, вероятность появления которых значительно выше, чем вероятность их совместного появления, получает небольшую оценку PMI.
Рекомендации
- ^ Церковь Кеннета Уорда и Патрика Хэнкса (март 1990 г.). «Нормы словесных ассоциаций, взаимная информация и лексикография». Comput. Лингвист. 16 (1): 22–29.
- ^ Баума, Герлоф (2009). «Нормализованная (точечная) взаимная информация при извлечении словосочетаний» (PDF). Материалы двухгодичной конференции GSCL.
- ^ Франсуа Роль, Моахмед Надиф. Обработка влияния низкочастотных событий на показатели сходства слов, основанные на совпадении: пример точечной взаимной информации. Материалы KDIR 2011: Международная конференция KDIR по открытию знаний и информационному поиску, Париж, 26-29 октября 2011 г.
- ^ Пол Л. Уильямс. ИНФОРМАЦИОННАЯ ДИНАМИКА: ЕЕ ТЕОРИЯ И ПРИМЕНЕНИЕ К ВОПЛОЩЕННЫМ КОГНИТИВНЫМ СИСТЕМАМ.
- Фано, R M (1961). "Глава 2". Передача информации: статистическая теория коммуникации. MIT Press, Кембридж, Массачусетс. ISBN 978-0262561693.
внешняя ссылка
- Демо на сервере Rensselaer MSR (Значения PMI нормализованы между 0 и 1)