Семантическое пространство - Semantic space
Семантические пространства[примечание 1][1] в области естественного языка стремятся создавать представления естественного языка, способные улавливать смысл. Первоначальная мотивация семантических пространств проистекает из двух основных проблем естественного языка: Несоответствие словарного запаса (тот факт, что одно и то же значение может быть выражено разными способами) и двусмысленность естественного языка (тот факт, что один и тот же термин может иметь несколько значений).
Применение семантических пространств в обработка естественного языка (НЛП) направлена на преодоление ограничений основанный на правилах или модельные подходы, работающие на ключевое слово уровень. Основным недостатком этих подходов является их хрупкость и большие ручные усилия, необходимые для создания основанных на правилах систем НЛП или учебных корпусов для изучения моделей.[2][3] На основе правил и машинное обучение модели на основе фиксируются на уровне ключевых слов и разрушаются, если словарь отличается от того, что определено в правилах или от учебного материала, используемого для статистических моделей.
Исследования семантических пространств насчитывают более 20 лет. В 1996 году были опубликованы две статьи, которые привлекли большое внимание к общей идее создания семантических пространств: латентно-семантический анализ[4] и Гиперпространственный аналог языка.[5] Однако их внедрение было ограничено большими вычислительными усилиями, необходимыми для построения и использования этих семантических пространств. Прорыв в области точность моделирования ассоциативных отношений между словами (например, «паутина», «зажигалка-сигарета», в отличие от синонимичных отношений, таких как «кит-дельфин», «космонавт-водитель») был достигнут явный семантический анализ (ЕКА)[6] в 2007 году. ESA был новаторским (не машинным обучением) подходом, который представлял слова в виде векторов с 100 000 размеры (где каждое измерение представляет статью в Википедия ). Однако практическое применение подхода ограничено из-за большого количества требуемых размерностей в векторах.
Совсем недавно успехи в нейронная сеть техники в сочетании с другими новыми подходами (тензоры ) привел к множеству последних событий: Word2vec[7] из Google, Перчатка[8] из Стэндфордский Университет, и fastText[9] из Facebook Лаборатории AI Research (FAIR).
Смотрите также
Рекомендации
- ^ также называется распределенными семантическими пространствами или распределенной семантической памятью
- ^ Барони, Марко; Ленчи, Алессандро (2010). «Распределительная память: общие рамки для семантики на основе корпуса». Компьютерная лингвистика. 36 (4): 673–721. CiteSeerX 10.1.1.331.3769. Дои:10.1162 / coli_a_00016. S2CID 5584134.
- ^ Скотт С. Дирвестер; Сьюзен Т. Дюмэ; Томас К. Ландауэр; Джордж В. Фурнас; Ричард А. Харшен (1990). «Индексирование методом скрытого семантического анализа» (PDF). Журнал Американского общества информационных наук.
- ^ Син Вэй; В. Брюс Крофт (2007). «Исследование эффективности поиска с помощью созданных вручную тематических моделей». Выполнение крупномасштабного семантического доступа RIAO '07 к контенту (текст, изображение, видео и звук). Riao '07: 333–349.
- ^ "LSA: решение проблемы Платона". lsa.colorado.edu. Получено 2016-04-19.
- ^ Лунд, Кевин; Берджесс, Курт (1996-06-01). «Создание многомерных семантических пространств из лексического совпадения». Методы, инструменты и компьютеры исследования поведения. 28 (2): 203–208. Дои:10.3758 / BF03204766. ISSN 0743-3808.
- ^ Евгений Габрилович и Шауль Маркович (2007). «Вычисление семантического родства с использованием явного семантического анализа на основе Википедии» (PDF). Proc. 20-я Международная совместная конференция. Об искусственном интеллекте (IJCAI). Стр. 1606–1611.
- ^ Томаш Миколов; Илья Суцкевер; Кай Чен; Грег Коррадо; Джеффри Дин (2013). «Распределенные представления слов и фраз и их композиционность». arXiv:1310.4546 [cs.CL ].
- ^ Джеффри Пеннингтон; Ричард Сохер; Кристофер Д. Мэннинг (2014). "GloVe: глобальные векторы для представления слов" (PDF).
- ^ Манн, Джон. «Библиотека fastText от Facebook теперь оптимизирована для мобильных устройств». TechCrunch. Получено 12 января 2018.