Случайная индексация - Random indexing

Случайная индексация это уменьшение размерности метод и вычислительная база для распределительная семантика, основанный на понимании того, что очень многомерные векторная космическая модель реализации непрактичны, что модели не должны расти в размерности, когда встречаются новые элементы (например, новая терминология), и что многомерная модель может быть спроецирована в пространство более низкой размерности без ущерба для метрики расстояния L2, если результирующие измерения выбраны надлежащим образом .

Это исходная точка случайная проекция подход к уменьшению размерности впервые сформулирован как Лемма Джонсона – Линденштрауса, и хеширование с учетом местоположения имеет некоторые из тех же отправных точек. Случайное индексирование, используемое для представления языка, происходит от работы Пентти Канерва^[1]^[2]^[3]^[4]^[5] на разреженная распределенная память, и может быть описан как инкрементальная формулировка случайной проекции.^[6]

Также можно проверить, что случайное индексирование - это метод случайного проецирования для построения евклидовых пространств, т.е. L2 нормированные векторные пространства.^[7] В евклидовых пространствах случайные проекции выясняются с помощью леммы Джонсона – Линденштрауса.^[8]

Техника TopSig^[9] расширяет модель случайной индексации для создания битовые векторы для сравнения с Расстояние Хэмминга функция подобия. Он используется для повышения производительности поиск информации и кластеризация документов. В аналогичном направлении исследований случайное манхэттенское целочисленное индексирование (RMII)^[10] предлагается для повышения эффективности методов, использующих Манхэттенское расстояние между текстовыми единицами. Многие методы случайной индексации в первую очередь генерируют сходство за счет совместного появления элементов в корпусе. Рефлексивная случайная индексация (RRI)^[11] генерирует сходство из совпадения и из общего вхождения с другими элементами.

Веб ссылки

Заде Бехранг Касеми, Хандшу Зигфрид. (2015) Случайное индексирование объяснено с высокой вероятностью, ТСД.

Рекомендации

^ Канерва, Пентти, Кристоферсон, Ян и Холст, Андерс (2000): Случайное индексирование текстовых выборок для скрытого семантического анализа, Труды 22-й ежегодной конференции Общества когнитивных наук, с. 1036. Махва, Нью-Джерси: Эрлбаум, 2000.
^ Сальгрен, Магнус (2005) Введение в случайную индексацию, Труды семинара по методам и применению семантического индексирования на 7-й Международной конференции по терминологии и инженерии знаний, TKE 2005, 16 августа, Копенгаген, Дания
^ Сальгрен, Магнус, Холст, Андерс и Пентти Канерва (2008) Перестановки как средство кодирования порядка в пространстве слов, В материалах 30-й ежегодной конференции Общества когнитивных наук: 1300-1305.
^ Канерва, Пентти (2009) Гиперпространственные вычисления: введение в вычисления в распределенном представлении с многомерными случайными векторами, Когнитивные вычисления, Том 1, Выпуск 2, стр. 139–159.
^ Джоши, Адитья, Йохан Халсет и Пентти Канерва. "Распознавание языков с использованием случайной индексации. »arXiv препринт arXiv: 1412.7026 (2014).
^ Реккья, Габриэль и др. "Кодирование последовательной информации в моделях семантики векторного пространства: сравнение голографического сокращенного представления и случайной перестановки." (2010): 865-870.
^ Касеми Заде, Бехранг и Хандшу, Зигрфид. (2014) Случайная Манхэттенская индексация, В материалах 25-го Международного семинара по приложениям баз данных и экспертных систем.
^ Джонсон, В. и Линденштраус, Дж. (1984) Расширения липшицевых отображений в гильбертово пространство, в современной математике. Американское математическое общество, т. 26. С. 189–206.
^ Гева, С., Де Врис, К.М. (2011) TopSig: топология с сохранением подписей документов, В материалах конференции по управлению информацией и знаниями 2011 г., 24–28 октября 2011 г., Глазго, Шотландия.
^ Касеми Заде, Бехранг. & Handschuh, Зигфрид. (2014) случайное манхэттенское целочисленное индексирование: Построение инкрементального нормированного векторного пространства L1, В материалах конференции 2014 г. по эмпирическим методам обработки естественного языка (EMNLP), страницы 1713–1723, 25–29 октября 2014 г., Доха, Катар.
^ Коэн Т., Schvaneveldt Роджер и Уиддоус Доминик (2009) Отражающее случайное индексирование и косвенный вывод: масштабируемый метод обнаружения неявных соединений, Журнал биомедицинской информатики, 43 (2): 240-56.

Этот Информатика статья - это заглушка. Вы можете помочь Википедии расширяя это.

[1] Канерва, Пентти, Кристоферсон, Ян и Холст, Андерс (2000): Случайное индексирование текстовых выборок для скрытого семантического анализа, Труды 22-й ежегодной конференции Общества когнитивных наук, с. 1036. Махва, Нью-Джерси: Эрлбаум, 2000.

[2] Сальгрен, Магнус (2005) Введение в случайную индексацию, Труды семинара по методам и применению семантического индексирования на 7-й Международной конференции по терминологии и инженерии знаний, TKE 2005, 16 августа, Копенгаген, Дания

[3] Сальгрен, Магнус, Холст, Андерс и Пентти Канерва (2008) Перестановки как средство кодирования порядка в пространстве слов, В материалах 30-й ежегодной конференции Общества когнитивных наук: 1300-1305.

[4] Канерва, Пентти (2009) Гиперпространственные вычисления: введение в вычисления в распределенном представлении с многомерными случайными векторами, Когнитивные вычисления, Том 1, Выпуск 2, стр. 139–159.

[5] Джоши, Адитья, Йохан Халсет и Пентти Канерва. "Распознавание языков с использованием случайной индексации. »arXiv препринт arXiv: 1412.7026 (2014).

[6] Реккья, Габриэль и др. "Кодирование последовательной информации в моделях семантики векторного пространства: сравнение голографического сокращенного представления и случайной перестановки." (2010): 865-870.

[7] Касеми Заде, Бехранг и Хандшу, Зигрфид. (2014) Случайная Манхэттенская индексация, В материалах 25-го Международного семинара по приложениям баз данных и экспертных систем.

[8] Джонсон, В. и Линденштраус, Дж. (1984) Расширения липшицевых отображений в гильбертово пространство, в современной математике. Американское математическое общество, т. 26. С. 189–206.

[9] Гева, С., Де Врис, К.М. (2011) TopSig: топология с сохранением подписей документов, В материалах конференции по управлению информацией и знаниями 2011 г., 24–28 октября 2011 г., Глазго, Шотландия.

[10] Касеми Заде, Бехранг. & Handschuh, Зигфрид. (2014) случайное манхэттенское целочисленное индексирование: Построение инкрементального нормированного векторного пространства L1, В материалах конференции 2014 г. по эмпирическим методам обработки естественного языка (EMNLP), страницы 1713–1723, 25–29 октября 2014 г., Доха, Катар.

[11] Коэн Т., Schvaneveldt Роджер и Уиддоус Доминик (2009) Отражающее случайное индексирование и косвенный вывод: масштабируемый метод обнаружения неявных соединений, Журнал биомедицинской информатики, 43 (2): 240-56.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]