Вложение предложения - Sentence embedding

Вложение предложения это собирательное название набора техник в обработка естественного языка (НЛП), где предложения отображаются на векторов из действительные числа[1][2][3][4][5][6][7][8].

заявка

Вложение предложений используется глубокое обучение программные библиотеки PyTorch[9] и TensorFlow[10]

Оценка

Один из способов тестирования кодировки предложений - применить их к корпусу предложений, включающих композиционные знания (SICK).[11]как для следствия (SICK-E), так и для родства (SICK-R).

В [12] лучшие результаты достигаются при использовании Сеть BiLSTM обучен на Корпус Stanford Natural Language Inference (SNLI) Corpus. В Коэффициент корреляции Пирсона для SICK-R - 0,885, а для SICK-E - 86,3. Небольшое улучшение по сравнению с предыдущими оценками представлено в [13]: SICK-R: 0.888 и SICK-E: 87.8 с использованием конкатенации двунаправленных Закрытый рекуррентный блок.

Смотрите также

внешние ссылки

Вложения предложений InferSent и обучающий код

Изучение распределенных представлений предложений общего назначения с помощью крупномасштабного многозадачного обучения

использованная литература

  1. ^ Резюме статьи: Оценка встраивания предложений в последующих задачах и задачах лингвистического исследования
  2. ^ Орен Баркан, Ноам Разин, Ицик Малкиель, Ори Кац, Ави Качулару, Ноам Кенигштейн. «Масштабируемое внимательное моделирование пары предложений с помощью дистиллированного встраивания предложений». AAAI 2020; arxiv: 1908.05161.
  3. ^ Современные лучшие универсальные вложения слов и предложений
  4. ^ Даниэль Сер, Иньфэй Ян, Шэн-и Конг, Нан Хуа, Николь Лимтиако, Ромни Сент-Джон, Ной Констан, Марио Гуахардо-Сеспедес, Стив Юань, Крис Тар, Юнь-Сюань Сун, Брайан Строп: «Универсальный кодировщик приговора», 2018; arXiv: 1803.11175.
  5. ^ Леделл Ву, Адам Фиш, Сумит Чопра, Кейт Адамс, Антуан Бордес: «StarSpace: вставьте все!», 2017; arXiv: 1709.03856.
  6. ^ Санджив Арора, Инъю Лян и Тенгю Ма. «Простой, но непростой базовый план для встраивания предложений», 2016; openreview: SyK00v5xx.
  7. ^ Мирча Трифан, Богдан Ионеску, Кристиан Гадеа и Дан Ионеску. «Графический метод обработки цифрового сигнала для семантического анализа». In Applied Computational Intelligence and Informatics (SACI), 2015 IEEE 10th Jubilee International Symposium on, pp. 187-192. IEEE, 2015; ieee: 7208196.
  8. ^ Пьерпаоло Базиле, Анналина Капуто и Джованни Семераро. «Исследование композиционной семантики слов в распределительных пространствах». In Semantic Computing (ICSC), Шестая международная конференция IEEE 2012 г., стр. 154–161. IEEE, 2012; ieee: 6337099 .
  9. ^ Microsoft. "дистиллированное-вложение-предложение".
  10. ^ Google. "универсальный кодировщик предложений". TensorFlow Hub. Получено 6 октября 2018.
  11. ^ Марко Марелли, Стефано Менини, Марко Барони, Луиза Бентивольи, Рафаэлла Бернарди и Роберто Зампарелли. «Лекарство от SICK для оценки композиционно-распределительных семантических моделей». В LREC, стр. 216-223. 2014 г. [1].
  12. ^ Алексис Конно, Доу Кила, Хольгер Швенк, Лоик Барро: «Обучение с учителем универсальных представлений предложений на основе данных логического вывода на естественном языке», 2017; arXiv: 1705.02364.
  13. ^ Сандип Субраманиан, Адам Тришлер, Йошуа Бенжио: «Изучение распределенных представлений предложений общего назначения посредством крупномасштабного многозадачного обучения», 2018; arXiv: 1804.00079.