Разрешение топонима - Toponym resolution

В географические информационные системы, разрешение топонима это процесс отношений между топоним, то есть упоминание места и однозначный пространственный след того же места.[1]

Те же географические названия исторически использовались поселенцами-эмигрантами для обозначения своих новых домов, что привело к ссылкам на двусмысленность географических названий. Иногда оригинальное имя изменяется (например, «Йорк» против «Нью-Йорк»). Во многих случаях имя используется повторно без изменений («Бостон» в Англии, Великобритании против «Бостон» в Массачусетсе, США). Чтобы сопоставить набор географических названий или топонимов, встречающихся в документе, с соответствующими им широта /долгота координаты, многоугольник или любой другой пространственный след, шаг устранения неоднозначности необходим. Алгоритм разрешения топонима - это автоматический метод, который выполняет сопоставление топонима с пространственным следом.

Большинство методов разрешения топонимов используют географический справочник возможных отображений между именами и пространственными следами.[2]

Процесс разрешения

«Однозначный пространственный след того же места»[1] определение может быть на самом деле однозначным или «не столь однозначным». Есть несколько разных контексты неуверенность где может происходить процесс разрешения:

  • Когда доказательства географические и не вызывают сомнений. Например, чтобы получить название страны для места фотографии, когда это место является местоположением GPS (ошибка 10 метров), на расстоянии 1000 км от границ страны.
  • Когда доказательства географические, но со значительной неопределенностью. Представьте себе аналогичный сценарий, где ошибка GPS составляет 100 метров, а место находится недалеко от границы страны, примерно на 100 метров.
  • Когда доказательства только текстовые. Представьте себе письмо, в котором рассказчик - турист, рассказывающий о своей поездке после возвращения из отпуска. Единственные свидетельства - текстовые, в повествовании.
  • Смешанные источники доказательств: более одного доказательства, ни одного точного.

Из географических свидетельств

Разрешение топонима иногда представляет собой простое преобразование названия в аббревиатуру, особенно когда аббревиатура используется как стандартная. геокодировать. Например, преобразование официального названия страны Афганистан в Код страны ISO, AF.

В аннотировании медиа и метаданные, преобразование с использованием карта и географическое свидетельство (например, GPS), является наиболее обычным подходом для получения топонима или геокодировать что представляет собой топоним.

Из текстовых свидетельств

В отличие от геокодирование почтовых адресов, которые обычно хранятся в структурированных база данных записей, разрешение топонимов обычно применяется к большим коллекциям неструктурированных текстовых документов, чтобы связать упомянутые в них местоположения с картами.

Процесс аннотирования медиа (например, изображения, текста, видео) с использованием пространственных следов известен как Геотеги. Чтобы автоматически добавить геотег к текстовому документу, обычно выполняются следующие шаги: признание топонима (т.е. обнаружение текстовых ссылок на географические местоположения) и разрешение топонима (т. е. выбор соответствующей интерпретации местоположения для каждой географической ссылки).

Распознавание топонимов можно рассматривать как частный случай признание названного лица где цель состоит в том, чтобы просто получить объекты местоположения. Однако результат распознавания именованных сущностей можно улучшить с помощью правил, созданных вручную, или статистических правил.[3].

Для получения интерпретации местоположения, разрешающая способность модели, как правило, используют географические справочники (т.е. огромные базы данных местоположений), такие как GeoNames и OpenStreetMap. Наивный подход к разрешению топонимов - это выбрать наиболее популярную интерпретацию из списка кандидатов. Например, в следующем отрывке:

Мужчина из Торонто, живущий и работающий в Лондоне, `` не уверен в будущем '' в Великобритании после Брексита

— CBC

Наивный подход кажется жизнеспособным, поскольку топонимы Торонто и Лондон относятся к их наиболее распространенной интерпретации, расположенной в Канаде и Великобритании соответственно, тогда как в следующем фрагменте из новостной статьи:

Скоростная железная дорога между Торонто и Лондоном к 2025 году

— CBC

Такой подход не позволяет точно определить топоним Лондон как город, расположенный в Онтарио, Канада. Следовательно, выбор самой высокой совокупности не может хорошо работать для топонимов в локализованном контексте.

Кроме того, разрешение топонима не обращается метонимия в целом. Тем не менее, метод разрешения все еще может устранить неоднозначность метонимической ссылки, если она идентифицирована как топоним на этапе распознавания. Например, в следующем отрывке:

Канада также корректирует свои законы о дорожном движении с учетом DUI каннабиса.

— Esquire

Канада указывает на метонимия и относится к «правительству Канады». Однако его можно определить как местоположение с помощью универсального распознавателя именованных сущностей, и, таким образом, преобразователь топонимов может устранить неоднозначность.

Подходы

Методы разрешения топонимов в целом можно разделить на под наблюдением и без присмотра модели. Контролируемые методы обычно рассматривают проблему как задачу обучения, в которой модель сначала извлекает контекстные и неконтекстные функции, а затем классификатор обучается на помеченном наборе данных. Адаптивная модель[4] является одной из выдающихся моделей, предлагаемых при разрешении топонимов. Для каждой интерпретации топонима модель выводит контекстно-зависимые характеристики на основе географической близости и родственных связей с другими интерпретациями. В дополнение к функциям, связанным с контекстом, модель выигрывает от бесконтекстных функций, включая численность населения и местоположение аудитории. С другой стороны, модели без учителя не требуют аннотированных данных. Они превосходят контролируемые модели, когда аннотированный корпус недостаточно велик, а контролируемые модели могут плохо обобщаться.[5].

Неконтролируемые модели, как правило, лучше используют взаимодействие топонимов, упомянутых в документе. Слияние контекст-иерархия[5] Модель оценивает географический охват документов и использует связи между близлежащими географическими названиями в качестве доказательства для определения топонимов. Путем отображения проблемы на бесконфликтный установить проблему прикрытия, эта модель обеспечивает когерентное и надежное разрешение.

Кроме того, использование Википедии и баз знаний доказало свою эффективность в разрешении топонимов. TopoCluster[6] моделирует географическое значение слов, включая страницы Википедии с описанием местоположений, и устраняет неоднозначность топонимов, используя пространственные значения слов в тексте.

Геопарсинг

Геопарсинг представляет собой специальный процесс преобразования топонимов, заключающийся в преобразовании текстовых описаний мест (например, «двадцать миль к северо-востоку от Джелалабада») в однозначные географические идентификаторы, такие как географические координаты выражается как широта -долгота. Можно также геоанализировать ссылки на местоположение из других форм мультимедиа, например аудиоконтент, в котором говорящий упоминает место. С географическими координатами объекты могут быть нанесены на карту и введены в Географические информационные системы. Два основных использования географических координат, полученных из неструктурированного контента, - это нанесение частей контента на карты и поиск контента с использованием карты в качестве фильтра.

Геопарсинг выходит за рамки геокодирование. Геокодирование анализирует однозначно структурированные ссылки на местоположения, такие как почтовые адреса и строго отформатированные числовые координаты. Geoparsing обрабатывает неоднозначные ссылки в неструктурированном дискурсе, например «Аль-Хамра», что является названием нескольких мест, включая города в Сирии и Йемене.

А геоанализатор это часть программного обеспечения или (веб-службы), которая помогает в этом процессе. Некоторые примеры:

  • Геолокация автоматическая географическая привязка
  • BioGeomancer - Полуавтоматическая географическая привязка
  • Сервер имен GEOnet - Свободно доступная информация ГИС для районов за пределами США и Антарктиды, ежемесячно обновляемая Национальным агентством геопространственной разведки (NGA) и Советом США по географическим названиям (US BGN)
  • Информационная система географических названий (GNIS) - База данных в свободном доступе, содержащая информацию о почти 2 миллионах физических объектов, мест и ориентиров в США.
  • КЛАВИН - CLAVIN (Cartographic Location And Vicinity INdexer) - это программный пакет с открытым исходным кодом для геотегирования и геоанализа документов, который использует контекстное разрешение географических объектов.
  • Geoparser.io - Geoparser.io - это веб-сервис, который определяет места, упомянутые в тексте, устраняет неоднозначность этих мест и возвращает GeoJSON с подробными метаданными о местах, найденных в тексте.
  • Geocode.xyz - Geocode.xyz - это веб-сервис, который определяет названия мест и почтовые адреса, упомянутые в тексте.[7]
  • геопарсепия - geoparsepy - это бесплатная библиотека геоанализа Python, поддерживающая произвольное определение местоположения текста и устранение неоднозначности с использованием базы данных OpenStreetMap

Рекомендации

  1. ^ а б ДеЛозье, Йохен Л. (2007). Разрешение топонима в тексте: аннотация, оценка и приложения пространственного заземления (Кандидат наук). Эдинбургский университет.
  2. ^ Хилл, Линда Л. (2006). Географическая привязка: географические ассоциации информации. MIT Press. ISBN  978-0262083546.
  3. ^ Либерман, Майкл Д .; Самет, Ханан (2011). Многогранное распознавание топонимов для потоковой передачи новостей (PDF). Материалы 34-й международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска. С. 843–852. Дои:10.1145/2009916.2010029.
  4. ^ Либерман, Майкл Д .; Самет, Ханан (2012). Адаптивные контекстные функции для разрешения топонимов в потоковой передаче новостей (PDF). Материалы 35-й международной конференции ACM SIGIR «Исследования и разработки в области информационного поиска». С. 731–740. Дои:10.1145/2348283.2348381.
  5. ^ а б Камаллоо, Эхсан; Рафией, Давуд (2018). Последовательная неконтролируемая модель разрешения топонимов. Материалы конференции World Wide Web 2018. С. 1287–1296. arXiv:1805.01952. Дои:10.1145/3178876.3186027.
  6. ^ ДеЛозье, Грант; Болдридж, Джейсон; Лондон, Лоретта (2015). Независимое от географического справочника разрешение топонимов с использованием географических профилей слов. Материалы Двадцать девятой конференции AAAI по искусственному интеллекту. С. 2382–2388.
  7. ^ http://perladvent.org/2016/2016-12-16.html

Смотрите также