Обнаружение метаданных - Metadata discovery

В метаданные, открытие метаданных (также сбор метаданных) - это процесс использования автоматизированных инструментов для обнаружения семантика из элемент данных в наборах данных. Этот процесс обычно заканчивается набором сопоставлений между элементами источника данных и централизованным реестр метаданных. Обнаружение метаданных также известно как сканирование метаданных.

Форматы источников данных для обнаружения метаданных

Наборы данных могут быть в различных формах, включая:

  1. Реляционные базы данных
  2. NoSQL базы данных
  3. Таблицы
  4. XML файлы
  5. Веб-сервисы
  6. Программного обеспечения исходный код такие как Fortran, Jovial, COBOL, Assembler, RPG, PL / 1, EasyTrieve, классы Java, C # или C ++ и тысячи других программных языков
  7. Неструктурированные текстовые документы, такие как Microsoft Word или PDF файлы

Таксономия алгоритмов сопоставления метаданных

Есть отдельные категории автоматического обнаружения метаданных:

Лексическое соответствие

  1. Полное совпадение - где связи элементов данных устанавливаются на основе точного имени столбца в базе данных, имени элемента XML или метки на экране. Например, если столбец базы данных имеет имя «PersonBirthDate», а элемент данных в реестре метаданных также имеет имя «PersonBirthDate», автоматические инструменты могут сделать вывод, что столбец базы данных имеет ту же семантику (значение), что и элемент данных. в реестре метаданных.
  2. Совпадение синонимов - где инструменту обнаружения дается не просто одно имя, а набор синонимов.
  3. Соответствие шаблону - в этом случае инструментам дается набор лексических шаблонов, которым он может соответствовать. Например, инструменты могут искать «* пол *» или «* пол *».

Семантическое соответствие

Семантическое соответствие попытки использовать семантика связать целевые данные с зарегистрированными элементы данных.

  1. Семантическое сходство - В этом алгоритме используется база данных концептуальной близости слов. Например, WordNet Система может оценить, насколько слова концептуально близки друг к другу. Например, термины «Человек», «Индивидуум» и «Человек» могут быть очень похожими понятиями.

Статистическое сопоставление

Статистическое сопоставление использует статистику самих данных источников данных для выявления сходства с зарегистрированными элементами данных.

  1. Отчетливый анализ ценности - Анализируя все отдельные значения в столбце, можно сделать сходство с зарегистрированным элементом данных. Например, если в столбце есть только два различных значения «мужской» и «женский», это может быть сопоставлено с «PersonGenderCode».
  2. Анализ распределения данных - Анализируя распределение значений в пределах одного столбца и сравнивая это распределение с известными элементами данных, можно сделать вывод о семантической связи.

Продавцы

Следующие поставщики (перечислены в алфавитном порядке) предоставляют программное обеспечение и решения для обнаружения и сопоставления метаданных.

Исследование

Смотрите также

использованная литература

Цитаты

  1. ^ Девараконда, Р., Паланисами, Г., Уилсон, Б., и Грин, Дж. (2010), «Меркурий: многоразовая система управления метаданными, обнаружения и доступа к данным», Информатика наук о Земле, Springer Berlin / Heidelberg, 3 (1): 87–94, Bibcode:2010ESIn .... 3 ... 87D, Дои:10.1007 / s12145-010-0050-7CS1 maint: несколько имен: список авторов (ссылка на сайт)

Источники