Обнаружение метаданных - Metadata discovery

В метаданные, открытие метаданных (также сбор метаданных) - это процесс использования автоматизированных инструментов для обнаружения семантика из элемент данных в наборах данных. Этот процесс обычно заканчивается набором сопоставлений между элементами источника данных и централизованным реестр метаданных. Обнаружение метаданных также известно как сканирование метаданных.

Форматы источников данных для обнаружения метаданных

Наборы данных могут быть в различных формах, включая:

Реляционные базы данных
NoSQL базы данных
Таблицы
XML файлы
Веб-сервисы
Программного обеспечения исходный код такие как Fortran, Jovial, COBOL, Assembler, RPG, PL / 1, EasyTrieve, классы Java, C # или C ++ и тысячи других программных языков
Неструктурированные текстовые документы, такие как Microsoft Word или PDF файлы

Таксономия алгоритмов сопоставления метаданных

Есть отдельные категории автоматического обнаружения метаданных:

Лексическое соответствие

Полное совпадение - где связи элементов данных устанавливаются на основе точного имени столбца в базе данных, имени элемента XML или метки на экране. Например, если столбец базы данных имеет имя «PersonBirthDate», а элемент данных в реестре метаданных также имеет имя «PersonBirthDate», автоматические инструменты могут сделать вывод, что столбец базы данных имеет ту же семантику (значение), что и элемент данных. в реестре метаданных.
Совпадение синонимов - где инструменту обнаружения дается не просто одно имя, а набор синонимов.
Соответствие шаблону - в этом случае инструментам дается набор лексических шаблонов, которым он может соответствовать. Например, инструменты могут искать «* пол *» или «* пол *».

Семантическое соответствие

Семантическое соответствие попытки использовать семантика связать целевые данные с зарегистрированными элементы данных.

Семантическое сходство - В этом алгоритме используется база данных концептуальной близости слов. Например, WordNet Система может оценить, насколько слова концептуально близки друг к другу. Например, термины «Человек», «Индивидуум» и «Человек» могут быть очень похожими понятиями.

Статистическое сопоставление

Статистическое сопоставление использует статистику самих данных источников данных для выявления сходства с зарегистрированными элементами данных.

Отчетливый анализ ценности - Анализируя все отдельные значения в столбце, можно сделать сходство с зарегистрированным элементом данных. Например, если в столбце есть только два различных значения «мужской» и «женский», это может быть сопоставлено с «PersonGenderCode».
Анализ распределения данных - Анализируя распределение значений в пределах одного столбца и сравнивая это распределение с известными элементами данных, можно сделать вывод о семантической связи.

Продавцы

Следующие поставщики (перечислены в алфавитном порядке) предоставляют программное обеспечение и решения для обнаружения и сопоставления метаданных.

BigHand / Esquire Innovations (увидеть [1] )
IBM
Таленд
InfoLibrarian Corporation (увидеть [2] )
Приложение базы данных метаданных MindHARBOR (увидеть [3] )
Octopai - кроссплатформенная автоматизация обнаружения и управления метаданными (увидеть [4] )
Revelytix (увидеть [5] )
Силвер-Крик Системс (увидеть [6] )
Stratio (увидеть Надежность данных - основа успешных компаний )
Sypherlink: комбайн (увидеть [7] )
Единорог Системы (увидеть [8] )

Исследование

Проект INDUS на Государственный университет Айовы (увидеть [9] )
Меркурий - Распределенное управление метаданными и Обнаружение данных Система разработана в Национальная лаборатория Ок-Ридж DAAC (увидеть [10] ) ^[1]

Смотрите также

использованная литература

Цитаты

^ Девараконда, Р., Паланисами, Г., Уилсон, Б., и Грин, Дж. (2010), «Меркурий: многоразовая система управления метаданными, обнаружения и доступа к данным», Информатика наук о Земле, Springer Berlin / Heidelberg, 3 (1): 87–94, Bibcode:2010ESIn .... 3 ... 87D, Дои:10.1007 / s12145-010-0050-7CS1 maint: несколько имен: список авторов (ссылка на сайт)

Источники

Системы массового анализа данных Суперкомпьютерный центр Сан-Диего, июнь 1997 г.
Технический документ IBM по обнаружению корпоративных метаданных
Белая книга по управлению метаданными - от Esquire Innovations

[1] Девараконда, Р., Паланисами, Г., Уилсон, Б., и Грин, Дж. (2010), «Меркурий: многоразовая система управления метаданными, обнаружения и доступа к данным», Информатика наук о Земле, Springer Berlin / Heidelberg, 3 (1): 87–94, Bibcode:2010ESIn .... 3 ... 87D, Дои:10.1007 / s12145-010-0050-7CS1 maint: несколько имен: список авторов (ссылка на сайт)

[1]