Обнаружение метаданных - Metadata discovery
В метаданные, открытие метаданных (также сбор метаданных) - это процесс использования автоматизированных инструментов для обнаружения семантика из элемент данных в наборах данных. Этот процесс обычно заканчивается набором сопоставлений между элементами источника данных и централизованным реестр метаданных. Обнаружение метаданных также известно как сканирование метаданных.
Форматы источников данных для обнаружения метаданных
Наборы данных могут быть в различных формах, включая:
- Реляционные базы данных
- NoSQL базы данных
- Таблицы
- XML файлы
- Веб-сервисы
- Программного обеспечения исходный код такие как Fortran, Jovial, COBOL, Assembler, RPG, PL / 1, EasyTrieve, классы Java, C # или C ++ и тысячи других программных языков
- Неструктурированные текстовые документы, такие как Microsoft Word или PDF файлы
Таксономия алгоритмов сопоставления метаданных
Есть отдельные категории автоматического обнаружения метаданных:
Лексическое соответствие
- Полное совпадение - где связи элементов данных устанавливаются на основе точного имени столбца в базе данных, имени элемента XML или метки на экране. Например, если столбец базы данных имеет имя «PersonBirthDate», а элемент данных в реестре метаданных также имеет имя «PersonBirthDate», автоматические инструменты могут сделать вывод, что столбец базы данных имеет ту же семантику (значение), что и элемент данных. в реестре метаданных.
- Совпадение синонимов - где инструменту обнаружения дается не просто одно имя, а набор синонимов.
- Соответствие шаблону - в этом случае инструментам дается набор лексических шаблонов, которым он может соответствовать. Например, инструменты могут искать «* пол *» или «* пол *».
Семантическое соответствие
Семантическое соответствие попытки использовать семантика связать целевые данные с зарегистрированными элементы данных.
- Семантическое сходство - В этом алгоритме используется база данных концептуальной близости слов. Например, WordNet Система может оценить, насколько слова концептуально близки друг к другу. Например, термины «Человек», «Индивидуум» и «Человек» могут быть очень похожими понятиями.
Статистическое сопоставление
Статистическое сопоставление использует статистику самих данных источников данных для выявления сходства с зарегистрированными элементами данных.
- Отчетливый анализ ценности - Анализируя все отдельные значения в столбце, можно сделать сходство с зарегистрированным элементом данных. Например, если в столбце есть только два различных значения «мужской» и «женский», это может быть сопоставлено с «PersonGenderCode».
- Анализ распределения данных - Анализируя распределение значений в пределах одного столбца и сравнивая это распределение с известными элементами данных, можно сделать вывод о семантической связи.
Продавцы
Следующие поставщики (перечислены в алфавитном порядке) предоставляют программное обеспечение и решения для обнаружения и сопоставления метаданных.
- BigHand / Esquire Innovations (увидеть [1] )
- IBM
- Таленд
- InfoLibrarian Corporation (увидеть [2] )
- Приложение базы данных метаданных MindHARBOR (увидеть [3] )
- Octopai - кроссплатформенная автоматизация обнаружения и управления метаданными (увидеть [4] )
- Revelytix (увидеть [5] )
- Силвер-Крик Системс (увидеть [6] )
- Stratio (увидеть Надежность данных - основа успешных компаний )
- Sypherlink: комбайн (увидеть [7] )
- Единорог Системы (увидеть [8] )
Исследование
- Проект INDUS на Государственный университет Айовы (увидеть [9] )
- Меркурий - Распределенное управление метаданными и Обнаружение данных Система разработана в Национальная лаборатория Ок-Ридж DAAC (увидеть [10] ) [1]
Смотрите также
- метаданные
- отображение данных
- хранилище данных
- Интеллектуальная система понимания данных
- семантическая сеть
- Спецификация метаданных Defense Discovery
использованная литература
Цитаты
- ^ Девараконда, Р., Паланисами, Г., Уилсон, Б., и Грин, Дж. (2010), «Меркурий: многоразовая система управления метаданными, обнаружения и доступа к данным», Информатика наук о Земле, Springer Berlin / Heidelberg, 3 (1): 87–94, Bibcode:2010ESIn .... 3 ... 87D, Дои:10.1007 / s12145-010-0050-7CS1 maint: несколько имен: список авторов (ссылка на сайт)
Источники
- Системы массового анализа данных Суперкомпьютерный центр Сан-Диего, июнь 1997 г.
- Технический документ IBM по обнаружению корпоративных метаданных
- Белая книга по управлению метаданными - от Esquire Innovations