Неструктурированные данные - Unstructured data
Неструктурированные данные (или неструктурированная информация) - это информация, которая либо не имеет заранее определенного модель данных или не организована заранее определенным образом. Неструктурированная информация обычно текст -тяжелые, но могут содержать такие данные, как даты, числа и факты. Это приводит к неровностям и двусмысленность которые затрудняют понимание использования традиционных программ по сравнению с данными, хранящимися в полевой форме в базах данных или аннотированный (семантически помеченный ) в документах.
В 1998 г. Merrill Lynch сказал, что «неструктурированные данные составляют подавляющее большинство данных, имеющихся в организации, по некоторым оценкам, до 80%».[1] Неясно, каков источник этого числа, но, тем не менее, некоторые принимают его.[2] Другие источники сообщают о том же или более высоком проценте неструктурированных данных.[3][4][5]
По состоянию на 2012 год[Обновить], IDC и Dell EMC проект, что данные вырастут до 40 зеттабайты к 2020 году, что приведет к 50-кратному росту с начала 2010 года.[6] Совсем недавно IDC и Seagate прогнозируют, что к 2025 году глобальная сфера данных вырастет до 163 зеттабайт. [7] и большая часть этого будет неструктурирована. В Журнал Computer World утверждает, что неструктурированная информация может составлять более 70–80% всех данных в организациях.[1]
Задний план
Самое раннее исследование бизнес-аналитика сосредоточены на неструктурированных текстовых данных, а не на числовых данных.[8] Еще в 1958 г. Информатика исследователи любят H.P. Лун были особенно озабочены извлечением и классификацией неструктурированного текста.[8] Тем не менее, только на рубеже веков эта технология заинтересовала исследователей. В 2004 г. SAS Институт разработал SAS Text Miner, который использует Разложение по сингулярным значениям (СВД) для уменьшения сверхмерный текстовый Космос на меньшие размеры для значительно более эффективного машинного анализа.[9] Математические и технологические достижения, вызванные машина текстовый анализ побудил ряд предприятий исследовать приложения, что привело к развитию таких областей, как анализ настроений, голос заказчика майнинг и оптимизация call-центра.[10] Появление Большое количество данных в конце 2000-х привел к повышенному интересу к применению аналитики неструктурированных данных в современных областях, таких как прогнозная аналитика и анализ причин.[11]
Проблемы с терминологией
Термин неточен по нескольким причинам:
- Структура, хотя формально не определены, все же могут подразумеваться.
- Данные с некоторой формой структуры могут по-прежнему характеризоваться как неструктурированные, если их структура не полезна для решаемой задачи обработки.
- Неструктурированная информация может иметь некоторую структуру (полуструктурированный ) или даже быть сильно структурированным, но непредвиденным или необъявленным образом.
Работа с неструктурированными данными
Такие методы, как сбор данных, обработка естественного языка (НЛП) и текстовая аналитика предоставить различные методы для найти шаблоны в или иным образом интерпретировать эту информацию. Общие методы структурирования текста обычно включают ручное пометка метаданными или теги части речи для дальнейшего интеллектуальный анализ текста структурирование на основе. В Архитектура управления неструктурированной информацией Стандарт (UIMA) предоставил общую основу для обработки этой информации для извлечения смысла и создания структурированных данных об информации.[12]
Программное обеспечение, которое создает машинно-обрабатываемую структуру, может использовать лингвистическую, слуховую и визуальную структуру, которая существует во всех формах человеческого общения.[13] Алгоритмы могут вывести эту внутреннюю структуру из текста, например, исследуя слово морфология, синтаксис предложений и другие мелкие и крупномасштабные шаблоны. Затем неструктурированная информация может быть обогащена и помечена для устранения двусмысленностей и методов, основанных на релевантности, а затем использована для облегчения поиска и обнаружения. Примеры «неструктурированных данных» могут включать книги, журналы, документы, метаданные, медицинские записи, аудио, видео, аналоговые данные, изображения, файлы и неструктурированный текст, например тело Эл. почта сообщение, веб-страница, или текстовый редактор документ. Хотя основной передаваемый контент не имеет определенной структуры, он обычно поставляется упакованным в объекты (например, в файлы или документы, ...), которые сами имеют структуру и, таким образом, представляют собой смесь структурированных и неструктурированных данных, но в совокупности это все еще называются «неструктурированными данными».[14] Например, HTML веб-страница имеет теги, но разметка HTML обычно служит исключительно для визуализации. Он не фиксирует значение или функцию помеченных элементов способами, которые поддерживают автоматическую обработку информационного содержания страницы. XHTML Теги действительно позволяют машинную обработку элементов, хотя обычно не фиксируют и не передают семантическое значение тегированных терминов.
Поскольку неструктурированные данные обычно встречаются в электронные документы, использование содержание или управление документами Система, которая может классифицировать целые документы, часто предпочтительнее передачи данных и манипуляции ими из документов. Таким образом, управление документами предоставляет средства для передачи структуры на коллекции документов.
Поисковые системы стали популярными инструментами для индексации и поиска таких данных, особенно текста.
Подходы к обработке естественного языка
Были разработаны специальные вычислительные рабочие процессы, чтобы наложить структуру на неструктурированные данные, содержащиеся в текстовых документах. Эти рабочие процессы обычно предназначены для обработки наборов из тысяч или даже миллионов документов, или гораздо большего количества, чем может позволить ручной подход к аннотации. Некоторые из этих подходов основаны на концепции онлайн-аналитическая обработка, или OLAP, и может поддерживаться моделями данных, такими как текстовые кубы.[15] Как только метаданные документа становятся доступными через модель данных, генерация сводок подмножеств документов (то есть ячеек в текстовом кубе) может выполняться с помощью подходов на основе фраз.[16]
Подходы в медицине и биомедицинских исследованиях
Биомедицинские исследования являются одним из основных источников неструктурированных данных, поскольку исследователи часто публикуют свои выводы в научных журналах. Хотя язык в этих документах сложно вывести из структурных элементов (например, из-за сложного технического словаря, содержащегося в них, и знаний предметной области, необходимых для полного контекстуализации наблюдений), результаты этих действий могут установить связь между техническими и медицинскими исследованиями.[17] и подсказки относительно новых методов лечения болезней.[18] Недавние усилия по обеспечению структуры биомедицинских документов включают: самоорганизующаяся карта подходы к определению тем среди документов,[19] общее назначение неконтролируемые алгоритмы,[20] и приложение рабочего процесса CaseOLAP[16] для определения ассоциаций между названиями белков и сердечно-сосудистые заболевания темы в литературе.[21] CaseOLAP определяет отношения фраза-категория точным (идентифицирующим отношения), последовательным (воспроизводимым) и эффективным способом. Эта платформа предлагает расширенную доступность и предоставляет биомедицинскому сообществу инструменты для анализа фраз для широко распространенных приложений биомедицинских исследований.[21]
Смотрите также
- Кластеризация
- Распознавание образов
- Список программного обеспечения для интеллектуального анализа текста
Заметки
- ^ Сегодняшняя проблема правительства: что делать с неструктурированной информацией и почему ничего не делать - это не вариант, Ноэль Юханна, главный аналитик, Forrester Research, Ноя 2010
использованная литература
- ^ Шилакс, Кристофер С .; Тильман, Джули (16 ноября 1998 г.). «Корпоративные информационные порталы» (PDF). Merrill Lynch. Архивировано из оригинал (PDF) 24 июля 2011 г.
- ^ Граймс, Сет (1 августа 2008 г.). «Неструктурированные данные и правило 80 процентов». Прорывный анализ - точки моста. Кларабридж.
- ^ Гандоми, Амир; Хайдер, Муртаза (апрель 2015 г.). «Помимо шумихи: концепции, методы и аналитика больших данных». Международный журнал управления информацией. 35 (2): 137–144. Дои:10.1016 / j.ijinfomgt.2014.10.007. ISSN 0268-4012.
- ^ «Самая большая проблема с данными, о которой вы, возможно, даже не подозреваете - Уотсон». Watson. 2016-05-25. Получено 2018-10-02.
- ^ «Структурированные и неструктурированные данные». www.datamation.com. Получено 2018-10-02.
- ^ «Пресс-релиз EMC News: новое исследование цифровой вселенной выявляет пробел в больших данных: анализируется менее 1% мировых данных; защищено менее 20%». www.emc.com. Корпорация EMC. Декабрь 2012 г.
- ^ «Тенденции | Seagate US». Seagate.com. Получено 2018-10-01.
- ^ а б Граймс, Сет. «Краткая история текстовой аналитики». Сеть B Eye. Получено 24 июня, 2016.
- ^ Олбрайт, Расс. «Укрощение текста с помощью СВД» (PDF). SAS. Получено 24 июня, 2016.
- ^ Десаи, Маниш (2009-08-09). «Приложения текстовой аналитики». My Business Analytics @ Blogspot. Получено 24 июня, 2016.
- ^ Чакраборти, Гаутам. «Анализ неструктурированных данных: приложения текстовой аналитики и анализа настроений» (PDF). SAS. Получено 24 июня, 2016.
- ^ Хольцингер, Андреас; Стокер, Кристоф; Офнер, Бернхард; Прохаска, Готфрид; Брабенец, Альберто; Хофманн-Велленхоф, Райнер (2013). «Сочетание HCI, обработки естественного языка и обнаружения знаний - потенциал IBM Content Analytics как вспомогательной технологии в биомедицинской сфере». В Хольцингере, Андреас; Паси, Габриэлла (ред.). Взаимодействие человека и компьютера и открытие знаний в сложных, неструктурированных больших данных. Конспект лекций по информатике. Springer. С. 13–24. Дои:10.1007/978-3-642-39146-0_2. ISBN 978-3-642-39146-0.
- ^ «Структура, модели и смысл:« неструктурированные »данные просто немоделированы?». Информационная неделя. 1 марта 2005 г.
- ^ Мэлоун, Роберт (5 апреля 2007 г.). «Структурирование неструктурированных данных». Forbes.
- ^ Лин, Синди Шиде; Дин, Болин; Хан, Цзявэй; Чжу, Фейда; Чжао, Бо (декабрь 2008 г.). Текстовый куб: вычисление показателей IR для анализа многомерной текстовой базы данных. 2008 Восьмая международная конференция IEEE по интеллектуальному анализу данных. IEEE. CiteSeerX 10.1.1.215.3177. Дои:10.1109 / icdm.2008.135. ISBN 9780769535029.
- ^ а б Тао, Фангбо; Чжуан, Хунлей; Ю, Чи Ван; Ван, Ци; Кэссиди, Тейлор; Каплан, Лэнс; Восс, Клэр; Хан, Цзявэй (2016). «Многомерное обобщение на основе фраз в текстовых кубах» (PDF).
- ^ Кольер, Найджел; Назаренко, Аделина; Бод, Роберт; Рух, Патрик (июнь 2006 г.). «Последние достижения в обработке естественного языка для биомедицинских приложений». Международный журнал медицинской информатики. 75 (6): 413–417. Дои:10.1016 / j.ijmedinf.2005.06.008. ISSN 1386-5056. PMID 16139564.
- ^ Gonzalez, Graciela H .; Тахсин, Тасния; Goodale, Britton C .; Грин, Анна С .; Грин, Кейси С. (январь 2016 г.). «Последние достижения и новые приложения в области интеллектуального анализа текста и данных для биомедицинских открытий». Брифинги по биоинформатике. 17 (1): 33–42. Дои:10.1093 / bib / bbv087. ISSN 1477-4054. ЧВК 4719073. PMID 26420781.
- ^ Скупин, Андре; Biberstine, Joseph R .; Бёрнер, Кэти (2013). «Визуализация тематической структуры медицинских наук: подход с самоорганизующейся картой». PLOS ONE. 8 (3): e58779. Дои:10.1371 / journal.pone.0058779. ISSN 1932-6203. ЧВК 3595294. PMID 23554924.
- ^ Кила, Дуве; Го, Юфань; Стениус, Улла; Корхонен, Анна (01.04.2015). «Неконтролируемое обнаружение информационной структуры в биомедицинских документах». Биоинформатика. 31 (7): 1084–1092. Дои:10.1093 / биоинформатика / btu758. ISSN 1367-4811. PMID 25411329.
- ^ а б Liem, David A .; Мурали, Санджана; Сигдел, Дибакар; Ши, Ю; Ван, Сюань; Шен, Цзяминь; Чой, Ховард; Caufield, John H .; Ван, Вэй; Пинг, Пейпей; Хан, Цзявэй (1 октября 2018 г.). «Фразовый анализ текстовых данных для анализа белков внеклеточного матрикса при сердечно-сосудистых заболеваниях». Американский журнал физиологии. Сердце и физиология кровообращения. 315 (4): H910 – H924. Дои:10.1152 / ajpheart.00175.2018. ISSN 1522-1539. ЧВК 6230912. PMID 29775406.