Текстовый анализ - Text mining

Текстовый анализ, также называемый интеллектуальный анализ текстовых данных, похожий на текстовая аналитика, это процесс получения высококачественных Информация из текст. Он включает "обнаружение компьютером новой, ранее неизвестной информации путем автоматического извлечения информации из различных письменных ресурсов".[1] Письменные ресурсы могут включать веб-сайты, книги, электронные письма, отзывы, и статьи. Высококачественная информация обычно получается путем разработки моделей и тенденций с помощью таких средств, как изучение статистических шаблонов. Согласно Hotho et al. (2005) мы можем выделить три разных точки зрения интеллектуальный анализ текста: извлечение информации, сбор данных, а KDD (Обнаружение знаний в базах данных) процесс.[2] Интеллектуальный анализ текста обычно включает в себя процесс структурирования входного текста (обычно анализ с добавлением некоторых производных лингвистических функций и удалением других с последующей вставкой в база данных ), выводя шаблоны в структурированные данные и, наконец, оценка и интерпретация результатов. «Высокое качество» в интеллектуальном анализе текста обычно относится к некоторой комбинации актуальность, новизна, и интерес. Типичные задачи интеллектуального анализа текста включают категоризация текста, кластеризация текста, выделение концепции / сущности, создание детализированных таксономий, анализ настроений, Резюме документа, и моделирование отношений сущностей (т.е., изучение отношений между названные объекты ).

Анализ текста включает поиск информации, лексический анализ изучить частотное распределение слов, распознавание образов, маркировка /аннотация, извлечение информации, сбор данных методы, включая анализ ссылок и ассоциаций, визуализация, и прогнозная аналитика. Общая цель - по сути, превратить текст в данные для анализа с помощью обработка естественного языка (НЛП), разные виды алгоритмы и аналитические методы. Важным этапом этого процесса является интерпретация собранной информации.

Типичное приложение - сканирование набора документов, написанных на естественный язык и либо моделировать документ набор для предсказательная классификация целей или заполнить базу данных или поисковый индекс извлеченной информацией. документ является основным элементом при запуске интеллектуального анализа текста. Здесь мы определяем документ как блок текстовых данных, который обычно существует во многих типах коллекций.[3]

Текстовая аналитика

Период, термин текстовая аналитика описывает набор лингвистический, статистический, и машинное обучение методы, моделирующие и структурирующие информационное содержание текстовых источников для бизнес-аналитика, разведочный анализ данных, исследование, или расследование.[4] Этот термин примерно синоним интеллектуального анализа текста; в самом деле, Ронен Фельдман изменено описание 2000 года "интеллектуального анализа текста"[5] в 2004 году описать «текстовую аналитику».[6] Последний термин теперь чаще используется в бизнес-среде, в то время как «интеллектуальный анализ текста» используется в некоторых из самых ранних прикладных областей, начиная с 1980-х годов,[7] особенно исследования в области наук о жизни и правительственная разведка.

Термин «текстовая аналитика» также описывает применение текстовой аналитики для решения бизнес-задач независимо или в сочетании с запросом и анализом полученных числовых данных. Это трюизм, что 80 процентов важной для бизнеса информации происходит из неструктурированный форма, в первую очередь текст.[8] Эти методы и процессы открывают и представляют знания - факты, бизнес правила, и отношения - которые в противном случае заблокированы в текстовой форме, недоступны для автоматической обработки.

Процессы анализа текста

Подзадачи - компоненты более широкой работы по аналитике текста - обычно включают:

  • Снижение размерности это важный метод предварительной обработки данных. Метод используется для определения корневого слова для реальных слов и уменьшения размера текстовых данных.[9]
  • Поиск информации или идентификация корпус является подготовительным этапом: сбор или идентификация набора текстовых материалов в Интернете или хранящихся в файловой системе, базе данных или контенте. менеджер корпуса, для анализа.
  • Хотя некоторые системы текстовой аналитики применяют исключительно передовые статистические методы, многие другие применяют более обширные обработка естественного языка, Такие как часть тегов речи, синтаксический разбор, и другие виды лингвистического анализа.[10]
  • Признание именной организации - это использование географических справочников или статистических методов для определения именованных текстовых элементов: людей, организаций, географических названий, символов биржевых котировок, определенных сокращений и т. д.
  • Устранение неоднозначности - использование контекстуальный улики - могут потребоваться, чтобы решить, где, например, «Форд» может относиться к бывшему президенту США, производителю автомобилей, кинозвезде, переходу через реку или какой-либо другой сущности.[11]
  • Распознавание объектов, идентифицированных по шаблону: такие функции, как номера телефонов, адреса электронной почты, количества (с указанием единиц измерения), можно распознать с помощью регулярного выражения или других совпадений с шаблоном.
  • Кластеризация документов: идентификация наборов похожих текстовых документов.[12]
  • Coreference: идентификация существительные фразы и другие термины, относящиеся к тому же объекту.
  • Извлечение отношений, фактов и событий: идентификация ассоциаций между сущностями и другой информацией в тексте
  • Анализ настроений включает в себя распознавание субъективного (в отличие от фактического) материала и извлечение различных форм информации об установках: настроения, мнения, настроения и эмоции. Методы текстовой аналитики полезны при анализе настроений на уровне сущности, концепции или темы, а также в различении держателя мнения и объекта мнения.[13]
  • Количественный анализ текста - это набор методов, восходящих к социальным наукам, когда человек-судья или компьютер извлекают семантические или грамматические отношения между словами, чтобы выяснить значение или стилистические закономерности, как правило, случайного личного текста с целью психологическое профилирование и Т. Д.[14]

Приложения

В настоящее время технология интеллектуального анализа текста широко применяется для решения широкого круга задач в правительстве, исследованиях и бизнесе. Все эти группы могут использовать интеллектуальный анализ текста для управления записями и поиска документов, относящихся к их повседневной деятельности. Юристы могут использовать интеллектуальный анализ текста для электронное открытие, Например. Правительства и военные группировки используют интеллектуальный анализ текста для Национальная безопасность и в разведывательных целях. Научные исследователи включают подходы интеллектуального анализа текста к усилиям по организации больших наборов текстовых данных (т. Е. Для решения проблемы неструктурированные данные ), чтобы определить идеи, передаваемые через текст (например, анализ настроений в социальные медиа[15][16][17]) и поддержать научное открытие в таких областях, как Науки о жизни и биоинформатика. В бизнесе приложения используются для поддержки пытливый ум и автоматизированный размещение рекламы, среди множества других мероприятий.

Приложения безопасности

Многие программные пакеты для интеллектуального анализа текста продаются для приложения безопасности, особенно мониторинг и анализ онлайн-источников открытого текста, таких как Интернет-новости, блоги и т. д. для Национальная безопасность целей.[18] Также занимается изучением текста. шифрование /расшифровка.

Биомедицинские приложения

Блок-схема протокола интеллектуального анализа текста.
Пример протокола интеллектуального анализа текста, используемого при исследовании белковых комплексов, или стыковка белков.[19]

Был описан ряд приложений интеллектуального анализа текста в биомедицинской литературе,[20] включая вычислительные подходы для помощи в исследованиях в стыковка белков,[21] белковые взаимодействия,[22][23] и ассоциации "белок-болезнь".[24] Кроме того, с большими наборами текстовых данных о пациентах в клинической области, наборами демографической информации в популяционных исследованиях и сообщениями о побочных эффектах интеллектуальный анализ текста может облегчить клинические исследования и точную медицину. Алгоритмы интеллектуального анализа текста могут облегчить стратификацию и индексацию конкретных клинических событий в больших наборах текстовых данных пациентов с симптомами, побочными эффектами и сопутствующими заболеваниями из электронных медицинских карт, отчетов о событиях и отчетов о конкретных диагностических тестах.[25] Одно онлайн-приложение для анализа текста в биомедицинской литературе PubGene, общедоступный поисковый движок который сочетает биомедицинский анализ текста с сетевой визуализацией.[26][27] GoPubMed это поисковая система по биомедицинским текстам, основанная на знаниях. Методы интеллектуального анализа текста также позволяют нам извлекать неизвестные знания из неструктурированных документов в клинической области.[28]

Программные приложения

Методы и программное обеспечение интеллектуального анализа текста также исследуются и разрабатываются крупными фирмами, в том числе IBM и Microsoft, для дальнейшей автоматизации процессов добычи и анализа, а также различными фирмами, работающими в области поиска и индексирования в целом, как способ улучшить свои результаты. В государственном секторе много усилий было сосредоточено на создании программного обеспечения для отслеживания и мониторинга. террористическая деятельность.[29] В учебных целях, Программное обеспечение Weka - один из самых популярных вариантов в научном мире, он отлично подходит для начинающих. Для программистов Python есть отличный инструментарий под названием НЛТК для более общих целей. Для более продвинутых программистов есть также Gensim библиотека, которая фокусируется на текстовых представлениях на основе встраивания слов.

Интернет-медиа-приложения

Интеллектуальный анализ текста используется крупными медиа-компаниями, такими как Компания Tribune, чтобы уточнить информацию и предоставить читателям больше возможностей для поиска, что, в свою очередь, увеличивает «липкость» сайта и прибыль. Кроме того, на серверной части редакторы получают возможность делиться, связывать и упаковывать новости в разных ресурсах, что значительно увеличивает возможности для монетизации контента.

Приложения для бизнеса и маркетинга

Интеллектуальный анализ текста начинает использоваться и в маркетинге, а точнее в аналитическом управление взаимоотношениями с клиентами.[30] Кусман и Ван ден Поэль (2008)[31][32] применить это, чтобы улучшить прогнозная аналитика модели оттока клиентов (истощение клиентов ).[31] Интеллектуальный анализ текста также применяется для прогнозирования доходности акций.[33]

Анализ настроений

Анализ настроений может включать анализ обзоров фильмов для оценки того, насколько они благоприятны для фильма.[34]Для такого анализа может потребоваться маркированный набор данных или маркировка аффективность слов.Ресурсы аффективности слов и понятий созданы для WordNet[35] и ConceptNet,[36] соответственно.

Текст использовался для обнаружения эмоций в смежной области аффективных вычислений.[37] Текстовые подходы к аффективным вычислениям использовались во многих корпусах, таких как оценки учащихся, детские рассказы и новости.

Поиск научной литературы и академические приложения

Проблема интеллектуального анализа текста важна для издателей, которые базы данных информации, нуждающейся в индексация для поиска. Это особенно верно в отношении научных дисциплин, в которых очень конкретная информация часто содержится в письменном тексте. Поэтому были предприняты такие инициативы, как Природа предложение по интерфейсу интеллектуального анализа открытого текста (OTMI) и Национальные институты здоровья общее издание журнала Определение типа документа (DTD), которые будут предоставлять семантические подсказки машинам для ответа на определенные запросы, содержащиеся в тексте, без устранения препятствий для публичного доступа издателей.

Академические учреждения также стали участвовать в инициативе интеллектуального анализа текста:

Методы исследования научной литературы

Вычислительные методы были разработаны для помощи в поиске информации из научной литературы. Опубликованные подходы включают методы поиска,[41] определение новизны,[42] и уточнение омонимы[43] среди технических отчетов.

Цифровые гуманитарные науки и вычислительная социология

Автоматический анализ огромных текстовых корпусов дал ученым возможность анализировать миллионы документов на нескольких языках с очень ограниченным ручным вмешательством. Ключевые разрешающие технологии были проанализированы, машинный перевод, тема категоризация, и машинное обучение.

Повествовательная сеть выборов в США 2012[44]

Автоматический синтаксический анализ текстовых корпусов позволил извлекать актеров и их реляционные сети в широком масштабе, превращая текстовые данные в сетевые. Результирующие сети, которые могут содержать тысячи узлов, затем анализируются с использованием инструментов теории сетей для определения ключевых участников, ключевых сообществ или сторон и общих свойств, таких как надежность или структурная стабильность всей сети или центральность определенных узлы.[45] Это автоматизирует подход, представленный количественным нарративным анализом,[46] Посредством чего субъект-глагол-объект триплеты идентифицируются с парами актеров, связанных действием, или парами, образованными актором-объектом.[44]

Анализ содержания долгое время была традиционной частью социальных наук и медиа-исследований. Автоматизация контент-анализа позволила "большое количество данных "революция, которая должна произойти в этой области, с исследованиями в социальных сетях и газетах, которые включают миллионы новостей. Гендерная предвзятость, читаемость, схожесть контента, предпочтения читателей и даже настроение были проанализированы на основе методов интеллектуального анализа текста в миллионах документов.[47][48][49][50][51] Анализ читабельности, гендерной предвзятости и тематической предвзятости был продемонстрирован Flaounas et al.[52] показать, как разные темы имеют разные гендерные предубеждения и уровни читабельности; также была продемонстрирована возможность определять паттерны настроения у огромного населения путем анализа содержания Twitter.[53][54]

Программного обеспечения

Компьютерные программы для анализа текста доступны во многих коммерческий и Открытый исходный код компании и источники. Видеть Список программного обеспечения для интеллектуального анализа текста.

Закон об интеллектуальной собственности

Ситуация в Европе

Видео кампании Fix Copyright, объясняющее TDM и его проблемы с авторскими правами в ЕС, 2016 [3:52

Под Европейское авторское право и законы базы данных, добыча произведений, охраняемых авторским правом (например, веб-майнинг ) без разрешения правообладателя является незаконным. В Великобритании в 2014 г. по рекомендации Обзор Харгривза, правительство внесло поправки в закон об авторском праве[55] чтобы разрешить интеллектуальный анализ текста как ограничение и исключение. Это была вторая страна в мире, которая сделала это после Япония, который ввел исключение для горнодобывающей промышленности в 2009 году. Однако из-за ограничения Директива информационного общества (2001), исключение для Великобритании разрешает добычу контента только в некоммерческих целях. Закон об авторском праве Великобритании не позволяет отменять это положение договорными условиями.

В Европейская комиссия способствовал обсуждению с заинтересованными сторонами текста и сбор данных в 2013 году под названием «Лицензии для Европы».[56] Тот факт, что в центре внимания решения этого юридического вопроса были лицензии, а не ограничения и исключения из закона об авторском праве, привел представителей университетов, исследователей, библиотек, групп гражданского общества и открытый доступ издатели должны выйти из диалога с заинтересованными сторонами в мае 2013 года.[57]

Ситуация в США

Закон США об авторском праве, и в частности его добросовестное использование положений, означает, что интеллектуальный анализ текста в Америке, а также в других странах добросовестного использования, таких как Израиль, Тайвань и Южная Корея, считается законным. Поскольку интеллектуальный анализ текста является трансформирующим, а это означает, что он не заменяет оригинальную работу, он рассматривается как законный при добросовестном использовании. Например, в составе Расчет Google Book Председательствующий судья постановил, что проект Google по оцифровке книг, охраняемых авторским правом, был законным, отчасти из-за преобразующего использования, которое продемонстрировал проект оцифровки - одним из таких видов использования был интеллектуальный анализ текста и данных.[58]

Подразумеваемое

До недавнего времени веб-сайты чаще всего использовали текстовый поиск, который находил только документы, содержащие определенные пользователем слова или фразы. Теперь, используя семантическая сеть интеллектуальный анализ текста может находить контент на основе значения и контекста (а не только по конкретному слову). Кроме того, программное обеспечение для интеллектуального анализа текста можно использовать для создания больших досье информации о конкретных людях и событиях. Например, можно создавать большие наборы данных на основе данных, извлеченных из новостных отчетов, для облегчения анализа социальных сетей или контрразведка. По сути, программное обеспечение для интеллектуального анализа текста может действовать аналогично аналитик разведки или библиотекарь-исследователь, хотя и с более ограниченным объемом анализа. Интеллектуальный анализ текста также используется в некоторых электронных письмах. спам-фильтры как способ определения характеристик сообщений, которые могут быть рекламой или другим нежелательным материалом. Анализ текста играет важную роль в определении финансовых настроения рынка.

Будущее

Все больший интерес проявляется к многоязычному интеллектуальному анализу данных: возможности собирать информацию на разных языках и группировать похожие элементы из разных лингвистических источников в соответствии с их значением.

Проблема использования значительной части корпоративной информации, которая происходит в «неструктурированной» форме, была признана на протяжении десятилетий.[59] Это признано в самом раннем определении термина бизнес-аналитика (BI), в октябрьской 1958 г. статье IBM Journal, написанной Г. Luhn, система бизнес-аналитики, описывающая систему, которая:

"... использовать машины обработки данных для авто-абстракции и автокодирования документов и для создания профилей интересов для каждой из" точек действия "в организации. Как входящие, так и созданные внутри документы автоматически абстрагируются, характеризуясь словом шаблон и автоматически отправляется в соответствующие точки действий ".

Тем не менее, поскольку информационные системы управления развивались с 1960-х годов, а бизнес-аналитика возникла в 80-х и 90-х годах как категория программного обеспечения и область практики, упор был сделан на числовые данные, хранящиеся в реляционных базах данных. Это неудивительно: текст в «неструктурированных» документах трудно обрабатывать. Появление текстовой аналитики в ее нынешнем виде связано с переориентацией исследований в конце 1990-х годов с разработки алгоритмов на приложения, как описано проф. Марти А. Херст в статье Untangling Text Data Mining:[60]

В течение почти десятилетия сообщество компьютерной лингвистики рассматривало большие текстовые коллекции как ресурс, который нужно использовать для создания более совершенных алгоритмов анализа текста. В этой статье я попытался предложить новый акцент: использование больших онлайн-коллекций текстов для открытия новых фактов и тенденций, касающихся самого мира. Я полагаю, что для достижения прогресса нам не нужен полностью искусственный интеллектуальный анализ текста; скорее, сочетание анализа, управляемого вычислениями, и анализа, управляемого пользователем, может открыть дверь к захватывающим новым результатам.

Заявление Херста о потребностях от 1999 года довольно хорошо описывает состояние технологии и практики текстовой аналитики десять лет спустя.

Смотрите также

Рекомендации

Цитаты

  1. ^ "Марти Херст: Что такое интеллектуальный анализ текста?".
  2. ^ Хотхо, А., Нюрнбергер, А. и Паас, Г. (2005). «Краткий обзор интеллектуального анализа текста». В Ldv Forum, Vol. 20 (1), стр. 19–62
  3. ^ Фельдман Р. и Сэнгер Дж. (2007). Учебное пособие по горному делу. Издательство Кембриджского университета. Нью-Йорк
  4. ^ [1] В архиве 29 ноября 2009 г. Wayback Machine
  5. ^ "KDD-2000 Workshop on Text Mining - Call for Papers". Cs.cmu.edu. Получено 2015-02-23.
  6. ^ [2] В архиве 3 марта 2012 г. Wayback Machine
  7. ^ Хоббс, Джерри Р .; Уокер, Дональд Э .; Амслер, Роберт А. (1982). «Доступ к структурированному тексту на естественном языке». Материалы 9-й конференции по компьютерной лингвистике. 1. С. 127–32. Дои:10.3115/991813.991833. S2CID  6433117.
  8. ^ «Неструктурированные данные и правило 80 процентов». Прорывной анализ. Август 2008 г.. Получено 2015-02-23.
  9. ^ «Методы предварительной обработки текстовых данных и уменьшения размерности для кластеризации документов» (PDF). Международный журнал инженерных исследований и технологий (IJERT). 2012-07-01. Получено 2019-11-18.
  10. ^ Антунес, Жуан (14 ноября 2018 г.). Exploração de informações contextuais para enriquecimento semântico em submitações de textos (Mestrado em Ciências de Computação e Matemática Computacional thesis) (на португальском языке). Сан-Карлос: Университет Сан-Паулу. Дои:10.11606 / d.55.2019.tde-03012019-103253.
  11. ^ Моро, Андреа; Раганато, Алессандро; Навильи, Роберто (декабрь 2014 г.). «Связывание сущностей и устранение смысловой неоднозначности: единый подход». Труды Ассоциации компьютерной лингвистики. 2: 231–244. Дои:10.1162 / tacl_a_00179. ISSN  2307-387X.
  12. ^ Чанг, Вуи Ли; Тай, Кай Мэн; Лим, Чи Пэн (2017-02-06). «Новая развивающаяся древовидная модель с локальным переобучением для кластеризации и визуализации документов». Письма нейронной обработки. 46 (2): 379–409. Дои:10.1007 / s11063-017-9597-3. ISSN  1370-4621. S2CID  9100902.
  13. ^ "Полный круговой анализ настроений". Прорывной анализ. 2010-06-14. Получено 2015-02-23.
  14. ^ Мель, Маттиас Р. (2006). «Количественный анализ текста». Справочник по мультиметодам в психологии. п. 141. Дои:10.1037/11383-011. ISBN  978-1-59147-318-3.
  15. ^ Панг, Бо; Ли, Лилиан (2008). «Анализ мнений и настроений». Основы и тенденции поиска информации. 2 (1–2): 1–135. CiteSeerX  10.1.1.147.2755. Дои:10.1561/1500000011. ISSN  1554-0669.
  16. ^ Палтоглу, Георгиос; Телуолл, Майк (01.09.2012). «Twitter, MySpace, Digg: неконтролируемый анализ настроений в социальных сетях». Транзакции ACM по интеллектуальным системам и технологиям. 3 (4): 66. Дои:10.1145/2337542.2337551. ISSN  2157-6904. S2CID  16600444.
  17. ^ «Анализ настроений в Twitter . alt.qcri.org. Получено 2018-10-02.
  18. ^ Занаси, Алессандро (2009). «Виртуальное оружие для настоящих войн: поиск текста для национальной безопасности». Материалы международного семинара по вычислительному интеллекту в безопасности информационных систем CISIS'08. Достижения в мягких вычислениях. 53. п. 53. Дои:10.1007/978-3-540-88181-0_7. ISBN  978-3-540-88180-3.
  19. ^ Badal, Varsha D .; Kundrotas, Petras J .; Ваксер, Илья А. (09.12.2015). «Анализ текста для стыковки белков». PLOS вычислительная биология. 11 (12): e1004630. Bibcode:2015PLSCB..11E4630B. Дои:10.1371 / journal.pcbi.1004630. ISSN  1553-7358. ЧВК  4674139. PMID  26650466.
  20. ^ Коэн, К. Бретоннель; Хантер, Лоуренс (2008). «Начало работы с интеллектуальным анализом текста». PLOS вычислительная биология. 4 (1): e20. Bibcode:2008PLSCB ... 4 ... 20C. Дои:10.1371 / journal.pcbi.0040020. ЧВК  2217579. PMID  18225946.
  21. ^ Бадал, В. Д; Kundrotas, P.J; Ваксер, И. А (2015). «Текстовый майнинг для стыковки белков». PLOS вычислительная биология. 11 (12): e1004630. Bibcode:2015PLSCB..11E4630B. Дои:10.1371 / journal.pcbi.1004630. ЧВК  4674139. PMID  26650466.
  22. ^ Папаниколау, Николай; Павлопулос, Георгиос А .; Феодосий, Феодосий; Илиопулос, Иоаннис (2015). «Прогнозы белок-белкового взаимодействия с использованием методов интеллектуального анализа текста». Методы. 74: 47–53. Дои:10.1016 / j.ymeth.2014.10.026. ISSN  1046-2023. PMID  25448298.
  23. ^ Шкларчик, Дамиан; Моррис, Джон Х; Повар, Хелен; Кун, Майкл; Уайдер, Стефан; Симонович, Милан; Сантос, Альберто; Дончева, Надежда Т; Рот, Александр (18.10.2016). «База данных STRING в 2017 году: сети белок-белковых ассоциаций с контролируемым качеством, стали широко доступными». Исследования нуклеиновых кислот. 45 (D1): D362 – D368. Дои:10.1093 / nar / gkw937. ISSN  0305-1048. ЧВК  5210637. PMID  27924014.
  24. ^ Liem, David A .; Мурали, Санджана; Сигдел, Дибакар; Ши, Ю; Ван, Сюань; Шен, Цзяминь; Чой, Ховард; Caufield, John H .; Ван, Вэй; Пинг, Пейпей; Хан, Цзявэй (2018-10-01). «Фразовый анализ текстовых данных для анализа белков внеклеточного матрикса при сердечно-сосудистых заболеваниях». Американский журнал физиологии. Сердце и физиология кровообращения. 315 (4): H910 – H924. Дои:10.1152 / ajpheart.00175.2018. ISSN  1522-1539. ЧВК  6230912. PMID  29775406.
  25. ^ Ван Ле, Д; Монтгомери, Дж; Киркби, KC; Сканлан, Дж. (10 августа 2018 г.). «Прогнозирование рисков с использованием обработки электронных записей психического здоровья на естественном языке в условиях стационарной судебной психиатрии». Журнал биомедицинской информатики. 86: 49–58. Дои:10.1016 / j.jbi.2018.08.007. PMID  30118855.
  26. ^ Йенссен, Тор-Кристиан; Лэгрейд, Астрид; Коморовский, Ян; Ховиг, Эйвинд (2001). «Литературная сеть человеческих генов для высокопроизводительного анализа экспрессии генов». Природа Генетика. 28 (1): 21–8. Дои:10.1038 / ng0501-21. PMID  11326270. S2CID  8889284.
  27. ^ Масис, Дэниел Р. (2001). «Связывание данных микрочипа с литературой». Природа Генетика. 28 (1): 9–10. Дои:10.1038 / ng0501-9. PMID  11326264. S2CID  52848745.
  28. ^ Ренганатан, Винайтертан (2017). «Анализ текста в биомедицинской сфере с упором на кластеризацию документов». Исследования в области информатики в области здравоохранения. 23 (3): 141–146. Дои:10.4258 / час.2017.23.3.141. ISSN  2093-3681. ЧВК  5572517. PMID  28875048.
  29. ^ [3] В архиве 4 октября 2013 г. Wayback Machine
  30. ^ «Текстовая аналитика». Медалья. Получено 2015-02-23.
  31. ^ а б Кусман, Кристоф; Ван ден Поэль, Дирк (2008). «Интеграция голоса клиентов через электронную почту колл-центра в систему поддержки принятия решений для прогнозирования оттока». Информация и управление. 45 (3): 164–74. CiteSeerX  10.1.1.113.3238. Дои:10.1016 / j.im.2008.01.005.
  32. ^ Кусман, Кристоф; Ван ден Поэль, Дирк (2008). «Улучшение управления жалобами клиентов за счет автоматической классификации адресов электронной почты с использованием функций лингвистического стиля в качестве предикторов». Системы поддержки принятия решений. 44 (4): 870–82. Дои:10.1016 / j.dss.2007.10.010.
  33. ^ Рамиро Х. Гальвес; Агустин Гравано (2017). «Оценка полезности майнинга онлайн-доски объявлений в автоматических системах прогнозирования запасов». Журнал вычислительной науки. 19: 1877–7503. Дои:10.1016 / j.jocs.2017.01.001.
  34. ^ Панг, Бо; Ли, Лилиан; Вайтхьянатан, Шивакумар (2002). "Недурно?". Материалы конференции ACL-02 по эмпирическим методам обработки естественного языка. 10. С. 79–86. Дои:10.3115/1118693.1118704. S2CID  7105713.
  35. ^ Алессандро Валитутти; Карло Страппарава; Оливьеро Сток (2005). «Разработка эффективных лексических ресурсов» (PDF). Психнологический журнал. 2 (1): 61–83.
  36. ^ Эрик Камбрия; Роберт Спир; Катрин Хаваси; Амир Хуссейн (2010). «SenticNet: общедоступный семантический ресурс для сбора мнений» (PDF). Труды AAAI CSK. С. 14–18.
  37. ^ Кальво, Рафаэль А; д'Мелло, Сидней (2010). «Обнаружение аффекта: междисциплинарный обзор моделей, методов и их приложений». IEEE Transactions по аффективным вычислениям. 1 (1): 18–37. Дои:10.1109 / T-AFFC.2010.1. S2CID  753606.
  38. ^ «Манчестерский университет». Manchester.ac.uk. Получено 2015-02-23.
  39. ^ "Лаборатория Цудзи". Tsujii.is.s.u-tokyo.ac.jp. Получено 2015-02-23.
  40. ^ «Токийский университет». UTokyo. Получено 2015-02-23.
  41. ^ Шен, Цзяминь; Сяо, Цзиньфэн; Он, Синьвэй; Шан, Дзинбо; Синха, Саурабх; Хан, Цзявэй (27.06.2018). Поиск по множеству объектов научной литературы: неконтролируемый подход к ранжированию. ACM. стр.565–574. Дои:10.1145/3209978.3210055. ISBN  9781450356572. S2CID  13748283.
  42. ^ Уолтер, Лотар; Радауэр, Альфред; Мёрле, Мартин Г. (06.02.2017). «Красота серной бабочки: новизна патентов, выявленная анализом ближней окружающей среды на основе интеллектуального анализа текста». Наукометрия. 111 (1): 103–115. Дои:10.1007 / s11192-017-2267-4. ISSN  0138-9130. S2CID  11174676.
  43. ^ Ролл, Ури; Correia, Ricardo A .; Бергер-Тал, Одед (10.03.2018). «Использование машинного обучения для распознавания омонимов в больших текстовых корпусах». Биология сохранения. 32 (3): 716–724. Дои:10.1111 / cobi.13044. ISSN  0888-8892. PMID  29086438. S2CID  3783779.
  44. ^ а б Автоматизированный анализ президентских выборов в США с использованием Big Data и сетевого анализа; С. Судхахар, Г. А. Велтри, Н. Кристианини; Большие данные и общество 2 (1), 1-28, 2015 г.
  45. ^ Сетевой анализ повествовательного контента в больших корпусах; С. Судхахар, Дж. Де Фацио, Р. Франзози, Н. Кристианини; Инженерия естественного языка, 1-32, 2013
  46. ^ Количественный нарративный анализ; Роберто Франзози; Университет Эмори © 2010
  47. ^ Lansdall-Welfare, Томас; Судхахар, Саатвига; Томпсон, Джеймс; Льюис, Джастин; Команда, газета FindMyPast; Кристианини, Нелло (9 января 2017 г.). «Контент-анализ 150-летия британской периодики». Труды Национальной академии наук. 114 (4): E457 – E465. Дои:10.1073 / pnas.1606380114. ISSN  0027-8424. ЧВК  5278459. PMID  28069962.
  48. ^ И. Флаунас, М. Турчи, О. Али, Н. Файсон, Т. Де Би, Н. Мосделл, Дж. Льюис, Н. Кристианини, Структура медиасферы ЕС, PLoS ONE, Vol. 5 (12), стр. E14243, 2010.
  49. ^ Прогноз текущей погоды из социальных сетей со статистическим обучением В. Лампос, Н. Кристианини; Транзакции ACM по интеллектуальным системам и технологиям (TIST) 3 (4), 72
  50. ^ NOAM: система анализа и мониторинга новостных агентств; I Flaounas, O Ali, M Turchi, T Snowsill, F Nicart, T De Bie, N Cristianini Proc. международной конференции ACM SIGMOD 2011 по управлению данными
  51. ^ Автоматическое обнаружение шаблонов в медиа-контенте, Н. Кристианини, Комбинаторное сопоставление шаблонов, 2-13, 2011
  52. ^ И. Флаунас, О. Али, Т. Лансдалл-Велфар, Т. Де Би, Н. Мосделл, Дж. Льюис, Н. Кристианини, МЕТОДЫ ИССЛЕДОВАНИЯ В ЭПОХУ ЦИФРОВОЙ ЖУРНАЛИСТИКИ, Цифровая журналистика, Routledge, 2012
  53. ^ Вариации циркадного настроения в материалах Twitter; Фабон Дзоганг, Стаффорд Лайтман, Нелло Кристианини. Достижения мозга и нейробиологии, 1, 2398212817744501.
  54. ^ Влияние рецессии на общественное настроение в Великобритании; Т. Лансдалл-Велфэр, В. Лампос, Н. Кристианини; Сессия Mining Social Network Dynamics (MSND) в приложениях социальных сетей
  55. ^ Исследователи получили право на интеллектуальный анализ данных в соответствии с новыми законами Великобритании об авторском праве В архиве 9 июня 2014 г. Wayback Machine
  56. ^ «Лицензии для Европы - Структурированный диалог с заинтересованными сторонами 2013». Европейская комиссия. Получено 14 ноября 2014.
  57. ^ «Интеллектуальный анализ текста и данных: важность и необходимость изменений в Европе». Ассоциация европейских исследовательских библиотек. 2013-04-25. Получено 14 ноября 2014.
  58. ^ "Судья выносит упрощенное судебное решение в пользу Google Книг - победа в справедливом использовании". Lexology.com. Antonelli Law Ltd. Получено 14 ноября 2014.
  59. ^ "Краткая история текстовой аналитики Сета Граймса". Beyenetwork. 2007-10-30. Получено 2015-02-23.
  60. ^ Херст, Марти А. (1999). «Распутывание текстовых данных». Материалы 37-го ежегодного собрания Ассоциации компьютерной лингвистики по компьютерной лингвистике. С. 3–10. Дои:10.3115/1034678.1034679. ISBN  978-1-55860-609-8. S2CID  2340683.

Источники

  • Ананиаду, С. и Макнот, Дж. (Редакторы) (2006). Text Mining для биологии и биомедицины. Книги Artech House. ISBN  978-1-58053-984-5
  • Билисолы, Р. (2008). Практический анализ текста с помощью Perl. Нью-Йорк: Джон Вили и сыновья. ISBN  978-0-470-17643-6
  • Фельдман Р. и Сэнгер Дж. (2006). Справочник по интеллектуальному анализу текстов. Нью-Йорк: Издательство Кембриджского университета. ISBN  978-0-521-83657-9
  • Хотхо, А., Нюрнбергер, А. и Паас, Г. (2005). «Краткий обзор интеллектуального анализа текста». В Ldv Forum, Vol. 20 (1), стр. 19–62
  • Индуркхья, Н., Дамерау, Ф. (2010). Справочник по обработке естественного языка, 2-е издание. Бока-Ратон, Флорида: CRC Press. ISBN  978-1-4200-8592-1
  • Као, А., и Потит, С. (редакторы). Обработка естественного языка и интеллектуальный анализ текста. Springer. ISBN  1-84628-175-X
  • Кончады, М. Программирование приложений интеллектуального анализа текста (серия "Программирование"). Чарльз Ривер Медиа. ISBN  1-58450-460-9
  • Мэннинг, К., и Шутце, Х. (1999). Основы статистической обработки естественного языка. Кембридж, Массачусетс: MIT Press. ISBN  978-0-262-13360-9
  • Майнер, Г., Старейшина, Дж., Хилл. Т., Нисбет, Р., Делен, Д. и Фаст, А. (2012). Практический анализ текста и статистический анализ приложений с неструктурированными текстовыми данными. Elsevier Academic Press. ISBN  978-0-12-386979-1
  • Макнайт, В. (2005). «Построение бизнес-аналитики: интеллектуальный анализ текстовых данных в бизнес-аналитике». DM Обзор, 21-22.
  • Шривастава, А. и Сахами. М. (2009). Text Mining: классификация, кластеризация и приложения. Бока-Ратон, Флорида: CRC Press. ISBN  978-1-4200-5940-3
  • Занаси, А. (редактор) (2007). Text Mining и его приложения к аналитике, CRM и управлению знаниями. WIT Нажмите. ISBN  978-1-84564-131-3

внешняя ссылка