Биомедицинский анализ текста - Biomedical text mining

Биомедицинский анализ текста (включая биомедицинская обработка естественного языка или же БиоНЛП) относится к методам и изучению того, как интеллектуальный анализ текста может применяться к текстам и литературе биомедицинский и молекулярная биология домены. В качестве области исследования биомедицинский анализ текста включает идеи обработка естественного языка, биоинформатика, медицинская информатика и компьютерная лингвистика. Стратегии, разработанные в ходе исследований в этой области, часто применяются в биомедицинских и медицинских целях. молекулярная биология литература, доступная через такие службы, как PubMed.

Соображения

Применение подходов интеллектуального анализа текста к биомедицинскому тексту требует особых соображений, общих для данной предметной области.

Наличие аннотированных текстовых данных

На этом рисунке представлены некоторые характеристики корпуса биомедицинской литературы, подготовленной Westergaard et al.[1] Корпус включает 15 миллионов полнотекстовых статей на английском языке.(а) Количество публикаций за год с 1823 по 2016 год. (б) Временное развитие в распределении шести различных тематических категорий с 1823 по 2016 год. (c) Развитие в количестве страниц в статье с 1823 по 2016 год.

Большой аннотированный корпус используется при разработке и обучении общих методов интеллектуального анализа текста (например, наборов диалогов в фильмах,[2] обзоры продуктов,[3] или текст статьи в Википедии) не относятся к биомедицинскому языку. Хотя они могут свидетельствовать об общих свойствах текста, таких как части речи, они редко содержат концепции, представляющие интерес для биологов или клиницистов. Таким образом, разработка новых методов идентификации особенностей биомедицинских документов требует сборки специализированных корпусов.[4] Ресурсы, предназначенные для помощи в создании новых биомедицинских методов интеллектуального анализа текста, были разработаны с помощью задач «Информатика для интеграции биологии и прикроватной практики» (i2b2).[5][6][7] и исследователи в области биомедицинской информатики.[8][9] Исследователи интеллектуального анализа текста часто комбинируют эти корпуса с контролируемые словари и онтологии доступный через Национальная медицинская библиотека Единая система медицинского языка (UMLS) и Медицинские предметные рубрики (MeSH).

Машинное обучение Методы, основанные на методах, часто требуют очень больших наборов данных в качестве обучающих данных для построения полезных моделей.[10] Ручное аннотирование больших корпусов текста невозможно. Таким образом, данные обучения могут быть результатом слабого контроля.[11][12] или чисто статистические методы.

Вариация структуры данных

Как и другие текстовые документы, биомедицинские документы содержат неструктурированные данные.[13] Публикации исследований имеют разные форматы, содержат разные типы информации и перемежаются рисунками, таблицами и другим нетекстовым контентом. Как неструктурированный текст, так и элементы частично структурированного документа, такие как таблицы, могут содержать важную информацию, которую следует анализировать.[14] Клинические документы могут различаться по структуре и языку в разных отделениях и регионах. Другие типы биомедицинских текстов, такие как этикетки с лекарствами,[15] может следовать общим структурным рекомендациям, но не иметь дополнительных деталей.

Неопределенность

Биомедицинская литература содержит утверждения о наблюдениях, которые могут не являться утверждениями о фактах. Этот текст может выражать неуверенность или скептицизм по поводу заявлений. Без конкретных адаптаций подходы к интеллектуальному анализу текста, предназначенные для выявления утверждений в тексте, могут неправильно характеризовать эти «хеджированные» утверждения как факты.[16]

Поддержка клинических потребностей

Приложения для анализа биомедицинских текстов, разработанные для клинического использования, должны в идеале отражать потребности и требования врачей.[4] Это проблема в средах, где поддержка принятия клинических решений ожидается, что он будет информативным и точным.

Совместимость с клиническими системами

Новые системы интеллектуального анализа текста должны работать с существующими стандартами, электронными медицинскими записями и базами данных.[4] Методы взаимодействия с клиническими системами, такими как LOINC были разработаны[17] но требуют больших организационных усилий для внедрения и поддержки.[18][19]

Конфиденциальность пациента

Системы интеллектуального анализа текста, работающие с частными медицинскими данными, должны уважать их безопасность и обеспечивать анонимность там, где это необходимо.[20][21][22]

Процессы

Конкретные подзадачи вызывают особую озабоченность при обработке биомедицинского текста.[13]

Признание именной организации

Разработки в области биомедицинского анализа текстов включают идентификацию биологических объектов с признание названного лица, или NER. Имена и идентификаторы биомолекул, таких как белки и гены,[23] химические соединения и лекарства,[24] и названия болезней[25] все использовались как сущности. Большинство методов распознавания сущностей поддерживаются предопределенными лингвистическими функциями или словарями, хотя методы включают глубокое обучение и вложения слов также были успешны в биомедицинском NER.[26]

Классификация и кластеризация документов

Биомедицинские документы могут быть классифицированный или же сгруппированный исходя из их содержания и тематики. В классификации категории документов указываются вручную,[27] в то время как при кластеризации документы образуют отдельные группы, зависящие от алгоритма.[28] Эти две задачи представляют под наблюдением и без присмотра методы, соответственно, но цель обоих - создать подмножества документов на основе их отличительных признаков. Методы кластеризации биомедицинских документов опирались на k-средства кластеризации.[28]

Открытие отношений

В биомедицинских документах описываются связи между концепциями, являются ли они взаимодействиями между биомолекулами, событиями, происходящими впоследствии с течением времени (т. Е. временный отношения), или причинный отношения. Методы интеллектуального анализа текста могут выполнять обнаружение отношений, чтобы идентифицировать эти связи, часто совместно с распознаванием именованных объектов.[29]

Обнаружение хеджирования

Проблема выявления неопределенных или «хеджируемых» заявлений решалась посредством обнаружения хедж-сигналов в биомедицинской литературе.[16]

Обнаружение претензий

Многие исследователи разработали методы выявления конкретных научных утверждений из литературы.[30][31] На практике этот процесс включает в себя как отдельные фразы, так и предложения, обозначающие основные аргументы, выдвинутые авторами документа (процесс, известный как добыча аргументов, используя инструменты, используемые в таких областях, как политология) и сравнивая утверждения, чтобы найти потенциальные противоречия между ними.[31]

Извлечение информации

Извлечение информации, или IE, это процесс автоматического определения структурированной информации из неструктурированный или частично структурированный текст. Процессы IE могут включать в себя несколько или все из вышеперечисленных действий, включая распознавание именованных сущностей, обнаружение взаимосвязей и классификацию документов, с общей целью перевода текста в более структурированную форму, такую ​​как содержимое шаблона или база знаний. В биомедицинской области IE используется для создания связей между концепциями, описанными в тексте, такими как ген A подавляет ген B и ген C участвует в заболевании G.[32] Базы биомедицинских знаний, содержащие этот тип информации, обычно являются продуктом обширного ручного лечения, поэтому замена ручных усилий автоматизированными методами остается важной областью исследований.[33][34]

Поиск информации и ответы на вопросы

Биомедицинский анализ текста поддерживает приложения для идентификации документов и концепций, соответствующих поисковым запросам. Поисковые системы, такие как PubMed поиск позволяет пользователям запрашивать базы данных литературы по словам или фразам, присутствующим в содержании документа, метаданные, или же индексы Такие как MeSH. Аналогичные подходы могут быть использованы для поиск медицинской литературы. Для получения более точных результатов некоторые приложения позволяют пользователям выполнять поиск с помощью запросы на естественном языке и определить конкретные биомедицинские отношения.[35]

16 марта 2020 г. Национальная медицинская библиотека и другие запустили набор данных открытых исследований COVID-19 (CORD-19), чтобы интеллектуальный анализ текста современной литературы по новому вирусу. Набор данных размещен в проекте Semantic Scholar[36] из Институт ИИ Аллена.[37] Среди других участников Google, Microsoft Research, то Центр безопасности и новых технологий, а Инициатива Чана Цукерберга.[38]

Ресурсы

Корпуса

В следующей таблице перечислены подборки корпусов биомедицинских текстов и их содержание. Эти элементы включают аннотированные корпуса, источники литературы по биомедицинским исследованиям и ресурсы, часто используемые в качестве словарных и / или онтологических справочников, такие как MeSH. Элементы, отмеченные «Да» в разделе «В свободном доступе», можно загрузить из общедоступного места.

Биомедицинские текстовые корпуса
Название КорпусаАвторы или группаСодержаниеСвободно доступныЦитирование
2006 i2b2 Deidentification and Smoking Challengei2b2889 аннотаций обезличенных медицинских выписок с аннотациями для идентификации пациентов и характеристик курения.Да, с регистрацией[39][40]
2008 i2b2 Obesity Challengei2b21237 аннотаций обезличенных медицинских выписок с аннотациями на наличие или отсутствие сопутствующие заболевания из ожирение.Да, с регистрацией[41]
Конкурс лекарств i2b2, 2009 г.i2b21243 аннотированных медицинских выписки с аннотациями названий и деталей лекарств, включая дозировку, Режим, частота, продолжительность, причина и присутствие в списке или описательной структуре.Да, с регистрацией[42][43]
2010 i2b2 Relations Challengei2b2Резюме медицинских выписок с аннотациями для медицинских проблем, анализов, лечения и отношений между этими понятиями. Только часть этих записей данных доступна для использования в исследованиях из-за ограничений IRB.Да, с регистрацией[5]
2011 i2b2 Coreference Challengei2b2978 обезличенных сводок медицинских выписок, отчетов о ходе работы и других клинических отчетов, снабженных пояснениями и Coreferences. Включает корпус ODIE.Да, с регистрацией[44]
2012 i2b2 Temporal Relations Challengei2b2310 аннотаций аннотированных медицинских выписок по событиям и временный связи.Да, с регистрацией[6]
2014 i2b2 De-ID Challengei2b21304 деидентифицированных продольных медицинских карты с аннотациями для защищенная медицинская информация (PHI).Да, с регистрацией[45]
2014 i2b2 Вызов факторов риска сердечных заболеванийi2b21304 деидентифицированных продольных медицинских карты с аннотациями факторов риска заболевание сердечной артерии.Да, с регистрацией[46]
НацеленБунеску и другие.Аннотировано 200 тезисов для белок-белковые взаимодействия, а также отрицательные примеры рефератов, не содержащие белок-белковых взаимодействий.да[47]
БиоК-БиоГРИДБИОКРЕАТИВ120 полнотекстовых исследовательских статей с аннотациями для белок-белковые взаимодействия.да[48]
БИОКРЕАТИВ 1БИОКРЕАТИВ15 000 предложений (10 000 обучающих и 5 000 тестовых) с аннотациями для названий белков и генов. 1000 полнотекстовых статей о биомедицинских исследованиях, аннотированных названиями белков и Генная онтология термины.да[49]
БИОКРЕАТИВ 2БИОКРЕАТИВ15 000 предложений (10 000 обучающих и 5 000 тестовых, отличных от первого корпуса) с аннотациями для названий белков и генов. 542 аннотации связаны с EntrezGene идентификаторы. Разнообразные исследовательские статьи с комментариями об особенностях белок-белковые взаимодействия.да[50]
Корпус задач BioCreative V CDR (BC5CDR)БИОКРЕАТИВ1 500 статей (заголовок и аннотация), опубликованных в 2014 г. или позже, аннотированных по 4 409 химическим веществам, 5 818 заболеваниям и 3116 взаимодействиям химикатов с болезнями.да[51]
BioInferПысало и другие.1100 предложений из аннотаций биомедицинских исследований с аннотациями для отношений, именованных сущностей и синтаксических зависимостей.Нет[52]
BioScopeВинче и другие.1954 клинических отчета, 9 статей и 1273 реферата с аннотациями для лингвистической области и терминов, обозначающих отрицание или неопределенность.да[53]
Биотекст Распознавание определений сокращенийБиотекст Проект1000 рефератов по теме «дрожжи» с аннотациями сокращений и их значений.да[54]
Данные о взаимодействии белков и белков BioTextБиотекст Проект1322 предложения с описанием белок-белковые взаимодействия между ВИЧ-1 и человеческие белки, помеченные типами взаимодействия.да[55]
База данных сравнительной токсикогеномикиДэвис и другие.База данных вручную созданных ассоциаций между химическими веществами, генными продуктами, фенотипами, заболеваниями и воздействием окружающей среды.да[56]
РЕМЕСЛОVerspoor и другие.97 полнотекстовых биомедицинских публикаций с аннотациями лингвистических структур и биологических концепцийда[57]
GENIA CorpusПроект GENIA1999 аннотаций биомедицинских исследований по темам «человек», «клетки крови» и «факторы транскрипции» с примечаниями к частям речи, синтаксису, терминам, событиям, отношениям и Coreferences.да[58][59]
FamPlexБахман и другие.Имена и семейства белков связаны с уникальными идентификаторами. Включает прикреплять наборы.да[60]
Аннотация FlySlipFlySlip82 научных реферата по Дрозофила аннотированы названиями генов.да[61]
Полные статьи FlySlipFlySlip5 научных работ по Дрозофила аннотируется анафорический отношения между именными фразами, относящимися к генам и биологически связанным объектам.да[62]
Спекулятивные предложения FlySlipFlySlipБолее 1500 предложений аннотированы как спекулятивные или не умозрительные. Включает аннотации статей.да[63]
IEPAДин и другие.486 предложений из аннотаций биомедицинских исследований, аннотированных для пар сопутствующих химических веществ, включая белки.Нет[64]
Корпус JNLPBAКим и другие.Расширенная версия версии 3 корпуса GENIA для задач NER.Нет[65]
Изучение языка в логике (LLL)Nédellec и другие.77 предложений из исследовательских статей о бактерии Bacillus subtilis, аннотированный для взаимодействий белок-ген.да[66]
Медицинские предметные рубрики (MeSH)Национальная медицинская библиотекаИерархически организованная терминология для индексации и каталогизации биомедицинских документов.да[67]
МетатезаврНациональная медицинская библиотека / UMLS3,67 миллиона концептов и 14 миллионов имен концептов, сопоставленных более чем с 200 источниками биомедицинской лексики и идентификаторов.Да, с лицензионным соглашением UMLS[68][69]
MIMIC-IIIЛаборатория вычислительной физиологии Массачусетского технологического институтадеидентифицированные данные, связанные с 53 423 отдельными случаями госпитализации взрослых пациентов.Требуется обучение и официальный запрос доступа[70]
ODIE CorpusСавова и другие.180 клинических заметок с аннотациями 5992 Coreference пары.Нет[71]
OHSUMEDHersh и другие.348 566 резюме биомедицинских исследований и индексирование информации из MEDLINE, в том числе MeSH (по состоянию на 1991 г.).да[72]
ЧВК Подмножество открытого доступаНациональная медицинская библиотека / PubMed CentralБолее 2 миллионов исследовательских статей, обновляемых еженедельно.да[73]
RxNormНациональная медицинская библиотека / UMLSНормализованные названия клинических лекарств и упаковок лекарств с объединенными ингредиентами, сильными сторонами и формой, а также присвоенные типы из семантической сети.Да, с лицензионным соглашением UMLS[74]
Семантическая сетьНациональная медицинская библиотека / UMLSСписки 133 семантических типов и 54 семантических отношений, охватывающих биомедицинские концепции и словарный запас.Да, с лицензионным соглашением UMLS[75][76]
СПЕЦИАЛИСТ ЛексиконНациональная медицинская библиотека / UMLSСинтаксический лексикон биомедицинского и общего английского.да[77][78]
Устранение неоднозначности слов (WSD)Национальная медицинская библиотека / UMLS203 неоднозначных слова и 37 888 автоматически извлеченных случаев их использования в публикациях биомедицинских исследований.Да, с лицензионным соглашением UMLS[79][80]
YapexFranzén и другие.200 аннотаций биомедицинских исследований с названиями белков.Нет[81]

Вложения слов

Несколько групп разработали наборы биомедицинской лексики, сопоставленные с векторами действительных чисел, известными как векторы слов или вложения слов. Источники предварительно обученных встраиваний, специфичных для биомедицинского словаря, перечислены в таблице ниже. Большинство из них - результаты word2vec модель разработана Миколовым и другие[82] или варианты word2vec.

Биомедицинские вложения слов
Имя набораАвторы или группаСодержание и источникЦитирование
BioASQword2vecBioASQВекторы произведены word2vec от 10 876 004 Английский PubMed рефераты.[83]
Ресурсы bio.nlplab.orgПысало и другие.Коллекция векторов слов, созданных с помощью различных подходов, обученных на тексте из PubMed и PubMed Central.[84]
BioVecАсгари и МофрадВекторы для последовательностей генов и белков, обученные с использованием Swiss-Prot.[85]
РадиологияОтчетВстраиваниеБанерджи и другие.Векторы произведены word2vec из текста 10 000 радиологических отчетов.[86]

Приложения

Блок-схема протокола интеллектуального анализа текста.
Пример протокола интеллектуального анализа текста, используемого при исследовании белковых комплексов, или стыковка белков.[87]

Приложения интеллектуального анализа текста в биомедицинской области включают вычислительные подходы для помощи в исследованиях стыковка белков,[87] белковые взаимодействия,[88][89] и ассоциации "белок-болезнь".[90]

Идентификация кластера генов

Методы определения ассоциации кластеры генов получено микрочип были проведены эксперименты с биологическим контекстом, представленным в соответствующей литературе.[91]

Белковые взаимодействия

Автоматическое извлечение белковых взаимодействий[92] и ассоциации белков с функциональными концепциями (например, генная онтология термины).[нужна цитата ] Поисковая система PIE была разработана для выявления и возврата упоминаний белок-белковых взаимодействий из MEDLINE -индексированные статьи.[93] Извлечение кинетических параметров из текста или субклеточное расположение белков также были изучены с помощью технологий извлечения информации и интеллектуального анализа текста.[нужна цитата ]

Ассоциации генных болезней

Поиск текста может помочь в расстановке приоритетов генов или идентификации генов, которые, скорее всего, будут способствовать генетическое заболевание. Одна группа сравнила несколько словарей, представлений и алгоритмы ранжирования для разработки критериев приоритезации генов.[94]

Генные ассоциации

Группа сельскохозяйственных геномиков определила гены, связанные с бык репродуктивные черты с использованием интеллектуального анализа текста, среди других подходов.[95]

Ассоциации "белок-болезнь"

Интеллектуальный анализ текста позволяет объективно оценить взаимосвязь между белками и болезнями в огромном количестве неструктурированные текстовые данные.[96]

Применение анализа фраз к ассоциациям болезней

Исследование интеллектуального анализа текста собрало коллекцию из 709 ядер. белки внеклеточного матрикса и ассоциированные белки на основе двух баз данных: MatrixDB (matrixdb.univ-lyon1.fr ) и UniProt. Этот набор белков имел управляемый размер и богатый объем связанной информации, что делало его подходящим для применения инструментов интеллектуального анализа текста. Исследователи провели фразовый анализ для перекрестного изучения отдельных белков внеклеточного матрикса в биомедицинской литературе, посвященной шести категориям сердечно-сосудистые заболевания. Они использовали конвейер анализа фраз, контекстно-зависимую семантическую Онлайн-аналитическая обработка (CaseOLAP),[97] затем семантически оценил все 709 белков в соответствии с их целостностью, популярностью и отличительностью, используя конвейер CaseOLAP. Исследование с интеллектуальным анализом текста подтвердило существующие отношения и предоставило информацию о ранее неизвестных биологических процессах в сердечно-сосудистой патофизиологии.[90]

Программные инструменты

Поисковые системы

Поисковые системы, разработанные для получить биомедицинскую литературу релевантные для пользовательского запроса часто полагаются на подходы интеллектуального анализа текста. Общедоступные инструменты, специально предназначенные для исследовательской литературы, включают: PubMed поиск, Европа PubMed Central поиск, GeneView,[98] и APSE[99] Аналогичным образом были разработаны поисковые машины и системы индексации, специфичные для биомедицинских данных, включая DataMed.[100] и OmicsDI.[101]

Некоторые поисковые системы, например Essie,[102] ОнкоПоиск,[103] PubGene,[104][105] и GoPubMed[106] ранее были общедоступными, но с тех пор были прекращены, считались устаревшими или интегрированы в коммерческие продукты.

Системы анализа медицинских карт

Электронные медицинские карты (EMR) и электронные медицинские карты (EHR) собираются клиническим персоналом в ходе диагностики и лечения. Хотя эти записи обычно включают структурированные компоненты с предсказуемыми форматами и типами данных, остальные отчеты часто представляют собой произвольный текст. Для анализа этих фрагментов произвольного текста было разработано множество полных систем и инструментов.[107] Система MedLEE изначально была разработана для анализа грудной клетки. радиология отчеты, но позже были расширены и на другие темы отчетов.[108] В система клинического анализа текста и извлечения знаний, или cTAKES, аннотирует клинический текст, используя словарь понятий.[109] Система CLAMP предлагает аналогичные функции с удобным интерфейсом.[110]

Каркасы

Вычислительные рамки были разработаны для быстрого создания инструментов для задач биомедицинского анализа текста. SwellShark[111] представляет собой основу для биомедицинской ЧЭИ, которая не требует данных, помеченных людьми, но использует ресурсы для слабого надзора (например, UMLS семантические типы). Фреймворк SparkText[112] использует Apache Spark потоковая передача данных, NoSQL база данных и базовый машинное обучение методы построения прогнозные модели из научных статей.

API

Некоторые инструменты биомедицинского анализа текста и обработки естественного языка доступны через интерфейсы прикладного программирования или API. NOBLE Coder выполняет распознавание концепций через API.[113]

Конференции

Следующее научные конференции а на семинарах проводятся обсуждения и презентации достижений в области биомедицинского анализа текстов. Большинство публикуют судебное разбирательство.

Конференции по биомедицинскому интеллектуальному анализу текстов
Название конференцииСессияТруды
Ассоциация компьютерной лингвистики (ACL) ежегодное собраниепленарное заседание и в рамках воркшопа БиоНЛП
ACL BioNLP семинар[114]
Американская ассоциация медицинской информатики (AMIA) ежегодное собраниена пленарном заседании
Интеллектуальные системы для молекулярной биологии (ISMB)на пленарном заседании и на семинарах BioLINK и Bio-ontology[115]
Международная конференция по биоинформатике и биомедицине (BIBM)[116]
Международная конференция по управлению информацией и знаниями (CIKM)в рамках Международного семинара по интеллектуальному анализу данных и текстов в биомедицинской информатике (DTMBIO)[117]
Североамериканская ассоциация компьютерной лингвистики (NAACL) ежегодное собраниепленарное заседание и в рамках воркшопа БиоНЛП
Тихоокеанский симпозиум по биокомпьютингу (PSB)на пленарном заседании[118]
Практическое применение вычислительной биологии и биоинформатики (PACBB)[119]
Конференция по восстановлению текста (TREC)ранее в составе TREC Genomics отслеживать; по состоянию на 2018 год - часть Precision Medicine Track[120]

Журналы

Разнообразие академические журналы публикация рукописей по биологии и медицине включает темы по интеллектуальному анализу текста и программному обеспечению для обработки естественного языка. Некоторые журналы, в том числе Журнал Американской ассоциации медицинской информатики (JAMIA) и Журнал биомедицинской информатики популярные публикации по этим темам.

Рекомендации

  1. ^ Вестергаард Д., Стерфельдт Х. Х., Тёнсберг С., Йенсен Л. Дж., Брунак С. (февраль 2018 г.). «Комплексное и количественное сравнение интеллектуального анализа текста в 15 миллионах полнотекстовых статей с соответствующими аннотациями». PLOS вычислительная биология. 14 (2): e1005962. Bibcode:2018PLSCB..14E5962W. Дои:10.1371 / journal.pcbi.1005962. ЧВК  5831415. PMID  29447159.
  2. ^ Данеску-Никулеску-Мизил С., Ли Л. (2011). Хамелеоны в воображаемых разговорах: новый подход к пониманию координации языкового стиля в диалогах. CMCL '11. С. 76–87. arXiv:1106.3077. Bibcode:2011arXiv1106.3077D. ISBN  978-1-932432-95-4.
  3. ^ Маколи Дж., Лесковец Дж. (2013-10-12). Скрытые факторы и скрытые темы: понимание размеров рейтинга с текстом обзора. ACM. С. 165–172. Дои:10.1145/2507157.2507163. ISBN  978-1-4503-2409-0. S2CID  6440341.
  4. ^ а б c Оно-Мачадо Л., Надкарни П., Джонсон К. (2013). «Обработка естественного языка: алгоритмы и инструменты для извлечения вычислимой информации из электронных медицинских записей и биомедицинской литературы». Журнал Американской ассоциации медицинской информатики. 20 (5): 805. Дои:10.1136 / amiajnl-2013-002214. ЧВК  3756279. PMID  23935077.
  5. ^ а б Узунер Ö, Южный BR, Шен S, DuVall SL (2011). «Вызов i2b2 / VA 2010 г. по концепциям, утверждениям и отношениям в клиническом тексте». Журнал Американской ассоциации медицинской информатики. 18 (5): 552–6. Дои:10.1136 / amiajnl-2011-000203. ЧВК  3168320. PMID  21685143.
  6. ^ а б Сан В., Румшиски А., Узунер О. (2013). «Оценка временных отношений в клиническом тексте: 2012 i2b2 Challenge». Журнал Американской ассоциации медицинской информатики. 20 (5): 806–13. Дои:10.1136 / amiajnl-2013-001628. ЧВК  3756273. PMID  23564629.
  7. ^ Стаббс А., Котфила С., Узунер Ö (декабрь 2015 г.). «Автоматизированные системы для деидентификации продольных клинических повествований: Обзор общей задачи 2014 i2b2 / UTHealth Track 1». Журнал биомедицинской информатики. 58 Дополнение: S11–9. Дои:10.1016 / j.jbi.2015.06.007. ЧВК  4989908. PMID  26225918.
  8. ^ Олбрайт Д., Ланфранчи А., Фредриксен А., Стайлер В. Ф., Уорнер С., Хванг Дж. Д., Чой Дж. Д., Длигач Д., Нильсен Р. Д., Мартин Дж., Уорд В., Палмер М., Савова Г. К. (2013). «К всеобъемлющим синтаксическим и семантическим аннотациям клинического повествования». Журнал Американской ассоциации медицинской информатики. 20 (5): 922–30. Дои:10.1136 / amiajnl-2012-001317. ЧВК  3756257. PMID  23355458.
  9. ^ Бада М., Экерт М., Эванс Д., Гарсия К., Шипли К., Ситников Д., Баумгартнер В. А., Коэн К. Б., Верспур К., Блейк Дж. А., Хантер Л. Е. (июль 2012 г.). «Аннотация концепции в корпусе КРАФТ». BMC Bioinformatics. 13 (1): 161. Дои:10.1186/1471-2105-13-161. ЧВК  3476437. PMID  22776079.
  10. ^ Holzinger A, Jurisica I (2014), «Открытие знаний и интеллектуальный анализ данных в биомедицинской информатике: будущее за интегративными интерактивными решениями для машинного обучения», Интерактивное обнаружение знаний и интеллектуальный анализ данных в биомедицинской информатике, Springer Berlin Heidelberg, стр. 1–18, Дои:10.1007/978-3-662-43968-5_1, ISBN  9783662439678
  11. ^ Ратнер А., Бах Ш., Эренберг Х., Фрис Дж., Ву С., Ре С. (ноябрь 2017 г.). «Трубка: быстрое создание данных для тренировок со слабым контролем». Труды эндаумента VLDB. 11 (3): 269–282. arXiv:1711.10160. Bibcode:2017arXiv171110160R. Дои:10.14778/3157794.3157797. ЧВК  5951191. PMID  29770249.
  12. ^ Рен Х, Ву З., Хе В., Цюй М., Восс К.Р., Джи Х., Абдельзахер Т.Ф., Хан Дж. (03.04.2017) "Ко Тип". CoType: совместное извлечение типизированных сущностей и отношений с базами знаний. Руководящий комитет международных конференций в Интернете. С. 1015–1024. Дои:10.1145/3038912.3052708. ISBN  9781450349130. S2CID  1724837.
  13. ^ а б Эрхардт Р.А., Шнайдер Р., Блашке С. (апрель 2006 г.). «Состояние методов интеллектуального анализа текста применительно к биомедицинскому тексту». Открытие наркотиков сегодня. 11 (7–8): 315–25. Дои:10.1016 / j.drudis.2006.02.011. PMID  16580973.
  14. ^ Милошевич Н., Грегсон С., Эрнандес Р., Ненадич Г. (февраль 2019 г.). «Структура для извлечения информации из таблиц в биомедицинской литературе». Международный журнал анализа и распознавания документов. 22 (1): 55–78. arXiv:1902.10031. Bibcode:2019arXiv190210031M. Дои:10.1007 / s10032-019-00317-0. S2CID  62880746.
  15. ^ Демнер-Фушман Д., Шошан С.Е., Родригес Л., Аронсон А.Р., Ланг Ф., Роджерс В., Робертс К., Тоннинг Дж. (Январь 2018 г.). «Набор данных из 200 структурированных этикеток продуктов с аннотациями о побочных реакциях на лекарства». Научные данные. 5: 180001. Bibcode:2018НатСД ... 580001Д. Дои:10.1038 / sdata.2018.1. ЧВК  5789866. PMID  29381145.
  16. ^ а б Агарвал С., Ю Х (декабрь 2010 г.). «Обнаружение признаков хеджирования и их объема в биомедицинском тексте с условными случайными полями». Журнал биомедицинской информатики. 43 (6): 953–61. Дои:10.1016 / j.jbi.2010.08.003. ЧВК  2991497. PMID  20709188.
  17. ^ Vandenbussche PY, Cormont S, André C, Daniel C, Delahousse J, Charlet J, Lepage E (2013). «Внедрение и управление словарем биомедицинских наблюдений в большой информационной системе здравоохранения». Журнал Американской ассоциации медицинской информатики. 20 (5): 940–6. Дои:10.1136 / amiajnl-2012-001410. ЧВК  3756262. PMID  23635601.
  18. ^ Jannot AS, Zapletal E, Avillach P, Mamzer MF, Burgun A, Degoulet P (июнь 2017 г.). «Хранилище клинических данных больницы Университета Жоржа Помпиду: 8-летний опыт наблюдения». Международный журнал медицинской информатики. 102: 21–28. Дои:10.1016 / j.ijmedinf.2017.02.006. PMID  28495345.
  19. ^ Леви Б. "Проблема семантики здравоохранения". www.fortherecordmag.com. Издательская компания Great Valley. Получено 2018-10-04.
  20. ^ Гудвин Л.К., Пратер Дж. К. (2002). «Защита конфиденциальности пациентов при интеллектуальном анализе клинических данных». Журнал управления медицинской информацией. 16 (4): 62–7. PMID  12365302.
  21. ^ Такер К., Брэнсон Дж., Диллин М., Холлис С., Лафлин П., Никсон М. Дж., Уильямс З. (июль 2016 г.). «Защита конфиденциальности пациентов при обмене данными клинических испытаний на уровне пациентов». BMC Методология медицинских исследований. 16 Дополнение 1 (S1): 77. Дои:10.1186 / s12874-016-0169-4. ЧВК  4943495. PMID  27410040.
  22. ^ Грейвс S (2013). «Конфиденциальность, электронные медицинские карты и врач». Перспективы биологии и медицины. 56 (1): 105–25. Дои:10.1353 / pbm.2013.0003. PMID  23748530. S2CID  25816887.
  23. ^ Лезер У, Хакенберг Дж (01.01.2005). «Из чего складывается имя гена? Признание именованных сущностей в биомедицинской литературе». Брифинги по биоинформатике. 6 (4): 357–369. Дои:10.1093 / bib / 6.4.357. ISSN  1467-5463. PMID  16420734.
  24. ^ Krallinger M, Leitner F, Rabal O, Vazquez M, Oyarzabal J, Valencia A. «Обзор задачи распознавания химического соединения и названия лекарственного средства (CHEMDNER)» (PDF). Труды четвертого семинара по оценке BioCreative Challenge. 2: 6–37.
  25. ^ Химено А., Хименес-Руис Е., Ли В., Гаудан С., Берланга Р., Ребхольц-Шуманн Д. (апрель 2008 г.). «Оценка распознавания названной болезни по корпусу аннотированных предложений». BMC Bioinformatics. 9 Дополнение 3 (Дополнение 3): S3. Дои:10.1186 / 1471-2105-9-s3-s3. ЧВК  2352871. PMID  18426548.
  26. ^ Хабиби М., Вебер Л., Невес М., Вигандт Д.Л., Лезер Ю. (июль 2017 г.). «Глубокое обучение с встраиванием слов улучшает распознавание именованных биомедицинских объектов». Биоинформатика. 33 (14): i37 – i48. Дои:10.1093 / биоинформатика / btx228. ЧВК  5870729. PMID  28881963.
  27. ^ Коэн AM (2006). «Эффективный универсальный подход к автоматизированной классификации биомедицинских документов». AMIA ... Материалы ежегодного симпозиума. Симпозиум AMIA: 161–5. ЧВК  1839342. PMID  17238323.
  28. ^ а б Сюй Р., Вунш, округ Колумбия (2010). «Алгоритмы кластеризации в биомедицинских исследованиях: обзор». Обзоры IEEE в области биомедицинской инженерии. 3: 120–54. Дои:10.1109 / rbme.2010.2083647. PMID  22275205. S2CID  206522771.
  29. ^ Родригес-Эстебан Р. (декабрь 2009 г.). «Биомедицинский анализ текста и его приложения». PLOS вычислительная биология. 5 (12): e1000597. Bibcode:2009PLSCB ... 5E0597R. Дои:10.1371 / journal.pcbi.1000597. ЧВК  2791166. PMID  20041219.
  30. ^ Блейк С. (апрель 2010 г.). «Помимо генов, белков и рефератов: выявление научных заявлений из полнотекстовых биомедицинских статей». Журнал биомедицинской информатики. 43 (2): 173–89. Дои:10.1016 / j.jbi.2009.11.001. PMID  19900574.
  31. ^ а б Аламри А, Стивенсони М (2015). Автоматическое определение потенциально противоречивых утверждений для поддержки систематических обзоров. 2015 Международная конференция IEEE по биоинформатике и биомедицине (BIBM). IEEE. Дои:10.1109 / bibm.2015.7359808. ISBN  978-1-4673-6799-8. S2CID  28079483.
  32. ^ Fleuren WW, Alkema W (март 2015 г.). «Применение интеллектуального анализа текста в биомедицинской сфере». Методы. 74: 97–106. Дои:10.1016 / j.ymeth.2015.01.015. PMID  25641519.
  33. ^ Карп П.Д. (01.01.2016). «Можем ли мы заменить курирование программным обеспечением для извлечения информации?». База данных. 2016: baw150. Дои:10.1093 / база данных / baw150. ЧВК  5199131. PMID  28025341.
  34. ^ Краллингер М, Валенсия А, Хиршман Л (2008). «Связывание генов с литературой: интеллектуальный анализ текста, извлечение информации и поисковые приложения для биологии». Геномная биология. 9 Дополнение 2 (Дополнение 2): S8. Дои:10.1186 / GB-2008-9-s2-s8. ЧВК  2559992. PMID  18834499.
  35. ^ Невес М., Лесер Ю. (март 2015 г.). «Ответ на вопрос по биологии». Методы. 74: 36–46. Дои:10.1016 / j.ymeth.2014.10.023. PMID  25448292.
  36. ^ Ученый семантики. (2020) «Избегайте беспорядка: [Открытый доступ] Загрузите набор данных открытого исследования коронавируса». Сайт Semantics Scholar Дата обращения 30 марта 2020.
  37. ^ Бреннан, Патти. (24 марта 2020 г.). «Блог: как библиотека реагирует на глобальный кризис в области здравоохранения?». Веб-сайт Национальной медицинской библиотеки Проверено 30 марта 2020.
  38. ^ Брейнард, Джеффри (13 мая 2020 г.). «Ученые тонут в бумагах о COVID-19. Могут ли новые инструменты удержать их на плаву?». Наука | AAAS. Получено 17 мая 2020.
  39. ^ Узунер О, Ло Й, Соловиц П. (2007-09-01). «Оценка состояния дел в области автоматической деидентификации». Журнал Американской ассоциации медицинской информатики. 14 (5): 550–63. Дои:10.1197 / jamia.m2444. ЧВК  1975792. PMID  17600094.
  40. ^ Узунер О., Гольдштейн И., Ло Ю., Кохане И. (01.01.2008). «Определение статуса курения пациента по выписке из медицинских карт». Журнал Американской ассоциации медицинской информатики. 15 (1): 14–24. Дои:10.1197 / jamia.m2408. ЧВК  2274873. PMID  17947624.
  41. ^ Узунер О. (2009). «Распознавание ожирения и сопутствующих заболеваний по скудным данным». Журнал Американской ассоциации медицинской информатики. 16 (4): 561–70. Дои:10.1197 / jamia.M3115. ЧВК  2705260. PMID  19390096.
  42. ^ Узунер О, Шолти I, Ся Ф, Кадаг Э (2010). «Эксперимент с аннотациями сообщества для получения достоверных сведений о лекарствах i2b2». Журнал Американской ассоциации медицинской информатики. 17 (5): 519–23. Дои:10.1136 / jamia.2010.004200. ЧВК  2995684. PMID  20819855.
  43. ^ Узунер О, Шолти I, Кадаг Э (2010). «Извлечение информации о лекарствах из клинического текста». Журнал Американской ассоциации медицинской информатики. 17 (5): 514–8. Дои:10.1136 / jamia.2010.003947. ЧВК  2995677. PMID  20819854.
  44. ^ Узунер О., Боднари А., Шен С., Форбуш Т., Пестиан Дж., Южный БР (2012). «Оценка состояния дел в разрешении кореференции для электронных медицинских карт». Журнал Американской ассоциации медицинской информатики. 19 (5): 786–91. Дои:10.1136 / amiajnl-2011-000784. ЧВК  3422835. PMID  22366294.
  45. ^ Стаббс А., Узунер О. (декабрь 2015 г.). «Аннотирование продольных клинических описаний для деидентификации: корпус 2014 i2b2 / UTHealth». Журнал биомедицинской информатики. 58 Дополнение: S20–9. Дои:10.1016 / j.jbi.2015.07.020. ЧВК  4978170. PMID  26319540.
  46. ^ Стаббс А., Узунер О. (декабрь 2015 г.). «Аннотирование факторов риска сердечных заболеваний в клинических описаниях пациентов с диабетом». Журнал биомедицинской информатики. 58 Дополнение: S78–91. Дои:10.1016 / j.jbi.2015.05.009. ЧВК  4978180. PMID  26004790.
  47. ^ Бунеску Р., Ге Р., Кейт Р. Дж., Маркотт Е. М., Муни Р. Дж., Рамани А. К., Вонг Ю. В. (февраль 2005 г.). «Сравнительные эксперименты по обучению экстракторов информации о белках и их взаимодействиях». Искусственный интеллект в медицине. 33 (2): 139–55. CiteSeerX  10.1.1.10.2168. Дои:10.1016 / j.artmed.2004.07.016. PMID  15811782.
  48. ^ Исламадж Доган Р., Ким С., Чатр-Арьямонтри А., Чанг С.С., Отред Р., Руст Дж., Уилбур В.Дж., Комо, округ Колумбия, Долински К., Тайерс М. (01.01.2017). «Корпус BioC-BioGRID: полнотекстовые статьи с аннотациями для изучения белок-белковых и генетических взаимодействий». База данных. 2017: baw147. Дои:10.1093 / база данных / baw147. ЧВК  5225395. PMID  28077563.
  49. ^ Хиршман Л, Йе А, Блашке С, Валенсия А (2005). «Обзор BioCreAtIvE: критическая оценка извлечения информации для биологии». BMC Bioinformatics. 6 Приложение 1: S1. Дои:10.1186 / 1471-2105-6-S1-S1. ЧВК  1869002. PMID  15960821.
  50. ^ Краллингер М., Морган А., Смит Л., Лейтнер Ф, Танабе Л., Уилбур Дж., Хиршман Л., Валенсия А (2008). «Оценка систем интеллектуального анализа текста для биологии: обзор второй задачи сообщества BioCreative». Геномная биология. 9 Дополнение 2 (Дополнение 2): S1. Дои:10.1186 / gb-2008-9-s2-s1. ЧВК  2559980. PMID  18834487.
  51. ^ Ли Дж., Сунь Й., Джонсон Р.Дж., Скиаки Д., Вей СН, Лиман Р., Дэвис А.П., Маттингли С.Дж., Вигерс Т.К., Лу З. (2016). «Корпус задач BioCreative V CDR: ресурс для извлечения связи химических заболеваний». База данных. 2016: baw068. Дои:10.1093 / база данных / baw068. ЧВК  4860626. PMID  27161011.
  52. ^ Pyysalo S, Ginter F, Heimonen J, Björne J, Boberg J, Järvinen J, Salakoski T. (февраль 2007 г.). «BioInfer: корпус для извлечения информации в биомедицинской сфере». BMC Bioinformatics. 8 (1): 50. Дои:10.1186/1471-2105-8-50. ЧВК  1808065. PMID  17291334.
  53. ^ Винце В., Шарвас Г., Фаркаш Р., Мора Г., Чирик Дж. (Ноябрь 2008 г.). «Корпус BioScope: биомедицинские тексты с аннотациями для неопределенности, отрицания и их объема». BMC Bioinformatics. 9 Дополнение 11 (Дополнение 11): S9. Дои:10.1186 / 1471-2105-9-s11-s9. ЧВК  2586758. PMID  19025695.
  54. ^ Шварц А.С., Херст М.А. (2003). «Простой алгоритм для определения аббревиатур в биомедицинском тексте». Тихоокеанский симпозиум по биокомпьютингу. Тихоокеанский симпозиум по биокомпьютингу: 451–62. PMID  12603049.
  55. ^ Росарио Б., Херст, Массачусетс (2005-10-06). «Классификация многосторонних отношений». Классификация многосторонних отношений: приложение к белок-белковым взаимодействиям. Hlt '05. Ассоциация компьютерной лингвистики. С. 732–739. Дои:10.3115/1220575.1220667. S2CID  902226.
  56. ^ Дэвис, Аллан Питер; Грондин, Синтия Дж; Джонсон, Робин Дж; Sciaky, Daniela; МакМорран, Рой; Вигерс, Джолин; Вигерс, Томас С; Мэттингли, Кэролайн Дж (2019-01-08). «База данных сравнительной токсикогеномики: обновление 2019». Исследования нуклеиновых кислот. 47 (D1): D948 – D954. Дои:10.1093 / нар / gky868. ISSN  0305-1048. ЧВК  6323936. PMID  30247620.
  57. ^ Verspoor K, Cohen KB, Lanfranchi A, Warner C, Johnson HL, Roeder C, Choi JD, Funk C, Malenkiy Y, Eckert M, Xue N, Baumgartner WA, Bada M, Palmer M, Hunter LE (август 2012). «Корпус полнотекстовых журнальных статей - надежный инструмент оценки для выявления различий в производительности биомедицинских инструментов обработки естественного языка». BMC Bioinformatics. 13 (1): 207. Дои:10.1186/1471-2105-13-207. ЧВК  3483229. PMID  22901054.
  58. ^ Ким Дж. Д., Охта Т., Татейси Й, Цуджи Дж. (2003-07-03). «GENIA corpus - семантически аннотированный корпус для биотекстового майнинга». Биоинформатика. 19 (Приложение 1): i180 – i182. Дои:10.1093 / биоинформатика / btg1023. PMID  12855455.
  59. ^ "GENIA Project". www.geniaproject.org. Получено 2018-10-06.
  60. ^ Бахман Дж. А., Дьори Б. М., Соргер П. К. (июнь 2018 г.). «FamPlex: ресурс для распознавания сущностей и разрешения взаимосвязей семей и комплексов белков человека в биомедицинском анализе текста». BMC Bioinformatics. 19 (1): 248. Дои:10.1186 / s12859-018-2211-5. ЧВК  6022344. PMID  29954318.
  61. ^ Влахос А, Гасперин С (2006). «Начальная загрузка и оценка распознавания именованных сущностей в биомедицинской области». BioNLP '06 Материалы семинара по объединению обработки естественного языка и биологии: на пути к более глубокому анализу биологической литературы. БиоНЛП '06: 138–145. Дои:10.3115/1567619.1567652.
  62. ^ Гасперин С., Караманис Н., Сил Р. (2007). «Аннотация анафорических отношений в биомедицинских полнотекстовых статьях с использованием тематической схемы». Материалы DAARC 2007: 19–24.
  63. ^ Медлок Б., Бриско Т. (2007). «Слабо контролируемое обучение для классификации хеджирования в научной литературе» (PDF). Материалы 45-го Ежегодного собрания Ассоциации компьютерной лингвистики: 992–999.
  64. ^ Динг Дж., Берлеант Д., Нетлтон Д., Вуртеле Э (2001). Mining MEDLINE: аннотации, предложения или фразы?. Биокомпьютинг 2002. МИРОВАЯ НАУЧНАЯ. стр.326–337. CiteSeerX  10.1.1.385.6071. Дои:10.1142/9789812799623_0031. ISBN  9789810247775. PMID  11928487.
  65. ^ Ким, Джин-Донг; Охта, Томоко; Цуруока, Йошимаса; Татеиси, Юка; Кольер, Найджел (2004). «Введение в задачу распознавания биологических сущностей в JNLPBA». Труды Международного совместного семинара по обработке естественного языка в биомедицине и ее приложениях - JNLPBA '04: 70. Дои:10.3115/1567594.1567610.
  66. ^ "LLLchallenge". genome.jouy.inra.fr. Получено 2018-10-06.
  67. ^ «Медицинские тематические рубрики - Домашняя страница». www.nlm.nih.gov. Получено 2018-10-06.
  68. ^ Боденрейдер О. (январь 2004 г.). «Единая система медицинского языка (UMLS): интеграция биомедицинской терминологии». Исследования нуклеиновых кислот. 32 (Выпуск базы данных): D267–70. Дои:10.1093 / нар / gkh061. ЧВК  308795. PMID  14681409.
  69. ^ «Метатезавр». www.nlm.nih.gov. Получено 2018-10-07.
  70. ^ Johnson AE, Pollard TJ, Shen L, Lehman LW, Feng M, Ghassemi M, Moody B, Szolovits P, Celi LA, Mark RG (май 2016 г.). «MIMIC-III, свободно доступная база данных по интенсивной терапии». Научные данные. 3: 160035. Bibcode:2016НатСД ... 360035J. Дои:10.1038 / sdata.2016.35. ЧВК  4878278. PMID  27219127.
  71. ^ Савова Г.К., Чепмен В.В., Чжэн Дж., Кроули Р.С. (2011). «Анафорические отношения в клиническом повествовании: создание корпуса». Журнал Американской ассоциации медицинской информатики. 18 (4): 459–65. Дои:10.1136 / amiajnl-2011-000108. ЧВК  3128403. PMID  21459927.
  72. ^ Херш В., Бакли С., Леоне Т. Дж., Хикэм Д. (1994). OHSUMED: интерактивная поисковая оценка и новая большая коллекция тестов для исследований. Springer London. С. 192–201. Дои:10.1007/978-1-4471-2099-5_20. ISBN  9783540198895. S2CID  15094383.
  73. ^ «Подмножество открытого доступа». www.ncbi.nlm.nih.gov. Получено 2018-10-06.
  74. ^ Нельсон С.Дж., Зенг К., Килборн Дж., Пауэлл Т., Мур Р. (2011). «Нормализованные названия для клинических препаратов: RxNorm через 6 лет». Журнал Американской ассоциации медицинской информатики. 18 (4): 441–8. Дои:10.1136 / amiajnl-2011-000116. ЧВК  3128404. PMID  21515544.
  75. ^ МакКрей А.Т. (2003). «Онтология верхнего уровня для биомедицинской области». Сравнительная и функциональная геномика. 4 (1): 80–4. Дои:10.1002 / cfg.255. ЧВК  2447396. PMID  18629109.
  76. ^ «Семантическая сеть UMLS». semanticnetwork.nlm.nih.gov. Получено 2018-10-07.
  77. ^ МакКрей А.Т., Сринивасан С., Браун А.С. (1994). «Лексические методы управления вариациями в биомедицинской терминологии». Ход работы. Симпозиум по компьютерным приложениям в медицине: 235–9. ЧВК  2247735. PMID  7949926.
  78. ^ «СПЕЦИАЛИСТИЧЕСКИЕ Инструменты НЛП». lexsrv3.nlm.nih.gov. Получено 2018-10-07.
  79. ^ Химено-Йепес А.Дж., Макиннес Б.Т., Аронсон А.Р. (июнь 2011 г.). «Использование индексации MeSH в MEDLINE для создания набора данных для устранения неоднозначности слов». BMC Bioinformatics. 12 (1): 223. Дои:10.1186/1471-2105-12-223. ЧВК  3123611. PMID  21635749.
  80. ^ "Наборы тестов для устранения неоднозначности слов (WSD)". wsd.nlm.nih.gov. Получено 2018-10-07.
  81. ^ Franzén K, Eriksson G, Olsson F, Asker L, Lidén P, Cöster J (декабрь 2002 г.). «Названия белков и как их найти». Международный журнал медицинской информатики. 67 (1–3): 49–61. CiteSeerX  10.1.1.14.2183. Дои:10.1016 / с 1386-5056 (02) 00052-7. PMID  12460631.
  82. ^ Миколов Т., Чен К., Коррадо Дж., Дин Дж. (2013-01-16). «Эффективное оценивание представлений слов в векторном пространстве». arXiv:1301.3781 [cs.CL ].
  83. ^ «BioASQ выпускает непрерывные векторы пространственного слова, полученные путем применения Word2Vec к PubMed Abstracts | bioasq.org». bioasq.org. Получено 2018-11-07.
  84. ^ "bio.nlplab.org". bio.nlplab.org. Получено 2018-11-07.
  85. ^ Асгари Э., Мофрад М.Р. (10.11.2015). «Непрерывное распределенное представление биологических последовательностей для глубокой протеомики и геномики». PLOS ONE. 10 (11): e0141287. arXiv:1503.05140. Bibcode:2015PLoSO..1041287A. Дои:10.1371 / journal.pone.0141287. ЧВК  4640716. PMID  26555596.
  86. ^ Банерджи И., Мадхаван С., Голдман Р. Э., Рубин Д. Л. (2017). "Интеллектуальные вложения слов в радиологические отчеты с произвольным текстом". AMIA ... Материалы ежегодного симпозиума. Симпозиум AMIA. 2017: 411–420. arXiv:1711.06968. Bibcode:2017arXiv171106968B. ЧВК  5977573. PMID  29854105.
  87. ^ а б Бадал В.Д., Кундротас П.Дж., Ваксер И.А. (декабрь 2015 г.). «Анализ текста для стыковки белков». PLOS вычислительная биология. 11 (12): e1004630. Bibcode:2015PLSCB..11E4630B. Дои:10.1371 / journal.pcbi.1004630. ЧВК  4674139. PMID  26650466.
  88. ^ Папаниколау Н., Павлопулос Г.А., Теодосиу Т., Илиопулос I. (март 2015 г.). «Прогнозы белок-белкового взаимодействия с использованием методов интеллектуального анализа текста». Методы. 74: 47–53. Дои:10.1016 / j.ymeth.2014.10.026. PMID  25448298.
  89. ^ Шкларчик Д., Моррис Дж. Х., Кук Х, Кун М., Вайдер С., Симонович М., Сантос А., Дончева Н. Т., Рот А., Борк П., Йенсен Л. Дж., Фон Меринг С. (январь 2017 г.). «База данных STRING в 2017 году: сети белок-белковых ассоциаций с контролируемым качеством стали широко доступными». Исследования нуклеиновых кислот. 45 (D1): D362 – D368. Дои:10.1093 / нар / gkw937. ЧВК  5210637. PMID  27924014.
  90. ^ а б Лием Д.А., Мурали С., Сигдель Д., Ши Ю., Ван Х, Шен Дж., Чой Х., Кауфилд Дж. Х., Ван В., Пинг П, Хан Дж. (Октябрь 2018 г.). «Фразовый анализ текстовых данных для анализа белков внеклеточного матрикса при сердечно-сосудистых заболеваниях». Американский журнал физиологии. Сердце и физиология кровообращения. 315 (4): H910 – H924. Дои:10.1152 / ajpheart.00175.2018. ЧВК  6230912. PMID  29775406.
  91. ^ Канкар П., Адак С., Саркар А., Мурари К., Шарма Г. (11 апреля 2002 г.). Резюме MedMeSH: интеллектуальный анализ текста для кластеров генов. Материалы Международной конференции SIAM 2002 года по интеллектуальному анализу данных. Общество промышленной и прикладной математики. С. 548–565. CiteSeerX  10.1.1.215.6230. Дои:10.1137/1.9781611972726.32. ISBN  978-0-89871-517-0.
  92. ^ Pyysalo S, Airola A, Heimonen J, Björne J, Ginter F, Salakoski T (апрель 2008 г.). «Сравнительный анализ пяти корпусов белок-белкового взаимодействия». BMC Bioinformatics. 9 Дополнение 3 (Дополнение 3): S6. Дои:10.1186 / 1471-2105-9-s3-s6. ЧВК  2349296. PMID  18426551.
  93. ^ Ким С., Квон Д., Шин С.И., Уилбур В.Дж. (февраль 2012 г.). "PIE the search: поиск в литературе PubMed информации о взаимодействии белков". Биоинформатика. 28 (4): 597–8. Дои:10.1093 / биоинформатика / btr702. ЧВК  3278758. PMID  22199390.
  94. ^ Ю С., Ван Вурен С., Траншевент ЛК, Де Моор Б., Моро Ю. (август 2008 г.). «Сравнение словарей, представлений и алгоритмов ранжирования для определения приоритетов генов с помощью интеллектуального анализа текста». Биоинформатика. 24 (16): i119–25. Дои:10.1093 / биоинформатика / btn291. PMID  18689812.
  95. ^ Хулсегге И., Вулдерс Х, Смитс М., Шоккер Д., Цзян Л., Соренсен П. (май 2013 г.). «Приоритезация генов-кандидатов репродуктивных признаков крупного рогатого скота на основе белок-белковых взаимодействий, экспрессии генов и интеллектуального анализа текста». Физиологическая геномика. 45 (10): 400–6. Дои:10.1152 / физиолгеномика.00172.2012. PMID  23572538.
  96. ^ Краллингер М, Лейтнер Ф, Валенсия А (2010). «Анализ биологических процессов и заболеваний с использованием методов интеллектуального анализа текста». Методы биоинформатики в клинических исследованиях. Методы молекулярной биологии. 593. С. 341–82. Дои:10.1007/978-1-60327-194-3_16. ISBN  978-1-60327-193-6. PMID  19957157.
  97. ^ Тао Ф, Чжуан Х., Ю Ч. В., Ван Ц., Кэссиди Т., Каплан Л. Р., Восс С. Р., Хан Дж. (2016). «Многомерное обобщение на основе фраз в текстовых кубах» (PDF). IEEE Data Eng. Бык. 39 (3): 74–84.
  98. ^ Томас П., Старлингер Дж., Гласный А., Арц С., Лезер Ю. (июль 2012 г.). «GeneView: комплексная семантическая поисковая система для PubMed». Исследования нуклеиновых кислот. 40 (Выпуск веб-сервера): W585–91. Дои:10.1093 / нар / гкс563. ЧВК  3394277. PMID  22693219.
  99. ^ Браун П., Чжоу Ю. (сентябрь 2017 г.). «Биомедицинская литература: требуются тестировщики для инструмента поиска статей». Природа. 549 (7670): 31. Bibcode:2017Натура 549 ​​... 31Б. Дои:10.1038 / 549031c. PMID  28880292.
  100. ^ Оно-Мачадо Л., Сансон С.А., Альтер Дж., Форе I, Грета Дж., Сюй Х., Гонсалес-Бельтран А., Рокка-Серра П., Гурурадж А.Э., Белл Е., Сойсал Е., Зонг Н., Ким Х.Э. (май 2017 г.). «Поиск полезных данных в нескольких репозиториях биомедицинских данных с помощью DataMed». Природа Генетика. 49 (6): 816–819. Дои:10,1038 / нг.3864. ЧВК  6460922. PMID  28546571.
  101. ^ Perez-Riverol Y, Bai M, da Veiga Leprevost F, Squizzato S, Park YM, Haug K и др. (Май 2017). «Обнаружение и связывание общедоступных наборов данных omics с помощью индекса обнаружения Omics». Природа Биотехнологии. 35 (5): 406–409. Дои:10.1038 / nbt.3790. ЧВК  5831141. PMID  28486464.
  102. ^ Ide NC, Loane RF, Demner-Fushman D (2007-05-01). «Essie: концептуальная поисковая система для структурированного биомедицинского текста». Журнал Американской ассоциации медицинской информатики. 14 (3): 253–63. Дои:10.1197 / jamia.m2233. ЧВК  2244877. PMID  17329729.
  103. ^ Ли Х. Дж., Данг Т.С., Ли Х., Пак Джей Си (июль 2014 г.). «OncoSearch: поисковая машина по генам рака с литературными данными». Исследования нуклеиновых кислот. 42 (Выпуск веб-сервера): W416–21. Дои:10.1093 / нар / gku368. ЧВК  4086113. PMID  24813447.
  104. ^ Йенсен Т.К., Лаегрейд А., Коморовски Дж., Ховиг Э. (май 2001 г.). «Литературная сеть человеческих генов для высокопроизводительного анализа экспрессии генов». Природа Генетика. 28 (1): 21–8. Дои:10.1038 / ng0501-21. PMID  11326270. S2CID  8889284.
  105. ^ Masys DR (май 2001 г.). «Связывание данных микрочипа с литературой». Природа Генетика. 28 (1): 9–10. Дои:10.1038 / ng0501-9. PMID  11326264. S2CID  52848745.
  106. ^ Домс А., Шредер М. (июль 2005 г.). «GoPubMed: изучение PubMed с помощью генной онтологии». Исследования нуклеиновых кислот. 33 (Проблема с веб-сервером): W783–6. Дои:10.1093 / нар / gki470. ЧВК  1160231. PMID  15980585.
  107. ^ Ван И, Ван Л., Растегар-Мохарад М., Мун С., Шен Ф, Афзал Н., Лю С., Цзэн Ю., Мехраби С., Сон С., Лю Х. (январь 2018 г.). «Приложения для извлечения клинической информации: обзор литературы». Журнал биомедицинской информатики. 77: 34–49. Дои:10.1016 / j.jbi.2017.11.011. ЧВК  5771858. PMID  29162496.
  108. ^ Фридман C (1997). «На пути к комплексной системе обработки медицинского языка: методы и проблемы». Труды: 595–9. ЧВК  2233560. PMID  9357695.
  109. ^ Савова Г.К., Масанц Дж. Дж., Огрен П. В., Чжэн Дж., Сон С., Киппер-Шулер К. К., Чут К. Г. (2010). «Система клинического анализа текста и извлечения знаний Mayo (cTAKES): архитектура, оценка компонентов и приложения». Журнал Американской ассоциации медицинской информатики. 17 (5): 507–13. Дои:10.1136 / jamia.2009.001560. ЧВК  2995668. PMID  20819853.
  110. ^ Soysal E, Wang J, Jiang M, Wu Y, Pakhomov S, Liu H, Xu H (2018). «CLAMP - набор инструментов для эффективного создания настраиваемых конвейеров клинической обработки естественного языка». Журнал Американской ассоциации медицинской информатики. 25 (3): 331–336. Дои:10.1093 / Jamia / ocx132. ЧВК  7378877. PMID  29186491.
  111. ^ Фрис Дж., Ву С., Ратнер А., Ре С. (2017-04-20). «SwellShark: Генеративная модель для биомедицинского распознавания именованных сущностей без помеченных данных». arXiv:1704.06360 [cs.CL ].
  112. ^ Е З, Тафти А.П., Хе К.Ю., Ван К., Хе ММ (2016-09-29). "SparkText: биомедицинский анализ текста на платформе больших данных". PLOS ONE. 11 (9): e0162721. Bibcode:2016PLoSO..1162721Y. Дои:10.1371 / journal.pone.0162721. ЧВК  5042555. PMID  27685652.
  113. ^ Цейтлин Э., Митчелл К., Леговски Э., Корриган Дж., Чаван Г., Якобсон Р.С. (январь 2016 г.). «NOBLE - Гибкое распознавание концепций для крупномасштабной биомедицинской обработки естественного языка». BMC Bioinformatics. 17 (1): 32. Дои:10.1186 / s12859-015-0871-у. ЧВК  4712516. PMID  26763894.
  114. ^ «БиоНЛП - Антология ACL». aclanthology.coli.uni-saarland.de. Получено 2018-10-17.
  115. ^ "Протоколы ISMB". www.iscb.org. Получено 2018-10-18.
  116. ^ «IEEE Xplore - Домашняя страница конференции». ieeexplore.ieee.org. Получено 2018-11-08.
  117. ^ "dblp: CIKM". dblp.uni-trier.de. Получено 2018-10-17.
  118. ^ «Труды общественного телевидения». psb.stanford.edu. Получено 2018-10-18.
  119. ^ "dblp: Практическое применение вычислительной биологии и биоинформатики". dblp.org. Получено 2018-10-17.
  120. ^ «Материалы конференции по восстановлению текстов (TREC)». trec.nist.gov. Получено 2018-10-17.

дальнейшее чтение

внешняя ссылка