ЗАДАЧИ Apache - Apache cTAKES
Разработчики) | Фонд программного обеспечения Apache |
---|---|
Стабильный выпуск | 4.0.0 / 25 апреля 2017 г. |
Репозиторий | cTakes Репозиторий |
Написано в | Ява, Scala |
Операционная система | Кроссплатформенность |
Тип | Обработка естественного языка, Биоинформатика, Текстовый анализ, Извлечение информации |
Лицензия | Лицензия Apache 2.0 |
Интернет сайт | пирожные |
Apache cTAKES: система клинического анализа текста и извлечения знаний это открытый исходный код Обработка естественного языка (НЛП) система, извлекающая клиническую информацию из электронная медицинская карта неструктурированный текст. Он обрабатывает клинические записи, идентифицируя типы клинических названий объектов - лекарства, болезни / расстройства, признаки / симптомы, анатомические участки и процедуры. Каждая именованная сущность имеет атрибуты для диапазона текста, кода отображения онтологии, контекста (семейная история, текущий, не связанный с пациентом) и отрицание / неотрицание.[1]
cTAKES был построен с использованием Структура архитектуры управления неструктурированной информацией UIMA и OpenNLP набор инструментов для обработки естественного языка.[2][3]
Составные части
Компоненты cTAKES специально обучены для клинической области и создают обширные лингвистические и семантические аннотации, которые могут использоваться системами поддержки принятия клинических решений и клиническими исследованиями.[4]
Эти компоненты включают:
- Именованный идентификатор раздела
- Детектор границы предложения
- Токенизатор на основе правил
- Отформатированный идентификатор списка
- Нормализатор
- Контекстно-зависимый токенизатор
- Тегер части речи
- Фразовый чункер
- Аннотатор поиска в словаре
- Аннотатор контекста
- Детектор отрицания
- Детектор неопределенности
- Детектор предмета
- Парсер зависимостей
- идентификатор статуса курения пациента
- Аннотатор упоминаний лекарств
История
Разработка cTAKES началась в Клиника Майо в 2006 году. Команда разработчиков во главе с доктором Гергана Савова и доктором Кристофер Чут, включая врачей, компьютерных ученых и инженеров-программистов. После развертывания cTAKES стал неотъемлемой частью инфраструктуры управления клиническими данными Mayo, обрабатывая более 80 миллионов клинических записей.[5]
Когда доктор Савова переехала в Бостонская детская больница в начале 2010 года основная команда разработчиков пополнилась членами. Дальнейшее внешнее сотрудничество включает:[5]
- Колорадский университет
- Университет Брандейса
- Питтсбургский университет
- Калифорнийский университет в Сан-Диего
Такое сотрудничество расширило возможности cTAKES на другие области, такие как временное мышление, ответы на клинические вопросы и разрешение кореференций для клинической области.[5]
В 2010 году cTAKES был принят i2b2 программы и является центральным компонентом SHARP Зона 4.[5]
В 2013 году cTAKES выпустили свой первый релиз в виде инкубатора Apache: ЗАДАЧИ 3.0.
В марте 2013 года cTAKES стал проектом верхнего уровня Apache (TLP).[5]
Смотрите также
Рекомендации
- ^ Денеке, Керстин (31 августа 2015 г.). «Инструменты и ресурсы для извлечения информации». Health Web Science: данные социальных сетей для здравоохранения. Springer. п.67. ISBN 978-3-319-20582-3 - через Google Книги.
- ^ Халифа, Абдулрахман; Мейстр, Стефан (01.12.2015). «Адаптация существующих ресурсов обработки естественного языка для идентификации факторов риска сердечно-сосудистых заболеваний в клинических заметках». Журнал биомедицинской информатики. Труды 2014 i2b2 / UTHealth Shared-Tasks и семинара по проблемам обработки естественного языка для клинических данных. 58 (Приложение): S128 – S132. Дои:10.1016 / j.jbi.2015.08.002. ЧВК 4983192. PMID 26318122.
- ^ Худаири, Салли (2017-04-25). «Фонд программного обеспечения Apache объявляет о выпуске Apache® cTAKES ™ v4.0» (Пресс-релиз). Форест Хилл, доктор медицины: Фонд программного обеспечения Apache. Globe Newswire. Получено 2017-09-20.
- ^ Савова, Гургана К; Масанц, Джеймс Дж; Огрен, Филипп V; Чжэн, Цзяпин; Сон, Сунгван; Киппер-Шулер, Карин С; Chute, Кристофер G (2010). «Система клинического анализа текста и извлечения знаний Mayo (cTAKES): архитектура, оценка компонентов и приложения». Журнал Американской ассоциации медицинской информатики. 17 (5): 507–513. Дои:10.1136 / jamia.2009.001560. ISSN 1067-5027. ЧВК 2995668. PMID 20819853.
- ^ а б c d е "История". Apache cTAKES ™ - система извлечения знаний из клинического анализа текста. 2015-06-22. Получено 2018-01-11.
внешняя ссылка
- Официальный сайт cTAKES
- Страница информации о проекте Apache cTAKES из АЧС
- Аннотация (JAMIA)
- Консорциум Open Health Natural Language Processing (OHNLP) Consortium
- Программа перспективных исследовательских проектов в области стратегических информационных технологий в области здравоохранения (SHARP)
- Область SHARP 4 - Вторичное использование данных EHR
- Консоль автоматизированного поиска (ARC)
- Извлечение текста информации о здоровье (HITEx) ) был разработан в рамках проекта i2b2. Это основанный на правилах конвейер НЛП, основанный на структуре GATE, разработанной Информатика для интеграции биологии и прикроватной работы.
- Инструментарий компьютерного языка и исследований в области образования (cleartk) (Больше не поддерживается) был разработан в Университете Колорадо в Боулдере и обеспечивает основу для разработки статистических компонентов НЛП на Java. Он построен на Apache UIMA.
- NegEx - это инструмент, разработанный в Университете Питтсбурга для обнаружения отрицательных терминов в клиническом тексте. Система использует триггерные термины как метод определения вероятных сценариев отрицания в предложении.
- ConText ): расширение NegEx, также разработанное Питтсбургским университетом. ConText расширяет NegEx, чтобы не только обнаруживать отрицаемые концепции, но также находить временные (недавние, исторические или гипотетические сценарии) и то, кем является субъект (опыта) (пациент или другой).
- MetaMap (к Национальная медицинская библиотека США ): это комплексная система тегов, построенная на основе Единая система медицинского языка. Это требует активного Лицензионное соглашение UMLS Metathesaurus (и счет) для использования.
- МедЭкс - инструмент для извлечения информации о лекарствах из клинического текста. MedEx обрабатывает клинические записи с произвольным текстом для распознавания названий лекарств и сигнатурной информации, такой как доза, частота, способ введения и продолжительность лекарств. Использование бесплатно с лицензией UMLS. Это отдельное приложение для Linux и Windows.
- SecTag (иерархия тегов разделов): распознает заголовки разделов заметок с использованием методов NLP, байесовского, коррекции орфографии и оценки. Использование бесплатно с лицензией UMLS или LOINC.
- (Stanford Named Entity Recognizer (NER) ): NER Стэнфорда - это модель последовательности условных случайных полей вместе с хорошо спроектированными функциями распознавания именованных сущностей на английском и немецком языках.
- (Стэнфордский CoreNLP ) представляет собой интегрированный набор инструментов обработки естественного языка для английского языка в Java, включая токенизация, тегирование части речи, распознавание именованных сущностей, синтаксический анализ и сопоставление.