Пилот трубопровода - Pipeline Pilot
Эта статья поднимает множество проблем. Пожалуйста помоги Улучши это или обсудите эти вопросы на страница обсуждения. (Узнайте, как и когда удалить эти сообщения-шаблоны) (Узнайте, как и когда удалить этот шаблон сообщения)
|
Разработчики) | Accelrys |
---|---|
изначальный выпуск | 1999 |
Стабильный выпуск | 18.1 / мая 2018 |
Написано в | C ++ |
Операционная система | Windows и Linux |
Тип | Визуальный и поток данных язык программирования |
Лицензия | Проприетарный |
Интернет сайт | акселераторы |
Пилот трубопровода это программа для настольных ПК, продаваемая Dassault Systèmes для обработки и анализа данных. Первоначально используемый в естественных науках, базовый ETL продукта (Извлечь, преобразовать, загрузить ) и расширены возможности аналитики. Продукт теперь используется для наука о данных, ETL, отчетность, прогнозирование и аналитика в ряде секторов. Основная особенность продукта - возможность проектировать рабочие процессы с данными с помощью графического пользовательского интерфейса. Программа является примером визуальный и поток данных программирование. Он используется в различных настройках, таких как хеминформатика и QSAR,[1][2][3] Секвенирование следующего поколения,[4] анализ изображений,[5][6] и текстовая аналитика.[7]
История
Продукт создан SciTegic. БИОВИЯ впоследствии приобрела SciTegic и Pipeline Pilot в 2004 году. Сама компания BIOVIA была куплена Dassault Systèmes в 2014 году. Продукт расширился с начального акцента на химии, чтобы включить общие возможности извлечения, преобразования и загрузки (ETL). Помимо базового продукта, Dassault добавила аналитические коллекции и коллекции для обработки данных для создания отчетов, визуализации данных и для ряда научных и инженерных секторов. В настоящее время продукт используется для ETL, аналитики и машинного обучения в химической, энергетической, потребительской, аэрокосмической, автомобильной и электронной промышленности.
Обзор
Pipeline Pilot - это часть класса программных продуктов, которые предоставляют пользовательские интерфейсы для управления и анализа данных. Pipeline Pilot и аналогичные продукты позволяют пользователям с ограниченными возможностями программирования или без них преобразовывать наборы данных и управлять ими. Обычно это предшествует проведению анализа данных. Как и другие графические продукты ETL, он позволяет пользователям извлекать данные из различных источников, таких как файлы CSV, текстовые файлы и базы данных.
Компоненты, конвейеры, протоколы и записи данных
В графический интерфейс пользователя, который называется Pipeline Pilot Professional Client, позволяет пользователям перетаскивать отдельные блоки обработки данных, называемые «компонентами». Компоненты могут загружать, фильтровать, объединять или манипулировать данными. Компоненты также могут выполнять гораздо более сложные операции с данными, такие как построение регрессионных моделей, обучение нейронных сетей или обработка наборов данных в отчеты в формате PDF.
Pipeline Pilot реализует Составные части парадигма. Компоненты представлены в виде узлов в рабочем процессе. В математическом смысле компоненты моделируются как узлы в ориентированный граф: «трубы» (ребра графа) соединяют компоненты и перемещают данные от узла к узлу, где с данными выполняются операции. У пользователей есть выбор: использовать предопределенные компоненты или разрабатывать свои собственные. Для помощи в отраслевых приложениях, таких как секвенирование следующего поколения (см. Методы высокопроизводительного секвенирования (HTS) ), BIOVIA разработала компоненты, которые значительно сокращают время, необходимое пользователям для выполнения типичных отраслевых задач.
Пользователи могут выбирать из предварительно установленных компонентов или создавать свои собственные компоненты в рабочих процессах, называемых «протоколами». Протоколы - это наборы связанных компонентов. Протоколы можно сохранять, повторно использовать и делиться ими. Пользователи могут смешивать и сопоставлять компоненты, поставляемые с программным обеспечением от BIOVIA, со своими собственными пользовательскими компонентами. Соединения между двумя компонентами называются «трубами» и визуализируются в программном обеспечении как два компонента, соединенных трубой. Конечные пользователи разрабатывают свои рабочие процессы / протоколы, а затем выполняют их, запустив протокол. Данные передаются слева направо по трубам.
Современный анализ и обработка данных может включать в себя очень большое количество манипуляций и преобразований. Одной из основных особенностей Pipeline Pilot является возможность визуально конденсировать длинную серию манипуляций с данными, которые включают множество компонентов. Рабочий процесс любой длины можно визуально сжать в компонент, который используется в рабочем процессе высокого уровня. Это означает, что протокол можно сохранить и использовать как компонент в другом протоколе. В терминологии, используемой в Pipeline Pilot, протоколы, которые используются в качестве компонентов в других протоколах, называются «подпротоколами». Это позволяет пользователям добавлять уровни сложности к своим рабочим процессам обработки и обработки данных, а затем скрывать эту сложность, чтобы они могли проектировать рабочий процесс на более высоком уровне абстракции.
Коллекции компонентов
Pipeline Pilot имеет ряд надстроек, называемых «коллекциями». Коллекции - это группы специализированных функций, таких как обработка генетической информации или анализ полимеров, предлагаемых конечным пользователям за дополнительную плату за лицензию. В настоящее время существует несколько таких коллекций.[8]
Группа | Домен | Сбор компонентов |
---|---|---|
Специально для науки | Химия | Химия |
ADMET | ||
Хеминформатика | ||
Биология | Экспрессия гена | |
Анализ последовательности | ||
Масс-спектрометрия для протеомики | ||
Секвенирование следующего поколения | ||
Моделирование материалов и симуляция | Студия материалов | |
Свойства полимера (Synthia) | ||
Универсальный | Отчетность и визуализация | Составление отчетов |
Интеграция базы данных и приложений | Интеграция | |
Изображения | Изображения | |
Анализ и статистика | Моделирование данных | |
Расширенное моделирование данных | ||
R Статистика | ||
Поиск и анализ документов | Химический анализ текста | |
Текстовая аналитика | ||
Лаборатория | Аналитика данных планшета | |
Аналитическое оборудование |
Учитывая количество различных надстроек, предлагаемых в настоящее время BIOVIA, варианты использования Pipeline Pilot очень широки, и их сложно кратко описать. Продукт использовался в:
- Профилактическое обслуживание
- Анализ изображения, например определение ингибирующего действия вещества на биологические процессы (IC50 ) путем расчета зависимость доза-реакция непосредственно из информации, извлеченной из высококонтентный просмотр изображения анализа, связанные с разбавлением в пластина информация о макете и химическом составе тестируемых соединений (визуализация, химия, аналитика данных планшета)
- А рекомендательная система для научной литературы на основе байесовской модели, построенной с использованием отпечаток пальца список чтения или рейтинг статей пользователя
- Доступ к методам экспериментов и результатам из электронный лабораторный ноутбук или же система управления лабораторной информацией, с итоговыми отчетами для ресурса планирование мощности
PilotScript и пользовательские скрипты
Как и другие решения ETL и аналитики, Pipeline Pilot часто используется при обработке одного или нескольких больших (1 ТБ +) и / или сложных наборов данных. В таких ситуациях конечные пользователи могут захотеть использовать написанные ими сценарии программирования. На раннем этапе разработки Pipeline Pilot создал упрощенный и урезанный язык сценариев под названием PilotScript, который позволял конечным пользователям легко писать базовые сценарии программирования, которые можно было бы включить в протокол Pipeline Pilot. В более поздних выпусках расширенная поддержка множества языков программирования, включая Python, .СЕТЬ, Matlab, Perl, SQL, Ява, VBScript и р.[9]
Синтаксис PilotScript основан на PLSQL. Его можно использовать в таких компонентах, как Пользовательский манипулятор (PilotScript) или Пользовательский фильтр (PilotScript). В качестве примера можно использовать следующий сценарий для добавления свойства с именем «Hello» к каждой записи, проходящей через настраиваемый компонент сценария в протоколе Pipeline Pilot. Значением свойства является строка «Hello World!».
Привет := "Привет, мир!";
В настоящее время продукт поддерживает ряд API-интерфейсов для различных языков программирования, которые могут выполняться без графического пользовательского интерфейса программы.
Рекомендации
- ^ Хасан, Мойзес; Браун, Роберт Д .; Варма-О'Брайен, Шиха; Роджерс, Дэвид (2007). "Химинформатика анализа и обучения в среде конвейерной обработки данных". ХимИнформ. 38 (12). Дои:10.1002 / подбородок.200712278. ISSN 0931-7597.
- ^ Ху, Е; Лункин, Евгений; Баджорат, Юрген (2009). «Повышение эффективности поиска отпечатков расширенных возможностей подключения за счет фильтрации функций, ориентированных на деятельность, и применения функции сходства, зависящей от битовой плотности». ChemMedChem. 4 (4): 540–548. Дои:10.1002 / cmdc.200800408. ISSN 1860-7179. PMID 19263458.
- ^ Уорр, Венди А. (2012). «Системы научного документооборота: Pipeline Pilot и KNIME». Журнал компьютерного молекулярного дизайна. 26 (7): 801–804. Bibcode:2012JCAMD..26..801W. Дои:10.1007 / s10822-012-9577-7. ISSN 0920-654X. ЧВК 3414708. PMID 22644661.
- ^ «Accelrys выходит на рынок секвенирования нового поколения с коллекцией NGS для пилотного проекта». Деловой провод. 2011-02-23. Получено 15 февраля 2013.
- ^ Рабаль, Обдулия; Линк, Вольфганг; Г. Серелде, Беатрис; Бишофф, Джеймс Р .; Оярзабал, Джулен (2010). «Интегрированная одноэтапная система для извлечения, анализа и аннотирования всей релевантной информации из скрининга клеток химических библиотек на основе изображений». Молекулярные биосистемы. 6 (4): 711–20. Дои:10.1039 / b919830j. ISSN 1742-206X. PMID 20237649.
- ^ Павли, Росс А .; Mansour, Nuha R .; Холлибертон, Ирэн; Bleicher, Leo S .; Бенн, Алекс Э .; Микич, Ивана; Гуиди, Алессандра; Гилберт, Ян Х .; Хопкинс, Эндрю Л .; Бикл, Квентин Д. (2012). «Скрининг всего организма с высоким содержанием паразитарных заболеваний на основе безмаркированной байесовской классификации на основе изображений». PLoS забытые тропические болезни. 6 (7): e1762. Дои:10.1371 / journal.pntd.0001762. ISSN 1935-2735. ЧВК 3409125. PMID 22860151.
- ^ Веллай, С. Г.; Латимер, NE; Пайлард, G (2009). «Интерактивный анализ текста с помощью Pipeline Pilot: библиографический веб-инструмент для PubMed». Мишени для лекарств от инфекционных заболеваний. 9 (3): 366–74. Дои:10.2174/1871526510909030366. PMID 19519489.
- ^ «Коллекции пилотных компонентов трубопровода». Accelrys. Архивировано из оригинал 15 января 2013 г.. Получено 26 января 2013.
- ^ «Лист данных по сбору компонентов интеграции пилотного трубопровода» (PDF). Accelrys. Получено 8 февраля 2013.