DataOps - DataOps

DataOps - это автоматизированная, ориентированная на процесс методология, используемая аналитиками и группами обработки данных, для улучшения качества и сокращения времени цикла аналитика данных. Хотя DataOps начинался как набор передовых методов, теперь он превратился в новый и независимый подход к аналитике данных.^[1] DataOps применяется ко всему жизненному циклу данных^[2] от подготовки данных до отчетности, и признает взаимосвязанный характер команды аналитики данных и операций в области информационных технологий.^[3]

DataOps включает в себя Гибкий методология сокращения времени цикла разработки аналитики в соответствии с бизнес-целями. ^[2]

DevOps фокусируется на непрерывной доставке за счет использования ИТ-ресурсов по запросу и автоматизации тестирования и развертывания программного обеспечения. Это слияние программного обеспечения разработка и это операции улучшила скорость, качество, предсказуемость и масштаб разработки и развертывания программного обеспечения. Заимствуя методы DevOps, DataOps стремится внести те же улучшения в аналитику данных.^[3]

DataOps использует Статистическое управление процессами (SPC) для мониторинга и управления конвейером анализа данных. При наличии SPC данные, проходящие через операционную систему, постоянно отслеживаются и проверяются на работоспособность. В случае возникновения аномалии группа аналитиков данных может быть уведомлена с помощью автоматического оповещения.^[4]

DataOps не привязан к конкретной технологии, архитектуре, инструменту, языку или структуре. Инструменты, поддерживающие DataOps, способствуют сотрудничеству, координации, качеству, безопасности, доступу и простоте использования.^[5]

История

Впервые DataOps был представлен Ленни Либманном, ответственным редактором InformationWeek, в записи блога на IBM Big Data & Analytics Hub под названием «3 причины, почему DataOps важны для успеха больших данных» 19 июня 2014 года.^[6] Термин DataOps позже популяризировал Энди Палмер из Tamr.^[3] DataOps - это прозвище «Операции с данными».^[2] 2017 год был важным годом для DataOps: значительным развитием экосистемы, охватом аналитиков, увеличением количества поисковых запросов по ключевым словам, опросами, публикациями и проектами с открытым исходным кодом.^[7] Gartner назвал DataOps участником цикла шумихи для управления данными в 2018 году.^[8]

Наследие DataOps от DevOps, Agile и производства

Цели и философия

По прогнозам, к 2025 году объем данных будет расти со среднегодовым темпом 32% до 180 зеттабайт (Источник: IDC).^[5] DataOps стремится предоставить инструменты, процессы и организационные структуры, чтобы справиться со значительным увеличением объема данных.^[5] Автоматизация упрощает повседневные потребности в управлении большими интегрированными базами данных, освобождая команду данных для разработки новой аналитики более эффективным и действенным способом.^[9]^[3] DataOps стремится повысить скорость, надежность и качество аналитики данных.^[10] Он подчеркивает связь, сотрудничество, интеграцию, автоматизацию, измерение и сотрудничество между специалисты по данным, аналитики, данные / ETL (извлечь, преобразовать, загрузить ) инженеры, информационные технологии (IT) и обеспечение качества / управление.

Выполнение

Тоф Уитмор из Blue Hill Research предлагает эти принципы лидерства DataOps для информационные технологии отделение:^[1]

«Устанавливайте показатели прогресса и производительности на каждом этапе потока данных. По возможности, сравните время цикла потока данных.
Определите правила для абстрактного семантического слоя. Убедитесь, что все «говорят на одном языке» и согласны с тем, что это за данные (и метаданные), а какие нет.
Подтвердите с помощью «теста глазного яблока»: включите циклы обратной связи от человека, ориентированные на постоянное улучшение. Потребители должны быть в состоянии доверять данным, а это может происходить только при дополнительной проверке.
Автоматизируйте как можно больше этапов потока данных, включая бизнес-аналитику, науку о данных и аналитику.
Используя информацию о производительности, определите узкие места и затем оптимизируйте их. Для этого могут потребоваться инвестиции в обычное оборудование или автоматизация этапа обработки данных, ранее выполнявшегося человеком.
Установите дисциплину управления, уделяя особое внимание двустороннему контролю данных, владению данными, прозрачности и всестороннему происхождение данных отслеживание всего рабочего процесса.
Процесс проектирования для роста и расширяемости. Модель потока данных должна быть разработана с учетом объема и разнообразия данных. Убедитесь, что цены на поддерживающие технологии доступны для масштабирования с ростом объемов корпоративных данных ».

DataOps - DataOps

Содержание

История

Цели и философия

Выполнение

Рекомендации