DataOps - DataOps
DataOps - это автоматизированная, ориентированная на процесс методология, используемая аналитиками и группами обработки данных, для улучшения качества и сокращения времени цикла аналитика данных. Хотя DataOps начинался как набор передовых методов, теперь он превратился в новый и независимый подход к аналитике данных.[1] DataOps применяется ко всему жизненному циклу данных[2] от подготовки данных до отчетности, и признает взаимосвязанный характер команды аналитики данных и операций в области информационных технологий.[3]
DataOps включает в себя Гибкий методология сокращения времени цикла разработки аналитики в соответствии с бизнес-целями. [2]
DevOps фокусируется на непрерывной доставке за счет использования ИТ-ресурсов по запросу и автоматизации тестирования и развертывания программного обеспечения. Это слияние программного обеспечения разработка и это операции улучшила скорость, качество, предсказуемость и масштаб разработки и развертывания программного обеспечения. Заимствуя методы DevOps, DataOps стремится внести те же улучшения в аналитику данных.[3]
DataOps использует Статистическое управление процессами (SPC) для мониторинга и управления конвейером анализа данных. При наличии SPC данные, проходящие через операционную систему, постоянно отслеживаются и проверяются на работоспособность. В случае возникновения аномалии группа аналитиков данных может быть уведомлена с помощью автоматического оповещения.[4]
DataOps не привязан к конкретной технологии, архитектуре, инструменту, языку или структуре. Инструменты, поддерживающие DataOps, способствуют сотрудничеству, координации, качеству, безопасности, доступу и простоте использования.[5]
История
Впервые DataOps был представлен Ленни Либманном, ответственным редактором InformationWeek, в записи блога на IBM Big Data & Analytics Hub под названием «3 причины, почему DataOps важны для успеха больших данных» 19 июня 2014 года.[6] Термин DataOps позже популяризировал Энди Палмер из Tamr.[3] DataOps - это прозвище «Операции с данными».[2] 2017 год был важным годом для DataOps: значительным развитием экосистемы, охватом аналитиков, увеличением количества поисковых запросов по ключевым словам, опросами, публикациями и проектами с открытым исходным кодом.[7] Gartner назвал DataOps участником цикла шумихи для управления данными в 2018 году.[8]
Цели и философия
По прогнозам, к 2025 году объем данных будет расти со среднегодовым темпом 32% до 180 зеттабайт (Источник: IDC).[5] DataOps стремится предоставить инструменты, процессы и организационные структуры, чтобы справиться со значительным увеличением объема данных.[5] Автоматизация упрощает повседневные потребности в управлении большими интегрированными базами данных, освобождая команду данных для разработки новой аналитики более эффективным и действенным способом.[9][3] DataOps стремится повысить скорость, надежность и качество аналитики данных.[10] Он подчеркивает связь, сотрудничество, интеграцию, автоматизацию, измерение и сотрудничество между специалисты по данным, аналитики, данные / ETL (извлечь, преобразовать, загрузить ) инженеры, информационные технологии (IT) и обеспечение качества / управление.
Выполнение
Тоф Уитмор из Blue Hill Research предлагает эти принципы лидерства DataOps для информационные технологии отделение:[1]
- «Устанавливайте показатели прогресса и производительности на каждом этапе потока данных. По возможности, сравните время цикла потока данных.
- Определите правила для абстрактного семантического слоя. Убедитесь, что все «говорят на одном языке» и согласны с тем, что это за данные (и метаданные), а какие нет.
- Подтвердите с помощью «теста глазного яблока»: включите циклы обратной связи от человека, ориентированные на постоянное улучшение. Потребители должны быть в состоянии доверять данным, а это может происходить только при дополнительной проверке.
- Автоматизируйте как можно больше этапов потока данных, включая бизнес-аналитику, науку о данных и аналитику.
- Используя информацию о производительности, определите узкие места и затем оптимизируйте их. Для этого могут потребоваться инвестиции в обычное оборудование или автоматизация этапа обработки данных, ранее выполнявшегося человеком.
- Установите дисциплину управления, уделяя особое внимание двустороннему контролю данных, владению данными, прозрачности и всестороннему происхождение данных отслеживание всего рабочего процесса.
- Процесс проектирования для роста и расширяемости. Модель потока данных должна быть разработана с учетом объема и разнообразия данных. Убедитесь, что цены на поддерживающие технологии доступны для масштабирования с ростом объемов корпоративных данных ».
Рекомендации
- ^ а б «DataOps - это секрет». www.datasciencecentral.com. Получено 2017-04-05.
- ^ а б c «Что такое DataOps (операции с данными)? - Определение с сайта WhatIs.com». SearchDataManagement. Получено 2017-04-05.
- ^ а б c d «От DevOps к DataOps, Энди Палмер - Tamr Inc». Tamr Inc. 2015-05-07. Получено 2017-03-21.
- ^ DataKitchen (07.03.2017). «Секреты бережливого производства, которые можно применить к аналитике данных». Средняя. Получено 2017-08-24.
- ^ а б c «Что такое DataOps? | Nexla: платформа масштабируемых операций с данными для эпохи машинного обучения». www.nexla.com. Получено 2017-09-07.
- ^ «3 причины, по которым DataOps важен для успеха больших данных». IBM Big Data & Analytics Hub. Получено 2018-08-10.
- ^ DataKitchen (19 декабря 2017 г.). «2017: Год DataOps». дата-операторы. Получено 2018-01-24.
- ^ «Gartner Hype Cycle для управления данными позиционирует три технологии на этапе запуска инноваций в 2018 году». Gartner. Получено 2019-07-19.
- ^ «5 тенденций, стимулирующих большие данные в 2017 году». CIO Dive. Получено 2017-09-07.
- ^ «Unravel Data улучшает управление производительностью приложений для больших данных». Тенденции и приложения баз данных. 2017-03-10. Получено 2017-09-07.