Вычисления с интенсивным использованием данных - Data-intensive computing

Вычисления с интенсивным использованием данных это класс параллельные вычисления приложения, использующие параллельные данные подход к обработке больших объемов данных обычно терабайты или же петабайты по размеру и обычно называется большое количество данных. Вычислительные приложения, которые посвящают большую часть своего времени выполнению вычислительным требованиям, считаются ресурсоемкими, тогда как вычислительные приложения, которые требуют больших объемов данных и посвящают большую часть своего времени обработки вводу-выводу и манипулированию данными, считаются ресурсоемкими.[1]

Вступление

Быстрый рост Интернет и Всемирная паутина привело к огромному количеству информации, доступной в Интернете. Кроме того, бизнес и государственные организации создают большие объемы как структурированных, так и неструктурированная информация которые необходимо обработать, проанализировать и связать. Винтон Серф описал это как «информационную лавину» и заявил, что «мы должны использовать энергию Интернета, прежде чем информация, которую он передает, похоронит нас».[2] An IDC Белая книга спонсируется Корпорация EMC по оценкам, объем информации, хранящейся в настоящее время в цифровой форме в 2007 году, составил 281 эксабайт, а общий совокупный темп роста - 57%, при этом объем информации в организациях растет еще более быстрыми темпами.[3] В исследовании 2003 года, посвященном так называемому информационному взрыву, было подсчитано, что 95% всей текущей информации существует в неструктурированной форме с повышенными требованиями к обработке данных по сравнению со структурированной информацией.[4] Хранение, управление, доступ и обработка этого огромного количества данных представляет собой фундаментальную потребность и огромную проблему для удовлетворения потребностей в поиске, анализе, добыче и визуализации этих данных как информации.[5] Для удовлетворения этой потребности предназначены вычисления с интенсивным использованием данных.

Параллельная обработка подходы можно в целом классифицировать как ресурсоемкий, или же ресурсоемкий.[6][7][8] Вычислительные ресурсы используются для описания прикладных программ с ограниченными вычислительными возможностями. Такие приложения тратят большую часть своего времени на выполнение вычислительных задач, а не на ввод-вывод, и обычно требуют небольших объемов данных. Параллельная обработка приложений с интенсивными вычислениями обычно включает распараллеливание отдельных алгоритмов в рамках процесса приложения и декомпозицию всего процесса приложения на отдельные задачи, которые затем могут выполняться параллельно на соответствующей вычислительной платформе для достижения общей более высокой производительности, чем последовательная обработка. В приложениях с интенсивными вычислениями одновременно выполняется несколько операций, каждая из которых решает определенную часть проблемы. Это часто называют задачей параллелизм.

Интенсивное использование данных используется для описания приложений, которые привязаны к вводу-выводу или которым необходимо обрабатывать большие объемы данных.[9] Такие приложения посвящают большую часть времени обработки вводу-выводу, перемещению и обработке данных. Параллельная обработка приложений с интенсивным использованием данных обычно включает разбиение или подразделение данных на несколько сегментов, которые могут обрабатываться независимо с использованием одной и той же исполняемой прикладной программы параллельно на соответствующей вычислительной платформе, а затем повторная сборка результатов для получения завершенных выходных данных.[10] Чем выше совокупное распределение данных, тем больше преимуществ дает параллельная обработка данных. Требования к интенсивной обработке данных обычно линейно масштабируются в соответствии с размером данных и легко поддаются прямому распараллеливанию. Фундаментальные проблемы для вычислений с интенсивным использованием данных - это управление и обработка экспоненциально растущих объемов данных, значительное сокращение связанных циклов анализа данных для поддержки практических и своевременных приложений и разработка новых алгоритмов, которые можно масштабировать для поиска и обработки огромных объемов данных. Исследователи придумали термин BORPS для «миллиардов записей в секунду» для измерения скорости обработки записей способом, аналогичным тому, как термин MIPS применяется для описания скорости обработки компьютеров.[11]

Параллелизм данных

Архитектура компьютерных систем, которая может поддерживать параллельные данные приложения были продвинуты в начале 2000-х годов для требований крупномасштабной обработки данных для интенсивных вычислений.[12] Параллелизм данных применяет вычисления независимо к каждому элементу данных в наборе данных, что позволяет масштабировать степень параллелизма с объемом данных. Самая важная причина для разработки приложений с параллельными данными - это возможность масштабирования производительности, которая может привести к увеличению производительности на несколько порядков. Ключевыми проблемами при разработке приложений с использованием параллелизма данных являются выбор алгоритма, стратегии декомпозиции данных, Балансировка нагрузки на узлах обработки, передача сообщений связь между узлами и общая точность результатов.[13] Разработка приложения с параллельными данными может включать значительную сложность программирования для определения проблемы в контексте доступных инструментов программирования и устранения ограничений целевой архитектуры. Извлечение информации Индексирование веб-документов и их индексирование типично для вычислений с интенсивным использованием данных, которые могут получить значительные преимущества в производительности за счет параллельных реализаций данных, поскольку веб-документы и другие типы коллекций документов обычно могут обрабатываться параллельно.[14]

Соединенные штаты Национальный фонд науки (NSF) финансировал исследовательскую программу с 2009 по 2010 год.[15] Основными направлениями были:

  • Подходы к параллельное программирование обратиться к параллельная обработка данных о системах с интенсивным использованием данных
  • Абстракции программирования, включая модели, языки и алгоритмы которые позволяют естественным образом выразить параллельную обработку данных
  • Разработка вычислительных платформ с интенсивным использованием данных для обеспечения высокого уровня надежности, эффективности, доступности и масштабируемости.
  • Выявление приложений, которые могут использовать эту вычислительную парадигму, и определение того, как она должна развиваться для поддержки появляющихся приложений с интенсивным использованием данных.

Национальные лаборатории Тихоокеанского Северо-Запада определила вычисления с интенсивным использованием данных как «сбор, управление, анализ и понимание данных с объемами и скоростью, которые расширяют границы современных технологий».[16][17]

Подход

Платформы для интенсивных вычислений обычно используют параллельные вычисления подход, объединяющий несколько процессоров и дисков в большой товар вычислительные кластеры подключены с помощью высокоскоростных коммуникационных коммутаторов и сетей, что позволяет разделять данные между доступными вычислительными ресурсами и обрабатывать их независимо для достижения производительности и масштабируемости в зависимости от объема данных. Кластер можно определить как тип параллельного и распределенная система, который состоит из набора взаимосвязанных автономных компьютеров, работающих вместе как единый интегрированный вычислительный ресурс.[18] Такой подход к параллельной обработке часто называют подходом «без общего доступа», поскольку каждый узел, состоящий из процессора, локальной памяти и дисковых ресурсов, не имеет ничего общего с другими узлами в кластере. В параллельные вычисления этот подход считается подходящим для вычислений с интенсивным использованием данных и проблем, которые «до неприличия параллельны», т. е. где относительно легко разделить проблему на несколько параллельных задач, и между задачами не требуется никакой зависимости или взаимодействия, кроме общего управления задач. Эти типы проблем обработки данных по своей сути могут быть адаптированы к различным формам распределенных вычислений включая кластеры, сетки данных и облачные вычисления.

Характеристики

Несколько общих характеристик вычислительных систем с интенсивным использованием данных отличают их от других форм вычислений:

  1. Принцип сбора данных и программ или алгоритмов используется для выполнения вычислений. Для достижения высокой производительности в вычислениях с интенсивным использованием данных важно минимизировать перемещение данных.[19] Эта характеристика позволяет алгоритмам обработки выполняться на узлах, где находятся данные, сокращая системные издержки и повышая производительность.[20] Новые технологии, такие как InfiniBand позволяют хранить данные в отдельном репозитории и обеспечивать производительность, сопоставимую с совместно размещенными данными.
  2. Используемая модель программирования. Вычислительные системы с интенсивным использованием данных используют машинно-независимый подход, в котором приложения выражаются в терминах высокоуровневых операций с данными, а система времени выполнения прозрачно контролирует планирование, выполнение, балансировку нагрузки, обмен данными и перемещение программ и данных через распределенный вычислительный кластер.[21] Абстракция программирования и языковые инструменты позволяют выражать обработку в терминах потоков данных и преобразований, включающих новый поток данных. языки программирования и общие библиотеки общих алгоритмов обработки данных, таких как сортировка.
  3. Акцент на надежность и доступность. Крупномасштабные системы с сотнями или тысячами узлов обработки по своей природе более восприимчивы к аппаратным сбоям, ошибкам связи и программным ошибкам. Вычислительные системы с интенсивным использованием данных спроектированы так, чтобы быть отказоустойчивыми. Обычно это включает в себя избыточные копии всех файлов данных на диске, хранение промежуточных результатов обработки на диске, автоматическое обнаружение узлов или сбоев обработки и выборочный повторный расчет результатов.
  4. Присущая масштабируемость базового оборудования и программная архитектура. Вычислительные системы с интенсивным использованием данных обычно можно масштабировать линейно для размещения практически любого объема данных или для удовлетворения критических по времени требований к производительности путем простого добавления дополнительных узлов обработки. Количество узлов и задач обработки, назначаемых для конкретного приложения, может быть переменным или фиксированным в зависимости от оборудования, программного обеспечения, связи и распределенная файловая система архитектура.

Системные архитектуры

Разнообразие система были реализованы архитектуры для интенсивных вычислений и крупномасштабных приложений анализа данных, включая параллельные и распределенные системы управления реляционными базами данных которые были доступны для работы на кластерах узлов обработки без общего доступа более двух десятилетий.[22] Однако наибольший рост данных происходит за счет данных в неструктурированной форме, и потребовались новые парадигмы обработки с более гибкими моделями данных. Появилось несколько решений, включая Уменьшение карты архитектура, впервые разработанная Google и теперь доступная в реализации с открытым исходным кодом под названием Hadoop использован Yahoo, Facebook, и другие. Решения рисков LexisNexis также разработала и внедрила масштабируемую платформу для интенсивных вычислений, которая используется LexisNexis.

Уменьшение карты

В Уменьшение карты архитектура и модель программирования, впервые разработанная Google представляет собой пример современной системной архитектуры, предназначенной для вычислений с большим объемом данных.[23] Архитектура MapReduce позволяет программистам использовать стиль функционального программирования для создания функции карты, которая обрабатывает пара "ключ-значение" связаны с входными данными для создания набора промежуточных пары ключ-значение, и функция сокращения, которая объединяет все промежуточные значения, связанные с одним и тем же промежуточным ключом. Поскольку система автоматически заботится о таких деталях, как разделение входных данных, планирование и выполнение задач в кластере обработки, а также управление связью между узлами, программисты, не имеющие опыта в параллельном программировании, могут легко использовать большую распределенную среду обработки.

Модель программирования для Уменьшение карты Архитектура - это простая абстракция, в которой вычисление берет набор входных пар ключ-значение, связанных с входными данными, и производит набор выходных пар ключ-значение. На этапе сопоставления входные данные разделяются на входные части и назначаются задачам сопоставления, связанным с узлами обработки в кластере. Задача сопоставления обычно выполняется на том же узле, который содержит назначенный раздел данных в кластере. Эти задачи карты выполняют указанные пользователем вычисления для каждой входной пары ключ-значение из раздела входных данных, назначенного задаче, и генерируют набор промежуточных результатов для каждого ключа. Затем на этапе перемешивания и сортировки промежуточные данные, сгенерированные каждой задачей Map, сортируются с промежуточными данными из других узлов, разделяются на регионы, которые будут обрабатываться задачами сокращения, и распределяются по мере необходимости между узлами, где параметр Reduce задачи будут выполнены. Задачи Reduce выполняют дополнительные заданные пользователем операции с промежуточными данными, возможно, объединяя значения, связанные с ключом, с меньшим набором значений для получения выходных данных. Для более сложных процедур обработки данных несколько вызовов MapReduce могут быть последовательно связаны друг с другом.

Hadoop

Apache Hadoop это проект программного обеспечения с открытым исходным кодом, спонсируемый The Фонд программного обеспечения Apache который реализует архитектуру MapReduce. Hadoop теперь включает несколько подпроектов в дополнение к базовому ядру, MapReduce и распределенной файловой системе HDFS. Эти дополнительные подпроекты предоставляют расширенные возможности обработки приложений для базовой реализации Hadoop и в настоящее время включают Avro, Свинья, HBase, Работник зоопарка, Улей, и Чуква. Архитектура Hadoop MapReduce функционально аналогична реализации Google, за исключением того, что базовым языком программирования для Hadoop является Ява вместо C ++. Реализация предназначена для работы на кластерах массовых процессоров.

Hadoop реализует среду планирования и выполнения распределенной обработки данных и среду для заданий MapReduce. Hadoop включает распределенную файловую систему HDFS, которая аналогична GFS в реализации Google MapReduce. Среда выполнения Hadoop поддерживает дополнительные возможности распределенной обработки данных, которые предназначены для работы с использованием архитектуры Hadoop MapReduce. К ним относятся HBase, распределенная база данных, ориентированная на столбцы, которая предоставляет возможности произвольного доступа для чтения / записи; Улей, который является хранилище данных система, построенная на основе Hadoop, которая обеспечивает SQL -подобные возможности запросов для суммирования данных, специальных запросов и анализа больших наборов данных; и Pig - высокоуровневый язык программирования потоков данных и среда выполнения для вычислений с интенсивным использованием данных.

Свинья был разработан в Yahoo! для предоставления обозначений на конкретном языке для приложений анализа данных, а также для повышения производительности труда программистов и сокращения циклов разработки при использовании среды Hadoop MapReduce. Программы Pig автоматически преобразуются в последовательности программ MapReduce, если это необходимо в среде выполнения. Pig предоставляет возможности языка для загрузки, хранения, фильтрации, группировки, исключения дубликатов, упорядочивания, сортировки, агрегации и объединения данных.[24]

HPCC

HPCC (High-Performance Computing Cluster) был разработан и внедрен LexisNexis Решения рисков. Разработка этой вычислительной платформы началась в 1999 году, а приложения были запущены в производство к концу 2000 года. В подходе HPCC также используются стандартные аппаратные кластеры, на которых работает Linux Операционная система. Специальное системное программное обеспечение и компоненты промежуточного программного обеспечения были разработаны и размещены на базовой операционной системе Linux для обеспечения среды выполнения и поддержки распределенной файловой системы, необходимых для вычислений с интенсивным использованием данных. LexisNexis также реализовал новый язык высокого уровня для вычислений с интенсивным использованием данных.

В Язык программирования ECL является декларативным, ориентированным на данные, неявно параллельный язык, который позволяет программисту определять, каким должен быть результат обработки данных, а также потоки данных и преобразования, необходимые для достижения результата. Язык ECL включает обширные возможности для определения данных, фильтрации, управления данными и преобразования данных, а также предоставляет обширный набор встроенных функций для работы с записями в наборах данных, которые могут включать определяемые пользователем функции преобразования. Программы ECL компилируются в оптимизированные C ++ исходный код, который впоследствии компилируется в исполняемый код и распространяется на узлы обрабатывающего кластера.

Для решения задач, связанных как с пакетными, так и с интерактивными приложениями, требующими обработки больших объемов данных, HPCC включает две отдельные кластерные среды, каждую из которых можно независимо оптимизировать для целей параллельной обработки данных. Платформа Thor - это кластер, целью которого является очистка данных для обработки огромных объемов необработанных данных для таких приложений, как очистка данных и гигиена, извлечь, преобразовать, загрузить (ETL), связывание записей а также разрешение сущностей, крупномасштабный специальный анализ данных и создание данных с ключами и индексов для поддержки высокопроизводительных структурированных запросов и приложений хранилищ данных. Система Thor по своей аппаратной конфигурации, функциям, среде выполнения, файловой системе и возможностям аналогична платформе Hadoop MapReduce, но обеспечивает более высокую производительность в эквивалентных конфигурациях. Платформа Roxie предоставляет онлайновую высокопроизводительную структурированную систему запросов и анализа или хранилище данных, обеспечивающую выполнение требований обработки параллельного доступа к данным для онлайновых приложений через интерфейсы веб-сервисов, поддерживающих тысячи одновременных запросов и пользователей со временем отклика менее секунды. Система Roxie по своим функциям и возможностям аналогична Hadoop с HBase и Улей добавлены возможности, но обеспечивает оптимизированную среду выполнения и файловую систему для высокопроизводительной онлайн-обработки. Системы Thor и Roxie используют один и тот же язык программирования ECL для реализации приложений, повышая производительность программистов.

Смотрите также

Рекомендации

  1. ^ Справочник по облачным вычислениям, «Технологии обработки данных для облачных вычислений», А.М. Миддлтон. Справочник по облачным вычислениям. Спрингер, 2010.
  2. ^ Информационная лавина, Винтон Серф, IEEE Computer, Vol. 40, No. 1, 2007, pp. 104-105.
  3. ^ Расширяющаяся цифровая вселенная В архиве 27 июня 2013 г. Wayback Machine Дж. Ф. Ганца, Д. Рейнселя, К. Чута, В. Шлихтинга, Дж. Макартура, С. Минтона, Дж. Ксенети, А. Тончева и А. Манфредиза, IDC, Белая книга, 2007.
  4. ^ Сколько информации? 2003 г., П. Лайман и Х.Р. Вариан, Калифорнийский университет в Беркли, Отчет об исследованиях, 2003 г.
  5. ^ Есть данные? Руководство по сохранению данных в век информации В архиве 2011-07-18 на Wayback Machine, Ф. Берман, Сообщения ACM, Vol. 51, № 12, 2008 г., стр. 50-56.
  6. ^ Модели и языки для параллельных вычислений, автор: Д. Skillicorn, D. Talia, ACM Computing Surveys, Vol. 30, No. 2, 1998, pp. 123-169.
  7. ^ Вычислительная техника в 21 веке[постоянная мертвая ссылка ]Авторы: I. Gorton, P. Greenfield, A. Szalay и R. Williams, IEEE Computer, Vol. 41, № 4, 2008 г., стр. 30-32.
  8. ^ Высокоскоростные, обширные и интенсивные вычисления: десятилетняя ретроспектива, автор W.E. Джонстон, Компьютерное общество IEEE, 1998.
  9. ^ IEEE: Аппаратные технологии для высокопроизводительных вычислений с интенсивным использованием данных Авторы M. Gokhale, J. Cohen, A. Yoo и W.M. Миллер, IEEE Computer, Vol. 41, № 4, 2008 г., стр. 60-68.
  10. ^ IEEE: методология проектирования приложений с параллельными данными В архиве 2011-07-24 на Wayback Machine, автор: Л.С. Ниланд, Дж. Ф. Принс, А. Голдберг, П. Х. Миллс, IEEE Transactions on Software Engineering, Vol. 26, No. 4, 2000, pp. 293-314.
  11. ^ Справочник по облачным вычислениям В архиве 2010-11-25 на Wayback Machine, «Технологии обработки данных для облачных вычислений», А.М. Миддлтон. Справочник по облачным вычислениям. Springer, 2010, стр. 83-86.
  12. ^ Терашкальный вызов Д. Равичандран, П. Пантел и Э. Хови. «Терамасштабный вызов», Труды семинара KDD по майнингу для семантической сети и из нее, 2004 г.
  13. ^ Динамическая адаптация к доступным ресурсам для параллельных вычислений в автономной сети рабочих станций В архиве 2011-07-20 на Wayback Machine У. Ренкузогуллари и С. Дваркадас. «Динамическая адаптация к доступным ресурсам для параллельных вычислений в автономной сети рабочих станций», Труды восьмого симпозиума ACM SIGPLAN по принципам и практике параллельного программирования, 2001 г.
  14. ^ Извлечение информации в большие коллекции документов Э. Агихтейн, "Масштабирование извлечения информации до больших коллекций документов", Microsoft Research, 2004 г.
  15. ^ «Интеллектуальные вычисления». Описание программы. NSF. 2009 г.. Получено 24 апреля 2017.
  16. ^ Обработка данных с интенсивным использованием данных пользователя PNNL. «Data Intensive Computing», 2008 г.
  17. ^ Меняющаяся парадигма вычислений с интенсивным использованием данных автор R.T. Кузес, Г.А. Андерсон, С. Эльберт, И. Гортон, Д.К. Грацио, "Меняющаяся парадигма вычислений с интенсивным использованием данных", Компьютер, Vol. 42, No. 1, 2009, pp. 26-3
  18. ^ Облачные вычисления и новые ИТ-платформы Р. Буйя, К.С. Йео, С. Венугопал, Дж. Броберг и И. Брандич, «Облачные вычисления и новые ИТ-платформы: видение, шумиха и реальность для предоставления вычислений в качестве 5-й утилиты», Future Generation Computer Systems, Vol. 25, No. 6, 2009, pp. 599-616.
  19. ^ Экономика распределенных вычислений Дж. Грей, "Экономика распределенных вычислений", ACM Queue, Vol. 6, № 3, 2008 г., стр. 63-68.
  20. ^ Вычислительная техника в 21 веке[постоянная мертвая ссылка ]Авторы: И. Гортон, П. Гринфилд, А. Салай и Р. Уильямс, IEEE Computer, Vol. 41, No. 4, 2008, pp. 30-32.
  21. ^ Масштабируемые вычисления с интенсивным использованием данных автор R.E. Брайант. «Масштабируемые вычисления с интенсивным использованием данных», 2008 г.
  22. ^ Сравнение подходов к анализу крупномасштабных данных А. Павло, Э. Полсон, А. Расин, Д.Дж. Абади, Д.Дж. Девитт, С. Мэдден и М. Стоунбрейкер. Материалы 35-й Международной конференции SIGMOD по управлению данными, 2009 г.
  23. ^ MapReduce: упрощенная обработка данных в больших кластерах В архиве 2009-12-23 в Wayback Machine Дж. Дина и С. Гемавата. Труды Шестого симпозиума по проектированию и реализации операционных систем (OSDI), 2004 г.
  24. ^ как первоклассный гражданин Свиной латынь: не очень иностранный язык для обработки данных В архиве 2011-07-20 на Wayback Machine Ч. Олстон, Б. Рид, У. Шривастава, Р. Кумар и А. Томкинс. (Презентация на SIGMOD 2008), «2008 г.