Apache Ignite - Apache Ignite
Оригинальный автор (ы) | Системы GridGain |
---|---|
Разработчики) | Фонд программного обеспечения Apache |
изначальный выпуск | 24 марта 2015 г. |
Стабильный выпуск | 2.9.0 / 27 мая 2020 г. |
Репозиторий | Ignite репозиторий |
Написано в | Ява, C #, C ++, SQL |
Операционная система | Кроссплатформенность |
Платформа | IA-32, x86-64, PowerPC, SPARC, Платформа Java, .NET Framework |
Тип | База данных, вычислительная платформа |
Лицензия | Лицензия Apache 2.0 |
Интернет сайт | зажигать |
Apache Ignite - это распределенная база данных с открытым исходным кодом (без последовательного обновления), платформа кэширования и обработки, предназначенная для хранения и вычисления больших объемов данных в кластере узлов.[1]
Ignite был открыт с исходным кодом Системы GridGain в конце 2014 г. и принят в Инкубатор Apache программа в том же году.[2][3] Проект Ignite завершился 18 сентября 2015 года.[3]
База данных Apache Ignite использует ОЗУ как уровень хранения и обработки по умолчанию, таким образом, принадлежащий классу вычисления в памяти платформы.[4] Уровень диска является необязательным, но после его включения будет содержать полный набор данных, тогда как уровень памяти[5] будет кэшировать полный или частичный набор данных в зависимости от его емкости.
Независимо от используемого API данные в Ignite хранятся в виде пар ключ-значение. Компонент базы данных масштабируется по горизонтали, распределяя пары ключ-значение по кластеру таким образом, чтобы каждый узел владел частью общего набора данных. Балансировка данных выполняется автоматически всякий раз, когда узел добавляется в кластер или удаляется из него.
В дополнение к своей распределенной основе Apache Ignite поддерживает различные API, включая JCache-совместимые API-интерфейсы "ключ-значение", ANSI-99 SQL с соединениями, КИСЛОТА транзакции, а также Уменьшение карты как вычисления.
Кластер Apache Ignite можно развернуть локально на обычном оборудовании в облаке (например, Microsoft Azure, AWS, Google Compute Engine ) или в контейнерных средах и средах подготовки, таких как Kubernetes, Докер, Apache Mesos, VMWare.[6][7]
Кластеризация
Компонент кластеризации Apache Ignite основан на общая архитектура. Узлы делятся на две основные категории - серверные и клиентские. Серверные узлы - это хранилища и вычислительные единицы кластера, которые содержат как данные, так и индексы и обрабатывают входящие запросы вместе с вычислениями. Узлы сервера также известны как узлы данных.[8]
Клиентские узлы - это точки подключения приложений и служб к распределенной базе данных, представленной кластером серверных узлов. Клиентские узлы обычно встраиваются в код приложения, написанный на Ява, C # или C ++ для которых разработаны специальные библиотеки.
Кроме того, Apache Ignite предоставляет ODBC,[9] JDBC[10] и ОСТАЛЬНЫЕ драйверы как способ работы с базой данных из других языков программирования или инструментов. Драйверы используют для связи с кластером либо клиентские узлы, либо низкоуровневые сокетные соединения.
Разбиение и репликация
База данных Ignite упорядочивает данные в виде пар ключ-значение в распределенных «кэшах» (понятие кеша используется по историческим причинам, поскольку изначально база данных поддерживала уровень памяти). Как правило, каждый кэш представляет один тип сущности, такой как сотрудник или организация.
Каждый кеш разделен на фиксированный набор «разделов», которые равномерно распределяются между узлами кластера с помощью рандеву хеширование алгоритм. Всегда существует одна основная и ноль или более резервных копий раздела. Количество копий настраивается с помощью параметра коэффициента репликации.[11] Если настроен режим полной репликации, то каждый узел кластера будет хранить копию раздела. Перебалансировка разделов[12] автоматически, если узел добавляется или удаляется из кластера, чтобы добиться равномерного распределения данных и распределения рабочей нагрузки.
Пары ключ-значение хранятся в разделах. Apache Ignite сопоставляет пару разделу, взяв значение ключа и передав его специальному хэш-функция.
Архитектура памяти
Архитектура памяти в Apache Ignite состоит из двух уровней хранения и называется «долговременной памятью». Внутри он использует пейджинг для управления пространством памяти и ссылки на данные,[13] аналогично виртуальная память таких систем, как Unix. Однако одно существенное различие между надежной архитектурой и архитектурой виртуальной памяти заключается в том, что первая всегда хранит весь набор данных с индексами на диске (при условии, что уровень диска включен), в то время как виртуальная память использует диск, когда у нее заканчивается ОЗУ, только для обмена.
Первый уровень архитектуры памяти, уровень памяти, хранит данные и индексы в ОЗУ из кучи Java в так называемые «области вне кучи». Регионы заранее распределяются и управляются базой данных самостоятельно, что предотвращает использование кучи Java для нужд хранилища и, как следствие, помогает избежать длительных пауз при сборке мусора. Регионы разделены на страницы фиксированного размера, в которых хранятся данные, индексы и системные метаданные.[14]
Apache Ignite полностью работает на уровне памяти, но всегда можно использовать второй уровень, уровень дисков, для долговечность. База данных имеет собственную персистентность и, кроме того, может использовать СУБД, NoSQL или Hadoop базы данных в качестве дискового уровня.
Родная настойчивость
Собственная персистентность Apache Ignite - это распределенное и строго согласованное дисковое хранилище, которое всегда содержит расширенный набор данных и индексов на диске. Уровень памяти [5] будет кэшировать только столько данных, сколько возможно, в зависимости от его емкости. Например, если имеется 1000 записей, а уровень памяти может вместить только 300 из них, тогда все 1000 будут сохранены на диске, и только 300 будут кэшированы в ОЗУ.
Настойчивость использует ведение журнала с упреждающей записью (WAL) для немедленного сохранения изменений данных на диске.[15] В фоновом режиме хранилище запускает «процесс контрольной точки», целью которого является копирование грязных страниц из уровня памяти в файлы раздела. Грязная страница - это страница, которая изменяется в памяти, причем изменение записывается в WAL, но не записывается в соответствующий файл раздела. Контрольная точка позволяет удалять устаревшие сегменты WAL с течением времени и сокращает время перезапуска кластера, воспроизводя только ту часть WAL, которая не была применена к файлам разделов.[16]
Сторонняя настойчивость
Собственная персистентность стала доступна начиная с версии 2.1.[17] До этого Apache Ignite поддерживал только сторонние базы данных в качестве дискового уровня.
Apache Ignite можно настроить как уровень в памяти поверх СУБД, NoSQL или Hadoop базы данных, ускоряющие последнее.[18] Однако есть некоторые ограничения по сравнению с исходным постоянством. Например, запросы SQL будут выполняться только для данных, которые находятся в ОЗУ, таким образом, требуя предварительной загрузки всего набора данных с диска в память.
Место подкачки
При использовании чистой памяти размер данных может превышать физический размер ОЗУ, что приводит к OOME. Чтобы избежать этого, идеальным подходом было бы включить постоянное сохранение Ignite или использовать стороннее сохранение. Однако, если вы не хотите использовать собственное или стороннее сохранение, вы можете включить подкачку, и в этом случае данные Ignite в памяти будут перемещены в пространство подкачки, расположенное на диске. Обратите внимание, что Ignite не предоставляет собственной реализации пространства подкачки. Вместо этого он использует функцию подкачки, предоставляемую операционной системой (ОС). Когда пространство подкачки включено, Ignites хранит данные в файлах с отображением памяти (MMF), содержимое которых будет выгружено на диск ОС в зависимости от текущего потребления ОЗУ.
Последовательность
Apache Ignite - это строго последовательный платформа, которая реализует протокол двухфазной фиксации.[19] Гарантии согласованности выполняются как для уровней памяти, так и для дисков. Транзакции в Apache Ignite ACID-совместимый и может охватывать несколько узлов и кешей кластера. База данных поддерживает пессимистичный и оптимистичный режимы параллелизма, тупик -бесплатные транзакции и методы обнаружения тупиков.
В сценариях, где транзакционные гарантии являются необязательными, Apache Ignite позволяет выполнять запросы в атомарном режиме, что обеспечивает лучшую производительность.
Распределенный SQL
Доступ к Apache Ignite можно получить, используя API SQL, предоставляемые через драйверы JDBC и ODBC, а также собственные библиотеки, разработанные для Ява, C #, C ++ языки программирования. И то и другое манипуляция данными и определение данных синтаксис языков соответствует ANSI-99 Технические характеристики.
Будучи распределенной базой данных, Apache Ignite поддерживает как распределенные, так и несложные присоединяется.[20] Когда данные размещены совместно, соединения выполняются для локальных данных узлов кластера, избегая перемещения данных по сети. Несовместимые соединения могут перемещать наборы данных по сети для подготовки согласованного набора результатов.
Машинное обучение
Apache Ignite обеспечивает обучение машинному обучению и функции вывода, а также предварительную обработку данных и оценку качества модели.[21] Он изначально поддерживает классические алгоритмы обучения, такие как Линейная регрессия, Деревья решений, Случайный лес, Повышение градиента, SVM, К-средние и другие. В дополнение к этому Apache Ignite имеет глубокую интеграцию с TensorFlow.[22] Эта интеграция позволяет обучать нейронные сети на данных, хранящихся в Apache Ignite, в одноузловой или распределенной манере.
Ключевая идея набора инструментов машинного обучения Apache Ignite - это способность мгновенно выполнять распределенное обучение и логический вывод без массивной передачи данных. Это основано на Уменьшение карты подход, устойчивый к сбоям узлов и перебалансировке данных, позволяет избежать передачи данных и, таким образом, ускоряет предварительную обработку и обучение модели.[23]
использованная литература
- ^ «Что такое Apache Ignite? - DZone Big Data». dzone.com. Получено 2017-11-02.
- ^ "Никита Иванов о вычислительной платформе Apache Ignite в оперативной памяти". InfoQ. Получено 2017-11-02.
- ^ а б «Статус зажигания - инкубатор Apache». incubator.apache.org. Получено 2017-11-02.
- ^ "Никита Иванов о вычислительной платформе Apache Ignite в оперативной памяти". InfoQ. Получено 2017-10-11.
- ^ а б «Apache Ignite Native Persistence, краткий обзор - DZone Big Data». dzone.com. Получено 2017-10-11.
- ^ «Развертывание Apache Ignite в Kubernetes в Microsoft Azure - DZone Cloud». dzone.com. Получено 2017-10-11.
- ^ «OLTP в памяти в реальном времени и аналитика с Apache Ignite на AWS | Amazon Web Services». Веб-сервисы Amazon. 2016-05-14. Получено 2017-10-11.
- ^ «Клиенты и серверы». apacheignite.readme.io. Получено 2017-10-11.
- ^ «Драйвер ODBC». apacheignite.readme.io. Получено 2017-10-11.
- ^ «Драйвер JDBC». apacheignite.readme.io. Получено 2017-10-11.
- ^ «Первичные и резервные копии». apacheignite.readme.io. Получено 2017-10-11.
- ^ «Ребалансировка данных». apacheignite.readme.io. Получено 2017-10-11.
- ^ «Apache Ignite 2.0: переработанная память вне кучи, DDL и машинное обучение: Apache Ignite». blogs.apache.org. Получено 2017-10-11.
- ^ «Архитектура памяти». apacheignite.readme.io. Получено 2017-10-11.
- ^ "Разжечь настойчивость". apacheignite.readme.io. Получено 2017-10-11.
- ^ «Разжечь настойчивость». apacheignite.readme.io. Получено 2017-10-11.
- ^ «Apache Ignite 2.1 - скачок от оперативной памяти к архитектуре, ориентированной на память: Apache Ignite». blogs.apache.org. Получено 2017-10-11.
- ^ «Apache Ignite для кэширования баз данных - база данных DZone». dzone.com. Получено 2017-10-11.
- ^ «Распространенные мысли». Получено 2017-10-11.
- ^ «Apache Ignite 1.7: Добро пожаловать в несложные распределенные соединения! - База данных DZone». dzone.com. Получено 2017-10-11.
- ^ "Машинное обучение". apacheignite.readme.io. Получено 2018-12-27.
- ^ «TensorFlow: интеграция с Apache Ignite». github.com. Получено 2018-12-27.
- ^ «Набор данных на основе разделов». apacheignite.readme.io. Получено 2018-12-27.