Контент-адресное хранилище - Content-addressable storage

Контент-адресное хранилище, также называемый адресное хранилище или сокращенно CAS, это способ хранить информацию, чтобы ее можно было извлечь на основе ее содержимого, а не местоположения. Он использовался для высокоскоростного хранения и поиск фиксированного содержимого, например документов, хранящихся в соответствии с государственными постановлениями. Контент-адресное хранилище похоже на память с адресацией по содержимому.

CAS и FCS

Content Addressable Storage (CAS) и Fixed Content Storage (FCS) - разные акронимы для одного и того же типа технологии. Оба предназначены для хранения данных, которые не изменяются за фиксированные периоды времени. CAS обычно использует криптографическая хеш-функция дайджест, созданный из документа для идентификации этого документа в системе хранения. Если хеш-функция является слабой, что означает, что разные входные данные в алгоритм хеширования могут привести к созданию одного и того же дайджеста, может возникнуть ситуация, когда разные документы сохранят один и тот же дайджест, используемый для их идентификации. Это демонстрирует потенциальную слабость использования хешей для дифференциации данных. Врожденная слабость примитивных алгоритмов хеширования становится проблемой при работе с невероятно большими хранилищами данных или когда данные, помещенные в такую ​​систему, могут быть созданы злонамеренно для использования этой слабости.

Адресация контента и адресация местоположения

По сравнению с хранилищем с адресной адресацией, типичное локальное или сетевое хранилище. устройство хранения упоминается как с адресом. В запоминающем устройстве с адресацией местоположения каждый элемент данных сохраняется на физическом носителе, а его местоположение записывается для последующего использования. На запоминающем устройстве часто хранится список или каталог этих мест. Когда будущий запрос делается для определенного элемента, запрос включает только местоположение (например, путь и имена файлов) данных. Затем запоминающее устройство может использовать эту информацию для поиска данных на физическом носителе и их извлечения. Когда новая информация записывается в устройство с адресом местоположения, она просто сохраняется в некотором доступном свободном пространстве, независимо от его содержимого. Информация в данном месте обычно может быть изменена или полностью перезаписана без каких-либо специальных действий со стороны запоминающего устройства.

В рамках этого обсуждения можно представить себе вышесказанное как адресный контейнер место хранения.

Напротив, когда информация хранится в системе CAS, система будет записывать адрес содержания, что является идентификатор однозначно и постоянно связаны с самим информационным содержанием. Запрос на получение информации из системы CAS должен предоставлять идентификатор контента, по которому система может определить физическое расположение данных и извлечь их. Поскольку идентификаторы основаны на содержимом, любое изменение элемента данных обязательно изменит его адрес содержимого. Почти во всех случаях устройство CAS не позволяет редактировать информацию после того, как она была сохранена. Возможность его удаления часто контролируется политикой.

История CAS

Аппаратное устройство под названием Хранилище файлов с адресным содержимым (CAFS). CAFS был разработан ICL в Великобритании в шестидесятых годах.[1] и British Telecom был одним из первых клиентов.[2] Разработан в шестидесятых годах [3] и доступный в 1970-х и 1980-х годах, он предоставлял дисковое хранилище с адресацией местоположения со встроенной функцией поиска. Логика поиска была встроена в контроллер диска, так что запрос, выраженный на языке запросов высокого уровня, мог быть скомпилирован в спецификацию поиска, которая затем отправлялась на контроллер диска для выполнения.

Хотя идея хранения с адресной адресацией не нова, системы производственного качества не были доступны примерно до 2003 года.[4] В середине 2004 года отраслевая группа SNIA начал работать с рядом поставщиков CAS для создания стандартных правил поведения и взаимодействия для систем CAS.[5]

Эффективность CAS

Хранилище CAS наиболее эффективно работает с данными, которые не часто меняются. Это представляет особый интерес для крупных организаций, которые должны соблюдать законы о хранении документов, такие как Сарбейнс-Оксли. В этих корпорациях большой объем документов будет храниться до десяти лет без изменений и нечастого доступа. CAS предназначен для очень быстрого поиска содержимого заданного документа и обеспечивает уверенность в том, что полученный документ идентичен изначально сохраненному. (Если бы документы были разными, их адреса содержимого были бы разными.) Кроме того, поскольку данные хранятся в системе CAS тем, что они содержат, никогда не бывает ситуации, когда в хранилище существует более одной копии идентичного документа. По определению, два идентичных документа имеют одинаковый адрес содержимого и, следовательно, указывают на одно и то же место хранения.

Для данных, которые часто меняются, CAS не так эффективен, как адресация на основе местоположения. В этих случаях устройству CAS необходимо будет постоянно пересчитывать адрес данных по мере его изменения, а клиентские системы будут вынуждены постоянно обновлять информацию о том, где существует данный документ. Для систем с произвольным доступом CAS также потребуется учитывать возможность расхождения двух изначально идентичных документов, что требует создания копии одного документа по запросу.

Типовая реализация

Пол Карпентье и Ян ван Риль придумали термин CAS, работая в компании FilePool в конце 1990-х. FilePool был приобретен в 2001 году и стал основой первой коммерчески доступной системы CAS, которая была представлена ​​как EMC Платформа Centera.[6] Система Centera CAS состоит из серии сетевых узлов (серверов 1U, работающих Linux ), разделенных между узлами хранения и узлами доступа. Узлы доступа поддерживают синхронизированный каталог адресов контента и соответствующий узел хранения, где можно найти каждый адрес. Когда появляется новый элемент данных или blob (Бинарный большой объект ), прибор рассчитывает хэш содержимого и возвращает этот хеш в качестве адреса содержимого большого двоичного объекта.[7] Как упоминалось выше, выполняется поиск по хешу, чтобы убедиться, что идентичный контент еще не присутствует. Если контент уже существует, устройству не нужно выполнять никаких дополнительных действий; адрес содержимого уже указывает на правильный контент. В противном случае данные передаются на узел хранения и записываются на физический носитель.

Когда устройству предоставляется адрес содержимого, оно сначала запрашивает у каталога физическое местонахождение указанного адреса содержимого. Затем информация извлекается из узла хранения, а фактический хэш данных пересчитывается и проверяется. Как только это будет завершено, устройство может предоставить запрашиваемые данные клиенту. В системе Centera каждый адрес содержимого фактически представляет собой несколько отдельных больших двоичных объектов данных, а также необязательные метаданные. Каждый раз, когда клиент добавляет дополнительный большой двоичный объект к существующему блоку содержимого, система пересчитывает адрес содержимого.

Чтобы обеспечить дополнительную безопасность данных, узлы доступа Centera, когда не выполняется операция чтения или записи, постоянно взаимодействуют с узлами хранения, проверяя наличие как минимум двух копий каждого большого двоичного объекта, а также их целостность. Кроме того, они могут быть настроены для обмена данными с другими, например вне офиса, система Centera, тем самым усиливая меры предосторожности против случайной потери данных.

У IBM есть другой вариант CAS, который может быть программным, Tivoli Storage Manager 5.3, или аппаратным, IBM DR550. Архитектура отличается тем, что основана на иерархическое управление хранилищем (HSM), который обеспечивает некоторую дополнительную гибкость, такую ​​как возможность поддержки не только ЧЕРВЬ диск, кроме ленты WORM, и перенос данных с диска WORM на ленту WORM и наоборот. Это обеспечивает дополнительную гибкость в ситуациях аварийного восстановления, а также возможность снизить затраты на хранение за счет перемещения данных с диска на ленту.

Еще одна типичная реализация - iCAS от iTernity. Концепция iCAS основана на контейнерах. К каждому контейнеру обращаются по его хэш-значению. Контейнер содержит разное количество документов с фиксированным содержанием. Контейнер не подлежит изменению, и хеш-значение фиксируется после процесса записи.

Реализации с открытым исходным кодом

Один из первых серверов хранения с адресной адресацией, Venti,[8] изначально был разработан для План 9 от Bell Labs и теперь также доступен для Unix-подобных систем как часть План 9 из пользовательского пространства.

Первым шагом к реализации CAS + с открытым исходным кодом является Twisted Storage.[9]

Хранилище файлов с минимальным доступом в Тахо это реализация CAS с открытым исходным кодом.

Git это пространство пользователя Файловая система CAS. Git в основном используется как система управления исходным кодом.

git-приложение - это распределенная система синхронизации файлов, которая использует адресное хранилище для файлов, которыми она управляет. Он полагается на Git и символические ссылки для индексации их расположения в файловой системе.

Проектные соты это открытый исходный код API для систем CAS.[10]

В XAM интерфейс был разработан под эгидой Промышленная ассоциация сетей хранения данных. Он предоставляет стандартный интерфейс для архивирования продуктов и проектов CAS (и подобных CAS).[11]

Perkeep - это недавний проект, призванный донести преимущества адресуемого хранилища до "масс". Он предназначен для использования в самых разных сценариях использования, включая распределенное резервное копирование; файловая система, созданная по умолчанию и управляемая версиями; и децентрализованный обмен файлами с контролируемыми разрешениями.

Ирмин - это OCaml «библиотека для постоянных хранилищ со встроенными механизмами моментальных снимков, ветвления и возврата»; те же принципы проектирования, что и Git.

Cassette - это реализация CAS с открытым исходным кодом для C # /. NET.[12]

Арвадос Keep - это распределенная система хранения с открытым исходным кодом, адресуемая по содержанию.[13] Он разработан для крупномасштабной вычислительно-ресурсоемкой работы в области науки о данных, такой как хранение и обработка геномных данных.

Infinit - это децентрализованная (одноранговая) платформа хранения с адресацией по содержанию, приобретенная компанией Докер Inc.

Межпланетная файловая система (IPFS) - это одноранговый протокол распространения гипермедиа с адресацией по содержимому.

Casync - это программная утилита Linux от Леннарта Поеттеринга для распространения часто обновляемых образов файловой системы через Интернет.[14]

Смотрите также

Рекомендации

  1. ^ Википедия, Хранилище файлов с адресным содержимым ", Википедия
  2. ^ Википедия, Хранилище файлов с адресным содержимым ", Википедия
  3. ^ Википедия, Хранилище файлов с адресным содержимым ", Википедия
  4. ^ Ежегодная техническая конференция USENIX 2003, Общий курс - Аннотация
  5. ^ CAS Промышленная стандартизация - XAM: http://www.snia.org/forums/xam
  6. ^ Контент-адресное хранилище - хранилище, как я его вижу Марк Ферелли, октябрь 2002 г., BNET.com
  7. ^ При создании хеш-значения содержимого файла хранилище с адресацией по содержимому использует алгоритмы хеширования., Крис Меллор, дата публикации: 9 декабря 2003 г., Techworld В архиве 28 сентября 2007 г. Wayback Machine Статья перенесена в https://www.techworld.com/data/making-a-hash-of-file-content-235/
  8. ^ «Venti: новый подход к архивному хранению». doc.cat-v.org. Получено 30 июн 2019.
  9. ^ «Витая память». twistedstorage.sourceforge.net. Получено 30 июн 2019.
  10. ^ «Архивная копия». Архивировано из оригинал 12 октября 2007 г.. Получено 1 октября 2007.CS1 maint: заархивированная копия как заголовок (связь)
  11. ^ «Спецификация интерфейса XAM (расширяемый метод доступа)».
  12. ^ Простая система хранения с адресацией по содержимому для .NET 4.5 и .NET Core: точка-платформа / кассета, Point Platform, 6 мая 2019 г., получено 30 июн 2019
  13. ^ «Держи - Арвадос». dev.arvados.org. Получено 30 июн 2019.
  14. ^ "Леннарт Поеттеринг анонсирует новый проект: casync - Phoronix". Фороникс.

внешняя ссылка