Высокая доступность - High availability

Высокая доступность (HA) является характеристикой системы, которая направлена ​​на обеспечение согласованного уровня эксплуатационных характеристик, обычно время безотказной работы, в течение более длительного периода времени.

Модернизация привела к увеличению зависимости от этих систем. Например, больницам и центрам обработки данных требуется высокая доступность их систем для выполнения рутинных повседневных действий. Доступность относится к способности сообщества пользователей получить услугу или товар, получить доступ к системе, отправить ли новую работу, обновить или изменить существующую работу или собрать результаты предыдущей работы. Если пользователь не может получить доступ к системе, это - с точки зрения пользователя - недоступен.[1] Обычно термин время простоя используется для обозначения периодов, когда система недоступна.

Принципы

Есть три принципа проектирование систем в инженерия надежности что может помочь в достижении высокой доступности.

  1. Устранение единые точки отказа. Это означает добавление или создание избыточности в системе, чтобы отказ компонента не означал отказ всей системы.
  2. Надежный кроссовер. В резервные системы, точка пересечения имеет тенденцию становиться единственной точкой отказа. Надежные системы должны обеспечивать надежный кроссовер.
  3. Обнаружение отказов по мере их возникновения. Если соблюдаются два вышеуказанных принципа, то пользователь может никогда не увидеть сбоя, но действия по обслуживанию должны это сделать.

Запланированные и внеплановые простои

Можно различать запланированные и внеплановые время простоя. Обычно запланированный простой является результатом поддержание это нарушает работу системы, и обычно этого нельзя избежать при установленной в настоящее время конструкции системы. Запланированные события простоя могут включать исправления для программное обеспечение что требует перезагрузка или изменения конфигурации системы, которые вступают в силу только после перезагрузки. Как правило, запланированное время простоя обычно является результатом какого-либо логического события, инициированного руководством. Незапланированные простои обычно возникают из-за какого-либо физического события, такого как аппаратный или программный сбой или аномалия окружающей среды. Примеры незапланированных простоев включают отключение электроэнергии, сбой ЦПУ или же баран компоненты (или, возможно, другие отказавшие аппаратные компоненты), отключение, связанное с перегревом, логически или физически разорванные сетевые соединения, нарушения безопасности или различные заявление, промежуточное ПО, и Операционная система неудачи.

Если пользователей можно предупредить о запланированных простоях, то это различие полезно. Но если требуется по-настоящему высокая доступность, то простои - это простои, независимо от того, запланированы они или нет.

Многие вычислительные сайты исключают запланированные простои из расчетов доступности, предполагая, что они мало или совсем не влияют на сообщество пользователей компьютеров. Поступая так, они могут утверждать, что обладают феноменально высокой доступностью, что может создать иллюзию постоянная доступность. Системы, которые демонстрируют действительно непрерывную доступность, сравнительно редки и стоят дороже, и в большинстве из них реализованы специальные конструкции, исключающие любые единая точка отказа и разрешить онлайн-обновления, исправления и замены оборудования, сети, операционной системы, промежуточного программного обеспечения и приложений. Для некоторых систем запланированное время простоя не имеет значения, например, простой в офисном здании после того, как все ушли домой на ночь.

Расчет процентов

Доступность обычно выражается как процент времени безотказной работы за определенный год. В следующей таблице показано время простоя, которое будет разрешено для определенного процента доступности, исходя из предположения, что система должна работать непрерывно. Соглашения об уровне обслуживания часто ссылаются на ежемесячный простой или доступность, чтобы рассчитать кредиты на обслуживание в соответствии с ежемесячными платежными циклами. В следующей таблице показано преобразование заданного процента доступности в соответствующее количество времени, в течение которого система будет недоступна.

Доступность %Время простоя в год[примечание 1]Время простоя в месяцВремя простоя в неделюВремя простоя в день
90% («одна девятка»)36,53 дней73.05 часов16.80 часов2,40 часов
95% («полторы девятки»)18.26 дней36,53 часов8.40 часов1,20 часов
97%10.96 дней21.92 часов5,04 часов43,20 мин.
98%7.31 дней14,61 часов3,36 часов28,80 минут
99% («две девятки»)3.65 дней7.31 часов1,68 часов14,40 мин.
99,5% («две с половиной девятки»)1.83 дней3.65 часов50,40 минут7.20 минут
99.8%17,53 часов87,66 мин.20,16 мин.2,88 мин.
99,9% («три девятки»)8,77 часов43,83 мин.10.08 мин.1,44 мин.
99,95% («три с половиной девятки»)4.38 часов21,92 мин.5,04 мин.43.20 секунды
99,99% («четыре девятки»)52,60 минут4.38 минут1.01 мин.8,64 секунды
99,995% ("четыре с половиной девятки")26.30 минут2,19 мин.30,24 секунды4,32 секунды
99,999% («пять девяток»)5.26 минут26.30 секунд6,05 секунды864.00 миллисекунды
99,9999% («шесть девяток»)31,56 секунды2,63 секунды604,80 миллисекунд86,40 миллисекунды
99,99999% («семь девяток»)3,16 секунды262.98 миллисекунд60,48 миллисекунд8,64 миллисекунды
99,999999% («восемь девяток»)315,58 миллисекунд26,30 миллисекунд6,05 миллисекунды864.00 микросекунды
99,9999999% («девять девяток»)31,56 миллисекунды2,63 миллисекунды604,80 микросекунд86,40 микросекунд

Время безотказной работы и доступность могут использоваться как синонимы, если обсуждаемые вопросы согласованы. То есть система может работать, но ее услуги недоступны, как в случае с отключение сети. Это также можно рассматривать как систему, над которой можно работать, но ее услуги не улучшаются с функциональной точки зрения (в отличие от программных услуг / процессов). Здесь важна перспектива - является ли обсуждаемый элемент серверным оборудованием, серверной ОС, функциональной службой, программной службой / процессом и т. Д. Сохраняйте единство точки зрения на протяжении всего обсуждения, тогда время безотказной работы и доступность можно использовать как синонимы.

"Девятки"

Проценты определенного порядка иногда называют количество девяток или «класс девяток» в цифрах. Например, электричество, которое доставляется без перебоев (затемнения, отключение или же всплески ) В 99,999% случаев надежность будет равна 5 девяткам или пятому классу.[2] В частности, этот термин используется в связи с мэйнфреймы[3][4] или корпоративные вычисления, часто как часть соглашение об уровне обслуживания.

Точно так же проценты, оканчивающиеся на 5, имеют общепринятые названия, обычно это количество девяток, затем «пять», поэтому 99,95% - это «три девятки пять», сокращенно 3N5.[5][6] Это небрежно называют "три с половиной девятки",[7] но это неверно: 5 - это только коэффициент 2, а 9 - коэффициент 10, поэтому 5 составляет 0,3 девятки (по формуле ниже: ):[заметка 2] Доступность 99,95% составляет 3,3 девятки, а не 3,5 девятки.[8] Проще говоря, переход от доступности 99,9% к доступности 99,95% - это коэффициент 2 (недоступность от 0,1% до 0,05%), а переход от доступности 99,95% до 99,99% - коэффициент 5 (недоступность от 0,05% до 0,01%), более вдвое больше.[заметка 3]

Формулировка класс 9 на основе системы недоступность было бы

(ср. Функции пола и потолка ).

А подобное измерение иногда используется для описания чистоты веществ.

В общем, число девяток не часто используется сетевым инженером при моделировании и измерении доступности, поскольку его трудно применить в формуле. Чаще недоступность выражается как вероятность (например, 0,00001) или время простоя в год. Доступность, указанная как число девяток, часто встречается в маркетинг документы.[нужна цитата ] Использование «девяток» было поставлено под сомнение, поскольку оно не отражает надлежащим образом, что влияние недоступности зависит от времени его возникновения.[9] Для большого количества 9 с индекс «недоступности» (показатель времени простоя, а не времени безотказной работы) легче обрабатывать. Например, именно поэтому на жестком диске или в канале передачи данных используется показатель «недоступность», а не показатель доступности. частота ошибок по битам.

Измерение и интерпретация

Измерение доступности подлежит некоторой интерпретации. Систему, работавшую 365 дней в невисокосный год, мог затмить сбой сети, который длился 9 часов в период пиковой нагрузки; сообщество пользователей увидит систему как недоступную, а системный администратор потребует 100% время безотказной работы. Однако, учитывая истинное определение доступности, система будет доступна примерно на 99,9%, или три девятки (8751 час времени доступности из 8760 часов за невисокосный год). Кроме того, системы, испытывающие проблемы с производительностью, часто считаются частично или полностью недоступными для пользователей, даже когда системы продолжают функционировать. Точно так же недоступность некоторых функций приложения может остаться незамеченной администраторами, но иметь разрушительные последствия для пользователей - истинная мера доступности носит целостный характер.

Доступность должна быть измерена для определения, в идеале с помощью комплексных инструментов мониторинга («инструментовки»), которые сами по себе являются высокодоступными. При отсутствии инструментов, системы, поддерживающие обработку больших объемов транзакций в течение дня и ночи, такие как системы обработки кредитных карт или телефонные коммутаторы, часто по своей природе лучше контролируются, по крайней мере, самими пользователями, чем системы, которые испытывают периодические затишья. требовать.

Альтернативная метрика среднее время наработки на отказ (Среднее время безотказной работы).

Тесно связанные концепции

Время восстановления (или расчетное время ремонта (ETR), также известное как цель времени восстановления (RTO) тесно связано с доступностью, то есть общим временем, необходимым для планового отключения или временем, необходимым для полного восстановления после незапланированного отключения. Другой показатель - среднее время до выздоровления (MTTR). Время восстановления может быть бесконечным при определенных конструкциях системы и сбоях, т.е. полное восстановление невозможно. Одним из таких примеров является пожар или наводнение, которое разрушает центр обработки данных и его системы, когда нет вторичного аварийное восстановление Дата центр.

Еще одна связанная концепция: доступность данных, это степень, в которой базы данных и другие системы хранения информации достоверно регистрируют и сообщают системные транзакции. Управление информацией часто фокусируется отдельно на доступности данных или Цель точки восстановления, чтобы определить приемлемый (или фактический) потери данных с различными сбоями. Некоторые пользователи могут терпеть перебои в работе службы приложений, но не переносят потерю данных.

А соглашение об уровне обслуживания («SLA») формализует цели и требования доступности организации.

Системы военного управления

Высокая доступность - одно из основных требований Системы управления в беспилотные автомобили и автономные морские суда. Если система управления становится недоступной, Наземная боевая машина (GCV) или Беспилотное судно непрерывного следа ASW (ACTUV) будет потеряно.

Системный дизайн

Добавление дополнительных компонентов в общий дизайн системы может подорвать усилия по достижению высокой доступности, поскольку сложные системы по своей природе имеют больше потенциальных точек отказа, и их труднее правильно реализовать. Хотя некоторые аналитики выдвигают теорию о том, что наиболее высокодоступные системы придерживаются простой архитектуры (единой, высококачественной, многоцелевой физической системы с полным внутренним аппаратным резервированием), эта архитектура страдает от требования, что вся система должна быть сброшен для установки исправлений и обновления операционной системы. Более совершенная конструкция системы позволяет исправлять и обновлять системы без ущерба для доступности услуг (см. Балансировка нагрузки и аварийное переключение ).

Высокая доступность требует меньшего вмешательства человека для восстановления работы сложных систем; Причина в том, что наиболее частой причиной отключений является человеческий фактор.[10]

Резервирование используется для создания систем с высоким уровнем доступности (например, бортовых компьютеров самолетов). В этом случае требуется высокий уровень обнаруживаемости отказов и предотвращения отказов по общей причине. Два вида резервирования: пассивное резервирование и активное резервирование.

Пассивное резервирование используется для достижения высокой доступности за счет включения в проект достаточной избыточной емкости для компенсации снижения производительности. Самый простой пример - это лодка с двумя отдельными двигателями, приводящими в движение два отдельных гребных винта. Судно продолжает движение к месту назначения, несмотря на отказ одного двигателя или гребного винта. Более сложный пример - несколько резервированных объектов производства электроэнергии в большой системе, включающей передача электроэнергии. Неисправность отдельных компонентов не считается отказом, если результирующее снижение производительности не превышает пределы спецификации для всей системы.

Активное резервирование используется в сложных системах для достижения высокой доступности без снижения производительности. Несколько элементов одного и того же типа включены в проект, который включает метод обнаружения сбоя и автоматического перенастройки системы для обхода сбойных элементов с помощью схемы голосования. Это используется со сложными вычислительными системами, которые связаны. Интернет маршрутизация происходит из ранних работ Бирмана и Джозефа в этой области.[11] Активное резервирование может привести к более сложным режимам отказа в системе, таким как непрерывная реконфигурация системы из-за неправильной логики голосования.

Конструкция системы с нулевым временем простоя означает, что моделирование и симуляция показывают среднее время наработки на отказ значительно превышает период времени между плановое обслуживание, Обновить события или время жизни системы. Нулевое время простоя предполагает массивное резервирование, которое требуется для некоторых типов самолетов и для большинства типов спутники связи. спутниковая система навигации является примером системы с нулевым временем простоя.

Вина приборы может использоваться в системах с ограниченным резервированием для достижения высокой доступности. Действия по техническому обслуживанию выполняются в течение коротких периодов простоя только после срабатывания индикатора неисправности. Отказ имеет значение, только если он происходит во время критически важный период.

Моделирование и симуляция используется для оценки теоретической надежности больших систем. Результат такой модели используется для оценки различных вариантов дизайна. Создается модель всей системы, и модель подвергается нагрузке путем удаления компонентов. Моделирование избыточности включает N-x критериев. N представляет собой общее количество компонентов в системе. x - количество компонентов, используемых для напряжения системы. N-1 означает, что модель подвергается стрессу, оценивая производительность со всеми возможными комбинациями, когда один компонент неисправен. N-2 означает, что модель подвергается стрессу путем оценки производительности со всеми возможными комбинациями, когда два компонента неисправны одновременно.

Причины недоступности

Опрос, проведенный среди академических экспертов по доступности в 2010 году, выявил причины недоступности корпоративных ИТ-систем. Все причины относятся к не следует передовой практике в каждой из следующих областей (в порядке важности):[12]

  1. Мониторинг соответствующих компонентов
  2. Требования и закупки
  3. Операции
  4. Избегание сбои сети
  5. Предотвращение внутренних сбоев приложений
  6. Избегание сбоев внешних служб
  7. Физическая среда
  8. Резервирование сети
  9. Техническое решение резервного копирования
  10. Технологическое решение резервного копирования
  11. Физическое местонахождение
  12. Резервирование инфраструктуры
  13. Резервирование архитектуры хранилища

Книга о самих факторах была опубликована в 2003 году.[13]

Издержки недоступности

В отчете 1998 г. IBM Global Services По оценкам, недоступные системы обошлись американским предприятиям в 4,54 миллиарда долларов в 1996 году из-за потери производительности и доходов.[14]

Смотрите также

Примечания

  1. ^ Используя 365,25 дней в году. Для единообразия все время округлено до двух десятичных цифр.
  2. ^ Видеть математические совпадения по основанию 2 для получения подробной информации об этом приближении.
  3. ^ «В два раза больше» по логарифмической шкале, что означает два факторы из 2:

Рекомендации

  1. ^ Флойд Пьедад, Майкл Хокинс (2001). Высокая доступность: дизайн, методы и процессы. Прентис Холл. ISBN  9780130962881.
  2. ^ Конспект лекций М. Нестеренко, Кентский государственный университет
  3. ^ Введение в новый мэйнфрейм: крупномасштабные коммерческие вычисления Глава 5 Доступность IBM (2006)
  4. ^ Видео о преимуществах бизнеса IBM zEnterprise EC12 в youtube.com
  5. ^ Драгоценные металлы, Том 4. Pergamon Press. 1981. с.стр. 262. ISBN  9780080253695.
  6. ^ PVD для микроэлектроники: нанесение методом напыления на производство полупроводников. 1998. с.387.
  7. ^ Мерфи, Найл Ричард; Бейер, Бетси; Петофф, Дженнифер; Джонс, Крис (2016). Разработка надежности сайта: как Google управляет производственными системами. п.38.
  8. ^ Джош Депрез (23 апреля 2016 г.). "Девятка из девяти".
  9. ^ Эван Л. Маркус, Миф о девятках
  10. ^ «Семь основных рекомендаций по управлению конфигурацией для виртуальных и облачных инфраструктур». Gartner. 27 октября 2010 г.. Получено 13 октября, 2013.
  11. ^ RFC  992
  12. ^ Ульрик Франке, Понтус Джонсон, Йохан Кениг, Лив Маркс фон Вюртемберг: доступность корпоративных ИТ-систем - байесовская модель, основанная на экспертных оценках, Proc. Четвертый международный семинар по качеству и поддержке программного обеспечения (WSQM 2010), Мадрид, [1]
  13. ^ Маркус, Эван; Стерн, Хэл (2003). Чертежи для обеспечения высокой доступности (Второе изд.). Индианаполис, IN: John Wiley & Sons. ISBN  0-471-43026-9.
  14. ^ IBM Global Services, Повышение доступности систем, IBM Global Services, 1998 г., [2]

внешняя ссылка