Управление проблемами - Problem management

Управление проблемами это процесс, отвечающий за управление жизненным циклом всех проблем, которые происходят или могут произойти в ИТ-службе. Основными задачами управления проблемами являются предотвращение возникновения проблем и возникающих в результате инцидентов, устранение повторяющихся инцидентов и минимизация воздействия инцидентов, которые невозможно предотвратить. В Библиотека Инфраструктуры Информационных Технологий определяет проблему как причину одного или нескольких инциденты.

Объем

Управление проблемами включает в себя действия, необходимые для диагностики основная причина инцидентов, выявленных через Управление происшествиями процесс, и определить решение этих проблем. Он также отвечает за обеспечение выполнения решения посредством соответствующих контрольных процедур, особенно Управление изменениями и Управление релизами.

Управление проблемами также будет хранить информацию о проблемах и соответствующих обходных путях и решениях, чтобы организация могла со временем уменьшить количество и влияние инцидентов. В этом отношении Управление проблемами тесно связано с Управление знаниями, и такие инструменты, как База данных известных ошибок будет использоваться для обоих. Хотя управление инцидентами и управление проблемами являются отдельными процессами, они тесно связаны и обычно используют одни и те же инструменты, а также могут использовать схожие системы категоризации, воздействия и приоритета кодирования. Это обеспечит эффективное общение при рассмотрении связанных инцидентов и проблем.

Ценность для бизнеса

Управление проблемами работает вместе с Управлением инцидентами и Управлением изменениями, чтобы обеспечить повышение доступности и качества ИТ-услуг. Когда инциденты разрешены, информация о разрешении записывается. Со временем эта информация используется для ускорения времени разрешения и определения постоянных решений, сокращая количество и время разрешения инцидентов. Это приводит к сокращению времени простоя и прерывания работы критически важных для бизнеса систем.

Действия процесса, методы и приемы

Управление проблемами состоит из двух основных процессов:

Реактивное управление проблемами, которое обычно выполняется как часть Сервисная операция
Проактивное управление проблемами, инициируемое в Сервисная операция, но обычно ездят как часть Постоянное улучшение обслуживания (CSI).

Обнаружение проблем

Подозрение или обнаружение причины одного или нескольких инцидентов Служба поддержки, в результате чего Запись о проблеме поднятый - Служба поддержки может разрешить инцидент, но не определил окончательную причину и подозревает, что она может повториться.
Анализ инцидента группой технической поддержки, который показывает, что основная проблема существует или может существовать.
Автоматическое обнаружение сбоя инфраструктуры или приложения с автоматическим использованием инструментов событий / предупреждений для вызова инцидента, который может выявить необходимость в Запись о проблеме.
Уведомление поставщика или подрядчика о том, что существует проблема, которую необходимо решить.
Анализ инцидентов как часть упреждающего управления проблемами: смотри бюллетени, релизы, актуальные статьи

Журнал проблем

Все соответствующие детали проблемы должны быть записаны, чтобы существовала полная историческая запись. Это должно быть отмечено датой и временем, чтобы обеспечить соответствующий контроль и эскалацию. А Перекрестная ссылка должны быть внесены в инцидент (ы), который инициировал «Запись о проблеме»:

Детали услуги
Детали оборудования
Дата и время первоначальной регистрации
Детали приоритета и категоризации
Описание инцидента
Подробная информация обо всех предпринятых действиях по диагностике или попытках восстановления.

Приоритезация проблем

Проблемы могут быть классифицированы в соответствии с их серьезностью и приоритетностью так же, как и инциденты, чтобы облегчить их отслеживание, принимая во внимание влияние связанных инцидентов и их частоту возникновения. С точки зрения инфраструктуры можно спросить:

Можно ли восстановить систему или ее нужно заменить?
Сколько это будет стоить?
Сколько людей потребуется для устранения проблемы?
Сколько времени потребуется на устранение проблемы?
Сколько дополнительных ресурсов будет задействовано?
Какое влияние нет решение проблемы?

Исследование и диагностика проблемы

Результатом расследования проблемы будет диагностика основной причины или отчет о RCA. Решение должно быть суммой соответствующего уровня ресурсов и навыков, используемых для его поиска. Существует ряд полезных методов решения проблем, которые можно использовать для диагностики и решения проблем.

Система управления конфигурацией (CMS) должны использоваться для определения уровня удара и для точного определения точки отказа.
В База данных известных ошибок или KEDB необходимо получить и проверить, чтобы узнать, возникала ли проблема в прошлом, и если да, то решение уже должно быть принято.
В ходе хронологического анализа события, вызвавшие проблему, будут проверяться в хронологическом порядке, чтобы иметь временную шкалу событий. Цель состоит в том, чтобы увидеть, какое событие запускает следующее событие и так далее, или исключить некоторые возможные события.

В Анализ значения боли содержит более широкий взгляд на влияние инцидента или проблемы на бизнес. Вместо того, чтобы анализировать количество инцидентов / проблем определенного типа в конкретном временном интервале, методика фокусируется на глубоком анализе того, какой уровень боли был причинен бизнесу этими инцидентами / проблемами. Формула для расчета уровня боли должна учитывать:

количество пострадавших
продолжительность простоя, вызванного
стоимость для бизнеса

В Кепнер и Трегое Метод используется для исследования более глубоких проблем. Они определили следующие этапы:

определение проблемы
описание проблемы с точки зрения личности, местоположения, времени (продолжительности) и размера (воздействия)
установление возможных причин
проверка наиболее вероятной причины
проверка истинной причины

Парето анализ или же Диаграмма Парето это метод отделения важных потенциальных причин от тривиальных проблем. Необходимо предпринять следующие шаги:

Сформируйте таблицу с указанием причин и их частоты в процентах.
Расположите строки в порядке убывания важности причин (сначала самая важная причина)
Добавьте в таблицу столбец с накопительным процентом
Создайте гистограмму с причинами в порядке их процента от общего числа.
Нарисуйте линию на 80% по оси Y, затем опустите линию в точке пересечения с осью X. На диаграмме вы можете увидеть основные причины сбоев в сети. Они должны быть нацелены в первую очередь.

Сбои сети
Причины	Процент от общего	Расчет%
Сетевой контроллер	35	0+35% = 35%
Повреждение файла	26	35% + 26% = 61%
ОС сервера	6	61%+6% = 67%

Запись об известной ошибке

После завершения расследования и поиска обходного пути (или даже постоянного решения) необходимо создать запись об известной ошибке и поместить ее в базу данных известных ошибок для выявления и устранения подобных проблем в дальнейшем. Основная цель - как можно скорее восстановить поврежденный сервис с минимальным влиянием на бизнес.

Хорошей практикой было бы поднять запись об известных ошибках как можно раньше в ходе расследования; после успешного тестирования обходного пути или определения основной причины.

Обзор основных проблем

Хорошая практика - проверять все основные проблемы. Но это требует затрат. Обзор должен изучить:

Сделанные правильные шаги
Проблемы, возникшие при внедрении решения
Необходимость улучшения
Предотвратить повторение подобных инцидентов в будущем.
Сторонняя сторона / продавец / поставщик, участвующий в реализации

Знания, полученные в результате обзора, должны быть включены в обзор услуг с бизнес-клиентом, чтобы убедиться, что он осведомлен о предпринятых действиях и планах по предотвращению подобных инцидентов в будущем. Это помогает повысить удовлетворенность клиентов и обеспечить бизнесу уверенность в том, что отдел обслуживания ответственно обрабатывает серьезные инциденты и активно работает над предотвращением их повторения в будущем.