Перспективы развития системы мониторинга ИТ-инфраструктуры.

Накопленные данные по характеристикам работы оборудования, используемого при предоставлении услуг ГВЦ пользователям ОАО «РЖД», позволяют решать задачу определения степени влияния одного элемента на другой или даже одной отдельной характеристики на другую. Причем можно определить влияние как перекрестное между элементами ИТ-инфраструктуры, так и оценить влияние на ключевые показатели работоспособности всего сервиса, что более важно непосредственно для пользователей данных сервисов – таким образом, следует говорить о возможности построения ресурсно-сервисных моделей. Это понятие является ключевым для оценки возможных последствий отказов/сбоев в работе элементов на итоговую возможность предоставления ИТ-сервиса. В настоящее время мониторинг ИТ-сервиса в ОАО «РЖД» сконцентрирован на анализе работы непосредственно элементов ИТ-инфраструктуры, на которой развернут данный сервис.

Полученные значения метрик по каждому элементу данной инфраструктуры сравниваются с их граничными значениями, и, при превышении, система мониторинга оповещает причастный персонал технической поддержки о состоянии данного сервиса. При этом достаточно явно встает задача корректного определения граничных значений нормального состояния той или иной метрики. Первоначально данные значения определяются экспертным путем, чаще с привлечением группы экспертов, однако риск субъективизма в данном случае полностью исключить нельзя. Именно поэтому задача поддержания граничных значений в актуальном состоянии является достаточно сложной, а кроме того затратной - при постоянном привлечении группы экспертов.

Применяемые сейчас технологии «Больших данных» с легкостью справляются с анализом имеющегося массива значений метрик и могут давать «советы» экспертам в двух направлениях деятельности:

· Корректировка граничных значений. Актуализация данных границ осуществляется через реализацию прогнозной аналитики, а именно происходит корректировка/понижение граничных значений, запуская тем самым режим анализа именно предотказных состояний. Однако здесь существует и вторая сторона – оценка реальности отказа/сбойного состояния, анализ данных по итоговым характеристикам предоставления сервиса может указать на слишком низкое граничное значение, то есть помочь сделать вывод, что деградации сервиса, по сути, не происходит при превышении текущего граничного значения и его следует повысить.

· Формирование дополнительных логических связей между метриками. Здесь ключевым является уже работа не с заданными правилами формирования инцидента/отказа, а именно анализ всего состояния системы для выделения возможных связей между отдельными метриками и формирования и проверки гипотезы вида: если А=Х, B=Y, значит А или В будут Z, где Z – текущее граничное значение (отказ), а X, Y – любые меньшие Z значения.

Заключение

В ближайшей перспективе применение современных технологий обработки данных в сочетании с имеющимися накопленными массивами исторических данных о работе ИТ-инфраструктуры должно помочь автоматизировать процесс создания и поддержания в актуальном состоянии ресурсно-сервисных модели ИТ-сервисов ОАО «РЖД». Разумеется, следует понимать, что на практике требуются к выявлению и проверке более сложные (в части связей между метриками/переменными) гипотезы, в том числе ввиду нечеткости решения появляется необходимость определить функции принадлежности для каждого из элемента гипотезы (переменные и итоговое суждение). Следующим этапом является последовательное определение пересечений найденных функций принадлежности через применение операторов минимума и максимума – таким образом происходит очистка от «лишних» возможных состояний функций принадлежности для каждой из переменных. Далее определяется так называемый центр тяжести полученного множества итогового значения. Решение этих задач лежит в области применения алгоритмов нечеткого вывода, по сути, в каждый момент времени должна решаться задача оценки вероятности приведения к деградации сервиса (отказу) из его текущего состояния с учетом оценки всех значений системы мониторинга.

Именно постоянное следование по данному алгоритму позволяет оценить текущее состояние на предмет возможности деградации ИТ-сервиса и при необходимости отработать с тем или иным объектом инфраструктуры, на которой развернут данный сервис, до момента возникновения непосредственно сбойной ситуации. В результате повышается эффективность эксплуатации используемых объектов ИТ-инфраструктуры за счет снижения затрат на достижение необходимых значений показателей доступности ИТ-ресурсов.

Перспективы развития системы мониторинга ИТ-инфраструктуры.

Поиск по сайту