Текущее состояние внедрения системы мониторинга ИТ-инфраструктуры




Средства мониторинга ИТ-инфраструктуры ГВЦ ОАО «РЖД».

Большаков М.А. Михайлов Г.В.

e-mail: gleb-mix@mail.ru

Федеральное государственное бюджетное образовательное учреждение

высшего образования

«Петербургский государственный университет путей сообщения

Императора Александра I»

Факультет «Автоматизация и интеллектуальные технологии»

Кафедра «Информационные и вычислительные системы»

 

Санкт-Петербург

Аннотация

В докладе рассматривается уровень внедрения системы мониторинга ИТ-инфраструктуры в процесс управления инцидентами, используемый в работе основной производственной системы ГВЦ - Единой службы поддержки пользователей.


Введение

Основным направлением деятельности ГВЦ ОАО «РЖД» является информационная поддержка бизнес процессов Компании через поддержание работоспособности информационных систем, используемых в реализации данных процессов. Достижение данной цели невозможно без качественной эксплуатации инфраструктуры ИТ, на которой развернут весь спектр информационных систем – в настоящее время их количество превышает 700 систем. При этом количество пользователей данных систем постоянно растет, что лишь повышает требования к устойчивой работе всех комплексов, на которых развернуты информационные системы ОАО «РЖД». Внедрение и развитие системы мониторинга является важнейшим этапом в построении надежной службы эксплуатации ИТ, таким образом, развитие Главного Вычислительного центра невозможно без развития средств автоматизированного мониторинга ИТ-инфраструктуры.


Текущее состояние внедрения системы мониторинга ИТ-инфраструктуры

В настоящее время системой мониторинга охвачена практически вся ИТ-инфраструктура, и ряд объектов след уровня (системы и сервисы). При этом в качестве централизованной системы мониторинга реализовано зонтичное решение, где, посредством различным “зондов”, на нижнем уровне сбора информации (агентов мониторинга от различных поставщиков) данные передаются и обрабатываются уже централизовано посредством IBM Tivoli. Ввиду широкого спектра готовых агентов мониторинга от IBM доля “зондов” Tivoli на нижнем уровне мониторинга составляет около 90% от общего количества инструментов сбора информации по всей ИТ-инфраструктуре ОАО “РЖД”, далее по охвату следуют средства Zabbix. Именно зонтичная структура системы мониторинга позволяет охватить абсолютно все элементы ИТ-инфраструктуры и обрабатывать эти данные согласно единой логике, избежав различных локальных и несвязанных между собой систем мониторинга, например, для каждого типа оборудования или географической локации в разрезе классов охвачено следующие объекты:

· рабочие места пользователей;

· серверное оборудование;

· сеть передачи данных;

· средства контроля доступа и обеспечения ИБ;

· системы жизнеобеспечения;

· прикладное программное обеспечение;

· информационные системы;

· оборудование киосков ЭТСО;

· ИТ-сервисы.

В рамках текущего уровня развития системы мониторинга ИТ в ГВЦ ОАО “РЖД” объем данных находится на уровне 11 терабайт, при хранении агрегированных данных по большинству метрик горизонт хранения находится в интервале от 1 до 3 месяцев. При этом в распоряжении специалистов, ответственных за мониторинг и сопровождение ИТ-инфраструктуры, находится 1318 уникальных метрик, комбинации из которых и накладываются на выбранные ИТ-сервисы.

На данном уровне внедрения системы мониторинга уже нельзя рассматривать ее отдельно от общей производственной системы ГВЦ. При этом место системы мониторинга определено как часть общей производственной системы с задачами сбора, обработки, реакции на отклонения и анализа данных по элементам имеющейся CMDB. Вторая часть производственной системы - это АСУ ЕСПП (Автоматизированная система поддержки пользователей), с помощью которой реализованы функции учета и контроля процессов, направленных на предоставление ИТ-услуг в части технологической поддержки данных услуг.

Собственно, система мониторинга поддерживает следующие способы организации и управления объектов ИТ-инфраструктуры и ИТ-сервисов:

· агентский способ (подразумевает установку на управляемое оборудование агента управления);

· без агентский способ (подразумевает использование встроенных средств мониторинга оборудования без установки специального агента управления системы).

Для интеграции с внешними системами доступны следующие механизмы:

· использование стандартных протоколов (SQL, SNMP, Telnet/SSH) и способы передачи данных (XML, JSON, API);

· возможность разработки специальных программных адаптеров.

Основные критерии функционирования системы:

· необходимость обеспечения интеграции между собой всех подсистем и консолидация всех событий в единой точке;

· необходимость обеспечения сбора и накопления данных о доступности и производительности ИТ-сервисов и объектов ИТ-инфраструктуры, включенных в контур мониторинга;

необходимость обеспечения сбора данных из разнородных источников информации, и обладания гибкими возможностями по настройке пороговых значений для контролируемых параметров;

обеспечение долговременного хранения собираемой информации в промышленных базах данных.

Одним из ключевых понятий оценки доступности и непрерывности работы является понятие «Инфраструктурный инцидент». Инфраструктурный инцидент подразумевает под собой любое событие в обслуживаемой ИТ-инфраструктуре, которое привело к сбою или отказу программно-технических комплексов, оборудования или каналов сети передачи данных, инженерных систем, в зоне ответственности ГВЦ ОАО «РЖД», повлиявшее на качество предоставления ИТ-сервиса.

Источником Инцидентов являются:

· обращения непосредственно от пользователя, зарегистрированные в АСУ ЕСПП и классифицированные как инциденты;

· события, полученные из системы мониторинга;

· инциденты, обнаруженные специалистом технической или технологической поддержки.

Массовое внедрение средств мониторинга было запущено со второй половины 2014 года, это полугодие ушло на отладку и корректировку регламентов работы – начиная же с 2015 года наглядно видна стабильная картина, когда более 97 процентов всех инфраструктурных инцидентов определяется именно системой мониторинга, что безусловно приводит к более качественной работе с предотказными состояниями и сокращению времени на устранение данных инцидентов.

Рис. 1 Динамика количества инфраструктурных инцидентов при внедрении системы мониторинга

 

 



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2019-04-30 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: