Облачный цод что это

Роль ЦОД в облачном бизнесе

Облачный цод что это. Смотреть фото Облачный цод что это. Смотреть картинку Облачный цод что это. Картинка про Облачный цод что это. Фото Облачный цод что это

Центры обработки данных (ЦОД) – это сложная система, которая состоит из целого комплекса компьютерного и телекоммуникационного оборудования, инженерных конструкций, компьютерных программ, организационных процессов и высококвалифицированного персонала. Основная задача такого ЦОД заключается в обработке и хранении информации. Сердцем ЦОД являются серверы с программным обеспечением, системами охлаждения и безопасности.

Облачные ЦОД – это комплексы, которые предназначены для аренды вычислительных мощностей, которые предоставляются заказчику как Интернет-сервис. В таких комплексах заказчики могут самостоятельно настраивать систему в соответствии с необходимыми характеристиками.

Основными тремя услугами, предоставляемых облачными ЦОД, являются SaaS (Software as a service — ПО как услуга), Paas (Platform as a Service — платформа как услуга) и IaaS (Infrastructure as a Service — инфраструктура как услуга).

Ключевые требования к облачным ЦОД:

Ключевые элементы ЦОД

Структура ЦОД включает в себя ряд систем, без которых невозможна обработка и хранение данных.

Эти системы включают в себя следующее:

Рассмотрим эти системы более внимательно.

ИТ-инфраструктура ЦОД

ИТ-инфраструктура представляет собой комплекс серверов, систем хранения и телекоммуникационного оборудования, объединенных в общую систему.

Инженерные системы

Инженерные системы ЦОД можно разделить на две группы:

Безопасность

Одно из важнейших составляющих ЦОД – это система безопасности. Для того, чтобы обеспечить сохранность данных и предотвратить доступ к ним злоумышленников через Интернет, облачные провайдеры используют новейшие антивирусное ПО и другие программы защиты данных Чтобы предотвратить проникновение посторонних лиц, разрабатывается и внедряется система доступа, методы противодействия взлому и физическому проникновению к оборудованию, видеонаблюдение, противопожарная система.

Управление и мониторинг ЦОД

Комплексные системы управления и мониторинга являются важнейшими составляющим ЦОД. Такие системы в автоматическом режиме контролируют работоспобность всего оборудования и параметров окружающей среды, таких как температура, влажность, напряжение и частота тока. Системы мониторинга умеют даже прогнозировать отказ оборудования и заранее предупредить персонал ЦОД.

Важнейшей составляющей рабочего процесса в ЦОД является диспетчеризация. Она позволяет информировать персонал о внештатной ситуации при помощи современных технологий связи, таких как СМС сообщений или автоматического дозвона.

Классификация ЦОД

У заказчики облачных услуг всегда есть требования к предоставляемой инфраструктуре. В основном речь идет о надежности и безопасности. В 1993 году организация Uptime Institute (UTI) выработала способы оценки эффективности ЦОД. Были проанализированы факторы, которые определяют надежность и безопасность. В результате появилась стандартизованная методология, которая определяет четыре уровня стандарта Uptime Institute.

ЦОД может быть сертифицирован UTI на соответствие заявленному уровню.

Сертификация начинается с чертежей. Сначала владелец будущего ЦОД показывает проектные документы специалистам UTI для сертификации самого проекта, а после постройки и запуска дата-центра приезжают специалисты UTI и производят выездную проверку. Затем следует еще более сложная проверка, которая заключается в оценке реальной работоспособности всех компонентов ЦОД и ее соответствие заявленным значениям. При положительном результате новый объект получает соответствующий своему Tier сертификат и размещается в каталоге UTI.

Некоторые ЦОД не проходят сертификацию UTI, поскольку процесс сертификации сложен и дорогой. В таких случаях представители таких ЦОД могут сказать, что сертификата UTI нет, но организация провела собственную внутреннюю сертификацию и оценила надежность на уровне Tier 3 или Tier2+.

Владельцы ЦОД разделят надежность систем, оценивая каждую на свой уровень готовности. Так, система охлаждения может формально соответствовать Tier-3, а электроснабжение – на Tier2. В таком случае для презентации указывается значение Tier-2+.

Самостоятельная проверка соответствия ЦОД требует детальной информации об объекте – с чертежами коммуникаций, картами СКС и прочей информацией. Мало кто захочет делиться такой информацией с клиентом. В такой ситуации риск потери данных для заказчика облачных услуг многократно возрастает. В таком случае стоит поинтересоваться планами технического обслуживания облачного ЦОД и задать вопросы как часто происходит плановая замена оборудования и проводится работоспособность всех систем.

Требования к облачным ЦОД

Основа облачного ЦОД – это виртуализация серверов, систем хранения данных (СХД) и коммуникационных систем. ИТ-структура такого ЦОДа должна обеспечивать масштабируемость, которая позволяет обслужить любую возникшую нагрузку, которая может постоянно расти.

Еще одно важное условие существования облачного ЦОД – это защита данных и приложений. Чтобы обеспечить безопасность хранимой и обрабатываемой информации, необходимо знать где находится информация, кто должен иметь к ней доступ и кто на самом деле ей пользуется, но эта информация не определятся на уровне отдельного физического устройства. В отличие от корпоративного ЦОДа, который может работать в закрытом контуре, у облачного ЦОД традиционный периметр сети уже «размывается», поскольку ЦОД должен быть доступен для клиентов из Интернет. Именно поэтому безопасность необходимо обеспечивать в любой конечной точке – и на рабочих местах в офисах, и на мобильных устройствах. Неуверенность в реальной возможности облачного провайдера обеспечить безопасность является одним из сдерживающих факторов развития облачных услуг.

Следующе отличие «облачного» ЦОДа состоит в том, что управление оборудованием и все административные процедуры должны быть максимально автоматизированы. Для этого в ЦОД необходимо установить соответствующее программное обеспечение, которое и позволяет предоставить необходимые заказчику ресурсы и услуги одним нажатием мыши из панели управления.

Таким образом, перед началом использования облачного ЦОД необходимо решить вопросы, связанные с обслуживанием клиентов будущего облака. Наиболее эффективно они решаются в случае создания виртуальной клиентской инфраструктуры – VDI (Virtual Desktop Infrastructure).

Программное обеспечение также должно автоматически управлять такими функциями, как работа с сертификатами, сжатие трафика, мониторинг доступности приложений, балансировка нагрузки, контроль и управление безопасностью, создание VPN и многими другими.

Как выбрать идеальный облачный ЦОД

Популярность облачных услуг и услуг колокейшена (размещения собственного оборудования заказчика в коммерческом ЦОД), облачных провайдеров становится все больше и больше. Не все из них строят свои дата-центры в соответствие с отраслевыми стандартами и сложившимся мировым опытом. Поэтому будущим клиентам облачных ЦОД стоит обратить внимание на следующие моменты.

Надеемся, что эти рекомендации помогут сделать выбор облачного провайдера более осознанным.

Источник

Что такое ЦОД и для чего они нужны?

На заре проникновения информационных технологий во все сферы человеческой деятельности, когда про облака только-только начинали говорить, для хранения и обработки данных компании самостоятельно покупали ИТ-оборудование, размещали на нем инфраструктуру и обслуживали ее своими силами. Постепенно потребности в ресурсах увеличивались, и небольших локальных серверных перестало хватать для решения актуальных задач бизнеса. Так появились центры обработки данных.

Что такое центр обработки данных?

ЦОД — это здание (или комплекс зданий), предназначенное исключительно для размещения и эксплуатации ИТ-оборудования. Чтобы расположенное в нем «железо» работало 24/7, в дата-центрах созданы максимально благоприятные условия.

ЦОДы в определенной форме существуют еще с середины прошлого века. Тогда в дата-центре мог размещаться всего один компьютер (вспомните размеры первых вычислительных машин!), а компания не могла обратиться к его владельцу и просто так арендовать ресурсы этого компьютера. С течением времени размер оборудования уменьшался, а спрос на вычислительные мощности рос. Постепенно ЦОДы стали такими, какими мы знаем их сегодня.

Ключевые компоненты инженерной инфраструктуры ЦОД

Надежность работы ИТ-оборудования зависит от множества условий — класс используемого «железа», соблюдение регламентов его технического обслуживания и даже квалификация сотрудников дата-центра. Однако одним из ключевых факторов является качество реализации инженерных систем. Выделяется пять наиболее важных систе:

Какими бывают дата-центры

В зависимости от того, кем используется ЦОД, он может относится к одному из двух типов:

Стандарты Tier

Дата-центры различаются не только по назначению, но и по уровню надежности. Согласно классификации Uptime Institute, существует четыре уровня ЦОД — от Tier I до Tier III. Давайте посмотрим, чем эти уровни отличаются друг от друга.

Плюсы использования ЦОД

У аренды услуг ЦОД есть немало преимуществ. Давайте разберемся, что получает заказчик, пользующийся возможностями коммерческого дата-центра.

Сегодня благодаря развитию ИТ-отрасли любая компания может арендовать не только непосредственно услуги ЦОД (размещение оборудования, аренду юнитов, стоек и модулей), но и готовые облачные сервисы, развернутые на базе выбранного дата-центра.

Источник

От железа в ЦОДе к облакам: плюсы облачных серверов и дата-центров в России

Наблюдать за облаками — одно из самых любимых занятий человечества. В статье мы расскажем, почему вам стоит отказаться от этого бессмысленного развлечения — перестать любоваться облаками и начать арендовать облачные серверы самому.

Почему возникли виртуальные облачные серверы

В недавние времена, когда мониторы были выпуклыми, а телефоны — кнопочными, компьютерное оборудование для ЦОДов было дорогим и требовало умелого обращения. Поэтому к покупке, скажем, нового сервера относились с большим вниманием и осторожностью. Возникало множество вопросов:

Именно эта боль от управления инфраструктурой заставила людей мечтать о будущем, в котором будет огромный далёкий виртуальный ЦОД и возможность в любой момент послать запрос на выделение дисковых или вычислительных мощностей в нём. Чтобы вжух и — мама, смотри, я еду без закупок железа!

Как раньше жили без облачной IT-инфраструктуры

Облачный цод что это. Смотреть фото Облачный цод что это. Смотреть картинку Облачный цод что это. Картинка про Облачный цод что это. Фото Облачный цод что это

Конечно, люди имели возможность арендовать железо и до появления технологии облачных вычислений. Можно было найти удобный дата-центр, заполнить форму заказа и получить счет к оплате. Однако процесс установки железа в ЦОДе был долгим и дорогим. Нужно было найти на складе (или в стойке) свободный сервер, правильно его сконфигурировать и подключить.

В случае, если вам нужно было поставить диск на 300 гигабайт, а в стандартной поставке дата-центр предоставлял только диски в 200 гигов, ждать нужно было еще дольше — админы брали в руки отвертки и вкручивали нужный жесткий диск в корпус. А если вам нужен был сервер на 3 недели — счет все равно выставлялся за месяц аренды. Более гибкой ценовой политики просто не существовало.

Трансформационные изменения происходят, когда к переносу добавляется оптимизация бизнес-процессов за счёт виртуальной автоматизации, возможной в публичной облачной IT-инфраструктуре. Автоматизация не затрагивает сами приложения, портированные из частного облака, но меняет подход к управлению IT-операциями.

Теперь у нас есть облачная IT-инфраструктура

С ней управление расходами на вычислительные мощности вышло на невиданный уровень гибкости. Например, онлайн-кинотеатры испытывают мощные скачки трафика в дни, когда выходят новые серии популярных сериалов. И до появления облачных серверов таким сервисам приходилось бы держать огромные парки фактически неиспользуемого железа ради одного-двух вечеров в месяц. Оставшееся время серверы работали бы впустую, жгли электричество и деньги компании.

Сегодня же все крупные сервисы полагаются на мощь инфраструктуры облачных технологий. За несколько часов до выпуска важной премьеры админы киносервисов начинают медленно вводить в строй дополнительные облачные серверы. А после пика посещаемости — в таком же темпе выключают мощности и передают их провайдеру обратно. Облачная инфраструктура дает колоссальную экономию денег и ресурсов.

Кроме того, доступность облачных сервисов виртуальных ЦОДов вызвала огромный рост в сфере интернет-проектов. Ведь сегодня даже пара студентов в гараже может за считанные минуты поднять свое приложение платформе облачных вычислений и масштабировать его за очень небольшие деньги, проверяя свои безумные стартап-идеи на практике.

Так все-таки: ЦОД или облачный сервер

Облачный цод что это. Смотреть фото Облачный цод что это. Смотреть картинку Облачный цод что это. Картинка про Облачный цод что это. Фото Облачный цод что это

Когда вы арендуете физический сервер в ЦОДе, никто не может гарантировать, что ваш сервер будет работать стабильно. Железо может умереть в любой момент — а вам вполне вероятно может достаться некондиционный жесткий диск, который сломается через неделю. Вместе со всеми вашими данными. Хотите большей надежности — ставьте резервные диски, пишите копии, пишите данные параллельно на несколько дисков. В общем, суетитесь сами. Это ваша ответственность.

В случае с облачным сервером проблема надежности уже решена за вас. Даже если на физическом сервере, который поддерживает ваш виртуальный облачный сервер, умрет диск или память, скорее всего вы об этом даже не узнаете. И ваш сервер будет работать без перерывов. Лучшие админы в мире уже позаботились о двойном-тройном-четверном запасе прочности физической инфраструктуры, чтобы облачные железки, доступные пользователям виртуального ЦОДа, работали без перебоев.

Что входит в современные облачные инфраструктуры

Они включают в себя десятки разных сервисов. Сегодня это не только виртуальные облачные сервера — это и высоконадежные хранилища данных, и системы резервного копирования, и удобные сети между разными компонентами инфраструктуры, и множество других вещей, которые раньше нужно было бы настраивать вручную. В современной облачной инфраструктуре все эти системы уже спроектированы и настроены специалистами с многолетним опытом эксплуатации сложных систем в дата-центрах.

Облачные дата-центры в России

Облачный цод что это. Смотреть фото Облачный цод что это. Смотреть картинку Облачный цод что это. Картинка про Облачный цод что это. Фото Облачный цод что это

Почти все крупные поставщики систем облачных вычислений держат свои дата-центры не в России, а в местах соединения крупных трансокеанских интернет-кабелей с наземными каналами: в Германии, Калифорнии, Японии, Сингапуре.

Для тех, кто ведёт бизнес в России, это означает существенное увеличение времени передачи данных. То есть, если вы закупаете мощности у американской платформы облачных вычислений — время прохождения данных до, скажем, Москвы, будет намного дольше, чем время прохождения сигнала из российского дата-центра. А между тем, увеличение времени загрузки данных даже на половину секунды сильно снижает конверсию (и выручку).

Появление на российском рынке качественных местных поставщиков технологии облачных вычислений — это лучшая возможность иметь гибкую IT-инфраструктуру. Коммерческие дата-центры в России дают хороший прирост в скорости обмена данными внутри региона.

Источник

Бесперебойная декада: как обеспечить ЦОДу 10 лет аптайма

Облачный цод что это. Смотреть фото Облачный цод что это. Смотреть картинку Облачный цод что это. Картинка про Облачный цод что это. Фото Облачный цод что это

Современный дата-центр – комплексный организм, состоящий из множества инженерных подсистем, сетевой и ИТ-инфраструктуры. В ЦОДе слишком много переменных и вариантов их взаимодействия, поэтому риски сбоев очень высоки. Тем не менее, вся бизнес-модель дата-центров строится на постоянной доступности ИТ-систем. Как обеспечить 10 лет безаварийной работы такого объекта – рассказываем на примере нашей площадки в Петербурге.

Покой всем только снится

Общее количество сбоев в работе центров обработки данных продолжает расти, однако количество аварий сегодня отстает от скорости ввода в эксплуатацию новых мощностей. Это значит, что в расчете на один ЦОД в последнее время происходит меньше инцидентов – об этом говорит статистика Uptime Institute.

В 2020 году только 6% респондентов исследования Uptime заявили, что их дата-центры столкнулись с серьезными сбоями, по сравнению с 11% годом ранее.

Но успокаиваться рано: число серьезных аварий сокращается, однако размер экономического ущерба от них заметно увеличился. Это связано с постоянно растущей зависимостью организаций от ИТ.

На системы электропитания дата-центров приходится наибольшее количество серьезных инфраструктурных инцидентов, ИБП и автоматические переключатели (ATS) чаще всего становятся их основной причиной (22%).

Появляются новые риски. Например, увеличилось количество сбоев в работе программного обеспечения, отвечающего за координацию работы подсистем дата-центров или за их мониторинг.

Также в отчете Uptime человеческий фактор по-прежнему указывается в качестве одной из главных причин перебоев в работе ЦОДов. В долгосрочной перспективе автоматизация должна сократить количество отказов инженерных систем, которые происходят из-за ошибок сотрудников.

Из этого не следует, что уменьшение количества человеческих ошибок достигается за счет сокращения людей в ЦОДах. Скорее, речь идет о ведущей роли повышения квалификации специалистов в сочетании с грамотным управлением.

Баланс людей, машин и процессов

На фоне опубликованной отраслевой статистики 10 лет бесперебойной работы инженерных и ИТ-систем ЦОД Linxdatacenter в Петербурге, зарегистрированные в сентябре 2021 года, выглядят результатом, о котором хочется рассказать подробнее.

Оптимальный подход к эффективному управлению работой современного дата-центра заключается в балансе между автоматизацией процессов и оптимизацией операционного управления.

Площадка Linxdatacenter в Санкт-Петербурге последовательно наращивает компетенции в плане организации работы штата и повышения его квалификации. Перечень подтвержденных отраслевых стандартов ЦОДа включает в себя ISO 27001, ISO 9001 и PCI DSS, а также ISO 22301 – Business Continuity («Непрерывность бизнеса»), сертификацию защищенности организации от перебоев в операционной деятельности.

Отдельно стоит выделить сертификацию по стандарту Uptime Institute Management & Operations Stamp of Approval. Можно сказать, что работа по обеспечению соответствия требованиям M&O помогла нам переосмыслить подход к управлению дата-центром и во многом позволила обеспечить круглую дату.

Стандарт M&O – результат 20-летнего опыта разбора специалистами Uptime Institute более 6000 кейсов по отказам дата-центров по всему миру. Анализ этих данных показал, что 75% всех инцидентов и аварий так или иначе обусловлены ошибками и небрежностью в работе персонала.

Эта картина складывается из комплекса конкретных операционных ошибок и неверных управленческих решений при комплектовании штата, выстраивании процессов обслуживания оборудования и обучения специалистов.

Чтобы оценить, насколько процессы в конкретном ЦОДе соответствуют идеалу, Uptime разработал методику измерения эффективности сотрудников. Она основана на трех принципах – проактивность, практичность и информированность. Эффективное управление дата-центром достигается при соблюдении сотрудниками всех трех.

Процессы по управлению ЦОДом оцениваются по пяти категориям в соответствии со значимостью вклада в общую статистику отказов: кадровые ресурсы и организация штата (максимум 35 баллов), техническое обслуживание (30), обучение штата (20), планирование, координация и управление (10), условия труда (5).

Апгрейд организации работы сотрудников дата-центра через обучение, прописывание инструкций, своевременное регламентное обслуживание и тренинги действий в чрезвычайных ситуациях, сокращает количество отказов в ЦОДе в 3 раза.

На сегодня в активе ЦОДа Linxdatacenter в Санкт-Петербурге – три аттестации по M&O. Первый аудит Uptime Institute с оценкой квалификации персонала и процессов эксплуатации оборудования прошел в 2018 году.

По его итогам дата-центр набрал 84 балла из 100 возможных. Второй раунд в 2020 году позволил нам достичь оценки в 95,1 балла. В 2021 в ходе третьего аудита мы взяли 96.

Прогресс в 12 баллов за три года – результат постоянной работы над ошибками, множества эпизодов критического анализа и разбора собственных подходов к выполнению ряда рабочих процедур, а также готовности отказываться от привычных паттернов работы в целях повышения операционной надежности площадки.

Не стоит думать, что мы сразу знали «как надо», понимали, в каком направлении двигаться, и владели секретными методиками достижения искомого результата.

Большой объем набитых шишек и моментов озарения «как же мы это сразу не догадались» присутствовал в полном объеме.

Правильное электропитание

В основе всего – решение задач эффективного энергообеспечения площадки.

Всего 15 миллисекунд перебоя питания современного дата-центра достаточно, чтобы бизнес-процессы компаний-клиентов были нарушены с ощутимыми для конечного пользователя последствиями. Для понимания: 1 миллисекунда (мс) — это одна тысячная доле секунды. 5 мс – время, необходимое пчеле для одного взмаха крыла.

Сбой в питании ведет к перезагрузке серверов, перезапуску операционных систем и прикладного софта, что чревато полной остановкой всех пользовательских систем и сервисов.

Защититься от этого можно. Для этого надо отказаться от централизованного поставщика электричества. Если ЦОД потребляет более 1 МВт, и есть строгие требования к непрерывности ИТ-процессов клиентов (например, в ЦОДе стоит процессинговый центр крупного банка) – имеет смысл подумать о своем независимом электричестве.

ЦОД Linxdatacenter в Санкт-Петербурге автономен: его потребности в электричестве обеспечиваются газо-поршневой электростанцией на 12 МВт. Если подача газа по каким-то причинам будет прекращена, есть ИБП, мощностей которых хватит на 40 минут бесперебойной работы ЦОДа.

За это время можно запустить дизель-генераторы (ДГУ), которые на имеющимся запасе топлива обеспечат еще минимум 72 часа автономной работы. Параллельно в действие вступят контракты с поставщиками топлива, которые обязаны привезти оговоренные объемы в ЦОД в течение 4 часов.

Эта схема обеспечения дата-центра электричеством лежит в основе его высокого уровня отказоустойчивости. Однако даже при полной энергонезависимости существует множество факторов, способных «положить» ЦОД полностью или частично.

Сотрудники клиента неправильно подключили оборудование в стойке? Короткое замыкание, сбой. Специалисты не проконтролировали емкость аккумуляторов ИБП? При аварийной ситуации бесшовного переключения на резервную схему питания не произойдет. Кто-то не проверил объемы заправки топлива в баки ДГУ? Оно закончится в самый неподходящий момент, и ЦОД встанет.

Выход? Профилактика и тренинг персонала, а также мониторинг работы всех систем и подсистем площадки. Нужно проводить регулярное плановое переключение на резервную схему питания ЦОДа, а также отрабатывать сценарии различных сбоев и аварийных ситуаций, оттачивая взаимодействие сотрудников до автоматизма для минимизации возможных последствий.

Любая схема резервирования инженерных систем дата-центра работает только при условии регулярной отработки внештатных ситуаций, постоянного подтверждения квалификации персонала и контрактам с надежными поставщиками услуг, наличия комплектующих и расходных материалов.

Мы развили концепцию превентивных работ до максимума: ввели процедуру анализа качества поставляемого топлива и проводим профилактический уход за дизель-генераторными установками.

Казалось бы, рутинная операция – уборка ДГУ. Где там можно найти пространство для оптимизации? Однако выяснилось, что своевременное удаление грязи и пыли серьезно откладывает ранний абразивный износ движущихся частей ДГУ.

В сочетании с регулярным осмотром и проверкой узлов это позволяет найти – и сделать это вовремя – трещины на изоляции на перемычке аккумуляторов, ослабление клемм на низковольтном генераторе, разболтанные хомуты на турбинах, протечки в фильтрах (риск утечки масла в процессе работы) и т.д.

Банальное поддержание установок в чистоте и простой уход (даже без фанатизма, а просто на регулярной основе) позволяет практически исключить риски того, что в ответственный момент случится отказ, и ДГУ не запустится.

Экзамен на зрелость

Второй фактор высокого аптайма: работа со штатом сотрудников инженерных служб, в основе которой лежит система аттестации и тренинги. Без надлежащего количества квалифицированных сотрудников и правильной организации труда у ЦОДа не будет ресурсов для успешного функционирования.

Обеспечить себя такими сотрудниками можно через качественный подбор персонала и разработку программы обслуживания инженерных систем. Такая программа состоит из профилактического обслуживания (PM), политики уборки, системы управления техническим обслуживанием (MMS) для отслеживания работ, а также соглашения об уровне обслуживания (SLA).

M&O предлагает в качестве решения комплексную программу обучения персонала, формализованную и опирающуюся на отдельный блок документации.

Такой подход обеспечивает согласованность эксплуатации и технического обслуживания инфраструктуры ЦОД. Цитируя стандарт: «Весь персонал должен понимать политики, процедуры и уникальные требования к работе в ЦОД, чтобы избежать незапланированных простоев и реагировать на ожидаемые события».

Отсюда берет начало наша система аттестации. Помимо M&O она базируется на стандарте ISO 22301 «Security and resilience – Business continuity management systems» («Безопасность и устойчивость – Системы управления операционной непрерывностью бизнеса»). Другой источник вдохновения – собственный опыт, он отражен в нашей документации по процедурам аварийной эксплуатации (EOP – Emergency Operations Procedures).

Прохождение аттестации на знание инструкций, сценариев реагирования на чрезвычайные и штатные ситуации, распределение ролей и зон ответственности между участниками дежурной смены и др. – обязанность всех работников ЦОДа.

Мы неоднократно убеждались, что любые методики контроля качества приносят результат, если они формализованы и применяются на регулярной основе – это еще одна причина ввода обязательной аттестации.

Сейчас аттестацию работника проводит комиссия в составе не менее трех человек в рамках опросников и тестов. Общее количество вопросов – 60-70, во время аттестации случайным образом выбираются 15. Около 80% вопросов касаются непосредственно профессии, остальные 20% – смежных областей знаний и компетенций. По итогам выносится заключение об уровне соответствия сотрудника занимаемой должности.

Например, после одного из аудитов Uptime выяснилось, что чек-листы для оперативных групп хоть и были очень подробными, однако в них не было полей для отметки выполненных шагов в рамках процедуры. Получили рекомендацию добавить необходимые поля. Небольшое и очевидное улучшение значительно повысило качество контроля за профилактическим обслуживанием.

Также всю библиотеку существующих у нас инструкций Uptime порекомендовал объединить в рамках матрицы или блок-схемы ответственных и подотчетных лиц — для наглядности и информированного выполнения процессов, связанных с эксплуатацией, поддержкой и обеспечением безопасности.

Всевидящее око мониторинга

Система мониторинга работы инженерных систем в ЦОДе (BMS, Building Monitoring System) – завершающий и критически важный компонент обеспечения аптайма. Он напрямую влияет на скорость реакции персонала на аварийные ситуации. Сегодня мы используем BMS-систему, кастомизированную в собственном облаке, разработанную специально под требования наших специалистов.

Доступ к ней обеспечивается через веб-браузер из любой точки, без обязательного присутствия инженера на территории ЦОДа. Интерфейс системы анимирован так, чтобы динамика функционирования инфраструктуры была наглядна для дежурных инженеров.

Также в BMS-решении обеспечивается поддержка формул для обсчета работы виртуальных датчиков в инженерных системах – например, для оптимального распределения электрических мощностей по стойкам с оборудованием.

Система обеспечивает доступ к базе данных SQL с возможностью брать из нее нужные данные о работе оборудования – а именно, все записи о мониторинге 2 тысяч устройств и виртуальных датчиков, генерирующих примерно 20 тыс. переменных.

Еще одна «фишка» нашей BMS-системы: на одной странице представлены все основные параметры ЦОДа, чтобы с одного взгляда на экран оценит состояние основных систем, так называемый формат One page.

Это таблица, сверстанная под формат вертикально расположенного экрана смартфона. Расположение ячеек в таблице повторяет архитектуру ЦОДа (физическую или логическую). Последовательность отражает зрительные ассоциации персонала дата-центра, что упрощает поиск нужной информации.

Система поддерживает мобильность сотрудников. Помимо контроля мониторинга в помещении дежурной смены, инженеры делают обходы, выполняют текущую работу вне «дежурки» и, благодаря оптимизированному под мобильный экран главному экрану BMS, не теряют контроль за происходящим в машзалах.

Качество контроля повышается благодаря функциональности рабочих чатов. Они ускоряют рабочие процессы, позволяя привязать переписку дежурных инженеров к BMS. Например, приложение MS Teams позволяет вести внутреннюю переписку и получать на телефон все сообщения из BMS в виде всплывающих Push-уведомлений, что избавляет дежурного от необходимости постоянно смотреть в экран телефона.

Здесь не все прошло гладко: мы недооценили объем изменений, которые потребовалось внести в базовую версию новой BMS, и не уложились в сроки. Критической проблемой это не стало, так как мы подстраховались и работали на старой системе.

Также потребовалось несколько этапов испытаний, чтобы отладить алгоритм резервирования виртуальных машин и каналов связи. Изначально сбои были и на стороне системы BMS, и в ходе настройки виртуальных машин и сети. Эта отладка тоже заняла время.

Итоговое решение оказалось сложнее для редактирования конечным пользователем, более требовательным в эксплуатации. Ранее карта представляла собой подложку (графический файл) и значки, изменить или переместить которые не составляло труда. Сейчас это сложный графический интерфейс с анимацией, его редактирование требует от инженеров определенных навыков.

Мелочей нет – постоянное развитие

Это довольно общий взгляд на те составляющие, которые позволяют обеспечивать 100%-ный uptime ЦОДа и рассчитывать на повторение безаварийной декады.

Пожалуй, самый главный фактор на этом пути – желание и способность постоянно находить возможности для улучшения работы ЦОДа, копаться в мелочах, просчитывая сценарии апгрейда по не самым очевидным направлениям.

Именно такое отношение к задаче позволило нам в свое время обнаружить проблемы с контролем уровня давления и «подпора» воздуха в серверных помещениях и наладить его оптимальные показатели. Мы также обнаружили и устранили причину загрязнения воздуха в машзалах.

На пути к 100%-ному уровню аптайма нет мелочей и нет остановок – это постоянное совершенствование, например, через ввод в эксплуатацию нового энергооборудования или создание безопасных условий труда технического персонала через внедрение в практику системы LOTO.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *