Проблемы надежности и обслуживания ИБП в ЦОД

Василий Мочар, зам. директора ITResearch

Эксплуатационные характеристики решений СБЭП зачастую разнятся довольно значительно, и в конечном итоге это выливается в существенное различие в стоимости владения и надежности бесперебойной работы всей инженерной инфраструктуры ЦОДа. Соответственно необходимо самым серьезным образом проанализировать возможность их обслуживания и ремонта, а также работы в особых режимах. В данном обзоре мы постараемся обозначить наиболее часто встречающиеся проблемы с функционированием систем бесперебойного электропитания ЦОДа и способы их решения.

Напомним сначала, какие граничные условия и технические параметры ИБП принимаются во внимание при выборе ИБП для ЦОДа. Анализ продуктовых предложений различных вендоров позволяет вычленить следующие основные атрибуты сравнения: технология (башня/модульность); мощность силового блока и количество блоков в параллели; наличие/отсутствие трансформатора; физические габариты; КПД в различных режимах; повышение надежности путем резервирования; развитость средств мониторинга и управления; удобство технического обслуживания; соответствие требованиям стандартов безопасности и электромагнитной совместимости с другим оборудованием; сложность сопряжения с ДГУ.

Также стоит учитывать и такой параметр, как стоимость решения, которая, с одной стороны, не является технической характристикой, но, с другой, — задает сам уровень системы, фактически выступая граничным условием. Дело в том, что в ЦОДах, реализованных по классу Tier 1 (низкая отказоустойчивость, доступность 99,671 %) стоимость строительства и всей инженерной системы в два с лишним раза меньше, чем в системах высшего на данный момент класса Tier 4 (высокая отказоустойчивость, доступность 99,995 %).

Ну и, естественно, есть также и такие качественные параметры, как бренд-имидж, который напрямую зависит от качества и надежности продукции, известности торговой марки, success-story (известных удачных проектов), наличия профессиональных партнеров и т. д. Строго говоря, надежность является следствием технических параметров, поскольку она определяется проработкой схемотехнических решений и качеством элементной базы. Однако заказчик не имеет возможности влиять на данные моменты и вынужден полагаться на поставщика на уровне доверяю/не доверяю.

Мы не зря приводим столь внушительный список атрибутов ИБП. Дело в том, что они влияют не только на этап инсталляции, но и на всю последующую «жизнь» системы. Можно принять, что СБЭП для ЦОДа в 100% случаев разрабатывается и реализуется грамотно. Но что дальше? Почему то тут, то там происходят различные инциденты? Во всех ли случаях виноваты внешние факторы, уровень которых нельзя было предвидеть, как, например, цунами в Фукусиме?

По оценкам Электроэнергетического исследовательского института (EPRI), две трети потерь от простоев СБЭП являются предотвратимыми и обусловлены следующими факторами: человеческая ошибка; нетехнологичность решения; неправильная эксплуатация; плохое конструктивное решение; неадекватная избыточность; недостаточный уровень технического обслуживания. И всего лишь треть потерь относятся к «неизбежным» и обусловлены поломкой оборудования (несмотря на соответствующее техническое обслуживание и тестирование); нарушениями цепи внешнего электропитания и кибертерроризмом.

Влияние архитектуры

Какой же фактор является определяющим при реализации надежного решения? Это в первую очередь мощность, которая определяет все, включая архитектуру системы. В частности, в больших и средних ЦОДах практически однозначным вариантом будет установка комплекса ИБП и аккумуляторных батарей в отдельном помещении или крыле, с подведением питания к стойкам по кабелям. В малых и микро-ЦОДах вполне может быть предложена топология, когда ИБП и АКБ занимают одну из стоек или даже находятся в той же стойке, где и серверы и иное критичное оборудование.

По некоторым оценкам, около 80% всех ЦОДов в Европе используют централизованную архитектуру СБЭП, при которой мощные ИБП, объединенные в параллельные системы, монтируются в отдельных помещениях и оснащаются собственными системами кондиционирования. Такое решение снижает тепловую нагрузку в серверных комнатах, позволяет разделить зоны ответственности для технического персонала, упрощает диагностику и обслуживание оборудования, отвечающего за электропитание.

Мощность отдельных силовых блоков ИБП можно подобрать таким образом, чтобы система находилась в таком состоянии, когда путем отключения ненужных (в данный момент) блоков можно остальные удерживать в зоне нагрузки, когда КПД максимален. Но, с другой стороны, нельзя увлекаться излишним количеством силовых блоков, поскольку в случае классических (башенных) систем это оборачивается дополнительной площадью., а также расходами на кабели, платы, и другое сопутствующее оборудование. В модульных системах эта проблема решена, но там еще есть определенные ограничения в самых больших мощностях.

Размещая выбранную конфигурацию ИБП в определенном помещении, необходимо помнить не только о том, как оборудование здесь разместить и подключить, но и (что еще более важно) — как его обслуживать. В идеале должен быть не только обеспечен свободный доступ к «потрохам» каждого шкафа, но и возможность полной его замены, не трогая все остальные. Дело в том, что всегда нужно рассчитывать на худшее, и в случае неремонтопригодности одной составляющей системы нельзя допустить ситуации, когда ее замена чревата полным демонтажем всей системы. В этом случае весь ЦОД может быть остановлен на достаточно длительное время, что абсолютно недопустимо.

Здесь проявляется преимущество модульных систем, у которых силовые блоки редко весят несколько десятков килограмм и легко могут быть заменены вручную одним-двумя техниками. Кстати, современные «башенные» ИБП сейчас уже разрабатываются таким образом, что начинка любого шкафа состоит из несколько независимых модулей (силовой, модули управления, распределения...), что позволяет в случае необходимости полностью разобрать на месте весь источник. Такая концепция реализована, например, в только что анонсированном ИБП Eaton 93 PX, который фактически является промежуточным вариантом между обычными и модульными системами.

Если купить приличный ИБП, он может спокойно работать себе практически неограниченное время, главное — трогать его поменьше и только мониторить его состояние. Традиционно ИБП рассчитывается не менее чем на 10 лет эксплуатации, причем за этот срок защищаемое оборудование успевает обновиться как минимум три раза. Помимо повышенных требований к компонентной базе ИБП, возникает еще и очень важный момент, связанный с человеческим фактором. Ведь чем больше манипуляций осуществляется с оборудованием, находящимся рядом с ИБП, тем больше шансов, что будет случайно нажата не та кнопка, выдернута не та клемма или что-то еще просто сломано. Исходя из этого, развертывание СБЭП единым изолированным комплексом является самым безопасным вариантом, поскольку исключает ненужные манипуляции вблизи ИБП.

Впрочем, чуть не забыли еще один важный элемент: в самом ИБП имеются вентиляторы, и их желательно чистить как минимум раз в год. Во время этой процедуры можно не только посмотреть своими глазами табло управления, но и визуально убедиться в отсутствии иных потенциальных проблем, например, почерневшей изоляции и т. д.

В целом процесс эксплуатации и точность следования регламентам могут как «занулить» уровень отказоустойчивости, который заложен в дизайне СБЭП, так и даже его повысить. К потере нагрузки может привести множество факторов: от неосторожного движения до неудачного решения по выводу на профилактику какого-то узла. Соответственно персонал должен быть хорошо обучен и тренирован на отработку нештатных ситуаций.

Влияние АКБ

С самими ИБП, если не делать явных глупостей, мало что может случиться. Исследования показывают, что приблизительно только 4% поломок ИБП вызвано их износом. Регулярное профилактическое обслуживание существенно уменьшает вероятность простоя ИБП. По некоторым данным, клиенты, которые не проводят профилактических осмотров, почти в четыре раза чаще сталкиваются с проблемами простоев ИБП, чем те, кто два раза в год проводят рекомендованные профилактические осмотры. Но совсем другое дело располагающиеся рядом с ними батарейные кабинеты: в них 20 % поломок связано именно с аккумуляторами.

Само то, что АКБ имеет ограниченный срок жизни, создает целый пласт возможных угроз и проблем. Не оптимально выбранный режим работы может существенно укорачивать жизнь батарей. Попытка сэкономить также часто оборачивается сокращение жизни батарейного комплекса. Плохо на батареи влияет также и неправильный температурный режим. Вышедшая из строя одна ячейка, будучи не заменена во-время, может «прикончить» весь шкаф. И так далее.

Но мало того, что батарейные кабинеты требуют большего внимания и контроля, зачастую они являются источником иной угрозы. Необходимость замены многих сот килограмм свинцовых батарей оборачивается допуском в ЦОД неквалифицированной рабочей силы, от которой можно ожидать чего угодно и проконтролировать которую крайне сложно.

Управление и мониторинг

Различные форс-мажоры (включая человеческий фактор) неизбежны, но предупреждаются заранее продуманной схемой процедур. Часть их происходит с физическим участием операторов, но это уже само по себе отклонение от обычных режимов работы. Более естественным является автоматическое реагирование, которое иногда длится микросекунды и происходит благодаря все более изощренной микроэлектронике ИБП.

Современная элементная база позволяет системе управления ИБП предельно точно измерять параметры электрического тока на входе и выходе ИБП и в его внутренних цепях. Это позволяет своевременно реагировать на изменения параметров нагрузки или входной сети, подстраивая сигналы управления транзисторами инвертора или выпрямителя таким образом, чтобы минимизировать колебания напряжения, уменьшить нелинейность и т. д.

Увеличивается и мощность встроенных средств самодиагностики. ИБП сейчас способен не только измерить величину тока или напряжения на входе и выходе, но и определить отклонение параметров конденсаторов от допуска, зарегистрировать повышенные пульсации переменного тока на шине АКБ и тем самым повысить надежность работы системы (при условии, что сервисный персонал обратит внимание на предупредительные сигналы и предпримет корректирующие действия). Кстати, интересный момент: последние поколения плат управления , например, у ИБП компании General Electric, оснащаются так называемым черным ящиком, назначение которого — сохранить в энергонезависимой памяти не только список сообщений, но и осциллограммы сигналов и состояния основных компонентов ИБП в момент нештатных ситуаций. Имея такой «информационный слепок», сервисный инженер может быстрее и точнее продиагностировать устройство и оценить возможные влияния на его работу со стороны нагрузки и питающей сети.

Но иногда источнику нужно подать и внешнюю команду. Многоуровневые средства мониторинга функционируют по интерфейсу SNMP, по шине Modbus и с помощью «сухих контактов» ИБП, и интегрируются прямо в диспетчерскую систему инженерного комплекса ЦОДа. Ключевое значение имеют быстродействие и эффективность цифровых алгоритмов управления. Для удаленного администрирования ИБП чаще всего используется встроенная поддержка SNMP, что позволяет следить за состоянием самого ИБП и системы электропитания. Поддержку по SNMP, Web/XML, различные сигнальные контакты и другие возможности предлагают фактически все производители ИБП, ориентированных на установку в ЦОДах, а их ПО совместимо с различными средами управления (HP OpenView и др.). Также применяется интеграция средств мониторинга ИБП с системами сетевого управления (NMS).

Локальный и удаленный контроль основных параметров (входное и выходное напряжение, величина нагрузки, прогнозируемое время автономной работы) и состояния (переход на работу от батареи, переключение на байпас, работа от сети, программируемое отключение), а также возможность удаленного мониторинга и превентивной диагностики состояния оборудования позволяют прогнозировать выход из строя отдельных компонентов, планировать их ремонт или замену.

Обычно в ЦОДе не предусматривается дистанционное отключение нагрузки, а лишь запуск тестов состояния ИБП или АКБ или, в крайнем случае, переключение на статический байпас. Это важная защитная мера при возможном удаленном несанкционированном доступе к системе.

Проблема повышения КПД

Есть еще один элемент надежности и безопасности, о котором нельзя не упомянуть. Одной из ключевых тем современного ИБП-строения является минимизация потерь электроэнергии, что в ЦОДе представляет собой одну из основных (если не основную) статью затрат. Сейчас мы не касаемся всего комплекса этой чрезвычайно сложной проблемы, и речь идет только об ИБП.

КПД в различных режимах — комплексный фактор, причем здесь важна не только возможность работы на байпасе, но и другие методы повышения эффективности, например, обеспечение работы с активно-емкостной нагрузкой при минимальном снижении выходной мощности, а также стабильность кривой КПД при различном уровне нагрузки. В лучших ИБП есть возможность обеспечивать работу с КПД на уровне 95-96%, т. е. теряются всего несколько процентов электроэнергии. Но каждый лишний процент КПД в мегаваттных ЦОДах оборачивается очень существенной экономией.

Имеется одна возможность довести потери на ИБП практически до нуля — это работа на байпасе. В этом случае устройство работает в интерактивном режиме, только фильтруя ток, и очень быстро (за доли миллисекунды) включаясь, когда пропадает внешняя сеть. Длительность всего переходного процесса при переключении составляет менее 2-3 мс. Такой эко-режим при конфигурации 2N и включении на одном из лучей системы даже теоретически не несет угрозы для системы.

Однако, как показывает практика, такой подход, практически не неся угроз самому ЦОДу, может приносить проблемы ответственному персоналу. Многие руководители заказчиков без восторга принимают мысль о том, что их комплекс может быть «оголен», да и у ИТ-службы глобальной целью является совсем не экономия электроэнергии, а надежное функционирование. Поэтому внедрение эко-режимов в российских ЦОДах пока пробуксовывает, и перспективы здесь, несмотря на удорожание электроэнергии, далеко не очевидны.

Полная электронная версия этой статьи доступна только для подписчиков. Для получения полной электронной версии статьи сейчас Вы можете оформить запрос.