Ошибки, возникающие при проектировании и строительстве центра обработки данных, часто могут быть выявлены на этапе комплексных предэксплуатационных испытаний и исправлены до того, как вызовут отказ систем во время реальной эксплуатации. Всегда дешевле исправить ошибку в чертежах на этапе проектирования, чем менять то, что уже было построено. Именно поэтому подготовку к вводу в эксплуатацию нужно начинать уже на этапе проектирования, например, путем независимой инженерной экспертизы документации до начала строительства. Это поможет заблаговременно выявить критические точки отказа и устранить их.
Однако даже самый качественный проект и понятные рабочие чертежи не исключают возможности ошибки при монтаже и соединении компонентов. Если есть теоретическая возможность неправильного монтажа компонентов или их соединения, то в какой-то момент вы обязательно столкнетесь с ней на практике. Здесь в силу вступает человеческий фактор - например, работник может неправильно протянуть кабель высокого напряжения, сделав его непригодным для дальнейшего использования. Как только такой кабель начнут использовать по назначению, подобная ошибка непременно заявит о себе дуговым разрядом. Тщательный надзор и контроль строительных работ позволит предотвратить такие виды ошибок.
Одной из самых легко решаемых и тем не менее наиболее распространенных ошибок при эксплуатации ЦОД является непривлечение сотрудников группы эксплуатации (по крайней мере ключевых) к работе над проектом на ранних этапах проектирования и строительства объекта. Нанимая специалистов, которые будут заниматься эксплуатацией объекта, только после того как он будет построен или практически завершен, владельцы ЦОД теряют возможность с первого же дня иметь полноценный объект, полностью готовый к работе. Другими словами, сам объект может и будет готов к работе, но команда, обслуживающая его, все еще будет учиться на нем работать. Нужно будет либо запускать объект с неопытной командой, что само по себе верный путь к провалу, либо потратить время на подготовку к эксплуатации, что занимает несколько месяцев и включает в себя знакомство с оборудованием и объектом, создание и отработку на практике процедур нормальной эксплуатации и планов действий в нештатных ситуациях.
Малейшая ошибка, короткая остановка работы, авария могут обойтись компании в миллиарды долларов
Другой часто встречающейся причиной ошибок в процессе эксплуатации является отказ от использования письменно оформленных процедур. Оператор думает, что он помнит все необходимые шаги, и поэтому не использует технологическую карту или контрольный список, ведь он "уже сто раз делал то же самое". Затем он пропускает один из шагов или совершает действия в неправильном порядке. Дальнейшие действия, которые оператор предпринимает для того, чтобы исправить свою первоначальную ошибку, только усугубляют возникшую проблему. Между тем качественно составленный контрольный список часто содержит в себе меры по решению возникающих проблем.
Дополнительные проблемы возникают, когда контрольный список не обновляется при изменении оборудования или процедур. Или же обновляется, но из-за неправильно выстроенной системы контроля за документацией оператор использует старую версию. Любая из этих ошибок является ловушкой для следующего человека, который будет работать с этим оборудованием или системой. В случае с любыми ошибками в процедурах эксплуатации наилучшей профилактической мерой является, во-первых, разработка максимально продуманных и подробных процедур и связанных с ними контрольных списков и, во-вторых, обучение сотрудников неукоснительному их соблюдению.
Также крайне важна координация действий между сотрудниками, работающими одновременно в разных частях ЦОД и выполняющими свой наряд на обслуживание оборудования. В начале каждой смены любые наряды, запланированные на день, должны быть дополнительно проверены и подписаны дежурным инженером, чтобы исключить риск ошибки или снижение степени резервирования.
И, наконец, есть еще одна категория ошибок - вида "не верю своим глазам" - простое незнание или невнимание персонала: два блока питания или распределительных устройства, подключенные к одной и той же линии электропитания вместо двух независимых линий; сервер, установленный в стойку задом наперед так, что его вентиляторы забирают воздух из "горячего", а не из "холодного" прохода; кнопка аварийного отключения электропитания без соответствующей маркировки и защиты, ведущая к отключению питания новым сотрудником, который думал, что просто выключает свет... Эти ошибки могли бы вызвать улыбку, если бы не обходились столь дорого и не отнимали много времени.
Обучение, трудовая дисциплина, упор на разработку и неукоснительное соблюдение процедур, постоянные улучшения и контроль качества выполняемых работ помогут снизить риск многих ошибок эксплуатации. Но когда-нибудь ошибка обязательно случится, поэтому у любого хорошо подготовленного владельца или оператора центра обработки данных должен быть разработан и внедрен план восстановления работоспособности объекта при возникновении нештатных ситуаций, хорошо известный и отработанный всеми сотрудниками.
Фред Дикерман