В результате ошибки сотрудника часть действующих виртуальных систем "Яндекс. Облако" удалилась. Событие произошло 16 мая текущего года, во время рядовых технических манипуляций по приостановке и зачистке виртуальных машин в не действующих, по разным причинам, Облаках. Спустя некоторое время, информация об ошибке была подтверждена представителями «Яндекс». По информации СМИ, ошибка была обнаружена спустя 20 минут после запуска команды по удалению виртуальных машин из составленного списка, куда, из-за неправильной фильтрации, попали и те виртуальные системы, которые хотя бы единожды были заблокированы. По данным компании, происшествие привело к утрате 0,77% от всего количества виртуальных систем и boot-дисков. Однако это коснулось только виртуальных машин в зоне ru-central1-c, тогда как дополнительные диски удалось сохранить
Напомним, что публичный запуск «Яндекс.Облака» произошёл в начале осени прошлого года. Оно дает возможность доступа к виртуальной инфраструктуре, сервисам, управляющим базами данных, а также распознающими и синтезирующим речь, осуществляющим машинные перевод и прочие услуги. Также представители «Яндекс» заверили, что юзеры обладающие снимками дисков, имеют возможность восстановить все утраченное.
Компания, в связи со сложившейся ситуацией, сообщила о решении выделить всем, попавшим в затруднительную ситуацию, гранты, чтобы компенсировать потери. Такие меры, по документации «Яндекс.облака», представляют собой скидку предоставляемую физлицу или компании и распространяющуюся на любые сервисы «Облака». По словам представителя «Яндекса», в данный момент компания разрабатывает меры, чтобы не допустить таких удалений в будущем, так как приоритет компании — надежность системы и ценность всех ее пользователей. Компания старается решить все возникающие вопросы по горячей линии в режиме реального времени.
Ошибки неизбежны даже в самых крупных компаниях-представителях ИТ-индустрии. Наиболее крупному представителю, среди мировых игроков в сфере облачных платформ, - Amazon Web Services (AWS) - не посчастливилось столкнуться с человеческим фактором, который в результате привёл к потере всех данных и даже полному отказу инфраструктуры. Инцидент произошёл в начале 2017 года, когда работник сервиса неверно ввёл команду для удаления части сервисов одной из подсистем. По допущенной ошибке было удалено множество машин, что полностью закрыло доступ к тысячи популярных приложений и ресурсов на несколько часов.
Неожиданный отказ облачных сервисов происходил в компании и в 2011 году. Тогда дата-центр Вирджинии, по сообщениям компании, в связи с ошибкой резервного копирования, заблокировал работу многих сервисов, в том числе Quora, Foursquare и Reddit и других не крупных стартапов.