Сбой в работе облачного сервиса Amazon вызвала простая опечатка

Компания Amazon объяснила причину неполадок в работе облачной системы хранения данных Amazon Web Services S3 AWS, из-за которых было нарушено функционирование огромного количества сайтов и интернет-приложений. Как оказалось, проблема возникла из-за человеческой ошибки.

Согласно официальному заявлению компании, в процессе устранения неполадок, связанных с работой биллинговой системы S3, один из сотрудников ввел неправильную команду и удалил больше серверов, чем было нужно. Удаленные по ошибке серверы поддерживали работу двух других подсистем S3. В Amazon также отметили, что инженеры компании извлекли для себя соответствующий урок и вносят изменения для предотвращения подобных ситуаций.

По словам аналитика компании ZK Research Зюса Керравалы (Zeus Kerravala), 37% IT-сбоев происходят по причине человеческой ошибки.

«Данная ситуация показывает, что несмотря на многочисленные достижения в области технологий, мы по-прежнему в значительной степени зависим от ручных процессов. Это пример того, где могли бы помочь лучшая автоматизация и машинное обучение», - отметил Керравала.

В числе пострадавших оказались некоторые сервисы Apple (App Store, Apple Music, FaceTime, iCloud, iTunes, Photo) и Adobe, сайты Комиссии по ценным бумагам и биржам США, платформа для разработчиков GitHub, ряд новостных ресурсов, краудфандинговая платформа Kickstarter, почтовый сервис Mailchimp, приложение Signal и пр.

Согласно сообщению Amazon в Twitter, неполадки возникли в работе сетевого хранилища S3 AWS, где содержится информация, которую использовало значительное количество сайтов и приложений. Проблемы с доступом к сайтам продолжались более 3,5 часов.

Сбой произошел в дата-центре Amazon в Вирджинии, проблему удалось устранить спустя порядка 4 часов, сообщает SecurityLab.