Отключение Microsoft Azure в восточной части США 3 марта: что пошло не так (или правильно)?

  • Sep 26, 2023

3 марта в популярном и важном регионе Microsoft East Azure в США возникла более чем шестичасовая проблема с большинством сервисов. Но на этой неделе оно почти не было зарегистрировано в социальных сетях.

azureuseastglitch.jpg

Облако

  • Что такое цифровая трансформация? Все, что Вам нужно знать
  • Сравнение лучших облачных провайдеров: AWS, Azure, Google Cloud и другие.
  • Топ-6 дешевых услуг веб-хостинга: найдите доступный вариант
  • Что такое облачные вычисления? Вот все, что вам нужно знать

По данным компании, в течение более шести часов 3 марта почти все службы Azure в восточном регионе США испытывали проблемы с хранилищем и подключением. Страница состояния Azure. (Снимок экрана части страницы состояния от 3 марта приведен выше.) 6 марта Microsoft предоставила анализ первопричин произошедшего. Как полагали многие клиенты, в основе проблемы был скачок температуры.

Начало около 9:30 утра по восточному времени и продлится до 15:50. ET, «некоторые клиенты из восточной части США могли столкнуться с проблемами при подключении к ресурсам в этом регионе», — отмечается в анализе Microsoft. Microsoft сообщает, что сбой в управлении системой автоматизации здания привел к повышению температуры в нескольких комнатах резкое увеличение нагрузки на центр обработки данных в этом регионе, что затронуло службы хранения, вычислений, сети и зависимые службы.

Система охлаждения имела резервирование N+1, однако отказ привел к «значительному уменьшению» потока охлаждающего воздуха. в результате чего сетевые устройства перестают отвечать на запросы, виртуальные машины отключаются, а некоторые устройства хранения данных остаются в эксплуатации. не в сети.

Согласно отчету о первопричинах, Microsoft пришлось перезагрузить контроллеры системы охлаждения. После того, как все остыло, инженерам пришлось включать и выключать и восстанавливать вышедшее из строя серверное оборудование по группам, а затем вручную восстанавливать оборудование и вычислять виртуальные машины, которые не восстановились автоматически.

Microsoft заявляет, что проверяет систему управления автоматизацией здания, ответственную за инцидент, а также механическую систему охлаждения. Любые проблемы, которые они обнаружат, будут применены к другим центрам обработки данных в тех же системах управления и охлаждения.

Звучит довольно ужасно, не так ли? Тем не менее, к моему удивлению, по крайней мере для меня, в Твиттере по этому поводу было очень мало протестов. Обычно моя лента новостей заполняется жалобами, когда какой-либо крупный сервис Microsoft выходит из строя, даже на короткий период. 3 марта я видел, как несколько человек пинговали учетную запись службы поддержки Azure в Твиттере, а также несколько упоминаний о ситуации на востоке США 3 марта. но по сравнению с другими сбоями в работе Azure и Office 365 за последние годы, этот почти не вызвал возмущения в социальных сетях. шкала.

Я спросил об этом пару своих знакомых, и они, похоже, в основном не пострадали, несмотря на Восток США — один из самых важных и популярных облачных регионов Microsoft.. Может быть, планы резервирования и аварийного переключения действительно сработали? Может быть, пользователи облаков уже не так часто выражают свои проблемы с перебоями в Twitter?

У кого-нибудь есть какая-либо информация или теории о том, почему это, похоже, не затронуло больше клиентов? Я весь во внимании.