Как Microsoft решила крупный сбой CrowdStrike

Microsoft сталкивается с крупной неприятностью: объяснение сбоя CrowdStrike

В шокирующем повороте событий рано утром в пятницу компания CrowdStrike оказалась завалена отчетами о сбоях, когда инженеры Microsoft осознали серьезность ситуации. Миллионы машин с Windows испытывали так называемый печально известный «Синий экран смерти» (BSOD), что нарушало работу критически важных серверов и ПК по всему миру.

Понимание серьезности инцидента

Microsoft быстро классифицировала инцидент как «нулевую серьезность», внутренне называемую sev0. Эта категория является самой срочной классификацией для инцидентов, влияющих на продукты или услуги Microsoft. Инциденты sev0 чрезвычайно редки, что требует уведомления дежурных инженеров и немедленных действий для решения проблемы, часто посреди ночи.

Роль CrowdStrike

Сложность ситуации дополнительно возросла из-за участия CrowdStrike, сторонней компании по кибербезопасности. 19 июля в 12:09 по восточному времени обновление, выпущенное CrowdStrike, непреднамеренно привело к отключению примерно 8,5 миллионов ПК от сети. Хотя ошибка не исходила от самой Microsoft, она быстро превратилась в значительную проблему для техногиганта.

Влияние на Microsoft и ее клиентов

Этот инцидент особенно затронул то, что Microsoft определяет как своих «pri0 клиентов», включая крупные организации с критической инфраструктурой, которые сильно зависят от непрерывного обслуживания. Компании с важными операциями оказались в состоянии паники, пытаясь справиться с последствиями этого неожиданного сбоя.

Ответ: сотрудничество и коммуникация

В свете серьезных последствий сбоя Microsoft было необходимо поддерживать постоянную связь с инженерами CrowdStrike. Срочность ситуации требовала сотрудничества на нескольких платформах, включая взаимодействие с конкурентами в облачных технологиях, такими как Amazon и Google.

Последствия

С течением времени, когда пыль оседает по этому неожиданному происшествию, как CrowdStrike, так и Microsoft сталкиваются с задачей восстановления нормальной работы, одновременно оценивая причины и последствия такого широкомасштабного сбоя.

Основные выводы

Инцидент подчеркивает уязвимость взаимосвязанных систем, где обновления сторонних компаний могут нарушить работу в массовых масштабах.
Эффективная коммуникация и сотрудничество между компаниями жизненно важны во время критических сбоев.
Понимание классификации инцидентов, таких как sev0, жизненно важно для распознавания срочности, необходимой в управлении инцидентами в области технологий.

Заключение

Хотя обновление CrowdStrike стало катализатором сбоя, инцидент служит возможностью для обучения для обеих компаний, подчеркивая важность надежного тестирования и протоколов коммуникации, чтобы избежать подобных ситуаций в будущем.