Jak Microsoft rozwiązał poważną awarię CrowdStrike

Microsoft staje w obliczu poważnego incydentu: wyjaśnienie awarii CrowdStrike

W zaskakującym zwrocie wydarzeń wczesnym piątkiem rano, CrowdStrike znalazł się w obliczu fali raportów o awariach, gdy inżynierowie w Microsoft uświadomili sobie powagę sytuacji. Miliony maszyn z systemem Windows doświadczały tego, co znane jest jako notoryczny Niebieski Ekran Śmierci (BSOD), zakłócając krytyczne serwery i komputery osobiste na całym świecie.

Zrozumienie powagi incydentu

Microsoft szybko zaklasyfikował incydent jako „zerową powagę”, wewnętrznie określaną jako sev0. Ta klasyfikacja to najpilniejsza kategoria incydentów wpływających na produkty lub usługi Microsoftu. Incydenty sev0 są niezwykle rzadkie, co wzywa do powiadomienia inżynierów dyżurnych i natychmiastowego działania w celu rozwiązania problemu, często w środku nocy.

Rola CrowdStrike

Kompleksowość sytuacji została dodatkowo zwiększona przez zaangażowanie CrowdStrike, firmy zajmującej się cyberbezpieczeństwem. 19 lipca o godz. 12:09 czasu wschodniego, aktualizacja wydana przez CrowdStrike nieumyślnie doprowadziła do odłączenia około 8,5 miliona komputerów od sieci. Chociaż błąd nie pochodził bezpośrednio od Microsoftu, szybko stał się poważnym problemem dla giganta technologicznego.

Wpływ na Microsoft i jego klientów

Ten incydent szczególnie dotknął to, co Microsoft nazywa swoimi „klientami pri0”, a więc dużymi organizacjami z krytyczną infrastrukturą, które w dużej mierze polegają na nieprzerwanym serwisie. Firmy z istotnymi operacjami znalazły się w trudnej sytuacji, starając się poradzić sobie z konsekwencjami tej niespodziewanej awarii.

Reakcja: Współpraca i komunikacja

W świetle poważnych konsekwencji awarii, Microsoft był zmuszony do utrzymywania stałej komunikacji z inżynierami CrowdStrike. Pilność sytuacji wymagała współpracy na wielu platformach, w tym kontaktu z konkurentami w chmurze, takimi jak Amazon i Google.

Skutki

Gdy kurz opada po tym niespodziewanym wydarzeniu, zarówno CrowdStrike, jak i Microsoft stają w obliczu wyzwania przywrócenia normalnej działalności, oceniając jednocześnie przyczyny i następstwa tak szerokiej awarii.

Kluczowe wnioski

Incydent podkreśla podatność systemów wzajemnie połączonych, gdzie aktualizacje firm trzecich mogą zakłócić operacje na masową skalę.
Skuteczna komunikacja i współpraca między firmami są niezbędne podczas krytycznych awarii.
Zrozumienie klasyfikacji incydentów takich jak sev0 jest kluczowe dla rozpoznawania pilności wymaganej w zarządzaniu incydentami technologicznymi.

Podsumowanie

Chociaż aktualizacja CrowdStrike była katalizatorem awarii, incydent ten stanowi okazję do nauki dla obu firm, podkreślając znaczenie solidnego testowania i protokołów komunikacyjnych, aby unikać podobnych sytuacji w przyszłości.