Як Майкрософт вирішив велику аварію CrowdStrike

Microsoft зіткнулася з великою пригодою: пояснення інциденту з CrowdStrike

У шокуючому повороті подій рано-вранці в п'ятницю CrowdStrike виявилася завалена звітами про аварії, оскільки інженери в Microsoft усвідомили серйозність ситуації. Мільйони комп'ютерів під управлінням Windows стикалися з тим, що відомо під назвою notorious Blue Screen of Death (BSOD), що порушує роботу критично важливих серверів і ПК по всьому світі.

Розуміння серйозності інциденту

Microsoft швидко класифікувала інцидент як "нульову серйозність," внутрішньо відому як sev0. Ця категорія є найтерміновішою класифікацією для інцидентів, що впливають на продукти або послуги Microsoft. Інциденти sev0 є вкрай рідкісними, що спонукає до сповіщення інженерів на чергуванні та негайних дій для вирішення проблеми, зазвичай серед ночі.

Роль CrowdStrike

Складність ситуації ще більше посилилася через участь CrowdStrike, третьої сторони у сфері кібербезпеки. 19 липня о 12:09 AM ET оновлення, випущене CrowdStrike, випадково призвело до відключення приблизно 8,5 мільйонів ПК від мережі. Хоча помилка не виникла безпосередньо з Microsoft, вона швидко перетворилася на суттєву проблему для технологічного гіганта.

Вплив на Microsoft і її клієнтів

Цей інцидент особливо вплинув на те, що Microsoft називає своїми "pri0 клієнтами", до яких належать великі організації з критично важливою інфраструктурою, які сильно покладаються на безперебійне обслуговування. Компанії з незмінними операціями залишилися спантеличені у вирішенні наслідків цього несподіваного перебою.

Відповідь: співпраця та комунікація

У світлі серйозних наслідків перебою, Microsoft була змушена підтримувати постійний зв'язок з інженерами CrowdStrike. Терміновість ситуації вимагала співпраці на кількох платформах, включаючи зв'язок з конкурентами в хмарних технологіях, такими як Amazon і Google.

Наслідки

У міру того, як пил осідає після цього несподіваного випадку, і CrowdStrike, і Microsoft стикаються з викликом відновлення нормальних операцій, оцінюючи причини та наслідки такого широко розповсюдженого збою.

Ключові висновки

Інцидент підкреслює уразливість взаємопов'язаних систем, де оновлення третіх сторін можуть спричинити перебої в роботі на масовому рівні.
Ефективна комунікація та співпраця між компаніями є критично важливими під час критичних перебоїв.
Розуміння класифікації інцидентів, таких як sev0, є важливим для усвідомлення терміновості, необхідної в управлінні технічними інцидентами.

Висновок

Хоча оновлення CrowdStrike стало каталізатором для перебою, інцидент слугує можливістю для навчання для обох компаній, підкреслюючи важливість ретельного тестування та комунікаційних протоколів для уникнення подібних ситуацій у майбутньому.