Blue Screen of Death

マイクロソフトがCrowdStrikeの大規模な障害を解決した方法

Microsoft engineers monitoring CrowdStrike outage response.

マイクロソフトの重大なインシデント:クラウドストライクの障害の説明

金曜日の早朝、衝撃的な出来事が起こり、クラウドストライクはエンジニアが状況の深刻さに気付いたときに、クラッシュレポートにあふれかえりました。何百万ものWindowsマシンが、悪名高いブルースクリーンオブデス(BSOD)を経験し、世界中の重要なサーバーやPCを混乱させていました。

インシデントの深刻さの理解

マイクロソフトは、事件を「重大度ゼロ」として迅速に分類しました、内部ではsev0と呼ばれています。この分類は、マイクロソフトの製品やサービスに影響を与えるインシデントに対する最も緊急な分類です。sev0インシデントは非常にまれであり、当番エンジニアへの通知と問題に対処するための即座の行動を促すことがあります。しばしば夜中にです。

クラウドストライクの役割

状況の複雑さは、サードパーティのサイバーセキュリティ企業であるクラウドストライクの関与によってさらに高まりました。7月19日午前12時09分(ET)にクラウドストライクがリリースしたアップデートが、約850万台のPCがネットワークから切断される結果を招きました。このエラーはマイクロソフト自体から発生したものではありませんでしたが、すぐにテクノロジー大手にとって重大な問題となりました。

マイクロソフトとその顧客への影響

このインシデントは、特にマイクロソフトが「pri0顧客」と呼ぶ、大規模なインフラに依存する重要なサービスを必要とする大企業に影響を与えました。重要な業務を行う企業は、この予期しない障害からの影響に対処するためにあたふたしました。

対応:協力とコミュニケーション

障害の深刻な影響を考慮し、マイクロソフトはクラウドストライクのエンジニアとの継続的なコミュニケーションを維持することを余儀なくされました。状況の緊急性は、アマゾンやグーグルなどのクラウド競争相手への連絡を含む複数のプラットフォームでの協力を必要としました。

余波

この予期しない出来事が収束するにつれ、クラウドストライクとマイクロソフトは、広範囲にわたる失敗の原因と影響を評価しながら、通常の運用を復元するという課題に直面しています。

重要な考察

  • このインシデントは、サードパーティのアップデートが大規模に業務を妨害する可能性がある、相互に接続されたシステムの脆弱性を際立たせています。
  • 重要な障害時には、効果的なコミュニケーションと企業間の協力が不可欠です。
  • sev0のようなインシデントの分類を理解することは、テクノロジーインシデント管理における緊急性を認識するために重要です。

結論

クラウドストライクのアップデートは障害の触媒となりましたが、このインシデントは、両社にとって学びの機会となり、将来同様の状況を避けるために堅固なテストとコミュニケーションプロトコルの重要性を強調しています。

前後の記事を読む

Joseph Lombardi, Team Canada analyst, drone spying controversy
Joseph Lombardi, Team Canada analyst, drone spying controversy

コメントを書く

全てのコメントは、掲載前にモデレートされます

このサイトはhCaptchaによって保護されており、hCaptchaプライバシーポリシーおよび利用規約が適用されます。