Blue Screen of Death

Làm thế nào Microsoft giải quyết sự cố gián đoạn lớn của CrowdStrike

Microsoft engineers monitoring CrowdStrike outage response.

Microsoft Đối Mặt Với Sự Cố Lớn: Giải Thích Về Sự Cố CrowdStrike

Trong một diễn biến gây sốc vào sáng sớm thứ Sáu, CrowdStrike đã phải đối mặt với hàng triệu báo cáo sự cố khi các kỹ sư của Microsoft nhận ra mức độ nghiêm trọng của tình hình. Hàng triệu máy tính Windows đang gặp phải hiện tượng nổi tiếng là Màn Hình Xanh Tử Thần (BSOD), làm gián đoạn các máy chủ và máy tính cá nhân quan trọng trên toàn cầu.

Hiểu Về Mức Độ Nghiêm Trọng Của Sự Cố

Microsoft đã nhanh chóng phân loại sự cố này là "mức độ không" (severity zero), được gọi nội bộ là sev0. Phân loại này là phân loại khẩn cấp nhất cho các sự cố ảnh hưởng đến sản phẩm hoặc dịch vụ của Microsoft. Các sự cố sev0 rất hiếm, dẫn đến việc thông báo cho các kỹ sư trực sẵn và hành động ngay lập tức để giải quyết vấn đề, thường xảy ra vào giữa đêm.

Vai Trò Của CrowdStrike

Độ phức tạp của tình huống càng gia tăng bởi sự tham gia của CrowdStrike, một công ty an ninh mạng bên thứ ba. Vào lúc 12:09 sáng ET ngày 19 tháng 7, một bản cập nhật được phát hành bởi CrowdStrike vô tình dẫn đến việc khoảng 8,5 triệu máy tính bị ngắt kết nối khỏi mạng. Mặc dù lỗi không xuất phát từ Microsoft, nhưng nó nhanh chóng trở thành một vấn đề nghiêm trọng cho gã khổng lồ công nghệ này.

Tác Động Đến Microsoft Và Khách Hàng Của Nó

Sự cố này đặc biệt ảnh hưởng đến những gì Microsoft nhận diện là "khách hàng pri0", bao gồm các tổ chức lớn với cơ sở hạ tầng quan trọng dựa vào dịch vụ không bị gián đoạn. Các công ty có hoạt động thiết yếu đã phải chạy đôn chạy đáo để xử lý hậu quả từ sự cố bất ngờ này.

Phản Ứng: Hợp Tác Và Giao Tiếp

Trước những hậu quả nghiêm trọng của sự cố, Microsoft buộc phải duy trì liên lạc thường xuyên với các kỹ sư của CrowdStrike. Tính cấp bách của tình huống đã yêu cầu hợp tác qua nhiều nền tảng, bao gồm việc tiếp cận các đối thủ trên đám mây như Amazon và Google.

Hậu Quả

Khi mọi thứ ổn định trở lại sau sự kiện bất ngờ này, cả CrowdStrike và Microsoft đều phải đối mặt với thử thách khôi phục hoạt động bình thường đồng thời đánh giá nguyên nhân và hệ quả của một sự cố lớn như vậy.

Những Điều Cần Rút Ra

  • Sự cố này nhấn mạnh sự dễ bị tổn thương của các hệ thống liên kết, nơi các bản cập nhật từ bên thứ ba có thể làm gián đoạn hoạt động trên quy mô lớn.
  • Giao tiếp hiệu quả và hợp tác giữa các công ty là điều cần thiết trong các sự cố nghiêm trọng.
  • Hiểu rõ phân loại các sự cố như sev0 là rất quan trọng để nhận thức được tính cấp bách cần thiết trong quản lý sự cố công nghệ.

Kết Luận

Mặc dù bản cập nhật của CrowdStrike là nguyên nhân chính dẫn đến sự cố, nhưng sự cố này cung cấp cơ hội học hỏi cho cả hai công ty, nhấn mạnh tầm quan trọng của việc thử nghiệm và giao tiếp mạnh mẽ để tránh những tình huống tương tự trong tương lai.

Reading next

Joseph Lombardi, Team Canada analyst, drone spying controversy
Joseph Lombardi, Team Canada analyst, drone spying controversy

Leave a comment

All comments are moderated before being published.

Trang web này được bảo vệ bằng hCaptcha. Ngoài ra, cũng áp dụng Chính sách quyền riêng tưĐiều khoản dịch vụ của hCaptcha.