कैसे माइक्रोसॉफ्ट ने क्राउडस्ट्राइक के बड़े आउटेज को हल किया

Microsoft ने प्रमुख घटना का सामना किया: CrowdStrike आउटेज की व्याख्या की गई

शुक्रवार की सुबह एक चौंकाने वाले मोड़ में, CrowdStrike ने क्रैश रिपोर्टों की बाढ़ में खुद को पाया क्योंकि Microsoft के इंजीनियरों ने स्थिति की गंभीरता का एहसास किया। लाखों Windows मशीनें कुख्यात ब्लू स्क्रीन ऑफ डेथ (BSOD) का सामना कर रही थीं, जिससे वैश्विक स्तर पर महत्वपूर्ण सर्वरों और पीसी में बाधा उत्पन्न हो रही थी।

घटना की गंभीरता को समझना

Microsoft ने तुरंत घटना को "गंभीरता शून्य" के रूप में वर्गीकृत किया, जिसे आंतरिक रूप से sev0 कहा जाता है। यह designation Microsoft उत्पादों या सेवाओं पर प्रभाव डालने वाली घटनाओं के लिए सबसे तत्काल वर्गीकरण है। Sev0 घटनाएँ अत्यधिक दुर्लभ हैं, जिससे ऑन-काल इंजीनियरों को सूचित करने और समस्या को हल करने के लिए तुरंत कार्रवाई की आवश्यकता होती है, अक्सर रात के मध्य में।

CrowdStrike की भूमिका

स्थिति की जटिलता को तीसरे पक्ष की साइबर सुरक्षा फर्म CrowdStrike के शामिल होने से और बढ़ा दिया गया। 19 जुलाई को 12:09 AM ET पर, CrowdStrike द्वारा जारी एक अपडेट ने अनजाने में लगभग 8.5 मिलियन पीसी को नेटवर्क से डिस्कनेक्ट कर दिया। जबकि यह गलती Microsoft से नहीं थी, यह जल्दी ही तकनीकी दिग्गज के लिए एक महत्वपूर्ण समस्या बन गई।

Microsoft और इसके ग्राहकों पर प्रभाव

यह घटना विशेष रूप से Microsoft द्वारा "pri0 ग्राहकों" के रूप में पहचाने जाने वाले बड़े संगठनों को प्रभावित करती है, जिनकी महत्वपूर्ण अवसंरचना निर्बाध सेवा पर बहुत निर्भर करती है। आवश्यक संचालन वाले कंपनियों को इस अप्रत्याशित आउटेज के परिणामों को संबोधित करने के लिए scrambling करना पड़ा।

उत्तर: सहयोग और संचार

आउटेज के गंभीर परिणामों के प्रकाश में, Microsoft को CrowdStrike इंजीनियरों के साथ निरंतर संचार बनाए रखने के लिए मजबूर होना पड़ा। स्थिति की तात्कालिकता ने कई प्लेटफ़ॉर्मों पर सहयोग की आवश्यकता पैदा की, जिसमें Amazon और Google जैसे क्लाउड प्रतिद्वंद्वियों तक आउटरीच शामिल हैं।

परिणाम

जैसे ही यह अप्रत्याशित घटना समाप्त होती है, CrowdStrike और Microsoft दोनों सामान्य संचालन को पुनर्स्थापित करने के साथ-साथ इस तरह की व्यापक विफलता के कारणों और परिणामों का मूल्यांकन करने की चुनौती का सामना कर रहे हैं।

मुख्य निष्कर्ष

घटना अंतःक्रियाशील प्रणालियों की भेद्यता को उजागर करती है, जहां तीसरे पक्ष के अपडेट बड़े पैमाने पर संचालन को बाधित कर सकते हैं।
गंभीर आउटेज के दौरान प्रभावी संचार और क्रॉस-कंपनी सहयोग आवश्यक हैं।
sev0 जैसी घटनाओं की वर्गीकरण को समझना तकनीकी घटना प्रबंधन में आवश्यक तात्कालिकता को पहचानने के लिए महत्वपूर्ण है।

निष्कर्ष

हालांकि CrowdStrike का अपडेट आउटेज का उत्प्रेरक था, यह घटना दोनों फर्मों के लिए एक सीखने के अवसर के रूप में काम करती है, भविष्य में इसी तरह की स्थितियों से बचने के लिए मजबूत परीक्षण और संचार प्रोटोकॉल के महत्व पर जोर देती है।