Azure ล่มยาว 13 ชั่วโมงเมื่อคืนนี้ หลังกระบวนการเปลี่ยนกุญแจใน Azure AD ผิดพลาด

ไมโครซอฟท์ชี้แจงเหตุระบบล่มเป็นวงกว้างเมื่อคืนที่ผ่านมา เริ่มจากช่วงตีสองของวันที่ 16 มีนาคมมาจนถึงช่วงสี่โมงเย็น หลังระบบเปลี่ยนกุญแจ (key rotation) ของระบบ Azure AD มีบั๊ก จนกระทั่งกุญแจบางส่วนถูกลบออกจากระบบ

ปัญหาของระบบล่มครั้งนี้เริ่มจากทีมงานเก็บกุญแจตัวหนึ่งไว้นานกว่าปกติเพื่อซัพพอร์ตการย้ายระบบข้ามคลาวด์ที่มีความซับซ้อนสูง แต่หลังจากคอนฟิกให้ระบบเก็บกุญแจเอาไว้ บั๊กในระบบเปลี่ยนกุญแจทำให้ระบบไม่สนใจค่าคอนฟิกและลบกุญแจที่ทีมงานสั่งให้เก็บไว้จนทำให้ Azure AD ล่มไป

ไมโครซอฟท์ชี้แจงว่าจะเพิ่ม Safe Deployment Process (SDP) เพื่อป้องกันปัญหาแบบนี้ในอนาคต โดย SDP นี้แบ่งออกเป็นหลายเฟสและคาดว่าจะวางระบบเสร็จสิ้นภายในกลางปีนี้

Azure AD เพิ่งล่มครั้งใหญ่เมื่อปีที่แล้ว จนพาเอาบริการสำคัญๆ ของไมโครซอฟท์ล่มไปทั้งหมด ทางไมโครซอฟท์ยอมรับว่าการล่มของบริการที่เป็นแกนกลางเช่นนี้เป็นเรื่องยอมรับไม่ได้และขออภัยผู้ใช้ พร้อมกับระบุว่าจะออกรายงานวิเคราะห์สาเหตุฉบับเต็มเมื่อการวิเคราะห์เสร็จสิ้นแล้ว

ที่มา – Azure Status

No Description

Topics: 
Microsoft Azure
Service Outage