تقول أمازون إن فشلًا كبيرًا في نظام أسماء النطاقات (DNS) كان وراء انقطاع AWS (خدمات ويب أمازون) الضخم الذي أدى إلى تعطيل العديد من مواقع الويب والخدمات عبر الإنترنت يوم الاثنين.
كما BleepinComputer”https://www.bleepingcomputer.com/news/technology/aws-outage-crashes-amazon-prime-video-fortnite-perplexity-and-more/” الهدف=”_blank” rel=”nofollow noopener”> ذكرت في وقت سابق من هذا الأسبوع، أثر هذا الحادث على مركز بيانات بالغ الأهمية في شمال فيرجينيا في منطقة US-EAST-1، مما أثر على المستخدمين في جميع أنحاء العالم، بما في ذلك الولايات المتحدة وأوروبا، لأكثر من 14 ساعة.
بحسب أ”https://aws.amazon.com/message/101925/” الهدف=”_blank” rel=”nofollow noopener”> بعد الوفاة تم نشره يوم الخميس، تسببت حالة السباق في فشل كبير في نظام DNS في البنية التحتية لـ Amazon DynamoDB، وتحديدًا داخل نظام إدارة DNS الخاص به والذي يتحكم في كيفية توجيه طلبات المستخدم إلى خوادم سليمة، مما أدى إلى الحذف غير المقصود لجميع عناوين IP لنقطة النهاية الإقليمية لخدمة قاعدة البيانات.
“The root cause of this issue was a latent race condition in the DynamoDB DNS management system that resulted in an incorrect empty DNS record for the service’s regional endpoint (dynamodb.us-east-1.amazonaws.com) that the automation failed to repair,” قالت أمازون.
“When this issue occurred at 11:48 PM PDT, all systems needing to connect to the DynamoDB service in the N. Virginia (us-east-1) Region via the public endpoint immediately began experiencing DNS failures and failed to connect to DynamoDB. This included customer traffic as well as traffic from internal AWS services that rely on DynamoDB.”
أدى فشل DynamoDB إلى حدوث مشكلات متتالية عبر البنية التحتية لـ AWS، مما ترك نظام DNS الخاص بـ DynamoDB في حالة غير متسقة لم يتمكن الاسترداد الآلي من إصلاحها، مما يتطلب تدخل المشغل يدويًا.
قامت أمازون منذ ذلك الحين بتعطيل أتمتة DNS التي تحتوي على أخطاء على مستوى العالم واتخذت تدابير لتجنب مشكلات مماثلة، بما في ذلك إضافة فحوصات وقائية، وتحسين آليات التقييد، وإنشاء مجموعة اختبار إضافية للمساعدة في اكتشاف الأخطاء المماثلة في المستقبل.
“We apologize for the impact this event caused our customers. While we have a strong track record of operating our services with the highest levels of availability, we know how critical our services are to our customers, their applications and end users, and their businesses,” وأضافت أمازون.
“We know this event impacted many customers in significant ways. We will do everything we can to learn from this event and use it to improve our availability even further.”