گوگل اعلام کرد که علت قطعی گسترده روز پنجشنبه در سرویسهای Google Cloud، یک مشکل در مدیریت API بوده است؛ مشکلی که باعث اختلال یا از کار افتادن سرویسهای خود گوگل و بسیاری از پلتفرمهای آنلاین دیگر شد.
به گفته گوگل، این قطعی از ساعت ۱۰:۴۹ صبح به وقت شرقی آغاز شد و در ساعت ۳:۴۹ بعد از ظهر پایان یافت؛ این حادثه بیش از سه ساعت برای میلیونها کاربر در سراسر جهان مشکل ایجاد کرد.
علاوه بر Google Cloud، این اختلال روی سرویسهایی مانند Gmail، Google Calendar، Google Chat، Google Cloud Search، Google Docs، Google Drive، Google Meet، Google Tasks، Google Voice، Google Lens، Discover و Voice Search نیز اثر گذاشت.
همچنین، پلتفرمهای ثالثی که به Google Cloud وابسته هستند نیز آسیب دیدند؛ از جمله Spotify، Discord، Snapchat، NPM، Firebase Studio و تعداد محدودی از سرویسهای Cloudflare که از پایگاه داده Workers KV استفاده میکنند.
گوگل در بیانیهای گفت:
«ما عمیقاً بابت تأثیر این قطعی بر کاربران و مشتریانشان متأسفیم. کسبوکارهای بزرگ و کوچک به Google Cloud برای اجرای بارهای کاریشان اعتماد دارند و ما متعهد به بهبود هستیم.»
اگرچه هنوز گزارش کامل این حادثه منتشر نشده، گوگل امروز اعلام کرد که دلیل اصلی افزایش ارورهای ۵۰۳ در درخواستهای API خارجی، وجود دادههای نامعتبر در پلتفرم مدیریت API بوده که به دلیل نقص در سیستمهای تست و مدیریت خطا، بهموقع شناسایی و اصلاح نشده است.
گوگل افزود:
«طبق تحلیل اولیه، این مشکل بهدلیل یک بهروزرسانی خودکار و نامعتبر در سهمیه استفاده از APIها رخ داد که بهصورت جهانی توزیع شد و باعث رد شدن درخواستهای API خارجی شد. برای بازیابی سیستم، بررسی سهمیه مزاحم را دور زدیم که باعث شد در بیشتر مناطق ظرف دو ساعت سیستمها به حالت عادی برگردند.»
با این حال، پایگاه داده سهمیه در منطقه us-central1 به دلیل بار بیش از حد، بازیابی کندتری داشت و برخی از محصولات برای مدت کوتاهی پس از رفع مشکل اولیه، هنوز دچار تأثیرات باقیمانده (مانند صفهای پردازش نشده) بودند.
خدمات Cloudflare نیز تحت تأثیر قرار گرفتند
پس از بازیابی سرویسهای داخلی، Cloudflare نیز در گزارشی اعلام کرد که حادثه دیروز ناشی از رخنه امنیتی نبوده و هیچ دادهای از بین نرفته است.
در جریان این قطعی، نرخ خطا در سرویس Workers KV بهشدت افزایش یافت. Cloudflare توضیح داد:
«علت این قطعی، نقص در زیرساخت ذخیرهسازیای بود که توسط سرویس Workers KV استفاده میشود. این سرویس برای بسیاری از محصولات Cloudflare نقش حیاتی دارد و برای پیکربندی، احراز هویت و تحویل داراییها استفاده میشود.»
بخشی از این زیرساخت توسط یک ارائهدهنده خدمات ابری ثالث پشتیبانی میشود که دیروز دچار قطعی شد و بهطور مستقیم بر در دسترس بودن سرویس KV تأثیر گذاشت.
گرچه Cloudflare نام این ارائهدهنده را ذکر نکرد، اما سخنگوی شرکت به BleepingComputer گفت که تنها سرویسهایی از Cloudflare که به Google Cloud وابسته بودند دچار مشکل شدند.
در واکنش به این حادثه، Cloudflare اعلام کرد که قصد دارد پایگاه مرکزی داده KV را به سرویس R2 اختصاصی خود منتقل کند تا وابستگی خارجی کاهش یابد و از بروز مشکلات مشابه جلوگیری شود.
یک نظر