Beranda Berita Catu daya ‘tidak terputus’ Google yang ironis mengganggu awan dengan pemadaman enam...

Catu daya ‘tidak terputus’ Google yang ironis mengganggu awan dengan pemadaman enam jam

3
0
Catu daya ‘tidak terputus’ Google yang ironis mengganggu awan dengan pemadaman enam jam


Pembaca Neowin mungkin cukup akrab dengan semua pemadaman dan waktu henti yang sering dihadapi Microsoft 365 dan layanan terkait. Misalnya, minggu lalu, M365 turun pada tanggal 9 karena Pemadaman Exchange Admin Center (EAC), Dan hanya sehari kemudian, pengguna menemukan diri mereka sendiri Terkunci dari langganan keluarga sebagai konsekuensi dari bug.

Mirip dengan Microsoft, Google Cloud juga menghadapi masalah pemadaman seperti ini dari waktu ke waktu dan menjelang akhir bulan lalu, itulah yang terjadi, karena sistem catu daya Google yang tidak terputus (UPS) gagal memberikan daya yang tidak terputus yang dibangun, yang mengarah ke pemadaman hampir enam dan setengah jam. Masalahnya terjadi di zona “US-East5-C”, yaitu di Columbus, Ohio, dan zona tersebut terdiri dari sistem yang dibangun di atas AMD Epyc dan prosesor Intel Xeon.

Google telah menjelaskan kapan dan mengapa itu terjadi di artikel dukungannya dan juga merinci skala masalah:

Pada hari Sabtu, 29 Maret 2025, beberapa layanan Google Cloud di zona AS-East5-C mengalami layanan terdegradasi atau tidak tersedianya selama 6 jam dan 10 menit.

..

Akar penyebab gangguan layanan adalah hilangnya kekuatan utilitas di zona yang terpengaruh. Pemadaman listrik ini memicu kegagalan cascading dalam sistem catu daya yang tidak terputus (UPS) yang bertanggung jawab untuk mempertahankan daya ke zona tersebut selama peristiwa tersebut. Sistem UPS, yang bergantung pada baterai untuk menjembatani kesenjangan antara kehilangan daya utilitas dan aktivasi daya generator, mengalami kegagalan baterai yang kritis.

Kegagalan ini membuat UPS tidak dapat melakukan fungsi intinya untuk memastikan kekuatan berkelanjutan ke sistem. Sebagai konsekuensi langsung dari kegagalan UPS, instance mesin virtual dalam zona yang terkena kehilangan daya dan pergi offline, mengakibatkan downtime layanan bagi pelanggan.

Pemadaman listrik dan kegagalan UPS berikutnya juga memicu serangkaian masalah sekunder, termasuk kehilangan paket dalam zona AS-East5-C, yang memengaruhi komunikasi dan kinerja jaringan. Selain itu, sejumlah disk penyimpanan dalam zona menjadi tidak tersedia selama pemadaman.

Google juga telah menjelaskan bagaimana ia memperbaiki masalah ini:

Google Engineers mengalihkan lalu lintas dari lokasi yang terkena dampak untuk mengurangi sebagian dampak untuk beberapa layanan yang tidak memiliki dependensi sumber daya zonal. Insinyur melewati UPS yang gagal dan memulihkan kekuatan melalui generator pada 14:49 US/Pasifik pada hari Sabtu, 29 Maret.

Mayoritas layanan cloud Google pulih segera sesudahnya. Beberapa layanan mengalami waktu pemulihan yang lebih lama karena tindakan manual diperlukan dalam beberapa kasus untuk menyelesaikan pemulihan penuh.

Kredit di mana kredit jatuh tempo, raksasa teknologi ini telah secara menyeluruh meminta maaf atas insiden tersebut kepada pelanggan cloud dan juga menguraikan langkah -langkah yang telah diambil untuk mencegah masalah seperti itu di masa depan:

Kepada pelanggan Google Cloud kami yang layanannya terpengaruh selama gangguan ini, kami dengan tulus meminta maaf. Ini bukan tingkat kualitas dan keandalan yang kami usahakan untuk ditawarkan kepada Anda, dan kami mengambil langkah segera untuk meningkatkan kinerja dan ketersediaan platform.

Google berkomitmen untuk mencegah pengulangan masalah ini di masa depan dan sedang menyelesaikan tindakan berikut:

  • Kegagalan daya dan jalur pemulihan cluster yang keras untuk mencapai waktu yang dapat diprediksi dan lebih cepat setelah melayani setelah daya dipulihkan.
  • Sistem audit yang tidak secara otomatis gagal dan menutup celah apa pun yang mencegah fungsi ini.
  • Bekerja dengan vendor catu daya (UPS) kami yang tidak terputus untuk memahami dan memulihkan masalah dalam sistem cadangan baterai.

Google berkomitmen untuk meningkatkan teknologi dan operasi kami dengan cepat dan terus -menerus untuk mencegah gangguan layanan. Kami menghargai kesabaran Anda dan meminta maaf lagi atas dampaknya pada organisasi Anda. Kami berterima kasih atas bisnis Anda.

Anda dapat menemukan detail lengkap tentang masalah di artikel dukungan Di Sini di situs web status cloud Google.





Source link