Inovasi Infrastruktur AI: Microsoft Meluncurkan Fairwater, Pusat Komputasi AI Terbesar di Dunia

image source: microsoft

Microsoft telah meluncurkan serangkaian investasi infrastruktur AI dan pusat data yang dirancang khusus di seluruh dunia untuk mendukung adopsi global beban kerja AI dan layanan cloud mutakhir. Salah satu fasilitas utamanya adalah Fairwater, pusat data AI terbaru di Wisconsin, AS, yang disebut sebagai "pabrik AI terbesar dan tercanggih" yang pernah dibangun. Selain Fairwater di Wisconsin, Microsoft juga sedang membangun beberapa pusat data identik di lokasi lain di AS, serta pusat data hiperskal AI baru di Narvik, Norwegia, dan superkomputer terbesar di Inggris di Loughton.

Proyek-proyek ini merupakan investasi modal yang signifikan, mencapai puluhan miliar dolar, yang mencakup ratusan ribu chip AI mutakhir. Semua fasilitas ini akan terhubung secara mulus dengan jaringan global Microsoft Cloud yang mencakup lebih dari 400 pusat data di 70 wilayah di seluruh dunia. Dengan menghubungkan pusat data AI ini dalam jaringan terdistribusi, Microsoft bertujuan untuk melipatgandakan efisiensi dan komputasi secara eksponensial, sehingga mendemokratisasi akses ke layanan AI secara global.

Fairwater: Pabrik AI Era Baru

Pusat data AI adalah fasilitas unik yang dirancang khusus untuk melatih dan menjalankan model serta aplikasi kecerdasan buatan skala besar. Pusat data AI Microsoft mendukung layanan utama seperti OpenAI, Microsoft AI, dan kapabilitas Copilot.

Fasilitas Fairwater di Wisconsin adalah sebuah pencapaian rekayasa yang luar biasa. Proyek ini mencakup 315 hektar dan tiga bangunan besar dengan total 1,2 juta kaki persegi. Pembangunannya memerlukan 46,6 mil tiang pondasi dalam, 26,5 juta pon baja struktural, 120 mil kabel tegangan menengah bawah tanah, dan 72,6 mil pipa mekanis.

Berbeda dengan pusat data cloud biasa yang dioptimalkan untuk banyak beban kerja kecil, Fairwater dibangun sebagai satu superkomputer AI masif. Superkomputer ini menggunakan jaringan tunggal yang menghubungkan ratusan ribu GPU NVIDIA terbaru. Fasilitas ini akan memberikan performa 10 kali lipat dari superkomputer tercepat saat ini, memungkinkan beban kerja pelatihan dan inferensi AI pada tingkat yang belum pernah terlihat sebelumnya.

Infrastruktur Superkomputasi Skala Frontier

Model AI yang efektif mengandalkan ribuan komputer yang bekerja sama, didukung oleh GPU atau akselerator AI khusus, untuk memproses komputasi matematis secara bersamaan. Komponen-komponen ini saling terhubung dengan jaringan yang sangat cepat, didukung oleh sistem penyimpanan masif untuk menampung data. Tujuannya adalah menjaga agar chip tetap sibuk.

Infrastruktur yang dibangun khusus ini sangat penting untuk efisiensi AI. Inti dari pusat data AI ini terdiri dari akselerator AI khusus (seperti GPU) yang terpasang pada papan server bersama CPU, memori, dan penyimpanan. Dari luar, arsitektur ini terlihat seperti banyak server independen, tetapi dalam skala besar, ia berfungsi sebagai satu superkomputer tunggal di mana ratusan ribu akselerator dapat melatih satu model secara paralel.

Pusat data ini menjalankan klaster masif yang terdiri dari server NVIDIA GB200 yang saling terhubung. Setiap rak berisi 72 GPU NVIDIA Blackwell yang terikat dalam satu domain NVLink, memberikan bandwidth GPU-ke-GPU sebesar 1,8 terabyte dan akses ke 14 terabyte memori yang dikumpulkan. Setiap rak beroperasi sebagai satu akselerator raksasa, mampu memproses 865.000 token per detik. Untuk memastikan komunikasi latensi rendah di seluruh klaster, Fairwater menggunakan InfiniBand dan Ethernet dengan arsitektur non-blocking untuk menghindari kemacetan. Raksasa Fairwater bahkan dirancang dengan konfigurasi dua lantai untuk mengurangi jarak fisik dan latensi antar rak.

Dampak Lingkungan dan Inovasi Pendinginan

Pendinginan udara tradisional tidak mampu menangani kepadatan perangkat keras AI modern. Pusat data Fairwater menggunakan sistem pendingin cair canggih. Pipa-pipa terintegrasi mengedarkan cairan dingin langsung ke server, mengekstrak panas secara efisien. Sistem sirkulasi tertutup ini memastikan tidak ada air yang terbuang.

Sistem pendingin cair ini merupakan infrastruktur yang dibangun langsung ke dalam fasilitas, didukung oleh fasilitas pendingin air terbesar kedua di dunia. Air panas kemudian disalurkan ke "sirip" pendingin di sisi pusat data, tempat 172 kipas setinggi 20 kaki mendinginkan dan mengedarkan kembali air ke pusat data. Sistem ini menjaga efisiensi operasional bahkan pada beban puncak.

Penyimpanan dan Komputasi untuk Kecepatan AI

Untuk mendukung klaster infrastruktur AI, diperlukan infrastruktur pusat data yang sepenuhnya terpisah untuk menyimpan dan memproses data. Sistem penyimpanan di pusat data AI Wisconsin, misalnya, memiliki panjang lima lapangan sepak bola.

Microsoft merekayasa ulang penyimpanan Azure untuk beban kerja AI yang paling menuntut. Setiap akun Azure Blob Storage dapat menampung lebih dari 2 juta transaksi baca/tulis per detik, dan dengan jutaan akun yang tersedia, sistem ini dapat menskalakan secara elastis untuk memenuhi hampir semua kebutuhan data.

AI WAN: Menghubungkan Pusat Data Menjadi Satu Superkomputer

Pusat data AI baru ini merupakan bagian dari jaringan global pusat data Azure AI yang saling terhubung melalui Wide Area Network (WAN) Microsoft. Ini bukan hanya tentang satu bangunan, melainkan tentang sistem yang terdistribusi, tangguh, dan skalabel yang beroperasi sebagai satu mesin AI yang kuat. AI WAN dibangun dengan kapabilitas pertumbuhan untuk memungkinkan pelatihan terdistribusi skala besar di berbagai wilayah Azure yang berbeda secara geografis, memungkinkan pelanggan memanfaatkan kekuatan superkomputer AI raksasa.

Dengan menggabungkan terobosan dalam silikon, server, jaringan, dan pusat data, Microsoft membangun superkomputer AI paling kuat dan terintegrasi di dunia. Fasilitas ini, bersama dengan pusat data regional lainnya, akan memainkan peran penting dalam masa depan AI, di mana setiap lapisan infrastruktur diharmonisasikan sebagai sistem yang lengkap.

SetyoBudianto.com

Search This Blog