Meta Gunakan DDR4 Bekas Server untuk AI Inference

Meta mendaur ulang modul DDR4 dari server yang dinonaktifkan untuk ekspansi memori
Teknologi CXL menghubungkan DDR4 lama dengan DDR5 baru pada mesin yang sama
Pengurangan jumlah server untuk AI inference hingga 25 persen
Pengurangan latensi rata-rata 29 persen pada sistem distributed cache
Meta mengembangkan ASIC internal bernama Vistara untuk optimasi
Solusi ini mengurangi biaya RAM tax dan limbah elektronik

Telset.id – Meta berhasil mengurangi kebutuhan server untuk beban kerja machine learning inference hingga 25 persen dengan mendaur ulang modul DDR4 dari server yang sudah dinonaktifkan. Pendekatan ini memungkinkan perusahaan memperluas kapasitas memori server tanpa harus membeli DRAM baru, sebuah biaya yang oleh para peneliti disebut sebagai RAM tax.

Ekspansi kapasitas ini dimungkinkan melalui teknologi Compute Express Link (CXL), yang menghubungkan modul DDR4 lama di samping kumpulan memori DDR5 yang lebih baru pada mesin yang sama. Meta menggambarkan pendekatan ini sebagai ekspansi memori dengan biaya hampir nol, sekaligus mengurangi limbah elektronik dan emisi infrastruktur secara signifikan.

Strategi ini hadir di saat kendala pasokan memori terus memengaruhi jadwal penempatan server di seluruh lingkungan komputasi awan global. Menurut peneliti Meta, implementasi CXL yang sudah ada sebelumnya mengalami kesulitan karena memori yang diperluas memberikan bandwidth hampir sepuluh kali lebih rendah dibandingkan memori lokal. Perusahaan juga melaporkan tingkat latensi sekitar 60 persen lebih tinggi dibandingkan dengan memori yang terpasang langsung di samping soket prosesor di dalam server.

Keterbatasan lain melibatkan produk CXL komersial yang menggabungkan pengontrol dengan modul DRAM, sehingga mencegah penggunaan ulang inventaris DDR4 yang ada secara praktis dalam skala besar. Meta merespons dengan mengembangkan ASIC internal bernama Vistara, yang dirancang khusus untuk latensi rendah, efisiensi daya, dan penggunaan memori daur ulang. Tumpukan perangkat lunak yang menyertainya secara otomatis menentukan rasio memori yang sesuai untuk setiap beban kerja, sekaligus menonaktifkan ekspansi ketika penundaan menjadi kompromi operasional yang tidak dapat diterima.

Baca Juga:

“Kami mengatasi tantangan ini melalui desain bersama perangkat keras dan perangkat lunak. Di sisi perangkat keras, kami merancang ASIC CXL internal, Vistara, yang dioptimalkan untuk penggunaan ulang DRAM, efisiensi daya, dan latensi rendah,” kata Meta. “Di sisi perangkat lunak, kami membangun solusi yang dioptimalkan berdasarkan TPP (Transparent Page Placement), menentukan rasio memori lokal-ke-ekspansi yang sesuai untuk setiap beban kerja, dan mengotomatiskan konfigurasi per beban kerja, termasuk menonaktifkan memori yang diperluas untuk beban kerja yang tidak dapat mentolerir latensi yang meningkat.”

Meta mengklaim arsitektur ini menunjukkan nilai praktis yang cukup untuk membenarkan penerapan di lingkungan produksi yang menangani kebutuhan komputasi yang beragam setiap hari.

Mengapa Meta Akhirnya Melihat Ekonomi yang Menguntungkan

Meta melaporkan bahwa beban kerja disaggregated machine learning inference mencapai pengurangan jumlah server hingga 25 persen melalui implementasi ini. Sistem distributed cache mencatat pengurangan latensi rata-rata sekitar 29 persen, meskipun sebagian bergantung pada sumber daya memori daur ulang yang lebih lambat.

Temuan ini menunjukkan bahwa kapasitas tambahan terkadang lebih penting daripada kecepatan memori mentah ketika aplikasi lebih berjuang dengan kekurangan daripada waktu respons. Menariknya, teknologi interkoneksi yang sama yang menarik perhatian Meta juga menarik minat perusahaan semikonduktor yang mengembangkan fabric akselerator besar secara global.

Ekosistem yang lebih luas mencakup pekerjaan dari perusahaan yang mengejar alternatif untuk teknologi interkoneksi proprietary seperti sistem NVLink milik Nvidia yang diadopsi secara luas. Di antaranya adalah Ultra Accelerator Link, atau UAL, sebuah inisiatif terpisah yang didukung oleh AMD, AWS, Google, Microsoft, dan Meta untuk menghubungkan akselerator di berbagai vendor perangkat keras.

Dalam pengujian Meta sendiri, sistem disaggregated machine learning inference dan infrastruktur distributed caching adalah dua beban kerja yang diperiksa langsung oleh para peneliti. Keduanya mencatat peningkatan yang terukur dari pendekatan memori daur ulang, dengan sistem inferensi membutuhkan lebih sedikit server dan cache mengalami latensi rata-rata yang lebih rendah. Apakah DDR4 daur ulang melalui CXL akan menjadi praktik standar kemungkinan besar akan bergantung pada trade-off kinerja yang tetap dapat diterima di luar lingkungan hyperscale.

Bagi pengguna yang ingin melacak perangkat di sekitar, tersedia fitur Find Nearby di Android. Sementara itu, pengguna Apple Watch dapat memanfaatkan fitur Nearby Search di watchOS 2.2.

📑 Daftar Isi

Meta Gunakan DDR4 Bekas Server untuk AI Inference

Mengapa Meta Akhirnya Melihat Ekonomi yang Menguntungkan

Komentar

📑 Daftar Isi

Meta Gunakan DDR4 Bekas Server untuk AI Inference

Mengapa Meta Akhirnya Melihat Ekonomi yang Menguntungkan

Komentar

Berita Terkait

Krisis RAM 2027 Makin Parah, Apple Cari Jalan Alternatif ke China

G.Skill EXPO ULL: Harga Melonjak Hingga 79% Lebih Mahal

Samsung Coret Fitur Privacy Display di Galaxy Z Fold 8

Bocoran iPhone 18 Pro Muncul di Dark Web Usai Serangan Siber

Berita Terkait

Krisis RAM 2027 Makin Parah, Apple Cari Jalan Alternatif ke China

G.Skill EXPO ULL: Harga Melonjak Hingga 79% Lebih Mahal

Samsung Coret Fitur Privacy Display di Galaxy Z Fold 8

Bocoran iPhone 18 Pro Muncul di Dark Web Usai Serangan Siber