Telset.id ā Intel dan AMD secara resmi merilis spesifikasi penuh untuk ekstensi CPU ACE (Advanced Compute Extension), sebuah standar teknis baru yang dirancang untuk mempercepat dan mengefisienkan eksekusi tugas AI pada prosesor x86. Langkah ini memberikan alternatif selain GPU dan NPU untuk menjalankan beban kerja kecerdasan buatan, terutama untuk model kecil atau operasi yang sensitif terhadap latensi.
ACE hadir dengan memanfaatkan register AVX10 yang sudah ada, namun menambahkan silikon khusus yang didedikasikan untuk perkalian matriks (matrix multiplication). Perkalian matriks merupakan fondasi dari beban kerja AI: mengambil sekumpulan angka dalam bentuk tabel, lalu menjalankan loop perkalian-penjumlahan secara berulang. Selama ini, operasi ini bisa dilakukan di CPU, namun dengan kecepatan terbatas dan konsumsi daya yang tinggi, bahkan saat menggunakan instruksi multiply-accumulate AVX10.
Keunggulan utama ACE terletak pada efisiensi daya, kemudahan pengembangan dan optimasi, serta kemampuannya memanfaatkan input 512-bit dari AVX. Dengan pendekatan ini, produsen prosesor tidak perlu merancang input khusus untuk ACE, sehingga integrasi dengan desain yang sudah ada menjadi lebih mudah.
Untuk jumlah vektor input yang sama, ACE mampu melakukan 16 kali lebih banyak operasi dibandingkan AVX10. Meskipun tidak berarti peningkatan kecepatan 16 kali lipat secara langsung (karena sangat bergantung pada implementasi masing-masing), angka ini menunjukkan potensi besar yang akan dioptimalkan oleh Intel dan AMD di masa depan. Selain itu, setiap instruksi ACE mengerjakan lebih banyak pekerjaan dibandingkan loop AVX10 yang setara, sehingga mengurangi overhead instruksi CPU dan berpotensi meningkatkan penggunaan bandwidth RAM.
Salah satu aspek paling penting dari ACE adalah sifatnya yang implementation-agnostic. Artinya, framework machine learning seperti PyTorch dan TensorFlow, beserta library pendukungnya, cukup menulis satu jalur kode saja, tanpa perlu membuat banyak variasi tergantung pada perangkat keras dan dukungan AVX yang berbeda-beda. Ini merupakan terobosan besar dalam pengembangan perangkat lunak AI.
ACE mendukung secara native hampir semua tipe data yang digunakan dalam operasi machine learning, termasuk namun tidak terbatas pada INT8, INT32, FP8, FP16, FP32, dan BF16. Yang lebih menarik, ACE juga dapat menggunakan format block-scaled MX dari Open Compute Project secara native, sesuatu yang tidak bisa dilakukan oleh AVX10.
Selain itu, ACE memungkinkan developer untuk memindahkan kembali beberapa beban kerja spesifik NPU ke CPU ketika mereka membutuhkan eksekusi yang cepat dan segera. Dalam situasi tersebut, tidak perlu lagi berurusan dengan perbedaan arsitektur antar NPU, karena ACE menawarkan target yang konsisten di seluruh perangkat keras x86.
Kehadiran ACE ini menjadi penting mengingat permintaan akan CPU pusat data telah melonjak, dan agen AI disebut sebagai salah satu penyebabnya. Laporan juga menyebutkan bahwa chip berbasis Arm diperkirakan akan menguasai 90% server AI berbasis prosesor kustom pada tahun 2029, sementara kebutuhan CPU untuk beban kerja AI terus berlipat ganda, mendorong kelangkaan dan kenaikan harga.
Dengan ACE, Intel dan AMD tidak hanya memberikan solusi teknis, tetapi juga menyatukan standar di ekosistem x86. Hal ini berbeda dengan ekstensi AMX yang sebelumnya bersifat proprietary milik Intel dan tidak digunakan oleh AMD. Kini, dengan adopsi bersama, ACE menjadi fondasi bersama yang dapat diandalkan oleh para pengembang.
Langkah ini juga menjawab tantangan akan masa depan komputasi AI yang tidak lagi eksklusif terikat pada GPU. CPU, sebagai unit komputasi serba guna, secara historis terus mengambil alih tugas-tugas yang sebelumnya ditangani oleh unit eksternal, seperti pemrosesan matematika, grafis, dan I/O. Dengan menjamurnya AI lokal, mengintegrasikan fungsi komputasi AI spesifik ke dalam CPU adalah langkah yang tak terhindarkan, terutama jika x86 ingin mempertahankan diri dari gempuran arsitektur rival seperti ARM.
Implikasinya, para pengembang kini memiliki opsi yang lebih fleksibel dan efisien untuk menjalankan inferensi AI, baik di pusat data maupun di perangkat edge, tanpa harus selalu bergantung pada GPU atau NPU yang mahal dan kompleks.





Komentar
Belum ada komentar.