DeepSeek Rilis Konsep Conditional Memory, Hemat Komputasi via Engram

Telset.id – DeepSeek kembali membuat kejutan di ranah kecerdasan buatan global. Menjelang libur Imlek, startup AI yang tengah naik daun ini merilis sebuah makalah penelitian (paper) terbaru yang cukup teknis namun fundamental. Dipimpin langsung oleh pendirinya, Liang Wenfeng, bersama tim dari Universitas Peking (kelompok Zhao Dongyan dan Zhang Huishuai), DeepSeek memperkenalkan konsep “Conditional Memory” atau Memori Bersyarat.

Terobosan ini digadang-gadang sebagai “primitif pemodelan” yang tak terelakkan untuk generasi sparse model berikutnya. Inti dari riset ini adalah mengatasi kelemahan mendasar pada arsitektur Transformer yang menjadi tulang punggung AI generatif saat ini: ketidakmampuan melakukan pencarian pengetahuan (knowledge lookup) secara efisien.

Dalam paper tersebut, mereka menawarkan solusi berupa modul “Engram”. Secara sederhana, modul ini memungkinkan model bahasa besar (LLM) untuk “mengingat” data statis tanpa harus memprosesnya melalui lapisan komputasi yang berat. Hasil eksperimen menunjukkan bahwa model dengan parameter 27B yang menggunakan Engram mampu mengungguli model Mixture-of-Experts (MoE) murni dengan ukuran yang sama, bahkan meningkatkan kemampuan penalaran secara signifikan.

Masalah Utama: Membuang Komputasi untuk Hal Sepele

Tim peneliti DeepSeek memulai riset ini dengan sebuah observasi kritis terhadap cara kerja model bahasa modern. Mereka menemukan bahwa pemodelan bahasa sebenarnya terdiri dari dua tugas yang sangat berbeda sifatnya. Pertama adalah penalaran kombinatorial yang membutuhkan komputasi dinamis yang mendalam. Kedua adalah pengambilan pengetahuan statis yang seharusnya sederhana.

Masalahnya, arsitektur Transformer yang ada saat ini tidak memiliki mekanisme pencarian pengetahuan bawaan. Akibatnya, ketika model perlu mengenali sebuah entitas atau fakta sederhana, ia harus “membakar” sumber daya komputasi dengan melewati banyak lapisan attention dan jaringan feed-forward.

Paper tersebut memberikan contoh kasus yang sangat spesifik: frasa “Diana, Princess of Wales”. Untuk mengenali entitas ini, model konvensional membutuhkan proses hingga 6 lapisan (layer). Pada lapisan-lapisan awal, model masih “bergulat” dengan konsep-konsep parsial seperti “Wales adalah wilayah di Inggris” atau “Princess of Wales adalah gelar bangsawan”. Baru pada lapisan keenam, model berhasil menyimpulkan bahwa ini merujuk pada sosok Putri Diana.

Ini adalah inefisiensi yang masif. Pada dasarnya, model menggunakan biaya komputasi runtime yang mahal hanya untuk merekonstruksi tabel pencarian statis. Kedalaman jaringan (depth) yang seharusnya bisa dialokasikan untuk tugas penalaran kompleks, justru terbuang untuk pekerjaan “kasar” mengenali konsep dasar.

Engram: Kembali ke Metode N-gram Klasik

Solusi yang ditawarkan DeepSeek terdengar kontraintuitif namun brilian: kembali ke metode klasik. Mereka mengusulkan desain Engram yang mengadopsi prinsip N-gram tradisional. Jika model N-gram jadul bisa menangkap ketergantungan lokal dengan kompleksitas waktu O(1), mengapa kemampuan ini tidak ditanamkan langsung ke dalam Transformer?

Implementasinya cukup teknis namun logis. Tim menyisipkan modul Engram di antara lapisan Transformer yang sudah ada. Mekanismenya bekerja sebagai berikut:

Setiap input token akan memicu pencarian hash.
Token saat ini dan beberapa token sebelumnya (membentuk N-gram) dipetakan ke tabel embedding raksasa.
Sistem langsung mengambil vektor yang sesuai dari tabel tersebut.

Untuk mengatasi masalah klasik seperti tabrakan hash (hash collision) dan ambiguitas makna, DeepSeek memperkenalkan mekanisme gating yang sadar konteks. Status tersembunyi (hidden state) saat ini bertindak sebagai Query, sementara memori yang diambil bertindak sebagai Key dan Value.

Hasilnya adalah nilai skalar antara 0 hingga 1. Jika konten yang diambil dari memori tidak cocok dengan konteks kalimat saat ini, nilai gate akan mendekati nol. Ini secara otomatis memblokir “noise” atau informasi yang tidak relevan.

Visualisasi dalam paper menunjukkan cara kerjanya dengan jelas. Jika teks menunjukkan pola statis yang tetap (misalnya nama tokoh sejarah “Zhang Zhongjing”), modul Engram akan aktif (berwarna gelap) dan mengambil informasi dari memori. Sebaliknya, jika teks bersifat dinamis dan fleksibel, warnanya menjadi pudar, menandakan bahwa tugas tersebut diserahkan kembali ke mekanisme attention model.

Mengatasi Ledakan Penyimpanan Data

Mengadopsi N-gram bukan tanpa risiko. Tantangan utamanya adalah “ledakan penyimpanan” dan redundansi semantik. Kombinasi kata dalam N-gram (2 kata, 3 kata, dst.) bisa membengkak secara eksponensial. Contohnya, kosakata 128k bisa menghasilkan 128k pangkat 3 kombinasi, yang mustahil disimpan secara mentah.

DeepSeek melakukan optimasi cerdas di sini:

Kompresi Tokenizer: Mereka mengelompokkan token yang memiliki makna sama tapi bentuk berbeda (seperti “Apple”, “apple”, “Äpple”) menjadi satu kategori. Langkah ini memangkas ukuran kosakata efektif hingga 23%.
Hashing Ganda: Mereka menggunakan fungsi hash untuk memetakan N-gram ke tabel embedding berukuran tetap. Tidak peduli berapa banyak kombinasi N-gram, semuanya masuk ke tabel yang ukurannya sudah dikunci (bilangan prima).
Mitigasi Konflik: Untuk mengurangi risiko tabrakan data, setiap tingkatan N-gram (misal 2-gram atau 3-gram) dilengkapi dengan K “kepala hash” (hash heads) yang berbeda. Vektor yang diambil dari berbagai kepala ini kemudian digabungkan menjadi satu “vektor memori” final.

Kurva U: Menemukan Rasio Emas

Bagian paling menarik dari riset ini adalah studi sistematis mengenai “alokasi kelangkaan” (sparsity allocation). Tim DeepSeek ingin mencari tahu: berapa banyak parameter yang harus dialokasikan untuk memori (Engram) dan berapa banyak untuk pemrosesan (MoE Experts)?

Dengan mengunci total parameter dan anggaran komputasi, mereka bereksperimen dengan mengubah rasio alokasi. Hasilnya membentuk “Kurva U” yang sangat jelas. Ternyata, model MoE murni (100% parameter untuk expert) bukanlah solusi terbaik.

Titik optimal ditemukan ketika sekitar 20% hingga 25% anggaran parameter dialokasikan untuk memori Engram. Pada konfigurasi ini, loss validasi model mencapai titik terendah. Dalam skala model 10 miliar parameter, konfigurasi optimal ini menurunkan loss sebesar 0.0139 dibandingkan baseline MoE murni.

Temuan ini menegaskan dua hal:

Jika MoE terlalu dominan, model kekurangan memori untuk pola statis, memaksanya bekerja keras merekonstruksi fakta sederhana.
Jika Engram terlalu dominan, model kehilangan kemampuan komputasi bersyarat untuk menangani penalaran dinamis.

Kesimpulannya tegas: Memori tidak bisa menggantikan komputasi, dan komputasi tidak efisien jika dipaksa meniru memori.

Hasil Uji Coba: Lonjakan Kemampuan Penalaran

Berbekal temuan Kurva U tersebut, tim DeepSeek melangkah ke pengujian skala besar dengan parameter 27B. Mereka membandingkan tiga model dengan kondisi pelatihan yang identik (38 miliar parameter aktif per token, dilatih dengan 2620 miliar token):

Dense-4B: Model padat murni.
MoE-27B: Model campuran ahli murni (72 routing experts + 2 shared experts).
Engram-27B: Model hibrida (55 routing experts + 2 shared experts + 5.7B parameter memori Engram).

Hasilnya mengejutkan. Peningkatan pada tugas berbasis pengetahuan (seperti MMLU atau TriviaQA) memang sudah diprediksi. Namun, lonjakan performa justru terjadi pada kemampuan coding dan matematika.

Pada benchmark BBH, skor melonjak 5.0 poin. ARC-Challenge naik 3.7 poin, dan HumanEval (coding) naik 3.0 poin. Analisis teknis menggunakan CKA (Centered Kernel Alignment) mengungkap penyebabnya: Engram membebaskan lapisan-lapisan awal model dari tugas “kuli” mengenali fitur dasar.

Representasi lapisan ke-5 pada model Engram ternyata mirip dengan representasi lapisan ke-12 pada model MoE biasa. Artinya, Engram secara efektif “memperdalam” jaringan. Sumber daya yang dihemat dari lapisan awal ini kemudian dialokasikan otomatis oleh model untuk menangani tugas penalaran yang lebih sulit di lapisan berikutnya.

Bahkan ketika parameter memori diperbesar lagi menjadi Engram-40B, performa terus menanjak, terutama pada skenario konteks panjang (Long Context). Pada tes RULER, akurasi Multi-Query NIAH melompat dari 84.2 menjadi 97.0.

Optimasi Hardware: Memori CPU Sudah Cukup

DeepSeek juga memikirkan aspek implementasi teknis di dunia nyata. Tabel kosakata dan N-gram ini ukurannya masif, bisa mencapai 100 miliar parameter, yang mustahil dimuat dalam satu memori GPU (VRAM).

Keunggulan Engram adalah sifatnya yang deterministik. Indeks pencarian hanya bergantung pada urutan token input, sehingga bisa dihitung di muka (pre-computed). Ini berbeda dengan routing dinamis pada MoE.

Sifat ini memungkinkan tim untuk meletakkan tabel embedding raksasa tersebut di memori CPU (RAM) biasa, bukan di VRAM GPU yang mahal. Menggunakan koneksi PCIe dan mekanisme prefetching asinkron, CPU bisa menyiapkan data memori untuk lapisan berikutnya saat GPU sedang sibuk memproses lapisan sebelumnya.

Eksperimen menggunakan H800 menunjukkan dampak latensi yang bisa diabaikan. Menjalankan tabel Engram 100 miliar parameter di memori CPU hanya menurunkan throughput kurang dari 3%. Strategi caching bertingkat (GPU VRAM untuk data sering akses, CPU RAM untuk menengah, dan SSD NVMe untuk jarang akses) semakin mengefisienkan sistem ini.

Dalam kesimpulannya, DeepSeek menegaskan bahwa “efisiensi sadar perangkat keras” adalah prinsip utama desain mereka. Dengan kemampuan memisahkan penyimpanan dan komputasi, Conditional Memory diprediksi akan menjadi standar baru. Paper ini sekaligus menjadi “spoiler” untuk model generasi berikutnya dari DeepSeek yang kabarnya akan dirilis sebelum Imlek.