Bayangkan jika setiap kali Anda bertanya pada asisten virtual, energi yang digunakan setara dengan 10 kali pencarian Google. Fakta mengejutkan ini bukan sekadar teori—menurut Electric Power Research Institute, itulah kenyataan di balik layanan chatbot canggih seperti ChatGPT. Di era di mana kecerdasan buatan (AI) semakin mendominasi, pertanyaan krusial muncul: bisakah kita menciptakan sistem yang lebih efisien tanpa mengorbankan kecanggihan?
Selama beberapa tahun terakhir, raksasa teknologi seperti OpenAI, Meta, dan DeepSeek bersaing mengembangkan model bahasa besar (large language models/LLMs) dengan ratusan miliar parameter—komponen yang menentukan koneksi antardata dan disesuaikan selama pelatihan. Skala besar ini memang menghasilkan AI yang lebih akurat, tetapi dengan biaya yang tidak main-main: pelatihan model Gemini 1.0 Ultra Google, misalnya, menghabiskan dana $191 juta. Tidak hanya mahal, LLMs juga dikenal sebagai “monster energi” yang boros sumber daya.
Namun, gelombang baru sedang muncul. IBM, Google, Microsoft, dan OpenAI kini mulai melirik model bahasa kecil (small language models/SLMs) dengan hanya beberapa miliar parameter—jauh lebih efisien dibandingkan pendahulunya. Lalu, apa sebenarnya keunggulan model kecil ini, dan bagaimana mereka bisa bersaing dengan raksasa AI yang sudah mapan?
Ketika Kecil Justru Lebih Unggul
Meski tidak dirancang sebagai alat serba bisa seperti LLMs, SLMs unggul dalam tugas-tugas spesifik. “Untuk banyak pekerjaan, model 8 miliar parameter sebenarnya cukup baik,” kata Zico Kolter, ilmuwan komputer di Carnegie Mellon University. Contohnya? Mulai dari merangkum percakapan, menjawab pertanyaan pasien sebagai chatbot kesehatan, hingga mengumpulkan data di perangkat pintar. Bahkan, SLMs bisa dijalankan di laptop atau ponsel—tanpa perlu mengandalkan pusat data besar.
Definisi “kecil” sendiri masih fleksibel, tetapi model-model terbaru umumnya tidak melebihi 10 miliar parameter. Kunci efisiensi mereka terletak pada pendekatan pelatihan yang cerdik. Alih-alih mengumpulkan data mentah dari internet—yang seringkali berantakan—para peneliti menggunakan teknik bernama knowledge distillation. Di sini, model besar yang sudah terlatih menghasilkan dataset berkualitas tinggi untuk melatih model kecil, mirip guru yang membagikan ilmunya pada murid.
Memangkas yang Tidak Perlu: Seni Merampingkan AI
Selain knowledge distillation, peneliti juga mengembangkan metode pemangkasan (pruning)—proses menghilangkan bagian jaringan saraf yang tidak efisien. Inspirasinya datang dari otak manusia, yang menjadi lebih efisien seiring usia dengan memutus koneksi sinaptik yang tidak perlu.
Konsep ini pertama kali diperkenalkan Yann LeCun (kini di Meta) pada 1989. Dalam makalahnya, ia menunjukkan bahwa 90% parameter dalam jaringan saraf terlatih bisa dihapus tanpa mengurangi performa. Metode yang ia sebut “optimal brain damage” ini kini menjadi fondasi untuk menyesuaikan SLMs pada tugas atau lingkungan tertentu.
Laboratorium Mini untuk Inovasi AI
Bagi peneliti, SLMs menawarkan arena eksperimen yang lebih terjangkau. “Jika ingin membuat model baru, Anda perlu mencoba berbagai hal,” jelas Leshem Choshen dari MIT-IBM Watson AI Lab. “Model kecil memungkinkan eksperimen dengan risiko lebih rendah.” Selain itu, dengan parameter yang lebih sedikit, proses pengambilan keputusan SLMs cenderung lebih transparan—aspek krusial dalam mengembangkan AI yang bertanggung jawab.
Meski demikian, LLMs tetap memegang peran penting untuk aplikasi seperti chatbot umum, pembuat gambar, atau penemuan obat. Namun bagi banyak pengguna, SLMs yang terfokus seringkali sama efektifnya—dengan kelebihan efisiensi biaya, waktu, dan komputasi. Seperti kata Choshen, “Model-model efisien ini bisa menghemat uang, waktu, dan sumber daya komputasi.”
Di tengah hiruk-pikuk perlombaan AI skala besar, mungkin sudah saatnya kita memberi perhatian pada solusi-solusi kecil yang justru membawa angin segar efisiensi. Bagaimanapun, dalam dunia teknologi, besar tidak selalu berarti lebih baik.