Biaya AI Membengkak? Beralih ke LLM Lokal Jadi Solusi Tepat

Biaya langganan AI dari lab besar terus meningkat, mendorong pengguna beralih ke LLM lokal
Jurnalis Tom's Hardware menghemat ribuan dolar dengan PC mini AMD Ryzen AI 96GB RAM
Sistem AI lokal berjalan 24 jam memproses 20-80 juta token per hari untuk analisis berita
Model open-weight seperti Qwen3.5 dan 3.6 digunakan dengan LM Studio
Kecepatan output 5-10 tok/s namun efektif untuk tugas background
Ekspansi ke PC mini kedua dengan RAM 128GB untuk model 27B dan 36B parameter
Harga langganan AI diprediksi terus naik karena tekanan investor

Telset.id – Kenaikan biaya langganan layanan AI dari laboratorium besar mulai mendorong pengguna berat beralih ke model bahasa besar (LLM) yang dijalankan secara lokal di perangkat keras pribadi. Seorang jurnalis teknologi Tom’s Hardware Premium, Chris Stokel-Walker, mendokumentasikan pengalamannya membangun sistem AI mandiri untuk menghemat biaya yang diperkirakan bisa mencapai ribuan dolar per tahun.

Dalam artikelnya yang dimuat di Tom’s Hardware, Stokel-Walker mengungkapkan bahwa selama setahun terakhir, lab AI besar secara bertahap menaikkan harga sambil memperketat batasan penggunaan. Baik melalui batas tarif yang lebih ketat, jendela konteks yang lebih kecil di tingkat bawah, atau pemindahan fitur ke paket yang lebih mahal. Meskipun biaya per token secara nominal turun, kenyataannya tagihan bulanan pengguna justru meningkat karena volume pemrosesan yang lebih tinggi dan kebutuhan perangkat baru.

Di sisi lain, model AI dengan bobot terbuka (open-weight) mengalami peningkatan pesat. Perangkat keras konsumen menjadi lebih mumpuni, dan alat seperti LM Studio, Ollama, serta llama.cpp membuat penerapan lokal jauh lebih mudah diakses dibandingkan setahun lalu. Kondisi ini memicu kebangkitan kembali tren menjalankan model AI di mesin pribadi.

Keputusan Finansial yang Matang

Stokel-Walker memutuskan untuk membeli PC mini GMKtech dengan prosesor AMD Ryzen AI Max+ 395 dan RAM 96GB pada pertengahan Maret lalu. Perangkat seharga sekitar £1.500 ($2.000) itu dibeli setelah perhitungan matang. Volume token yang ingin ia proses akan menghabiskan biaya langganan yang jauh lebih besar jika tetap menggunakan layanan AI dari laboratorium besar.

“Keputusan yang harus saya buat sederhana: apakah saya ingin menghabiskan uang untuk langganan yang akan memakan biaya beberapa ribu dolar selama setahun, dan pada akhirnya harus membayar biaya berulang selama bertahun-tahun ke lab AI yang kemungkinan akan menaikkan harga? Atau apakah saya ingin membayar biaya satu kali untuk perangkat keras sendiri dan biaya listrik yang lebih kecil?” tulis Stokel-Walker.

Ia memilih opsi kedua. Dalam dua bulan, penghematan yang ia dapatkan jika proyek tersebut dijalankan melalui panggilan API pada GPT-5.4-mini mencapai tiga perempat dari biaya PC mini pertamanya, atau sekitar $1.500.

Chris Stokel-Walker

Sistem AI Lokal yang Berjalan 24 Jam

Proses pengaturan PC mini tersebut relatif mudah, meskipun Stokel-Walker mengaku membutuhkan bantuan model AI berbayar dari lab besar untuk menyelesaikannya. Sistem yang ia bangun dirancang untuk membantunya melacak berita yang terus berubah di bidang yang ia liput. Sistem ini mengambil feed RSS, menyerap konten berita, lalu menilainya berdasarkan ‘otak’ digital yang dibuat dari analisis hampir 2.000 tulisannya selama empat tahun terakhir.

Ketika menemukan kandidat yang berpotensi menarik, cerita tersebut ‘ditugaskan’ ke reporter AI yang kemudian membaca topik terkait di web dan menghasilkan pitch. Reporter AI tersebut kemudian mengirim pitch ke editor AI yang terlibat dalam diskusi untuk menyempurnakan sudut pandang ide, sebelum menyajikan beberapa paragraf ide luas yang disesuaikan dengan selera Stokel-Walker melalui Telegram.

“Hasilnya jauh dari sempurna — saya menyamakannya dengan lulusan baru yang saya ajari dalam hal selera dan kedalaman — tetapi ini adalah titik awal yang baik bagi saya untuk mempelajari apa yang penting pada hari tertentu,” jelasnya.

Seluruh proses menggunakan LM Studio dan berjalan pada campuran model terkuantisasi, umumnya Qwen3.5 dan 3.6. Karena menjalankan banyak proses editor dan reporter secara paralel, jumlah parameter pada setiap model mungkin tampak kecil untuk RAM 96GB: ia menggunakan model Qwen 3.5-9B, serta Jackrong’s Qwen-3.5-9B-GLM-5.1-Distilled dan Qwopus-3.5-9B. Ribuan panggilan model terjadi setiap hari, sehingga throughput harus tinggi.

Sejak memulai proyek pada pertengahan Maret, LLM lokalnya telah memproses antara 20 juta hingga 50 juta token per hari. Stokel-Walker menggunakan antara 50-100 juta token dalam sehari rata-rata, termasuk untuk pemecahan masalah dengan model berbayar dan proyek paralel lainnya.

Baca Juga:

Kecepatan Token dan Pembagian Beban Kerja

Untuk tugas membaca, berpikir, menganalisis, dan menyajikan ulang, model lokal bekerja dengan cemerlang. Model berjalan 24 jam sehari, dan jika membutuhkan waktu dua detik atau dua menit untuk memproses prompt (antara 7.000 dan 18.000 token), itu tidak menjadi masalah. Kecepatan token per detik tidak akan mengesankan mereka yang membicarakan LLM lokal di media sosial: model menangani prompt sekitar 300 tok/s, sementara output jauh lebih lambat yaitu 5-10 tok/s. Namun, sistem ini tetap berfungsi efektif untuk kebutuhannya.

Meskipun demikian, Stokel-Walker masih mempertahankan langganan lab besarnya, meskipun menggunakannya secara berbeda. Rencana GLM Coding yang dibeli sekitar Natal dan berlaku selama setahun digunakan bersama Codex melalui langganan OpenAI untuk memecahkan masalah dan mengutak-atik proyek ketika ada kendala. Dua pertiga atau lebih dari total penggunaan tokennya kini merupakan LLM yang dihosting secara lokal.

“Dan seiring model lokal terus mengembangkan kemampuannya dan kesenjangan antara mereka dengan model tercanggih dari lab besar menutup, saya dapat membayangkan bahwa ini akan meningkat,” tambahnya.

Framework Desktop on a desk.

Ekspansi ke Perangkat Kedua

Stokel-Walker mengakui bahwa ia seharusnya membeli versi 128GB dari PC mini-nya. Sekitar dua minggu lalu, sebelum kenaikan harga berbasis memori lainnya, ia memutuskan untuk membeli versi yang lebih besar. Volume kueri yang ia lakukan pada kotak 96GB mulai mencapai batas, dan ia ingin memperluas proyek. Ia juga ingin menguji harness coding lokal seperti Claude Code atau Hermes menggunakan model lokal.

Pengalaman dari pengaturan PC mini pertama sangat membantu dalam menyiapkan PC kedua. Jumlah token meningkat dari 20-50 juta token per hari menjadi sekitar 50-80 juta token per hari. Ia memindahkan sebagian proyek analisis massal ke perangkat keras baru dan menempatkannya pada model parameter 27B dan 36B yang lebih kuat (melalui model Final-Bench-Darwin-36B-Opus), membebaskan ruang pada PC mini pertama dan memungkinkannya menguji ide proyek gaya Claude Code yang dihosting secara lokal dengan ruang kosong pada PC mini kedua.

Uji coba tersebut belum sepenuhnya berhasil. Menggunakan GLM-4.7-Flash untuk harness coding terasa seperti langkah mundur yang terlalu besar dalam hal generasi model. Model Qwen yang lebih besar sejauh ini terjebak dalam pemikiran mereka sendiri atau menghabiskan banyak jendela konteks yang ditugaskan. Namun, ia sedang mempertimbangkan untuk mengganti Claude Code dengan harness yang lebih ringan dan tidak terlalu boros konteks.

Masa Depan Harga AI: Hanya Naik

Taruhan yang diambil Stokel-Walker sederhana: harga langganan dan API dari lab frontier — dengan pengecualian outlier seperti DeepSeek — hanya akan naik karena perusahaan di belakangnya menyadari bahwa mereka perlu menghasilkan pengembalian finansial bagi investor. Bahkan jika harga tidak melonjak drastis, lab mungkin membuat tradeoff untuk mengurangi penggunaan — seperti yang telah terlihat dilakukan GitHub.

“Dan sementara perlombaan untuk membangun kapasitas guna memenuhi permintaan lab AI besar itu akan terus mendorong harga perangkat keras naik dalam jangka pendek, saya masih berpikir ini adalah taruhan yang lebih baik untuk memiliki kendali atas model Anda sendiri dan berapa banyak yang Anda bayar untuk itu daripada menyerahkannya ke tangan perusahaan besar,” tegasnya.

Stokel-Walker berencana terus mengutak-atik tumpukan lokalnya, yang telah berkembang dari satu PC mini menjadi dua PC mini yang saling terhubung. Ia juga sudah mengincar PC dengan GPU Nvidia untuk memberikan kecepatan token yang saat ini hilang. Namun untuk saat ini, ia merasa lebih baik mempertahankan apa yang dimiliki dan melihat bagaimana ia bisa mendapatkan manfaat tambahan sebelum melakukan lompatan finansial untuk memperluas seluruh sistemnya.

Fenomena ini menunjukkan bahwa ekosistem AI yang mandiri dan terkendali, baik di tingkat individu maupun korporasi, menjadi semakin relevan. Keputusan untuk beralih ke solusi lokal bukan hanya soal penghematan biaya, tetapi juga tentang kedaulatan teknologi dan kendali penuh atas data serta model yang digunakan.

📑 Daftar Isi

Biaya AI Membengkak, Beralih ke LLM Lokal Jadi Solusi

Keputusan Finansial yang Matang

Sistem AI Lokal yang Berjalan 24 Jam

Kecepatan Token dan Pembagian Beban Kerja

Ekspansi ke Perangkat Kedua

Masa Depan Harga AI: Hanya Naik

Komentar

📑 Daftar Isi

Biaya AI Membengkak, Beralih ke LLM Lokal Jadi Solusi

Keputusan Finansial yang Matang

Sistem AI Lokal yang Berjalan 24 Jam

Kecepatan Token dan Pembagian Beban Kerja

Ekspansi ke Perangkat Kedua

Masa Depan Harga AI: Hanya Naik

Komentar

Berita Terkait

Waymo Recall 3.871 Unit Robotaxi Gagal Deteksi Zona Konstruksi

Microsoft Copilot Gagal Total Prediksi Piala Dunia 2026

Midjourney Kembangkan Scanner Ultrasonik 60 Detik

Pemblokiran AI Anthropic Picu Krisis Kepercayaan Global di KTT G7

Berita Terkait

Waymo Recall 3.871 Unit Robotaxi Gagal Deteksi Zona Konstruksi

Microsoft Copilot Gagal Total Prediksi Piala Dunia 2026

Midjourney Kembangkan Scanner Ultrasonik 60 Detik

Pemblokiran AI Anthropic Picu Krisis Kepercayaan Global di KTT G7