Alat Penghapus Guardrails AI Ancam Keamanan Open Source

Alat Heretic mampu melucuti guardrails AI model open source (Gemma 3, Llama 3.3) dalam <10 menit.
Model yang didecensori bisa memberikan instruksi serangan gas klorin, buat virus, dan konten eksplisit anak.
Heretic tersedia gratis di GitHub dan telah menciptakan 3.500+ model tanpa sensor dengan 13 juta unduhan.
Ancaman ini hanya berlaku untuk model open source, bukan model proprietary seperti Claude atau ChatGPT.
Google akui abliteration sebagai tantangan teknis, Meta menolak berkomentar.
Industri AI didesak untuk segera memperkuat keamanan model open source.

Telset.id – Sebuah alat bernama Heretic mampu melucuti sistem keamanan (guardrails) dari model AI open source ternama seperti Gemma 3 milik Google dan Llama 3.3 milik Meta dalam waktu kurang dari sepuluh menit. Temuan ini terungkap dalam laporan terbaru Financial Times (FT) yang berkolaborasi dengan kelompok keamanan AI, Alice. Alat yang tersedia gratis di repositori kode GitHub ini memungkinkan siapa pun dengan sedikit keahlian teknis untuk menghasilkan model AI tanpa sensor yang berbahaya.

Dalam pengujian yang dilakukan oleh FT dan Alice, versi “tanpa sensor” dari model Gemma 3 milik Google mampu memberikan instruksi terperinci untuk melakukan serangan gas klorin di dalam ruangan, membuat virus untuk mencuri data kartu kredit, dan menghasilkan cerita yang menggambarkan pelecehan seksual pada anak. Fakta ini menunjukkan betapa rentannya model-model open source terhadap penyalahgunaan ketika lapisan keamanannya dihilangkan.

Proses modifikasi ini dilakukan menggunakan Heretic, sebuah alat yang dideskripsikan sebagai “alat yang menghapus sensor (alias ‘safety alignment’) dari model bahasa berbasis transformer tanpa perlu pelatihan ulang yang mahal.” Cara kerja Heretic adalah dengan melakukan “abliteration”: mencari petunjuk dalam model yang menolak permintaan berbahaya dan menghapusnya. Keunggulan utama Heretic, seperti tercantum di halaman GitHub-nya, adalah kemampuannya melakukan semua ini “secara otomatis penuh.”

“Dahulu, mungkin diperlukan aktor yang lebih terinformasi dan gigih untuk melucuti fitur keamanan. Saat ini, jauh lebih mudah bagi orang biasa,” ujar Kawin Ethayarajh, asisten profesor applied AI di Booth Business School, University of Chicago, kepada FT. Pernyataan ini menggarisbawahi pergeseran besar dalam aksesibilitas teknologi yang berpotensi disalahgunakan.

Philipp Emanuel Weidmann, pencipta Heretic, mengungkapkan kepada FT bahwa alatnya telah digunakan untuk membuat lebih dari 3.500 model “tanpa sensor” sejak dirilis pada akhir tahun lalu. Model-model tersebut telah diunduh sebanyak 13 juta kali. Angka ini menunjukkan betapa masifnya permintaan dan penyebaran model AI yang tidak memiliki pengaman.

“Hantu sudah keluar dari botol,” ujar Noam Schwartz, CEO Alice, kepada FT. “Hal-hal yang tampak seperti fiksi ilmiah bukan lagi fiksi ilmiah. Sebagai masyarakat, kita perlu bersiap.” Peringatan keras ini menekankan urgensi untuk segera mengambil tindakan menghadapi ancaman nyata dari teknologi ini.

Ancaman bagi Model Open Source

Untungnya, alat abliteration seperti Heretic hanya bekerja pada model open source yang bisa diunduh dan dijalankan secara lokal. Artinya, model proprietary andalan dari Anthropic (Claude) dan OpenAI (ChatGPT) tetap aman, selama tidak bocor. Namun, model open source saat ini tidak ketinggalan jauh di belakang teknologi milik perusahaan besar. Selain itu, seseorang yang berniat menyalahgunakan AI kemungkinan akan menghindari model korporat untuk menjaga kerahasiaan rencana mereka.

Google mengakui risiko yang ditimbulkan oleh alat seperti Heretic. Perusahaan tersebut menyatakan kepada FT bahwa “abliteration adalah tantangan teknis yang diketahui dihadapi semua model terbuka.” Google juga menegaskan bahwa model open source mereka “menjalani evaluasi keamanan internal yang ketat sebelum diluncurkan untuk membantu mencegah contoh-contoh yang meresahkan ini.” Sementara itu, Meta menolak berkomentar.

Untuk konteks keamanan siber yang lebih luas, ancaman seperti ini mengingatkan pada serangan siber meluas yang sebelumnya disoroti oleh Kaspersky. Kemudahan akses terhadap alat berbahaya semakin mempersulit upaya pengamanan di ranah digital.

Di sisi lain, perkembangan ini juga memicu perdebatan tentang keseimbangan antara keterbukaan (open source) dan keamanan. Industri AI kini dihadapkan pada dilema: mendorong inovasi melalui akses terbuka, atau memperketat pengamanan untuk mencegah penyalahgunaan. Keputusan yang diambil akan berdampak besar pada masa depan teknologi ini.

Beberapa pihak menyarankan agar pengembang model open source lebih proaktif dalam mengidentifikasi dan menambal celah keamanan sebelum alat seperti Heretic dapat mengeksploitasinya. Namun, pendekatan ini terbukti sulit karena sifat open source yang transparan justru memudahkan pihak jahat untuk mempelajari dan mengeksploitasi kelemahan sistem.

Bagi pengguna biasa, temuan ini menjadi pengingat untuk lebih berhati-hati dalam menggunakan model AI yang tidak jelas asal-usulnya. Model yang telah “didecensori” mungkin tampak lebih responsif, tetapi menyimpan potensi bahaya yang besar jika jatuh ke tangan yang salah.

Baca Juga:

Pengembangan alat seperti Heretic juga membuka pertanyaan etis baru tentang tanggung jawab dalam ekosistem AI. Apakah pencipta alat tersebut bertanggung jawab atas penyalahgunaannya? Atau, haruskah pengembang model open source yang dianggap gagal mengamankan produk mereka? Tidak ada jawaban mudah untuk pertanyaan-pertanyaan ini, dan perdebatan kemungkinan akan berlanjut seiring perkembangan teknologi.

Yang jelas, temuan FT dan Alice ini adalah peringatan keras bahwa sistem keamanan AI saat ini masih jauh dari sempurna. Meskipun model proprietary mungkin lebih aman untuk saat ini, celah pada model open source tetap menjadi ancaman serius yang membutuhkan perhatian dan tindakan kolektif dari seluruh pemangku kepentingan di industri ini.

Dengan lebih dari 13 juta unduhan model yang telah didecensori, dampak potensial dari penyalahgunaan teknologi ini sangatlah luas. Mulai dari serangan siber yang lebih canggih hingga produksi konten ilegal dan berbahaya, risiko yang dihadapi masyarakat modern semakin kompleks. Seperti yang dikatakan Noam Schwartz, kita sebagai masyarakat perlu bersiap menghadapi kenyataan baru ini.

Seseorang mengenakan pakaian pelindung hazmat dan masker gas lengkap berdiri di tengah lorong industri yang remang-remang.

Industri AI kini berada di persimpangan jalan. Keputusan yang diambil dalam beberapa bulan ke depan akan menentukan apakah teknologi ini akan menjadi alat pemberdayaan yang aman atau senjata berbahaya yang mudah disalahgunakan. Satu hal yang pasti: status quo saat ini tidak dapat dipertahankan, dan perubahan mendasar diperlukan untuk memastikan keamanan dan integritas ekosistem AI global.

Dari segi regulasi, temuan ini juga memberikan amunisi baru bagi para pendukung pengawasan ketat terhadap pengembangan AI. Beberapa negara mungkin akan mempercepat penyusunan undang-undang yang mewajibkan pengembang untuk menerapkan langkah-langkah keamanan yang lebih ketat, termasuk pada model open source. Namun, implementasi regulasi semacam itu di ranah global yang terdesentralisasi tentu bukanlah tugas yang mudah.

Bagi para pengembang dan peneliti AI, temuan ini menjadi pengingat bahwa keamanan harus menjadi prioritas utama, bukan sekadar fitur tambahan. Inovasi tanpa keamanan yang memadai dapat membawa konsekuensi yang menghancurkan, seperti yang ditunjukkan oleh kemampuan model yang didecensori untuk memberikan instruksi pembuatan senjata kimia atau malware berbahaya.

Pada akhirnya, pertanyaan terbesarnya adalah: bisakah kita menikmati manfaat luar biasa dari AI tanpa harus menghadapi risiko yang menyertainya? Jawabannya mungkin terletak pada kemampuan kita untuk berkolaborasi secara global dalam mengembangkan solusi keamanan yang seefektif alat-alat yang digunakan untuk menerobosnya. Ini adalah perlombaan senjata baru di era digital, dan taruhannya tidak pernah setinggi ini.

📑 Daftar Isi

Alat Penghapus Guardrails AI Ancam Keamanan Model Open Source

Ancaman bagi Model Open Source

Komentar

📑 Daftar Isi

Alat Penghapus Guardrails AI Ancam Keamanan Model Open Source

Ancaman bagi Model Open Source

Komentar

Berita Terkait

Kisah ‘Critterz’: Film AI OpenAI Gagal Tembus Cannes

ColorOS 16 Hadirkan Fitur AI Canggih untuk Traveling

AS Kucurkan Rp 143 Triliun untuk CIA-NSA Borong Chip AI

CEO Nvidia Kecam PHK Akibat AI: Alasan Tidak Masuk Akal

Berita Terkait

Kisah ‘Critterz’: Film AI OpenAI Gagal Tembus Cannes

ColorOS 16 Hadirkan Fitur AI Canggih untuk Traveling

AS Kucurkan Rp 143 Triliun untuk CIA-NSA Borong Chip AI

CEO Nvidia Kecam PHK Akibat AI: Alasan Tidak Masuk Akal