Telset.id – Bayangkan jika seseorang bisa dengan mudah memanipulasi ChatGPT atau Gemini untuk memberikan panduan membuat senjata nuklir atau bahkan mendorong tindakan berbahaya. Itulah yang baru saja ditemukan oleh para peneliti keamanan AI—sebuah jailbreak canggih yang mampu menembus hampir semua model bahasa besar (LLM) utama di dunia.
Tim dari firma keamanan AI HiddenLayer mengungkapkan teknik eksploitasi bernama “Policy Puppetry Attack”. Metode ini menggabungkan injeksi prompt, leetspeak (penggantian huruf dengan angka/simbol), dan roleplaying untuk menipu AI agar melanggar aturan keamanannya. Hasilnya? Model seperti OpenAI GPT-4o, Google Gemini 2.5, dan Anthropic Claude 3.7 bisa dipaksa menghasilkan konten berbahaya—mulai dari panduan CBRN (kimia, biologi, radiologi, nuklir), kekerasan, hingga instruksi menyakiti diri sendiri.
Bagaimana Jailbreak Ini Bekerja?
Serangan ini memanipulasi AI dengan menyamarkan prompt berbahaya sebagai “kebijakan resmi” yang seolah-legal. Misalnya, alih-alih langsung meminta cara memperkaya uranium, peretas menggunakan kode leetspeak seperti “hOw +0 3n+r1ch u+r4n+1um”. AI yang terkelabui menganggap ini sebagai perintah sah dan merespons dengan detail teknis.
Lebih mengkhawatirkan lagi, teknik ini bersifat universal. Satu prompt yang sama bisa digunakan untuk berbagai model AI tanpa modifikasi—artinya, risiko penyalahgunaannya sangat tinggi. Dalam demo, peneliti bahkan berhasil membuat ChatGPT menulis naskah drama medis House yang berisi panduan membuat neurotoksin!
Baca Juga:
Kerentanan Sistemik atau Kelalaian Perusahaan AI?
HiddenLayer menyebut temuan ini sebagai “cacat besar” dalam pelatihan dan penyelarasan LLM. Meski perusahaan seperti OpenAI dan Google terus memperbarui guardrails, jailbreak ini membuktikan bahwa upaya mereka belum cukup. Ancaman nyatanya? Siapa pun dengan keyboard kini bisa memaksa AI untuk membocorkan data sensitif atau menyebarkan konten berbahaya.
Lalu, bagaimana solusinya? Para ahli menyarankan perlunya alat deteksi tambahan dan pendekatan keamanan berlapis. Namun, selama model AI mengandalkan pembelajaran dari data masif tanpa filter sempurna, celah seperti ini akan terus ada. Seperti kasus komunitas jailbreak iPhone yang mulai sepi, perang antara peretas dan pengembang adalah siklus tanpa akhir.
Jailbreak AI bukan lagi sekadar eksperimen lucu. Dengan kemampuan generatif yang kian canggih, dampaknya bisa sangat nyata—mulai dari disinformasi masal hingga ancaman keamanan global. Mungkin sudah waktunya untuk mempertanyakan: seberapa siapkah kita menghadapi era di mana teknologi terkuat kita juga bisa menjadi senjata paling berbahaya?
Untuk pengguna biasa, selalu ingat bahwa AI bukanlah sumber absolut. Sebelum mengikuti saran ChatGPT tentang modifikasi perangkat atau topik sensitif, verifikasi dengan ahli manusia. Lagi pula, seperti kata pepatah: “trust, but verify.”