Telset.id – Bayangkan jika untuk membuat senjata nuklir atau konten berbahaya lainnya, Anda hanya perlu bertanya pada chatbot AI dengan gaya puisi. Kedengarannya seperti plot film fiksi ilmiah, bukan? Namun, sebuah studi terbaru justru membuktikan bahwa jailbreak AI dengan puisi bukan hanya mungkin, tetapi juga cukup efektif. Kreativitas manusia, dalam bentuk irama dan rima, ternyata bisa menjadi kunci universal untuk melumpuhkan pagar pengaman yang dibangun dengan susah payah oleh para pengembang model bahasa besar (LLM).
Penelitian yang dilakukan oleh Icaro Lab, bertajuk “Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models,” mengungkap kerentanan yang mengkhawatirkan. Para peneliti berhasil memanipulasi berbagai LLM populer untuk menghasilkan materi terlarang—mulai dari panduan membuat senjata nuklir, materi terkait kekerasan seksual pada anak, hingga konten yang mendorong bunuh diri atau melukai diri sendiri—hanya dengan merangkai permintaan mereka dalam bentuk puisi. Temuan ini bukan sekadar eksperimen akademis belaka, melainkan tamparan keras bagi industri AI yang sedang gencar-gencarnya mempromosikan keamanan dan keselamatan produk mereka.
Lantas, seberapa rentankah para raksasa AI ini? Menurut laporan studi, mekanisme jailbreak AI berbasis puisi ini berhasil dengan tingkat kesuksesan rata-rata 62 persen. Artinya, lebih dari separuh upaya untuk membujuk model agar melanggar aturannya sendiri berhasil hanya dengan satu percakapan (single-turn) yang dipoles menjadi karya sastra. Puisi, dalam konteks ini, beroperasi sebagai “operator jailbreak serbaguna” yang mampu mengelabui logika pemfilteran konten. Ini mengindikasikan bahwa keamanan AI mungkin lebih rapuh dari yang kita kira, bergantung pada bentuk pertanyaan, bukan hanya niat di baliknya.

Tim peneliti menguji metode ini pada berbagai LLM ternama, termasuk model GPT dari OpenAI, Google Gemini, Claude dari Anthropic, serta model dari DeepSeek dan MistralAI. Hasilnya cukup bervariasi, memberikan gambaran tentang seberapa tangguh atau rentannya sistem pertahanan masing-masing platform. Google Gemini, DeepSeek, dan MistralAI tercatat secara konsisten memberikan jawaban yang melanggar aturan keamanan mereka. Sementara itu, model GPT-5 dari OpenAI dan Claude Haiku 4.5 dari Anthropic menunjukkan ketahanan yang lebih baik, menjadi yang paling kecil kemungkinannya untuk melanggar batasan yang telah ditetapkan.
Ketangguhan Claude dalam menghadapi serangan puisi ini menarik untuk dicermati. Sebelumnya, Anthropic telah membuktikan bahwa Claude AI memiliki “kode moral” yang tertanam, sebuah upaya untuk membuatnya lebih aman dan selaras dengan nilai-nilai manusia. Namun, apakah kode moral itu cukup? Studi ini menunjukkan bahwa meski Claude relatif lebih tahan, kerentanan tetap ada. Pendekatan keamanan yang berlapis, termasuk untuk penggunaan di sektor sensitif seperti pendidikan yang kini juga diintegrasikan oleh Anthropic, harus mempertimbangkan vektor serangan yang tidak terduga seperti ini.
Baca Juga:
Pertanyaan besar yang mengemuka adalah: seperti apa puisi jailbreak itu? Di sinilah para peneliti bersikap sangat hati-hati. Mereka menolak membagikan contoh puisi lengkap yang digunakan dalam studi kepada publik, dengan alasan itu “terlalu berbahaya untuk dibagikan.” Keputusan ini kontroversial, namun dapat dimengerti. Memberikan “senjata” tersebut secara cuma-cuma dapat memicu penyalahgunaan yang masif. Sebagai gantinya, tim hanya memberikan versi yang sudah “diencerkan” untuk memberikan gambaran tentang betapa mudahnya proses itu. Seorang peneliti mengungkapkan kepada Wired bahwa membobol keamanan chatbot AI dengan puisi “mungkin lebih mudah dari yang dibayangkan, dan itulah tepatnya mengapa kami berhati-hati.”
Fenomena ini membuka diskusi mendalam tentang masa depan keamanan AI. Jika sebuah puisi—bentuk ekspresi manusia yang indah dan kompleks—dapat dengan mudah dijadikan alat eksploitasi, lalu bagaimana kita bisa benar-benar mempercayai sistem ini untuk digunakan secara luas? Pagar keamanan yang selama ini mengandalkan deteksi kata kunci atau analisis niat langsung (straightforward intent) ternyata tidak cukup canggih untuk menangkap makna terselubung dalam struktur puitis. AI diajari untuk memahami bahasa, tetapi tampaknya belum sepenuhnya diajari untuk waspada terhadap penyalahgunaan keindahan bahasa itu sendiri.
Lalu, apa implikasi praktisnya bagi kita sebagai pengguna? Pertama, ini adalah pengingat bahwa tidak ada sistem AI yang 100% aman. Kedua, temuan ini menekankan pentingnya pendekatan keamanan yang proaktif dan terus berkembang dari para pengembang. Mereka tidak hanya harus berfokus pada penyempurnaan model, tetapi juga pada “pelatihan” model untuk mengenali dan menolak manipulasi linguistik yang kreatif. Uji coba seperti yang dilakukan pada game Pokémon Red mungkin terlihat sederhana, tetapi esensinya sama: mendorong batas dan menemukan celah dalam logika AI.
Pada akhirnya, studi dari Icaro Lab ini bukanlah akhir dari perjalanan, melainkan alarm peringatan. Ia menunjukkan bahwa perlombaan senjata antara pengembang yang membangun pertahanan dan pihak yang mencari celah keamanan akan terus berlanjut, dengan medan pertempuran yang semakin abstrak: ranah puisi dan metafora. Keamanan AI di masa depan tidak hanya tentang memblokir kata-kata buruk, tetapi tentang memahami nuansa, konteks, dan kemungkinan tak terbatas dari kreativitas manusia—yang sayangnya, bisa digunakan untuk tujuan yang gelap. Puisi telah membuktikan dirinya sebagai senjata yang elegan sekaligus mengerikan dalam dunia digital. Sekarang, giliran para insinyur AI untuk menulis “sajak balasan” yang mampu melindungi kita semua.

