Ilustrasi serangan prompt injection pada AI chatbot

Prompt Injection: Celah Keamanan Kritis pada AI Chatbot

Penulis:Nur Hamzah
Terbit:
Diperbarui:
⏱️4 menit membaca
Bagikan:
  • Peneliti ungkap prompt injection eksploitasi cara LLM baca teks berdasarkan gaya, bukan tag peran.
  • Teknik CoT Forgery tingkatkan jailbreak dari hampir 0% menjadi 60% pada semua model.
  • Serangan menggunakan alasan absurd (kemeja hijau) karena model tidak meneliti klaim dari luar.
  • Menghapus penanda gaya turunkan serangan berhasil dari 61% menjadi 10%.
  • Microsoft akui risiko agen dari konten dalam dokumen yang timpa instruksi agen.
  • Tanpa persepsi peran sejati, pertahanan injeksi akan jadi permainan pukul tikus mondok.

Telset.id – Sebuah studi terbaru mengungkap bahwa serangan prompt injection, celah keamanan yang belum terselesaikan pada setiap chatbot dan agen AI, dapat mengeksploitasi cara model bahasa besar (LLM) membaca teks. Penelitian ini menunjukkan bahwa model bekerja dengan mengenali siapa yang berbicara berdasarkan gaya penulisan, bukan dari tag peran yang seharusnya memisahkan perintah tepercaya dari data yang tidak tepercaya.

Penelitian berjudul “Prompt Injection as Role Confusion” ini digarap oleh peneliti independen Charles Ye, Jasmine Cui, dan profesor asosiasi MIT Dylan Hadfield-Menell. Karya ilmiah tersebut akan dipresentasikan di konferensi ICML 2026 di Seoul pada 6 Juli mendatang. Sebuah tulisan panjang telah dipublikasikan oleh para penulis menjelang acara tersebut.

Salah satu temuan paling mencengangkan adalah trik yang disebut CoT Forgery. Dalam eksperimen ini, model AI diminta menjelaskan cara mensintesis kokain. Permintaan tersebut dibungkus dalam alasan palsu yang menyatakan kepatuhan itu diperbolehkan karena pengguna mengenakan kemeja hijau. Hasilnya, tingkat keberhasilan jailbreak melonjak dari hampir nol menjadi sekitar 60 persen di setiap model yang diuji. Teknik ini bahkan memenangkan kontes red-teaming OpenAI GPT-OSS-20B 2025 di Kaggle.

Para peneliti menjelaskan bahwa model menerima percakapan sebagai satu rangkaian teks kontinu, yang dipartisi oleh tag seperti user, tool, dan think. Tag ini seharusnya menandai sumber dan otoritas setiap segmen. Namun, model justru lebih mengandalkan gaya penulisan untuk menentukan jenis konten dalam partisi tertentu. Teks yang hanya terbaca seperti penalaran oleh model akan terdaftar sebagai penalaran, meskipun tag di sekitarnya mengatakan sebaliknya.

CoT Forgery menyuntikkan penalaran palsu ke dalam prompt sehingga model memperlakukannya sebagai kesimpulannya sendiri yang telah dicapai dan bertindak berdasarkan hal itu. Model mewarisi kepercayaan yang diberikan pada pemikirannya sendiri. Alasan yang diberikan bisa sangat absurd, seperti kemeja hijau, karena model tidak akan menelitinya sebagai klaim dari luar. Yang lebih mengkhawatirkan, serangan ini tidak melemah saat permintaan menjadi semakin ekstrem, tidak seperti jailbreak berbasis persuasi.

Baca Juga:

Para peneliti menemukan bahwa menghapus penanda gaya yang membuat teks yang disuntikkan terbaca seperti penalaran model, sementara mempertahankan maknanya bagi manusia, mampu menurunkan rata-rata serangan berhasil dari 61 persen menjadi 10 persen. Mengganti satu frasa, “The user” menjadi “The request,” juga memangkas tingkat keberhasilan hingga 19 persen.

“Tag peran adalah trik pemformatan yang menjadi arsitektur keamanan dan perancah kognitif LLM modern,” tulis para penulis dalam laporan mereka. Beban yang semakin besar pada struktur ini untuk mengelola perilaku LLM ternyata menciptakan kerentanan tersendiri.

Untuk menentukan apakah kebingungan peran ini spesifik pada serangan mereka atau merupakan prinsip yang lebih umum yang menjelaskan mengapa prompt injection berhasil, para peneliti mengambil pendekatan berbeda. Mereka menyembunyikan perintah di halaman web yang memerintahkan model untuk mengunggah file rahasia, lalu menambahkan “User:” di depannya agar instruksi berbahaya itu terdengar seperti berasal dari peran Pengguna yang tepercaya. Eksploitasi ini berhasil, menunjukkan bahwa kebingungan peran mendasari keberhasilan prompt injection secara umum.

Microsoft baru-baru ini mengakui risiko agen yang sama, memperingatkan bahwa konten yang tertanam dalam dokumen atau elemen UI dapat menimpa instruksi agen. Para penulis juga menyoroti risiko yang lebih halus bagi agen yang menjelajah dan berbelanja. Karena persepsi peran adalah masalah tingkat, nada halaman web yang diambil dapat melampaui batas tag ke dalam status model itu sendiri. Ribuan variasi halaman dapat diuji dengan murah untuk menemukan mana yang mendorong agen menuju pembelian, secara legal dan dalam skala besar.

Tanpa persepsi peran yang sejati, para peneliti menyimpulkan bahwa pertahanan injeksi akan tetap menjadi permainan pukul tikus mondok yang abadi. Temuan ini menambah daftar panjang kerentanan AI, seperti yang terlihat pada studi AI Tertipu Penyakit Fiktif di mana riset palsu berhasil masuk ke jurnal ilmiah.

AI LLM chatbot apps on a phone

Penelitian ini merupakan pukulan telak bagi industri keamanan AI. Selama ini, banyak pengembang mengandalkan tag peran sebagai garis pertahanan utama. Namun, studi ini membuktikan bahwa pendekatan tersebut memiliki kelemahan fundamental. Model AI tidak benar-benar memahami hierarki perintah; mereka hanya menebak berdasarkan pola linguistik.

Implikasinya sangat luas, terutama untuk pengembangan agen AI yang semakin otonom. Jika sebuah agen dapat dengan mudah dibajak oleh teks yang diformat dengan baik, maka kepercayaan pada sistem AI untuk tugas-tugas kritis seperti transaksi keuangan atau kontrol infrastruktur menjadi sangat dipertanyakan. Ini adalah pengingat bahwa meskipun kemampuan AI berkembang pesat, fondasi keamanannya masih sangat rapuh.

Ikuti Telset.id di Google NewsFollow

Komentar

Belum ada komentar.