Riset Cornell: AI Mudah Dikerjai oleh 13 Kata di Reddit

Riset Cornell Tech menemukan AI bisa dipengaruhi hanya dengan 13 kata di Reddit
Serangan WARP berhasil mengarahkan AI ke produk palsu dalam 38-62% pengujian
17-23% halaman web yang diambil AI berasal dari situs konten pengguna
Contoh serangan: restoran fiktif "Sol Azteca" dan aplikasi kencan palsu "SilverPath"
Gemini Deep Research mengutip konten pengguna 12%, OpenAI hanya 0.4%
Tips: perlakukan rekomendasi AI sebagai petunjuk awal, bukan keputusan akhir

Telset.id – Sebuah riset terbaru dari Cornell Tech mengungkapkan bahwa kecerdasan buatan atau AI dapat dengan mudah dipengaruhi oleh konten buatan pengguna di platform seperti Reddit. Hanya dengan menyisipkan sekitar 13 kata dalam sebuah komentar, seorang penyerang bisa mengarahkan jawaban chatbot ke produk atau layanan palsu.

Riset berjudul “Deep-Research Agents Can Be Poisoned via User-Generated Content,” yang pertama kali dilaporkan oleh 404 Media, menguji kerentanan sistem AI modern. Peneliti Tingwei Zhang, Harold Triedman, dan Vitaly Shmatikov membangun serangan bernama WARP (Web Agent Retrieval Poisoning) dan membuktikan bahwa metode ini bekerja dengan tingkat keberhasilan yang mengkhawatirkan.

Penelitian ini menjadi pengingat serius bagi para pengguna AI yang sering mengandalkan chatbot untuk rekomendasi produk, restoran, atau layanan darurat. Kerentanan ini mirip dengan ancaman yang dibahas dalam artikel tentang Fitur Terbaru Gemini, di mana kemampuan AI yang semakin canggih justru membuka celah baru.

Bagaimana Serangan WARP Bekerja?

Ketika pengguna mengajukan pertanyaan ke alat AI, sistem tersebut sering menjalankan pencarian web langsung. AI membaca hasil pencarian dan menyusun respons dengan kutipan. Masalahnya, sebagian besar konten yang dibaca AI berasal dari situs berbasis konten pengguna seperti Reddit, Wikipedia, Quora, dan YouTube — tempat siapa pun bisa memposting.

Dalam pengujian Cornell, sekitar 17–23% dari semua halaman web yang diambil oleh agen AI berasal dari situs semacam itu. Sebuah thread Reddit yang populer bahkan bisa muncul di sebagian besar pertanyaan terkait pada topik yang sama. Ini menciptakan titik rawan. Dengan meracuni satu thread yang sering dikutip, penyerang dapat mengarahkan jawaban AI untuk seluruh kategori pertanyaan.

Dalam pengujian, menambahkan sekitar 13 kata teks promosi ke satu sumber berhasil membuat AI menyebutkan produk palsu dalam 38–51% pengujian. Jika umpan disebar ke beberapa thread, tingkat keberhasilan naik hingga 62%. Serangan semacam ini mengingatkan pada ancaman Backdoor Berbahaya yang mengintai di celah keamanan sistem.

Contoh Serangan Nyata (Simulasi)

Untuk menghindari pencemaran internet, tim peneliti tidak pernah memposting apa pun secara publik. Mereka menjalankan serangan di sandbox yang mensimulasikan efek teks beracun pada halaman nyata. Contoh yang diciptakan sangat sederhana: sebuah baris pendek di thread makanan Austin yang merekomendasikan restoran fiktif bernama “Sol Azteca” berhasil membuat AI merekomendasikan restoran tersebut dan mengutip postingan Reddit.

Aplikasi kencan palsu bernama “SilverPath” muncul sebagai “pilihan teratas” untuk pria bercerai di atas 50 tahun. Umpan palsu lainnya termasuk koin kripto palsu dan layanan pihak ketiga untuk membatalkan langganan Xfinity. Metode ini menunjukkan betapa mudahnya memanipulasi AI yang mengandalkan konten komunitas.

Baca Juga:

Mengapa Ini Berbahaya?

Bagian yang paling mengkhawatirkan adalah bahwa pertanyaan yang paling rentan terhadap serangan ini justru merupakan pertanyaan yang paling sering diandalkan pengguna AI. Pertanyaan tipe rekomendasi dan saran — seperti restoran terbaik, aplikasi terbaik, produk mana yang harus dibeli, cara membatalkan sesuatu, siapa yang dihubungi dalam keadaan darurat — adalah area di mana AI cenderung mengandalkan obrolan komunitas daripada sumber resmi.

Alasan utama metode ini berhasil, menurut peneliti, adalah karena sistem AI sering memperlakukan teks yang mirip dengan pertanyaan pengguna sebagai pengganti teks yang akurat. Penyerang yang mempelajari pertanyaan umum dapat menulis komentar yang mencerminkan frase pertanyaan tersebut, dan cerminan itulah yang memenangkan kepercayaan AI.

Seperti yang diungkapkan Zhang kepada 404 Media, sistem ini menimbang komentar Reddit acak dan situs web pemerintah sebagai sama kredibelnya. Ini menunjukkan kesenjangan besar dalam cara AI mengevaluasi sumber informasi — mirip dengan risiko yang dihadapi pengguna Ancaman Fileless di perangkat mobile.

Apa yang Bisa Anda Lakukan?

Perlakukan rekomendasi AI sebagai petunjuk awal, bukan keputusan akhir. Ini terutama berlaku untuk produk, aplikasi, restoran, pilihan keuangan, dan apa pun yang terkait dengan uang atau keselamatan. Klik kutipan yang diberikan AI. Jika AI dengan percaya diri menyebutkan merek, lihat dari mana klaim itu berasal. Satu komentar Reddit adalah tanda bahaya.

Periksa silang nama yang tidak dikenal. Jika Anda belum pernah mendengar opsi “terbaik” yang baru saja disebutkan AI, cari secara independen sebelum mempercayainya. Berhati-hatilah dengan pertanyaan mendesak seperti bantuan pinggir jalan darurat, nomor telepon layanan pelanggan, hingga pemulihan akun — ini adalah target utama penipuan.

Masalah rumitnya adalah ini tidak bisa dengan mudah dihentikan. Peneliti menguji pertahanan umum seperti memblokir situs konten pengguna sepenuhnya, menyaring sumber sebelum digunakan, dan memindai jawaban akhir untuk manipulasi — dan tidak ada yang berhasil tanpa membuat jawaban AI menjadi lebih buruk. Trik standar untuk menangkap sampah buatan AI justru menjadi bumerang karena teks yang ditanam lebih lancar daripada komentar manusia asli.

Seorang juru bicara Reddit mengatakan kepada 404 Media bahwa perusahaan telah menghabiskan dua dekade melawan spam, bot, dan manipulasi terkoordinasi, dan baru-baru ini mulai meminta akun otomatis yang mencurigakan untuk memverifikasi bahwa mereka adalah manusia. Namun, peneliti berpendapat ini pada akhirnya adalah masalah skala sosial, bukan sesuatu yang bisa diselesaikan Reddit atau Wikipedia sendirian.

Kesimpulan

Sampai perusahaan AI menutup celah ini, sedikit skeptisisme sangat membantu. Langkah paling cerdas saat ini adalah menganggap AI sama seperti orang asing yang banyak bicara di forum. Anggap informasinya membantu, tapi pastikan untuk memeriksa ulang. Riset ini membuktikan bahwa AI yang kita andalkan untuk rekomendasi harian bisa dengan mudah dimanipulasi — dan kita sebagai pengguna harus lebih waspada.

📑 Daftar Isi

Riset Cornell: AI Mudah Dikerjai oleh 13 Kata di Reddit

Bagaimana Serangan WARP Bekerja?

Contoh Serangan Nyata (Simulasi)

Mengapa Ini Berbahaya?

Apa yang Bisa Anda Lakukan?

Kesimpulan

Komentar

📑 Daftar Isi

Riset Cornell: AI Mudah Dikerjai oleh 13 Kata di Reddit

Bagaimana Serangan WARP Bekerja?

Contoh Serangan Nyata (Simulasi)

Mengapa Ini Berbahaya?

Apa yang Bisa Anda Lakukan?

Kesimpulan

Komentar

Berita Terkait

NAACP Gugat xAI, 57 Turbin Gas Beroperasi Ilegal di Colossus 2

Anthropic dan AS Bersitegang Soal Claude Fable 5

Karyawan Meta Sebut Divisi AI Seperti Gulag dan Wajib Militer

Gugatan xAI soal Pencurian Rahasia Dagang Ditolak Hakim

Berita Terkait

NAACP Gugat xAI, 57 Turbin Gas Beroperasi Ilegal di Colossus 2

Anthropic dan AS Bersitegang Soal Claude Fable 5

Karyawan Meta Sebut Divisi AI Seperti Gulag dan Wajib Militer

Gugatan xAI soal Pencurian Rahasia Dagang Ditolak Hakim