Telset.id – Pernahkah Anda bertanya pada chatbot AI dan mendapatkan jawaban yang terdengar meyakinkan, tapi ternyata salah besar? Itulah yang disebut “halusinasi AI”—fenomena di mana model bahasa besar (LLM) menghasilkan informasi yang tidak akurat atau sama sekali fiktif. OpenAI, salah satu pelopor di bidang kecerdasan buatan, kini mengklaim telah menemukan akar masalahnya dan sedang mengembangkan solusi yang dapat membuat AI lebih dapat dipercaya.
Masalah halusinasi bukanlah hal sepele. Bayangkan Anda menggunakan AI untuk riset akademis, dan ia memberikan kutipan dari jurnal yang tidak pernah ada. Atau saat meminta rekomendasi produk, AI menyebutkan fitur yang sebenarnya tidak dimiliki. Ini bukan hanya mengganggu, tetapi juga berpotensi merugikan. OpenAI, melalui penelitian kolaboratif dengan Georgia Tech, telah menerbitkan makalah sepanjang 36 halaman yang mengupas tuntas mengapa hal ini terjadi—dan yang mengejutkan, kesalahannya mungkin bukan pada desain model, melainkan pada cara kita mengujinya.
Menurut penelitian tersebut, sistem penilaian (benchmark) yang digunakan saat ini justru memicu AI untuk “berbohong”. Sebagian besar tes dirancang untuk menghukum model yang menjawab “Saya tidak tahu” atau menolak pertanyaan, sementara memberi reward pada model yang berani menjawab—bahkan jika jawabannya salah. Analoginya seperti ujian pilihan ganda di sekolah: lebih baik menebak daripada tidak menjawab sama sekali. Akibatnya, AI cenderung memproduksi jawaban dengan keyakinan tinggi, meskipun faktanya ia tidak yakin.
OpenAI dan tim peneliti, termasuk Santosh Vempala dari Georgia Tech, mengusulkan perubahan radikal dalam metodologi evaluasi. Alih-alih menghargai kuantitas jawaban, sistem seharusnya lebih menghargai kejujuran dan kehati-hatian. Misalnya, jawaban yang “percaya diri tetapi salah” harus diberi penalti besar, sementara pengakuan ketidaktahuan atau respons yang hati-hati justru diberi nilai positif.
Contoh nyata dari paper tersebut menunjukkan perbedaan mencolok. Satu model yang hati-hati hanya menjawab 50% pertanyaan, tetapi akurasinya mencapai 74%. Sebaliknya, model lain yang menjawab hampir semua pertanyaan justru berhalusinasi pada tiga dari empat kesempatan. Artinya, kepercayaan buta pada AI yang selalu siap menjawab justru berisiko tinggi.
Baca Juga:
Jika pendekatan ini diadopsi secara luas, perilaku asisten AI sehari-hari bisa berubah drastis. Daripada dengan yakin menyebutkan statistik palsu atau merujuk sumber fiktif—seperti yang terjadi pada kasus restoran di Montana yang memprotes Google AI karena memberikan informasi menu yang salah—AI akan lebih sering mengakui batasan pengetahuannya. Mungkin terdengar kurang “pintar”, tetapi ini justru langkah maju menuju transparansi dan keandalan.
Bagi pengguna, ini berarti lebih sedikit waktu yang dihabiskan untuk memverifikasi setiap klaim AI. Bagi developer dan peneliti, ini adalah pengingat bahwa kecerdasan buatan bukan hanya tentang kecepatan atau keluwesan bahasa, tetapi juga integritas informasi. Bahkan isu kepercayaan terhadap AI ini telah memicu kekhawatiran mendalam, seperti yang tercermin dalam keputusan seorang mantan mahasiswa MIT yang memilih keluar karena khawatir AI dapat mengancam manusia.
OpenAI bukan satu-satunya yang bergulat dengan tantangan ini. Persaingan dalam pengembangan AI semakin ketat, termasuk dengan kehadiran Grok xAI yang baru saja disetujui pemerintah AS. Namun, pendekatan berbasis kejujuran ini bisa menjadi standar baru dalam industri—terutama jika OpenAI berhasil mengintegrasikannya ke dalam model generasi berikutnya seperti GPT-5.
Jadi, lain kali Anda berinteraksi dengan chatbot dan ia menjawab “Saya tidak yakin” atau “Saya belum mempelajari itu”, jangan langsung menganggapnya kurang canggih. Bisa jadi, itulah AI yang lebih cerdas dan bertanggung jawab—AI yang lebih peduli pada kebenaran daripada tampilan percaya diri.