AI Alami Mirage Reasoning, Bisa Diagnosis Tanpa Lihat Gambar

Telset.id – Model kecerdasan buatan (AI) terdepan, termasuk GPT-5 OpenAI dan Gemini 3 Pro Google, terbukti dapat menghasilkan deskripsi medis mendetail dan diagnosis palsu untuk gambar rontgen dada meski tidak diberi akses ke gambar tersebut. Fenomena baru yang disebut “mirage reasoning” ini mengungkap kerentanan serius dalam kemampuan multimodal AI, terutama untuk aplikasi kritis seperti radiologi.

Penemuan ini berasal dari penelitian tim di Universitas Stanford yang belum melalui proses peer-review. Mereka menemukan bahwa model AI frontier dengan mudah menghasilkan “deskripsi gambar yang detail dan jejak penalaran yang rumit, termasuk temuan klinis yang bias patologi, untuk gambar yang tidak pernah diberikan.” Dalam kasus paling ekstrem, model mereka meraih peringkat teratas pada benchmark standar tanya jawab rontgen dada tanpa mengakses satu gambar pun.

Fenomena ini berbeda dengan halusinasi AI biasa. Jika halusinasi melibatkan model AI mengisi celah dalam kerangka logis yang ada, “mirage reasoning” melibatkan pembangunan kerangka epistemik palsu. “Ini melibatkan penggambaran input multimodal yang tidak pernah diberikan pengguna dan mendasarkan sisa percakapan pada itu, sehingga mengubah konteks tugas yang ada,” tulis para peneliti dalam makalah mereka.

Mohammad Asadi, salah satu penulis dan kandidat PhD di Stanford, menjelaskan kepada Futurism bahwa temuan ini menunjukkan AI menggunakan memori super-manusia dan keterampilan bahasanya untuk menyembunyikan kelemahan dalam pemahaman multimodal. “Kami meremehkan betapa banyak informasi yang bisa tersembunyi dalam sebuah kalimat atau pertanyaan jika Anda (LLM) dilatih di seluruh internet,” tambahnya.

Implikasi Berbahaya untuk Kesehatan

Temuan ini menjadi peringatan keras di tengah dorongan eksekutif rumah sakit untuk menggantikan radiolog dengan AI. Asadi memperingatkan, jika diterapkan tanpa pengaman yang memadai, ini dapat menghasilkan false positive yang mengkhawatirkan. Khususnya dalam sistem ‘agentic’ yang sedang berkembang, di mana kesalahan dari model kecil dapat merambat ke seluruh sistem dan menyebabkan hasil yang tidak terduga.

“Implikasi lain adalah, sekarang kita tahu AI bisa berkata ‘Saya melihat bukti melanoma ganas di kulit Anda’ tanpa bahkan memiliki akses ke gambar apa pun, seberapa besar kita bisa memercayainya ketika mengatakan hal yang sama saat benar-benar melihat gambar?” tanya Asadi. Ia menegaskan perlunya upaya lebih besar dalam keselamatan dan penyelarasan model semacam itu sebelum menerapkannya dalam sistem yang berhadapan langsung dengan pasien.

Baca Juga:

Penelitian Stanford menguji model frontier termasuk GPT-5 OpenAI, Gemini 3 Pro Google, dan Claude Opus 4.5 Anthropic. Semua model dengan percaya diri memberikan “deskripsi detail visual” untuk pertanyaan di bidang kedokteran, sains, teknis, dan pemahaman visual umum—dengan gambar yang dihapus. Dalam eksperimen lain, ketika model ditantang untuk “menebak jawaban tanpa akses gambar, daripada secara implisit diminta untuk menganggap gambar hadir,” kinerja mereka turun drastis.

“Tebakan eksplisit tampaknya melibatkan rezim respons yang lebih konservatif, berbeda dengan rezim mirage di mana model berperilaku seolah-olah gambar telah disediakan,” tulis para peneliti. Asadi menekankan bahwa benchmark yang diuji, ReXVQA, adalah salah satu benchmark terbaik dan paling komprehensif untuk radiologi dada yang tersedia.

Perlu Overhaul Benchmark dan Solusi Baru

Untuk mengatasi masalah ini, Asadi dan rekan-rekannya menyerukan overhaul terhadap benchmark yang ada. Mereka mengembangkan kerangka kerja baru bernama “B-Clean” yang mengidentifikasi dan menghapus pertanyaan yang “terkompromi”, termasuk pertanyaan yang dapat dijawab tanpa input visual. Tujuannya adalah menguji model pada pertanyaan yang tersisa yang tidak dapat dijawab kandidat model mana pun tanpa input visual, memungkinkan perbandingan yang adil dan berbasis penglihatan.

Namun, Asadi mengakui bahwa pada tingkat tertentu, setiap benchmark pada akhirnya akan rentan terhadap hal ini seiring waktu, karena pertanyaan set tes mungkin bocor ke data pelatihan besar begitu muncul di internet. Ini menjadi tantangan besar untuk mengevaluasi kemampuan AI yang sebenarnya, terutama untuk model canggih seperti Gemini 3.1 Pro yang baru dirilis Google.

Pesan utama dari penelitian ini adalah bahwa meskipun AI hebat, kemampuan super-manusianya dalam beberapa keterampilan (seperti bahasa) tidak boleh disalahartikan sebagai kemampuan dalam tugas lain. “Pesan nomor satu adalah bahwa hanya karena AI mengatakan, dengan sangat meyakinkan, bahwa ia melihat sesuatu, tidak berarti ia benar-benar melihat itu,” simpul Asadi. Pernyataan ini mengingatkan pada peringatan pakar terhadap klaim berlebihan pemimpin industri seperti Sam Altman yang mengklaim ketergantungan pada ChatGPT.

Penemuan “mirage reasoning” ini menambah daftar panjang kekhawatiran tentang keandalan AI dalam pengaturan kesehatan, menyusul insiden seperti fitur AI Overviews Google yang memberikan saran “kesehatan” berbahaya dan alat transkripsi rumah sakit yang menciptakan obat-obatan yang tidak ada. Ini menandakan perlunya kehati-hatian ekstra sebelum mendelegasikan tugas berisiko tinggi sepenuhnya kepada sistem AI.