Telset.id ā Model kecerdasan buatan (AI) terdepan, termasuk GPT-5 OpenAI dan Gemini 3 Pro Google, terbukti dapat menghasilkan deskripsi medis mendetail dan diagnosis palsu untuk gambar rontgen dada meski tidak diberi akses ke gambar tersebut. Fenomena baru yang disebut āmirage reasoningā ini mengungkap kerentanan serius dalam kemampuan multimodal AI, terutama untuk aplikasi kritis seperti radiologi.
Penemuan ini berasal dari penelitian tim di Universitas Stanford yang belum melalui proses peer-review. Mereka menemukan bahwa model AI frontier dengan mudah menghasilkan ādeskripsi gambar yang detail dan jejak penalaran yang rumit, termasuk temuan klinis yang bias patologi, untuk gambar yang tidak pernah diberikan.ā Dalam kasus paling ekstrem, model mereka meraih peringkat teratas pada benchmark standar tanya jawab rontgen dada tanpa mengakses satu gambar pun.
Fenomena ini berbeda dengan halusinasi AI biasa. Jika halusinasi melibatkan model AI mengisi celah dalam kerangka logis yang ada, āmirage reasoningā melibatkan pembangunan kerangka epistemik palsu. āIni melibatkan penggambaran input multimodal yang tidak pernah diberikan pengguna dan mendasarkan sisa percakapan pada itu, sehingga mengubah konteks tugas yang ada,ā tulis para peneliti dalam makalah mereka.
Mohammad Asadi, salah satu penulis dan kandidat PhD di Stanford, menjelaskan kepada Futurism bahwa temuan ini menunjukkan AI menggunakan memori super-manusia dan keterampilan bahasanya untuk menyembunyikan kelemahan dalam pemahaman multimodal. āKami meremehkan betapa banyak informasi yang bisa tersembunyi dalam sebuah kalimat atau pertanyaan jika Anda (LLM) dilatih di seluruh internet,ā tambahnya.
Implikasi Berbahaya untuk Kesehatan
Temuan ini menjadi peringatan keras di tengah dorongan eksekutif rumah sakit untuk menggantikan radiolog dengan AI. Asadi memperingatkan, jika diterapkan tanpa pengaman yang memadai, ini dapat menghasilkan false positive yang mengkhawatirkan. Khususnya dalam sistem āagenticā yang sedang berkembang, di mana kesalahan dari model kecil dapat merambat ke seluruh sistem dan menyebabkan hasil yang tidak terduga.
āImplikasi lain adalah, sekarang kita tahu AI bisa berkata āSaya melihat bukti melanoma ganas di kulit Andaā tanpa bahkan memiliki akses ke gambar apa pun, seberapa besar kita bisa memercayainya ketika mengatakan hal yang sama saat benar-benar melihat gambar?ā tanya Asadi. Ia menegaskan perlunya upaya lebih besar dalam keselamatan dan penyelarasan model semacam itu sebelum menerapkannya dalam sistem yang berhadapan langsung dengan pasien.
Baca Juga:
Penelitian Stanford menguji model frontier termasuk GPT-5 OpenAI, Gemini 3 Pro Google, dan Claude Opus 4.5 Anthropic. Semua model dengan percaya diri memberikan ādeskripsi detail visualā untuk pertanyaan di bidang kedokteran, sains, teknis, dan pemahaman visual umumādengan gambar yang dihapus. Dalam eksperimen lain, ketika model ditantang untuk āmenebak jawaban tanpa akses gambar, daripada secara implisit diminta untuk menganggap gambar hadir,ā kinerja mereka turun drastis.
āTebakan eksplisit tampaknya melibatkan rezim respons yang lebih konservatif, berbeda dengan rezim mirage di mana model berperilaku seolah-olah gambar telah disediakan,ā tulis para peneliti. Asadi menekankan bahwa benchmark yang diuji, ReXVQA, adalah salah satu benchmark terbaik dan paling komprehensif untuk radiologi dada yang tersedia.
Perlu Overhaul Benchmark dan Solusi Baru
Untuk mengatasi masalah ini, Asadi dan rekan-rekannya menyerukan overhaul terhadap benchmark yang ada. Mereka mengembangkan kerangka kerja baru bernama āB-Cleanā yang mengidentifikasi dan menghapus pertanyaan yang āterkompromiā, termasuk pertanyaan yang dapat dijawab tanpa input visual. Tujuannya adalah menguji model pada pertanyaan yang tersisa yang tidak dapat dijawab kandidat model mana pun tanpa input visual, memungkinkan perbandingan yang adil dan berbasis penglihatan.
Namun, Asadi mengakui bahwa pada tingkat tertentu, setiap benchmark pada akhirnya akan rentan terhadap hal ini seiring waktu, karena pertanyaan set tes mungkin bocor ke data pelatihan besar begitu muncul di internet. Ini menjadi tantangan besar untuk mengevaluasi kemampuan AI yang sebenarnya, terutama untuk model canggih seperti Gemini 3.1 Pro yang baru dirilis Google.
Pesan utama dari penelitian ini adalah bahwa meskipun AI hebat, kemampuan super-manusianya dalam beberapa keterampilan (seperti bahasa) tidak boleh disalahartikan sebagai kemampuan dalam tugas lain. āPesan nomor satu adalah bahwa hanya karena AI mengatakan, dengan sangat meyakinkan, bahwa ia melihat sesuatu, tidak berarti ia benar-benar melihat itu,ā simpul Asadi. Pernyataan ini mengingatkan pada peringatan pakar terhadap klaim berlebihan pemimpin industri seperti Sam Altman yang mengklaim ketergantungan pada ChatGPT.
Penemuan āmirage reasoningā ini menambah daftar panjang kekhawatiran tentang keandalan AI dalam pengaturan kesehatan, menyusul insiden seperti fitur AI Overviews Google yang memberikan saran ākesehatanā berbahaya dan alat transkripsi rumah sakit yang menciptakan obat-obatan yang tidak ada. Ini menandakan perlunya kehati-hatian ekstra sebelum mendelegasikan tugas berisiko tinggi sepenuhnya kepada sistem AI.




