Telset.id – Jika Anda berpikir model AI selalu membuat keputusan berdasarkan data yang relevan, pikirkan lagi. Penelitian terbaru mengungkap bahwa sistem kecerdasan buatan sering kali terjebak dalam “korelasi palsu” (spurious correlations), mengambil keputusan berdasarkan informasi yang sebenarnya tidak penting—bahkan menyesatkan.
Sebuah tim peneliti dari North Carolina State University (NCSU) berhasil mengembangkan teknik inovatif yang mampu mengatasi masalah ini, bahkan ketika praktisi tidak tahu persis apa penyebab korelasi palsu tersebut. Temuan ini dipublikasikan dalam makalah berjudul “Severing Spurious Correlations with Data Pruning” di server preprint arXiv dan akan dipresentasikan di International Conference on Learning Representations (ICLR) di Singapura akhir bulan ini.
Mengapa Korelasi Palsu Berbahaya?
Korelasi palsu terjadi ketika model AI mengaitkan fitur yang tidak relevan dengan hasil yang diinginkan. Misalnya, dalam pelatihan model untuk mengenali gambar anjing, AI mungkin mengandalkan keberadaan collar (kalung) sebagai penanda utama—padahal fitur ini sebenarnya tidak esensial. Akibatnya, model bisa salah mengidentifikasi kucing yang memakai kalung sebagai anjing.
“Ini adalah konsekuensi dari simplicity bias—kecenderungan AI untuk memilih fitur paling sederhana dalam data pelatihan,” jelas Jung-Eun Kim, asisten profesor ilmu komputer di NCSU dan penulis utama penelitian ini. “Masalahnya, kita sering tidak menyadari fitur apa yang digunakan AI sampai terjadi kesalahan.”
Teknik Pemangkasan Data: Solusi Tanpa Perlu Tahu Penyebabnya
Metode konvensional mengharuskan praktisi mengidentifikasi fitur palsu terlebih dahulu sebelum memperbaiki dataset. Namun, tim NCSU menemukan bahwa korelasi palsu sebenarnya berasal dari sebagian kecil data pelatihan yang “sulit dipahami”—sampel ambigu atau terlalu kompleks.
Dengan menghapus sekitar 1-5% data pelatihan yang paling sulit diproses, model AI secara otomatis berhenti mengandalkan fitur palsu. “Ini seperti membersihkan noise dari sinyal,” kata Kim. “Kami tidak perlu tahu apa penyebabnya—cukup hilangkan bagian yang berpotensi bermasalah.”
Teknik ini telah diuji pada berbagai model dan menunjukkan hasil yang lebih baik dibanding pendekatan sebelumnya, bahkan ketika fitur palsu sudah diketahui. “Ini membuka pintu untuk pelatihan AI yang lebih andal di bidang seperti diagnosis medis atau kendaraan otonom, di mana korelasi palsu bisa berakibat fatal,” tambah Kim.
Implikasi untuk Masa Depan AI
Penemuan ini tidak hanya meningkatkan akurasi model AI, tetapi juga mengurangi kebutuhan akan dataset yang sangat besar dan mahal. Dengan menghilangkan sampel yang berisiko menyebabkan bias, pelatihan menjadi lebih efisien.
Varun Mulchandani, mahasiswa doktoral yang terlibat dalam penelitian, menegaskan bahwa pendekatan ini bisa diterapkan di berbagai domain. “Mulai dari pengenalan gambar hingga pemrosesan bahasa alami, prinsipnya sama: less is more,” ujarnya.
Bagi industri, temuan ini menjadi angin segar. Perusahaan seperti Google dan OpenAI telah lama berjuang melawan bias dalam model mereka. Dengan teknik pemangkasan data, proses debugging bisa lebih cepat dan hemat biaya.
Namun, Kim mengingatkan bahwa ini bukan solusi ajaib. “Kami masih perlu memastikan bahwa data yang tersisa benar-benar representatif. Tapi setidaknya, sekarang kami punya senjata baru melawan korelasi palsu.”
Jadi, apakah masa depan AI akan lebih cerah berkat teknik ini? Jawabannya mungkin terletak pada bagaimana komunitas penelitian dan industri mengadopsi temuan revolusioner ini.