Studi: ChatGPT Lebih Akurat Jika Dihina, Tapi Jangan Tiru

Telset.id – Sebuah studi terbaru dari University of Pennsylvania mengungkap temyata mengejutkan: memberikan perintah yang kasar atau bahkan menghina kepada ChatGPT justru dapat meningkatkan akurasi jawabannya. Temuan ini bertolak belakang dengan kebiasaan banyak orang tua yang mengajarkan anak-anak untuk bersikap sopan kepada asisten digital seperti Alexa atau Siri.

Dalam penelitian yang belum melalui proses peer-review tersebut, dua peneliti menemukan bahwa saat perintah (prompt) untuk model ChatGPT-4o OpenAI semakin tidak sopan, output yang dihasilkan menjadi lebih tepat. Mereka merancang 50 pertanyaan dasar dari berbagai subjek, lalu menulis ulang setiap pertanyaan lima kali dengan nada yang berbeda, mulai dari “sangat sopan” hingga “sangat kasar”.

“Kontra dari ekspektasi, prompt yang tidak sopan secara konsisten mengungguli yang sopan, dengan akurasi berkisar dari 80,8 persen untuk prompt Sangat Sopan hingga 84,8 persen untuk prompt Sangat Kasar,” tulis para peneliti dalam makalahnya, seperti dilansir Fortune. Sementara itu, akurasi untuk prompt paling sopan hanya mencapai 75,8 persen.

Konflik dengan Temuan Sebelumnya

Hasil penelitian ini tampak bertentangan dengan studi sebelumnya yang menyimpulkan bahwa bersikap lebih santun terhadap model bahasa besar (LLM) justru lebih efektif. Misalnya, sebuah makalah tahun 2024 oleh peneliti dari RIKEN Center for Advanced Intelligence Project dan Waseda University di Tokyo menemukan bahwa “prompt yang tidak sopan sering kali menghasilkan kinerja yang buruk.”

Penelitian lain dari Google DeepMind juga menunjukkan bahwa menggunakan prompt yang suportif dapat meningkatkan kinerja LLM dalam memecahkan soal matematika tingkat sekolah, mengisyaratkan data pelatihannya mungkin menangkap isyarat sosial, seperti seorang tutor online yang membimbing murid.

Perbedaan hasil ini menyoroti kompleksitas dan ketidakpastian dalam interaksi manusia-AI. Temuan dari Penn State juga menunjukkan bahwa perubahan sangat kecil dalam pemilihan kata pada prompt dapat memberikan efek dramatis pada kualitas output AI, yang berpotensi besar merusak prediktabilitas dan keandalan mereka yang sudah diragukan. Chatbot AI juga dikenal dapat memberikan jawaban yang sama sekali berbeda untuk prompt yang persis sama.

Baca Juga:

Peringatan dari Para Peneliti

Meski data menunjukkan keuntungan dari sikap kasar, para peneliti dengan tegas tidak menganjurkannya. “Sementara temuan ini menarik secara ilmiah, kami tidak menganjurkan penerapan antarmuka yang bermusuhan atau toksik dalam aplikasi dunia nyata,” tulis mereka. “Menggunakan bahasa yang menghina atau merendahkan dalam interaksi manusia-AI dapat memiliki efek negatif pada pengalaman pengguna, aksesibilitas, dan inklusivitas, serta dapat berkontribusi pada norma komunikasi yang berbahaya.”

Pernyataan ini sejalan dengan kekhawatiran yang berkembang seputar dampak sosial dan psikologis dari teknologi AI generatif. Beberapa insiden fatal yang diduga dipicu oleh interaksi dengan ChatGPT telah memicu gugatan hukum terhadap OpenAI, menyoroti potensi risiko dari sistem yang belum sepenuhnya dipahami.

Co-author studi sekaligus profesor IT Penn State, Akhil Kumar, menekankan nilai dari antarmuka yang terstruktur. “Untuk waktu yang sangat lama, kita manusia menginginkan antarmuka percakapan untuk berinteraksi dengan mesin. Tetapi sekarang kita menyadari bahwa ada kerugian untuk antarmuka seperti itu juga, dan ada beberapa nilai dalam

Artikel Sebelumnya

Meta PHK 1.500 Karyawan VR, Fokus Beralih ke AI dan Wearable

Artikel Selanjutnya

Feishu Rilis AI Recording Bean, Hardware Pertama Kolaborasi dengan Anker