OpenAI Ungguli DeepSeek dalam Kemampuan Penalaran Tingkat Kalimat

REKOMENDASI
ARTIKEL TERKAIT

Telset.id – Jika Anda mengira semua model AI memiliki kemampuan penalaran yang setara, hasil riset terbaru ini mungkin mengejutkan. OpenAI, raksasa kecerdasan buatan asal Amerika Serikat, ternyata masih unggul dibandingkan DeepSeek R1—model AI berbasis bahasa besar (LLM) asal China—dalam hal akurasi kutipan dan penalaran tingkat kalimat.

Sebuah studi yang dilakukan oleh para peneliti dari AI Institute di University of South Carolina, Ohio State University, dan University of Maryland Baltimore County mengungkap fakta menarik. Mereka mengembangkan benchmark bernama “Reasons” untuk menguji sejauh mana model AI dapat menghasilkan kutipan penelitian dan penalaran yang logis. Hasilnya? OpenAI o1 mengalahkan DeepSeek R1 dengan margin yang cukup signifikan.

Mengapa Penalaran Tingkat Kalimat Penting?

Penalaran tingkat kalimat adalah kemampuan AI untuk memahami dan merespons informasi secara spesifik pada level kalimat, bukan sekadar paragraf atau dokumen secara keseluruhan. Ini penting karena:

  • Mengurangi kesalahan interpretasi (hallucination) yang sering terjadi ketika AI mencoba menganalisis teks panjang.
  • Memastikan kutipan yang diberikan relevan dengan konteks spesifik, bukan generalisasi yang kabur.
  • Meningkatkan akurasi dalam tugas-tugas seperti pencarian informasi ilmiah atau analisis dokumen hukum.

Dalam pengujian, OpenAI o1 menunjukkan kemampuan lebih baik dalam menggabungkan ide secara semantik, sementara DeepSeek R1 cenderung memaksakan respons meski tidak selalu akurat. Angka hallucination rate (tingkat kesalahan penalaran) OpenAI o1 hanya sekitar 35%, jauh lebih rendah dibanding DeepSeek R1 yang mencapai 85%.

Perbandingan Kinerja OpenAI o1 vs. DeepSeek R1

Tim peneliti menggunakan dua metrik utama untuk mengukur performa kedua model:

  1. F-1 Score: Mengukur akurasi kutipan yang diberikan. OpenAI o1 mencetak skor 0,65 (65% benar), sementara DeepSeek R1 hanya 0,35 (35% benar).
  2. BLEU Score: Mengukur kualitas bahasa alami dalam respons. OpenAI o1 unggul dengan skor 0,70, sedangkan DeepSeek R1 tertinggal di angka 0,20.

Meski DeepSeek R1 sempat menjadi sorotan karena efisiensi dan biaya pengembangan yang lebih rendah, keunggulan OpenAI o1 dalam penalaran dan integrasi pengetahuan menunjukkan bahwa kualitas data pelatihan dan arsitektur model masih menjadi faktor kritis.

Implikasi bagi Pengguna AI

Bagi peneliti, akademisi, atau profesional yang mengandalkan AI untuk analisis dokumen, temuan ini memberikan beberapa pelajaran penting:

  • Verifikasi selalu kutipan AI: Meski OpenAI o1 lebih akurat, tetap ada risiko 35% kesalahan. Jangan percaya sepenuhnya pada output AI tanpa pengecekan manual.
  • Pilih model sesuai kebutuhan: Jika Anda memprioritaskan efisiensi biaya, DeepSeek R1 mungkin masih layak dipertimbangkan. Namun, untuk tugas yang membutuhkan presisi tinggi, OpenAI o1 tetap pilihan terbaik.
  • Waspadai bias pelatihan Kedua model dilatih dengan dataset berbeda, yang bisa memengaruhi respons mereka terhadap topik tertentu.

OpenAI sendiri baru-baru ini meluncurkan “deep research tool” yang diklaim mampu menghasilkan laporan dengan kutipan, pertanyaan lanjutan, dan penalaran mendalam. Namun, seperti selalu diingatkan oleh para ahli: AI adalah alat bantu, bukan pengganti kecerdasan manusia.

Jadi, meski OpenAI saat ini memimpin dalam lomba penalaran tingkat kalimat, persaingan AI masih panjang. Siapa tahu dalam beberapa bulan ke depan, DeepSeek atau pesaing lainnya akan meluncurkan terobosan baru yang mengubah peta persaingan.

TINGGALKAN KOMENTAR

Silakan masukkan komentar anda!
Silakan masukkan nama Anda di sini

ARTIKEL TEKINI
HARGA DAN SPESIFIKASI