Studi Baru: OpenAI Diduga Gunakan Data Berbayar untuk Latih GPT-4o

REKOMENDASI
ARTIKEL TERKAIT

Sebuah penelitian terbaru dari AI Disclosures Project mengungkap potensi pelanggaran hak cipta dalam pelatihan model bahasa besar (LLM) milik OpenAI. Studi ini menemukan bahwa GPT-4o, model teranyar OpenAI, menunjukkan “pengenalan kuat” terhadap data berbayar dan berhak cipta dari buku-buku O’Reilly Media.

Transparansi AI di Bawah Sorotan

Dipimpin oleh teknolog Tim O’Reilly dan ekonom Ilan Strauss, AI Disclosures Project bertujuan mengatasi dampak sosial negatif dari komersialisasi AI dengan mendorong transparansi korporasi dan teknologi yang lebih baik. Laporan mereka membandingkan kurangnya keterbukaan di industri AI dengan standar pengungkapan finansial yang telah membentuk pasar sekuritas yang kuat.

Penelitian ini menggunakan dataset legal berisi 34 buku berhak cipta O’Reilly Media untuk menyelidiki apakah model OpenAI dilatih menggunakan data berhak cipta tanpa izin. Metode DE-COP membership inference attack diterapkan untuk menentukan kemampuan model membedakan teks asli manusia dengan versi parafrase buatan AI.

Temuan Kunci yang Mengkhawatirkan

  • GPT-4o menunjukkan pengenalan kuat terhadap konten berbayar O’Reilly
  • Pelanggaran akses diduga terjadi melalui database LibGen
  • Model baru memiliki kemampuan lebih baik membedakan teks manusia dan AI
  • Potensi bias temporal akibat perubahan bahasa seiring waktu

Meski bukti spesifik pada OpenAI dan buku O’Reilly, laporan menyebut ini mencerminkan masalah sistemik penggunaan data berhak cipta. Penggunaan data pelatihan tanpa kompensasi dikhawatirkan akan menurunkan kualitas dan keragaman konten internet seiring menyusutnya aliran pendapatan bagi pencipta konten profesional.

AI Disclosures Project menekankan perlunya akuntabilitas lebih kuat dalam proses pra-pelatihan model AI. Mereka menyarankan ketentuan liabilitas yang mendorong transparansi korporasi dalam mengungkapkan asal-usul data bisa menjadi langkah penting menuju pasar komersial untuk lisensi data pelatihan.

Persyaratan pengungkapan dalam EU AI Act dinilai bisa memicu siklus standar pengungkapan positif jika diterapkan dengan benar. Memastikan pemegang hak kekayaan intelektual tahu kapan karya mereka digunakan untuk pelatihan model dianggap sebagai langkah krusial membentuk pasar AI untuk data pencipta konten.

Di tengah bukti perusahaan AI mungkin mendapatkan data secara ilegal, pasar baru mulai muncul di mana pengembang model AI membayar konten melalui kesepakatan lisensi. Perusahaan seperti Defined.ai memfasilitasi pembelian data pelatihan dengan mendapatkan persetujuan penyedia data dan menghapus informasi identitas pribadi.

Laporan ini menyimpulkan bahwa menggunakan 34 buku proprietary O’Reilly Media, studi memberikan bukti empiris bahwa OpenAI kemungkinan melatih GPT-4o pada data berhak cipta yang tidak bersifat publik.

TINGGALKAN KOMENTAR

Silakan masukkan komentar anda!
Silakan masukkan nama Anda di sini

ARTIKEL TEKINI
HARGA DAN SPESIFIKASI