Kontraktor AI Gunakan ChatGPT untuk Hasilkan Data Pelatihan

Kontraktor AI mengaku menggunakan ChatGPT untuk menghasilkan data pelatihan AI
Praktik kanibalisme AI ini disebut sangat meluas di industri
Pekerja membersihkan ciri khas linguistik chatbot sebelum menyerahkan hasil
Akar masalah terletak pada kualitas kontrak yang rendah dari perusahaan AI
Fenomena ini berpotensi mengganggu stabilitas dan kualitas model bahasa besar

Telset.id – Praktik kontraktor yang menggunakan AI untuk menghasilkan data pelatihan AI menjadi fenomena yang meluas. Sejumlah pekerja mengakui bahwa mereka menggunakan chatbot seperti ChatGPT untuk menyelesaikan tugas yang seharusnya dilakukan secara manual, menciptakan siklus data yang tidak autentik.

Fenomena ini terungkap dalam laporan New Scientist yang mewawancarai sejumlah kontraktor anonim. Seorang pekerja yang diidentifikasi sebagai Alice mengatakan bahwa praktik ini “sangat meluas” dan terjadi di hampir semua perusahaan tempatnya bekerja.

“Setiap perusahaan tempat saya bekerja memiliki pedoman eksplisit tentang hal ini dan mereka jelas berusaha menangkap pelakunya, jadi saya pikir mereka peduli. Tapi saya rasa mereka tidak bisa menghentikannya,” ujar Alice kepada New Scientist.

Para kontraktor ini biasanya direkrut untuk menghasilkan data pelatihan dalam tugas-tugas yang sangat spesifik, seperti menjalankan penggajian mingguan untuk musisi Broadway atau merekam aktivitas sehari-hari seperti melipat cucian.

Namun, alih-alih mengerjakan tugas tersebut secara manual, banyak pekerja yang menggunakan LLM (Large Language Models) untuk mempercepat proses. Alice menjelaskan bahwa tidak sulit untuk lolos dari deteksi, asalkan ia membersihkan ciri khas linguistik chatbot seperti ChatGPT sebelum menyerahkan hasilnya.

“Hanya pengguna yang paling ceroboh yang tertangkap. Siapa pun dengan kesadaran minimal tentang ciri khas AI dapat menyuruh output mereka untuk tidak menggunakannya, dan pada titik itu apa yang akan Anda lakukan?” kata Alice.

Praktik ini, yang oleh para ahli disebut sebagai “kanibalisme AI”, telah lama diperingatkan dapat mengganggu stabilitas LLM. Ketika model AI dilatih dengan data yang dihasilkan oleh AI lain, kualitas dan keandalan model tersebut dapat menurun secara signifikan.

Sejumlah kontraktor lain mengaku menggunakan LLM untuk menghindari kesalahan yang bisa membuat mereka kehilangan pekerjaan. “Saya sangat takut kehilangan sumber pendapatan, dan setelah itu, segalanya menjadi lebih mudah untuk menjalankan semuanya melalui LLM,” jelas seorang kontraktor.

Ia menambahkan bahwa untuk banyak proyek yang ia kerjakan, ia menggunakan satu LLM untuk membuat skenario dan LLM lain untuk membuat file yang menyertainya. “Saya merasa bersalah, tetapi seperti yang saya katakan, pada awalnya ini lebih tentang mencoba memastikan saya tidak membuat kesalahan,” ujarnya.

Baca Juga:

Fenomena ini menyoroti ironi dalam industri AI. Perusahaan teknologi besar yang sebelumnya mengambil konten orang lain tanpa izin untuk melatih model mereka, kini menghadapi situasi di mana pekerja yang mereka rekrut menggunakan teknologi yang sama untuk menghasilkan data dengan cara yang paling efisien.

Alice menekankan bahwa akar masalahnya terletak pada kualitas kontrak yang ditawarkan. “Jika perusahaan-perusahaan ini menginginkan data berkualitas, maka mereka harus menawarkan kontrak yang berkualitas. Sebaliknya, mereka meremehkan orang-orang yang kesulitan, mempekerjakan mereka untuk waktu yang paling singkat dan membuang mereka begitu proyek selesai tanpa peringatan,” tegasnya.

Praktik kanibalisme AI ini berpotensi memiliki konsekuensi drastis bagi industri AI secara keseluruhan. Ketika data pelatihan semakin terkontaminasi oleh output AI, kualitas model bahasa besar dapat menurun, yang pada akhirnya merugikan pengguna akhir.

Para ahli telah lama memperingatkan bahwa pertumbuhan eksponensial data yang digunakan untuk melatih AI—yang telah berlipat ganda setiap sembilan bulan sejak 2010—dapat segera mencapai batas karena stok data bersih yang semakin menipis. Fenomena ini mempercepat krisis tersebut dengan menciptakan siklus data yang tidak autentik.

Seorang pekerja duduk santai di kursi kantor dengan kaki di atas meja, di samping laptop terbuka

Situasi ini menciptakan paradoks di mana perusahaan AI yang berusaha menjadi yang terdepan dalam perlombaan AI justru menghadapi masalah kualitas data yang dihasilkan oleh tenaga kerja mereka sendiri. Tanpa pengawasan yang lebih ketat dan kontrak yang lebih baik, praktik ini diperkirakan akan terus berlanjut.