Reddit Gugat Perplexity dan Perusahaan Lain Soal Data Scraping

REKOMENDASI
ARTIKEL TERKAIT

Telset.id – Bayangkan jika Anda memiliki toko kelontong yang ramai dikunjungi pelanggan, lalu tiba-tiba ada pihak luar yang mengambil semua produk Anda tanpa izin dan menjualnya kembali. Kira-kira itulah analogi sederhana dari apa yang sedang dialami Reddit saat menggugat Perplexity dan beberapa perusahaan teknologi lainnya. Platform forum terbesar di dunia ini resmi mengambil langkah hukum terhadap SerApi, OxyLabs, AWMProxy, dan Perplexity atas dugaan scraping data tanpa lisensi.

Langkah legal ini bukanlah yang pertama bagi Reddit. Sebelumnya, mereka juga telah menggugat startup AI Anthropic yang dituduh menggunakan konten Reddit untuk melatih chatbot Claude-nya. Mengapa Reddit begitu agresif melindungi datanya? Jawabannya sederhana: uang. Sejak 2023, Reddit mulai mengenakan biaya bagi perusahaan yang ingin mengakses postingan dan konten lainnya, terutama yang akan digunakan untuk pelatihan AI. Mereka bahkan telah menandatangani kesepakatan lisensi dengan raksasa teknologi seperti Google dan OpenAI, serta membangun mesin jawaban AI sendiri untuk memanfaatkan pengetahuan dalam postingan pengguna.

Scraping hasil pencarian untuk konten Reddit jelas menghindari pembayaran ini. Itulah sebabnya perusahaan tidak hanya menuntut ganti rugi finansial, tetapi juga pengaduan permanen yang mencegah perusahaan-perusahaan tersebut menjual materi Reddit yang sebelumnya telah di-scrape. Beberapa perusahaan yang menjadi sasaran Reddit seperti SerApi, OxyLabs, dan AWMProxy mungkin bukan nama yang familiar di telinga masyarakat umum, namun mereka telah menjadikan pengumpulan data dari hasil pencarian dan penjualannya sebagai bagian penting dari bisnis mereka.

Perplexity: Target Paling Mencolok dalam Gugatan

Keikutsertaan Perplexity dalam gugatan ini mungkin lebih mudah dipahami. Perusahaan AI ini membutuhkan data untuk melatih modelnya, dan sebelumnya telah ketahuan menyalin dan memuntahkan kembali materi yang tidak mereka bayar lisensinya. Yang lebih parah, Perplexity juga dilaporkan mengabaikan protokol robots.txt – cara bagi situs web untuk mengkomunikasikan bahwa mereka tidak ingin materinya di-scrape.

Menurut salinan gugatan yang diberikan kepada Engadget, Reddit sebelumnya telah mengirim surat peringatan kepada Perplexity memintanya untuk menghentikan scraping postingan tanpa lisensi. Perusahaan mengklaim tidak menggunakan data Reddit, namun mereka terus mengutip platform tersebut dalam jawaban dari chatbot-nya. Bagaimana Reddit membuktikan klaimnya? Dengan trik yang cukup cerdas.

Reddit membuat “test post” yang “hanya bisa di-crawl oleh mesin pencari Google dan tidak dapat diakses di mana pun di internet.” Dalam beberapa jam, kueri yang dibuat ke mesin jawaban Perplexity mampu mereproduksi konten postingan tersebut. “Satu-satunya cara Perplexity bisa mendapatkan konten Reddit itu dan kemudian menggunakannya di ‘mesin jawaban’-nya adalah jika mereka dan/atau rekan tergugatnya meng-scrape Google

TINGGALKAN KOMENTAR
Silakan masukkan komentar anda!
Silakan masukkan nama Anda di sini

ARTIKEL TERKINI
HARGA DAN SPESIFIKASI