Telset.id – Bayangkan asisten AI yang tidak hanya menjawab pertanyaan, tetapi benar-benar mengambil alih mouse dan keyboard Anda. Ia mengklik menu, mengetik di form, menggulir halaman web, bahkan memindahkan data antar aplikasi—persis seperti yang akan dilakukan manusia. Itulah yang kini ditawarkan Google melalui model terbarunya, Gemini 2.5 Computer Use, yang baru saja dirilis dalam public preview.
Ini bukan sekadar upgrade biasa. Gemini 2.5 Computer Use merupakan lompatan signifikan dalam cara AI berinteraksi dengan dunia digital. Alih-alih bergantung pada API khusus untuk setiap aplikasi, model ini memproses screenshot antarmuka pengguna dan menghasilkan aksi UI spesifik sebagai respons. Pendekatan ini membuatnya jauh lebih fleksibel dan mirip dengan cara manusia memandang serta berinteraksi dengan komputer.
Bagaimana cara kerjanya? Agent AI menerima tiga input: sebuah tugas (task prompt), screenshot dari lingkungan digital saat ini, dan riwayat aksi terbaru. Ia kemudian menganalisis antarmuka tersebut—mengenali tombol, field input, menu dropdown—dan mengembalikan sebuah aksi UI, seperti “klik tombol login” atau “ketik ‘John Doe’ di kolom nama”. Aksi ini dieksekusi di sisi klien, lalu screenshot baru dikirim kembali ke model untuk melanjutkan tugas dalam sebuah loop. Proses ini memungkinkan AI menyelesaikan urutan tugas multi-langkah yang kompleks secara mandiri.
Mengungguli Kompetitor di Berbagai Benchmark
Google tidak main-main dengan klaim performa model ini. Menurut perusahaan, Gemini 2.5 Computer Use mengungguli alat pesaing di beberapa benchmark penting, termasuk Online-Mind2Web, WebVoyager, dan AndroidWorld. Yang lebih mengesankan, pencapaian ini diraih sambil mempertahankan latency yang lebih rendah—faktor krusial untuk pengalaman pengguna yang responsif.
Model ini mendukung 13 aksi berbeda saat ini, mencakup klik, ketik, gulir, hover, buka dropdown, dan navigasi melalui URL. Meski bekerja optimal dengan web browser, Google mengakui model ini belum dioptimalkan untuk tugas tingkat sistem operasi desktop. Namun, potensinya telah terlihat pada benchmark perangkat mobile.
Dalam demonstrasinya, Google menunjukkan kemampuan praktis model ini dengan dua contoh mencolok. Pertama, agent AI mampu menyortir sticky notes pada papan tulis digital—tugas yang membutuhkan pemahaman visual dan logika spasial. Kedua, model berhasil memindahkan detail hewan peliharaan dari satu situs web ke sistem CRM, menunjukkan kemampuannya dalam otomasi alur kerja antar-platform.
Baca Juga:
Keamanan dan Implementasi Praktis
Dengan kemampuan yang begitu powerful, pertanyaan tentang keamanan pasti muncul. Google telah mengantisipasi kekhawatiran ini dengan menerapkan langkah-langkah safety yang ketat. Setiap aksi yang diusulkan model harus melalui proses review oleh layanan keamanan sebelum dieksekusi. Pengembang juga diberikan kendali untuk membatasi aksi tertentu atau meminta konfirmasi eksplisit pengguna untuk tugas berisiko tinggi, seperti transaksi keuangan.
Beberapa tim internal Google sudah menggunakan model ini dalam produksi, terutama untuk testing UI dan tugas otomasi di platform seperti Search dan Firebase. Pengembang eksternal dalam program early access juga telah memanfaatkannya untuk membangun alat otomasi alur kerja dan asisten yang lebih cerdas.
Bagi Anda yang penasaran dengan cara memanfaatkan AI Google untuk tugas kreatif, kemunculan Gemini 2.5 Computer Use membuka pintu yang lebih lebar. Sementara teknologi AI terus berkembang, penting juga memahami tantangan yang dihadapi platform pengetahuan seperti Wikipedia dalam menghadapi era AI.
Akses dan Masa Depan Pengembangan
Pengembang yang ingin mencoba Gemini 2.5 Computer Use dapat mengaksesnya melalui Gemini API di Google AI Studio atau Vertex AI. Google juga menyediakan lingkungan demo via Browserbase untuk testing dan eksperimen—kesempatan sempurna untuk mengeksplorasi potensi model ini sebelum mengintegrasikannya ke dalam aplikasi produksi.
Meski fokus utamanya pada browser, potensi ekspansi ke platform lain sangat menarik untuk diikuti. Apakah nantinya kita akan melihat AI yang bisa mengoperasikan aplikasi desktop secara native? Atau mungkin berintegrasi dengan perangkat mobile untuk tugas yang lebih kompleks? Mengingat performanya yang menjanjikan pada benchmark mobile, kemungkinan ini tidak terlalu jauh dari kenyataan.
Dalam lanskap AI yang semakin kompetitif, kehadiran Gemini 2.5 Computer Use menandai babak baru dalam perlombaan otomasi cerdas. Sementara perusahaan seperti OpenAI memperkenalkan fitur seperti Deep Research, Google mengambil pendekatan yang lebih langsung dan praktis dengan memungkinkan AI berinteraksi dengan antarmuka pengguna secara visual. Perkembangan ini tidak hanya relevan bagi pengembang dan profesional IT, tetapi juga bagi siapa saja yang menikmati kemudahan teknologi dalam kehidupan sehari-hari.
Revolusi AI tidak lagi sekadar tentang chatbot yang menjawab pertanyaan. Kini, kita menyaksikan kelahiran asisten digital yang benar-benar dapat “bekerja” di komputer kita—mengklik, mengetik, dan menyelesaikan tugas dengan presisi yang semakin mendekati kemampuan manusia. Pertanyaannya sekarang: sudah siapkah kita mempercayakan mouse dan keyboard kita kepada kecerdasan buatan?