📑 Daftar Isi

Otak Robot Baru Physical Intelligence Bisa Pelajari Tugas Tanpa Diajar

Otak Robot Baru Physical Intelligence Bisa Pelajari Tugas Tanpa Diajar

Penulis:Fernando Yehezkiel
Terbit:
Diperbarui:
⏱️6 menit membaca
Bagikan:

Telset.id – Bayangkan Anda membeli robot asisten rumah tangga baru. Alih alih menghabiskan berjam jam untuk memprogramnya agar bisa menggunakan setiap peralatan dapur Anda, Anda cukup berkata, “Hei, robot, tolong masak kentang manis ini di air fryer.” Lalu, mesin itu mengamati, mencoba, dan akhirnya berhasil. Itu bukan lagi sekadar mimpi fiksi ilmiah. Bocoran terbaru dari startup robotika Physical Intelligence mengindikasikan bahwa otak robot generasi baru mereka, yang dijuluki π0.7, mulai menunjukkan kemampuan persis seperti itu: memahami dan menjalankan tugas yang tidak pernah secara eksplisit diajarkan kepadanya.

Ini adalah lompatan yang mengejutkan, bahkan bagi para peneliti di baliknya. Selama ini, dunia robotika terjebak dalam paradigma pelatihan yang bersifat hafalan. Untuk setiap tugas baru—mulai dari melipat baju hingga merakit kotak—diperlukan pengumpulan data spesifik dan pelatihan model khusus. Prosesnya lambat, mahal, dan tidak fleksibel. Namun, penelitian yang dirilis Physical Intelligence pada Kamis lalu menunjukkan tanda tanda awal bahwa era itu mungkin segera berakhir. Model π0.7 mereka diklaim mampu melakukan “generalisasi komposisional”, yaitu menggabungkan keterampilan yang dipelajari dari konteks berbeda untuk memecahkan masalah yang benar benar baru.

Sergey Levine, salah satu pendiri Physical Intelligence dan profesor di UC Berkeley, menggambarkan momen kritis ini dengan analogi yang menarik. “Begitu ia melewati ambang batas di mana ia beralih dari hanya melakukan hal hal yang persis Anda kumpulkan datanya menjadi benar benar mencampur ulang hal hal dengan cara baru,” katanya, “kemampuannya meningkat lebih dari linier dengan jumlah data.” Sifat penskalaan yang jauh lebih menguntungkan ini, menurut Levine, adalah sesuatu yang pernah kita saksikan di domain lain, seperti bahasa dan penglihatan. Ini mengisyaratkan bahwa kecerdasan buatan untuk robotika mungkin sedang mendekati titik belok, mirip dengan ledakan kemampuan yang dialami model bahasa besar beberapa tahun silam.

Kejutan dari Air Fryer: Dari Dua Data Menjadi Pemahaman

Demo paling mencolok dalam penelitian ini melibatkan sebuah air fryer. Yang mencengangkan, model π0.7 hampir tidak pernah “melihat” alat ini selama pelatihan. Setelah diselidiki, tim peneliti hanya menemukan dua episode relevan dalam seluruh dataset pelatihan yang masif: satu di mana robot berbeda hanya mendorong tutup air fryer untuk menutupnya, dan satu dari dataset sumber terbuka di mana robot lain menempatkan botol plastik ke dalamnya atas instruksi seseorang. Dari dua fragmen data yang minim itu, ditambah dengan data pralatihan berbasis web yang lebih luas, model tersebut entah bagaimana berhasil menyintesis sebuah pemahaman fungsional tentang cara kerja alat tersebut.

“Sangat sulit untuk melacak dari mana pengetahuan itu berasal, atau di mana ia akan berhasil atau gagal,” akui Lucy Shi, peneliti Physical Intelligence dan mahasiswa doktoral ilmu komputer Stanford. Namun, tanpa bimbingan sama sekali, model itu membuat upaya yang cukup baik untuk menggunakan alat tersebut untuk memasak kentang manis. Dan ketika diberi instruksi verbal langkah demi langkah—pada dasarnya, seorang manusia membimbing robot melalui tugas tersebut seperti Anda menjelaskan sesuatu kepada karyawan baru—kinerjanya berhasil.

Kemampuan untuk “dilatih” secara real time ini bukan hal sepele. Ini menyiratkan bahwa robot di masa depan dapat diterapkan di lingkungan baru dan ditingkatkan kemampuannya tanpa perlu pengumpulan data tambahan atau pelatihan ulang model yang memakan waktu. Cukup dengan seorang operator manusia yang memberikan petunjuk secara alami. Ini mengubah paradigma dari “pemrograman” menjadi “pembimbingan”.

Namun, para peneliti di Physical Intelligence sama sekali tidak tergesa gesa. Mereka dengan hati hati mengakui batasan model ini. π0.7 belum mampu menjalankan tugas multi langkah kompleks secara otonom dari satu perintah tingkat tinggi. “Anda tidak bisa menyuruhnya, ‘Hei, buatkan saya roti panggang’,” kata Levine. “Tetapi jika Anda membimbingnya langkah demi langkah—’untuk pemanggang roti, buka bagian ini, tekan tombol itu, lakukan ini’—maka itu cenderung bekerja dengan cukup baik.” Bahkan, mereka mengakui bahwa kegagalan terkadang bukan terletak pada model, melainkan pada cara manusia berkomunikasi dengannya. Lucy Shi bercerita tentang eksperimen awal air fryer yang hanya menghasilkan tingkat keberhasilan 5%. Setelah menghabiskan sekitar setengah jam menyempurnakan cara tugas itu dijelaskan kepada model, angkanya melonjak menjadi 95%.

Ashwin Balakrishna, ilmuwan penelitian di Physical Intelligence, mengungkapkan keheranannya yang personal. “Pengalaman saya selalu bahwa ketika saya benar benar tahu apa yang ada dalam data, saya bisa menebak apa yang akan mampu dilakukan model. Saya jarang terkejut. Tetapi beberapa bulan terakhir adalah pertama kalinya saya benar benar terkejut. Saya baru saja membeli satu set gear secara acak dan bertanya kepada robot, ‘Hei, bisakah kamu memutar gear ini?’ Dan itu berhasil.” Kejutan semacam ini mengingatkan Levine pada momen ketika para peneliti pertama kali menemukan GPT-2 menghasilkan cerita tentang unicorn di Andes. “Dari mana ia belajar tentang unicorn di Peru? Itu kombinasi yang sangat aneh. Dan saya pikir melihat hal itu dalam robotika benar benar spesial.”

Antara Skeptisisme dan Revolusi yang Sunyi

Tentu saja, kritik akan segera bermunculan. Asimetri yang tidak nyaman terlihat jelas: model bahasa besar seperti ChatGPT belajar dari seluruh internet. Robot tidak memiliki kemewahan itu. Tidak ada jumlah data simulasi atau dunia nyata yang saat ini setara dengan luasnya pengetahuan yang tersedia secara online. Namun, Levine justru mengarahkan antisipasi skeptisisme ke arah lain. “Kritik yang selalu bisa dilontarkan pada demo generalisasi robotika apa pun adalah bahwa tugas tugasnya agak membosankan,” katanya. “Robot itu tidak melakukan backflip.”

Dia menolak framing tersebut. Perbedaan antara demo robot yang mengesankan dan sistem robot yang benar benar melakukan generalisasi, menurutnya, adalah inti permasalahannya. Sebuah aksi salto yang dirancang dengan cermat akan selalu terlihat lebih dramatis, tetapi nilainya terbatas. Sebaliknya, generalisasi—kemampuan untuk beradaptasi dan mempelajari hal baru—mungkin terlihat lebih sunyi dan kurang spektakuler, tetapi jauh lebih berguna dan revolusioner dalam penerapan jangka panjang. Ini tentang membangun fondasi kecerdasan yang fleksibel, bukan sekadar koreografi gerakan.

Perlu dicatat, penelitian ini masih sangat awal. Makalah mereka sendiri menggunakan bahasa berhati hati, menggambarkan π0.7 sebagai menunjukkan “tanda tanda awal” generalisasi dan “demonstrasi awal” kemampuan baru. Ini adalah hasil penelitian, bukan produk yang siap dipasarkan. Ketika ditanya kapan sistem berbasis temuan ini mungkin siap untuk penyebaran dunia nyata, Levine menolak berspekulasi. “Saya pikir ada alasan bagus untuk optimis, dan tentu saja ini berkembang lebih cepat dari yang saya perkirakan beberapa tahun lalu. Tapi sangat sulit bagi saya untuk menjawab pertanyaan itu.”

Optimisme itu, bagaimanapun, telah menarik perhatian besar dari dunia venture capital. Physical Intelligence, startup yang berbasis di San Francisco ini, dikabarkan telah mengumpulkan dana lebih dari 1 miliar dolar AS (sekitar Rp 16 triliun) dan baru baru ini dinilai senilai 5,6 miliar dolar AS (sekitar Rp 90 triliun). Bahkan, kabar terbaru menyebutkan perusahaan sedang dalam pembicaraan untuk putaran pendanaan baru yang akan hampir menggandakan valuasi itu menjadi 11 miliar dolar AS (sekitar Rp 177 triliun). Daya tarik besar ini sebagian berasal dari kredibilitas pendiri seperti Lachy Groom, yang memiliki rekam jejak investasi yang cemerlang di perusahaan seperti Figma dan Notion. Mereka berinvestasi pada visi jangka panjang, meskipun Physical Intelligence sendiri menolak memberikan garis waktu komersialisasi yang konkret.

Perkembangan di Physical Intelligence terjadi dalam konteks persaingan global yang semakin ketat di bidang robotika, di mana China disebut sebut mulai menguasai lanskap ini. Sementara itu, kolaborasi antara industri otomotif dan robotika juga semakin marak, seperti yang ditunjukkan oleh strategi AiMOGA Robotics dan Chery. Di tengah gejolak ini, isu keamanan dan etika juga mencuat, sebagaimana terlihat dalam kontroversi di OpenAI yang melibatkan departemen pertahanan.

Jadi, apa arti semua ini bagi kita? Jika klaim Physical Intelligence terbukti valid, kita mungkin sedang menyaksikan detik detik pertama dari sebuah revolusi yang tenang. Revolusi di mana robot tidak lagi menjadi alat khusus yang kaku, tetapi menjadi asisten umum yang dapat belajar dan beradaptasi. Jalan masih sangat panjang. Tantangan data, keandalan, dan keamanan masih membentang. Namun, kejutan yang dialami oleh para peneliti itu sendiri—orang orang yang paling memahami data dan batasan model—adalah sinyal yang paling menarik untuk diperhatikan. Ketika para ahli mulai terkejut dengan ciptaan mereka sendiri, itu biasanya pertanda bahwa sesuatu yang fundamental sedang berubah. Mungkin, otak robot yang benar benar cerdas tidak lagi datang dengan instruksi manual setebal buku, tetapi dengan kemampuan untuk berkata, “Ajari saya.”