Telset.id – Bayangkan Anda bisa memberi perintah sederhana seperti “berjalan maju beberapa langkah lalu belok kanan” kepada robot apapun—mulai dari humanoid hingga robot berkaki empat—dan mereka langsung memahami serta mengeksekusi perintah tersebut dengan sempurna. Inilah yang ditawarkan oleh MotionGlot, model kecerdasan buatan terbaru dari Brown University yang mengubah cara kita berinteraksi dengan mesin.
Dalam dunia yang semakin dipenuhi oleh robot dengan berbagai bentuk dan fungsi, kemampuan untuk berkomunikasi secara alami menjadi krusial. MotionGlot muncul sebagai solusi revolusioner, memperlakukan gerakan sebagai bahasa universal yang bisa “diterjemahkan” antar berbagai jenis robot dan avatar digital. Konsep ini mirip dengan bagaimana ChatGPT memahami dan menghasilkan teks, tetapi diaplikasikan pada gerakan fisik.
Bahasa Gerakan yang Universal
Sudarshan Harithas, Ph.D. student di Brown University yang memimpin penelitian ini, menjelaskan: “Kami memperlakukan gerakan sebagai bahasa lain yang bisa diterjemahkan. Sama seperti kita menerjemahkan dari Bahasa Inggris ke Mandarin, sekarang kita bisa menerjemahkan perintah berbasis bahasa ke aksi yang sesuai untuk berbagai bentuk robot.”
Teknologi ini bekerja dengan memecah gerakan menjadi serangkaian “token”—potongan kecil yang merepresentasikan posisi dan orientasi bagian tubuh pada momen tertentu. Mirip dengan prediksi kata berikutnya dalam model bahasa besar, MotionGlot memprediksi gerakan berikutnya dalam suatu urutan.
Keunggulan utama MotionGlot terletak pada kemampuannya memahami bahwa konsep yang sama (seperti “berjalan”) bisa dieksekusi secara berbeda oleh tubuh yang berbeda. Ketika Anda memberi perintah “berjalan lurus ke depan”, robot humanoid akan menggerakkan kakinya secara bergantian, sementara robot berkaki empat akan menggunakan pola gerak yang sama sekali berbeda.
Baca Juga:
Pelatihan dengan Data Nyata
Untuk melatih model ini, tim peneliti menggunakan dua kumpulan data utama: QUAD-LOCO yang berisi gerakan robot berkaki empat dengan deskripsi teks, dan QUES-CAP yang berisi gerakan manusia dengan anotasi rinci. Hasilnya, MotionGlot tidak hanya bisa mengeksekusi perintah spesifik seperti “robot berjalan mundur, belok kiri lalu maju”, tetapi juga memahami konsep abstrak seperti “berjalan dengan gembira”.
Yang lebih mengesankan, model ini bahkan bisa menjawab pertanyaan dengan gerakan. Ketika ditanya “Bisakah kamu menunjukkan gerakan olahraga kardio?”, MotionGlot akan menghasilkan simulasi orang yang sedang jogging.
Srinath Sridhar, asisten profesor di Brown University yang turut meneliti, menekankan bahwa “Model-model seperti ini bekerja paling baik ketika dilatih dengan data yang sangat banyak. Jika kita bisa mengumpulkan data dalam skala besar, model ini bisa dengan mudah ditingkatkan kemampuannya.”
Dengan fleksibilitasnya, MotionGlot membuka pintu bagi berbagai aplikasi masa depan—mulai dari kolaborasi manusia-robot di pabrik, pengembangan game dan realitas virtual, hingga produksi animasi digital. Tim peneliti berencana membuka kode sumber model ini untuk umum, memungkinkan komunitas ilmiah dan industri untuk terus mengembangkannya.
Di tengah maraknya perkembangan robot humanoid seperti XPENG Iron atau inovasi robot dengan bentuk unik seperti robot cacing yang bisa melompat, MotionGlot muncul sebagai jembatan yang memungkinkan semua mesin ini memahami bahasa manusia dengan cara yang lebih alami dan intuitif.