Google RT-2, Model AI Baru Terjemahkan Penglihatan dan Bahasa ke Tindakan Robotik

Google, perusahaan teknologi terkemuka, baru-baru ini mengumumkan model kecerdasan buatan (AI) terbarunya yang diberi nama Robotics Transformer (RT) 2. Model ini memungkinkan robot untuk memahami tugas-tugas dengan lebih baik.

Menurut blog resmi Google, Robotics Transformer 2 (RT-2) adalah model tindakan yang menggabungkan bahasa dan penglihatan (VLA), dilatih dengan berbagai informasi dan gambar dari Internet. Dengan kemampuan penguasaan data yang luas, robot ini mampu memperoleh pemahaman mendalam tentang berbagai ide dan konsep umum, yang kemudian diterapkan dalam perilakunya. Hal ini memungkinkan robot beroperasi dengan sangat efektif.

Dengan keunggulan luar biasa dalam kemampuannya, AI model ini mampu melakukan penalaran yang rumit dan memberikan output untuk menggerakkan robot. Namun, untuk mencapai tingkat kompetensi yang setara, robot-robot perlu mengumpulkan data secara langsung dari setiap objek, lingkungan, tugas, dan situasi yang mereka hadapi. Dalam prosesnya, data tersebut akan menjadi kunci bagi pengembangan kemampuan robot yang lebih efektif dan berkualitas.

Mengadaptasi VLM untuk Kontrol Robotik

Model bahasa visual (VLM) yang telah dilatih sebelumnya pada data skala web sedang belajar dari data robotika RT-1 untuk menjadi RT-2, model bahasa visual-aksi (VLA) yang dapat mengendalikan robot. Foto: Google

Hal ini merupakan sebuah langkah yang maju dalam pengembangan robot, karena RT-2 merupakan hasil pengembangan dari model bahasa visual (VLM) yang dapat mengambil satu atau lebih gambar sebagai input dan menghasilkan urutan token yang merepresentasikan teks bahasa alami secara konvensional. Sebelumnya, VLM telah berhasil dilatih menggunakan data berskala web untuk mengeksekusi berbagai tugas, termasuk menjawab pertanyaan visual, memberikan keterangan gambar, dan mengenali objek.

Seperti yang dapat dilihat pada ilustrasi di atas, RT-2 menunjukkan peningkatan dalam kemampuan generalisasi dan pemahaman semantik serta visual di luar data robotik yang digunakan dalam proses pembelajarannya. Hal ini termasuk menafsirkan perintah baru dan merespons perintah pengguna dengan melakukan penalaran yang belum sempurna, seperti penalaran tentang kategori objek atau deskripsi tingkat tinggi.

Selama bertahun-tahun, para peneliti telah berupaya meningkatkan kemampuan inferensi robot agar dapat menyelesaikan masalah di lingkungan kehidupan sehari-hari. Google sendiri telah melakukan berbagai eksperimen kualitatif dan kuantitatif pada model RT-2, dengan mengujinya pada lebih dari 6.000 uji coba robot.

Menjelajahi Kemampuan dari Google RT-2

Berbeda dengan chatbot sederhana, RT-2 membutuhkan koneksi ke dunia nyata dan pemahaman akan kemampuan mereka. Google menekankan bahwa RT-2 berfungsi sebagai basis pengetahuan, memberdayakan robot untuk menyelesaikan tugas dengan mudah dan efisien, seperti mengambil apel atau membuang sampah.

Dikutip dari blog resmi Google, setiap tugas memerlukan pemahaman konsep visual-semantik dan kemampuan kontrol robotik untuk mengoperasikan konsep-konsep tersebut. Sebagai contoh, robot harus dapat mengenali barang-barang sebagai sampah, kemudian tahu untuk mengambilnya dan membuangnya.

Alih-alih memprogram robot untuk tugas-tugas tertentu, RT-2 memungkinkan robot menggunakan pengetahuan dari seluruh web untuk membantu memahami cara menyelesaikan tugas, bahkan jika belum dilatih secara eksplisit pada langkah-langkah yang tepat. Google menyatakan bahwa model baru ini hampir dua kali lebih baik dalam kinerja robot dalam skenario sebelumnya yang belum pernah dilihat, dibandingkan dengan versi sebelumnya. Versi baru ini juga mampu menggunakan penalaran sederhana untuk merespons perintah pengguna.

Google telah mengambil langkah penting dalam menciptakan robot serba guna yang dapat beradaptasi dengan berbagai skenario, dan percaya bahwa kemajuan ini menandakan konvergensi cepat antara AI dan robotika. Hal ini menunjukkan komitmen berkelanjutan Google dalam mendorong batas-batas kecerdasan buatan dan penerapannya pada robotika. Dunia akan segera memasuki era baru dalam robotika berkat perpaduan visi, bahasa, dan tindakan yang diwujudkan oleh RT-2.

Leave a Reply

Your email address will not be published. Required fields are marked *