Google, melalui tim DeepMind, tengah melatih robot mereka dengan kecerdasan buatan (AI) Gemini untuk meningkatkan kemampuan navigasi dan menyelesaikan tugas. Penelitian terbaru yang dipublikasikan tim DeepMind menjelaskan bagaimana model AI Gemini 1.5 Pro berperan penting dalam pencapaian ini. Keunggulan Gemini 1.5 Pro terletak pada “jendela konteks panjang” yang dimilikinya. Jendela konteks panjang ini menentukan seberapa banyak informasi yang dapat diproses oleh model AI. Dengan kemampuan tersebut, robot dapat menerima instruksi bahasa alami dari pengguna dengan lebih mudah.
Robot Google Belajar dari “Video Tour” Lingkungan
Proses pembelajaran robot ini terbilang unik. Para peneliti merekam video tur keliling area yang akan menjadi “lapangan kerja” robot, misalnya rumah atau kantor. Robot kemudian “diajak menonton” video tersebut menggunakan Gemini 1.5 Pro. Dengan menonton video, robot mempelajari lingkungan tempat ia beroperasi.
Setelah proses pembelajaran visual tersebut, robot dapat menjalankan perintah berdasarkan pengamatannya. Perintah tersebut bisa berupa instruksi verbal atau instruksi yang disertai gambar. Sebagai contoh, pengguna bisa meminta robot “mencarikan stop kontak untuk mengisi daya ponsel ini” sambil menunjukkan ponsel mereka. Setelah mengamati video tur yang sebelumnya telah ditontonnya, robot akan memandu pengguna ke stop kontak terdekat.
Berdasarkan penelitian, robot yang ditenagai Gemini ini memiliki tingkat keberhasilan 90% dalam menyelesaikan lebih dari 50 instruksi pengguna di area operasi seluas lebih dari 9.000 kaki persegi.
Temuan menarik lainnya dari penelitian ini adalah adanya “bukti awal” bahwa Gemini 1.5 Pro memungkinkan robot untuk merencanakan cara menyelesaikan instruksi yang melampaui navigasi sederhana. Misalnya, jika pengguna yang memiliki banyak kaleng Coca-Cola di mejanya bertanya kepada robot apakah minuman favoritnya tersedia, tim peneliti mengatakan Gemini “mengetahui bahwa robot harus menuju kulkas, memeriksa apakah ada Coca-Cola, dan kemudian kembali kepada pengguna untuk melaporkan hasilnya.” DeepMind menyatakan bahwa mereka berencana untuk menyelidiki temuan ini lebih lanjut.
Menilik Realita dan Harapan Masa Depan
Video demonstrasi yang disediakan Google memang terlihat mengesankan. Namun, penelitian tersebut menyebutkan bahwa ada jeda waktu antara robot menerima instruksi dan mulai bertindak, yaitu sekitar 10-30 detik (meskipun hal ini tidak ditampilkan dalam video yang dipotong). Artinya, robot belum bisa seketika dan lincah dalam merespon perintah. Selain itu, kemampuan robot saat ini masih terbatas pada area yang sudah dipetakan sebelumnya melalui video tour.
Dengan kata lain, mungkin masih perlu waktu sebelum kita bisa berbagi rumah dengan robot pemetaan lingkungan yang jauh lebih canggih dan bisa langsung beradaptasi dengan lingkungan yang baru. Namun, kemajuan yang diraih tim DeepMind ini patut diapresiasi. Robot-robot yang ada saat ini, setidaknya, mungkin bisa membantu kita dalam hal-hal sederhana, seperti menemukan kunci atau dompet yang hilang, atau membantu kita menyalakan lampu dan menyesuaikan termostat di rumah. Seiring dengan perkembangan teknologi AI, kita mungkin bisa menantikan kehadiran robot yang lebih cerdas dan serba bisa di masa depan.
Selain itu, penelitian ini juga membuka jalan bagi pengembangan robot yang lebih otonom di masa depan. Robot yang dapat mempelajari lingkungannya secara mandiri tanpa perlu video tour pra-program akan menjadi terobosan yang luar biasa. Hal ini tentunya akan berdampak pada berbagai sektor industri, seperti manufaktur, logistik, dan perawatan kesehatan.