Pekan lalu, media sosial diramaikan dengan video rilisan Google yang cukup viral termasuk di platform X. Dalam sebuah video, terlihat demo interaksi Gemini AI terbaru yang mampu berinteraksi dengan pengguna secara instan. Nyatanya, yang terjadi di belakang layar bisa dibilang cukup jauh dari apa yang ditampilkan. Kok bisa?
Lewat sebuah postingan yang diunggah langsung oleh sang CEO, Sundar Pichai pada Rabu (6/12), ditampilkan sebuah video untuk menunjukkan kebolehan Gemini AI sebagai sebuah AI large language model (LLM) yang mendukung model multimodal—mengombinasikan dua jenis perintah berbeda, dalam hal ini teks dan gambar atau visual.
Alih-alih benar-benar sepenuhnya menggunakan video yang kemudian direspon oleh Gemini AI dengan suara, ternyata proses pembuatan video tersebut berbeda dengan yang ditampilkan. Sejumlah situs pun menyebutkan bahwa video tersebut sudah sampai batas penipuan, tidak lagi sekadar penyempurnaan ilustrasi dari sebuah demo, meski Google sendiri sudah menyebutkan kalau video tersebut sudah diproses lebih jauh.
Dalam video yang kini sudah ditonton oleh lebih dari dua juta kali di YouTube, Google memang sudah memberikan informasi bila demo Gemini AI di atas sudah diedit dengan latensi yang dikurangi maupun pemotongan durasi tertentu. Namun di sisi lain, kalimat “this video highlights some of our favorite interactions,” hanya menandakan bila interaksi yang terjadi bukan dalam bentuk rekayasa.
Tidak lama kemudian, Google mengunggah sebuah postingan lewat situs Google for Developers, menjelaskan lebih lanjut bagaimana Gemini AI dapat menangkap perintah berbasis multimodal, yang kemudian “dibedah” satu persatu oleh TechCrunch. Terlihat cara memberikan perintah yang cukup berbeda dari apa yang didemokan.