Microsoft baru saja memperkenalkan iterasi terbaru dari model bahasa kode saraf mereka, Vall-E 2. Kehadiran Vall-E 2 menandai pencapaian luar biasa dalam dunia kecerdasan buatan (AI), khususnya di bidang sintesis suara. AI ini mampu meniru suara manusia dengan tingkat kealamian, ketahanan, dan kesamaan yang melampaui semua teknologi sebelumnya.
Bahkan, Vall-E 2 disebut-sebut sebagai yang pertama di kelasnya yang berhasil mencapai “kesamaan manusia” pada dua parameter benchmark populer. Saking realistisnya suara yang dihasilkan, Microsoft sejauh ini memutuskan untuk belum memberikan akses publik ke teknologi ini.
Peningkatan Kinerja Vall-E 2: Pengkodean dan Pengambilan Sampel yang Lebih Canggih

Vall-E 2 dibangun di atas dasar teknologi Vall-E sebelumnya. Namun, Vall-E 2 memiliki dua peningkatan utama yang secara signifikan meningkatkan kinerjanya.
Peningkatan pertama adalah “grouped code modeling” yang memungkinkan untuk mengatur kode codec dengan lebih baik. Dengan pengaturan yang lebih efisien, panjang urutan kode menjadi lebih pendek. Hal ini berdampak pada peningkatan kecepatan inferensi (proses menghasilkan output) dan kemampuan mengatasi tantangan yang terkait dengan pemodelan urutan panjang.
Peningkatan kedua adalah “repetition aware sampling”. Fitur ini memperbaiki proses “nucleus sampling” yang ada di Vall-E sebelumnya. “Repetition aware sampling” berfokus pada identifikasi pengulangan token (unit terkecil pembentuk urutan) selama proses decoding (penguraian kode menjadi informasi). Microsoft mengklaim bahwa proses ini membantu menstabilkan decoding dan mencegah masalah infinite loop (perulangan tak terhingga) yang ditemukan pada Vall-E asli.
Microsoft menguji kemampuan Vall-E 2 menggunakan dataset LibriSpeech dan VCTK. Hasilnya, Vall-E 2 melampaui kedua dataset tersebut dengan performa yang luar biasa. Ketika Microsoft mengklaim Vall-E 2 mencapai “kesamaan manusia”, artinya AI ini mampu menghasilkan suara yang lebih baik dari sampel suara asli dalam hal ketahanan, kesamaan, dan kealamian. Dengan kata lain, Vall-E 2 dapat menghasilkan suara alami yang hampir identik dengan suara pembicara aslinya.
Potensi dan Risiko Microsoft Vall-E 2
Microsoft membagikan puluhan sampel suara yang dihasilkan Vall-E 2 di halaman ringkasan proyek mereka. Benar saja, sampel suara Vall-E 2 terdengar sangat realistis dan tidak dapat dibedakan dengan suara manusia asli. AI ini bahkan mampu menguasai hal-hal detail seperti penekanan pada kata yang tepat dalam sebuah kalimat, sesuatu yang sering dilakukan manusia secara tidak sadar saat berbicara.
Meskipun demikian, Microsoft menegaskan bahwa Vall-E 2 murni merupakan proyek penelitian. Mereka belum memiliki rencana untuk mengintegrasikan teknologi ini ke dalam produk konsumen atau merilisnya ke publik. Microsoft mengkhawatirkan potensi penyalahgunaan teknologi ini, seperti pemalsuan identitas suara seseorang atau penipuan identifikasi suara.
Meski waspada terhadap risiko, Microsoft melihat potensi Vall-E 2 untuk berbagai aplikasi positif. Beberapa diantaranya adalah di bidang pendidikan, terjemahan bahasa, aksesibilitas, jurnalisme, konten yang dibuat sendiri, dan chatbot.