Alibaba Rilis Qwen 3.5 Omni: AI yang Bisa Kloning Suara & Pahami Video Langsung!

Rabu, 1 April 2026 - 08:32 WIB

Oleh :

Olin Sianturi

Sumber :

X/Tongyi Lab

Gadget – Pada Minggu, 29 Maret 2026, Alibaba melalui tim Tongyi Lab resmi meluncurkan Qwen 3.5 Omni, model kecerdasan buatan (AI) terbarunya yang disebut-sebut sebagai lompatan besar dalam kemampuan multimodal.

Baca Juga

Claude Mythos: AI Anthropic Temukan Ribuan Celah Keamanan

Berbeda dari AI konvensional yang mengandalkan teks sebagai perantara, Qwen 3.5 Omni mampu memproses teks, gambar, audio, dan video secara langsung dalam satu sistem terpadu tanpa perlu memecah input menjadi beberapa tahap.

Salah satu fitur paling mencolok dari rilis ini adalah kemampuan voice cloning (kloning suara). Dengan hanya mengunggah sampel suara, pengguna bisa membuat AI merespons menggunakan suara mereka sendiri sebuah fitur yang langsung menempatkan Qwen 3.5 Omni sebagai pesaing serius bagi layanan seperti ElevenLabs dan GPT-Audio.

Voice Cloning: AI yang Bisa “Menjadi” Anda

Fitur voice cloning pada Qwen 3.5 Omni memungkinkan pengguna mengunggah rekaman suara pendek (beberapa detik hingga menit), lalu AI akan meniru intonasi, nada, dan irama bicara tersebut saat memberikan respons.

Akses saat ini: Tersedia melalui API Alibaba Cloud
Tujuan utama: Personalisasi asisten virtual, konten audio interaktif, layanan pelanggan berbasis suara
Keunggulan: Tidak hanya meniru suara, tapi juga menyesuaikan ekspresi emosional berdasarkan konteks percakapan

Meski belum tersedia untuk publik umum via antarmuka web, fitur ini telah diuji dalam skenario enterprise dan menunjukkan akurasi suara yang sangat tinggi, bahkan mampu meniru aksen regional dan dialek minoritas.

Percakapan Suara Lebih Natural dengan “Semantic Interruption”

Salah satu masalah umum pada asisten suara adalah respons yang kaku terhadap gangguan. Misalnya, jika pengguna berkata “eh” atau “tunggu”, AI sering salah mengira itu sebagai akhir percakapan.

Qwen 3.5 Omni memperkenalkan semantic interruption detection sistem yang memahami niat sebenarnya di balik suara latar atau respons singkat. AI ini hanya akan berhenti berbicara jika benar-benar mendeteksi permintaan interupsi aktif, bukan sekadar suara latar.

Halaman Selanjutnya

Hasilnya? Alur percakapan terasa lebih manusiawi, mirip berdialog dengan orang sungguhan bukan mesin yang mudah “bingung”.