Alibaba Rilis Qwen 3.5 Omni: AI yang Bisa Kloning Suara & Pahami Video Langsung!

Rabu, 1 April 2026 - 08:32 WIB

Oleh :

Olin Sianturi

Sumber :

X/Tongyi Lab

Gadget – Pada Minggu, 29 Maret 2026, Alibaba melalui tim Tongyi Lab resmi meluncurkan Qwen 3.5 Omni, model kecerdasan buatan (AI) terbarunya yang disebut-sebut sebagai lompatan besar dalam kemampuan multimodal.

Voice Cloning: AI yang Bisa “Menjadi” Anda

Fitur voice cloning pada Qwen 3.5 Omni memungkinkan pengguna mengunggah rekaman suara pendek (beberapa detik hingga menit), lalu AI akan meniru intonasi, nada, dan irama bicara tersebut saat memberikan respons.

Akses saat ini: Tersedia melalui API Alibaba Cloud
Tujuan utama: Personalisasi asisten virtual, konten audio interaktif, layanan pelanggan berbasis suara
Keunggulan: Tidak hanya meniru suara, tapi juga menyesuaikan ekspresi emosional berdasarkan konteks percakapan

Meski belum tersedia untuk publik umum via antarmuka web, fitur ini telah diuji dalam skenario enterprise dan menunjukkan akurasi suara yang sangat tinggi, bahkan mampu meniru aksen regional dan dialek minoritas.

Percakapan Suara Lebih Natural dengan “Semantic Interruption”

Salah satu masalah umum pada asisten suara adalah respons yang kaku terhadap gangguan. Misalnya, jika pengguna berkata “eh” atau “tunggu”, AI sering salah mengira itu sebagai akhir percakapan.

Qwen 3.5 Omni memperkenalkan semantic interruption detection sistem yang memahami niat sebenarnya di balik suara latar atau respons singkat. AI ini hanya akan berhenti berbicara jika benar-benar mendeteksi permintaan interupsi aktif, bukan sekadar suara latar.

Hasilnya? Alur percakapan terasa lebih manusiawi, mirip berdialog dengan orang sungguhan bukan mesin yang mudah “bingung”.

Teknologi ARIA: Sinkronisasi Suara & Teks yang Lebih Akurat

Untuk meningkatkan kualitas output suara, Alibaba memperkenalkan ARIA (Adaptive Rate Interleave Alignment), sebuah teknologi baru yang:

Menyelaraskan pengucapan suara dengan teks secara dinamis
Mengurangi kesalahan pengucapan pada angka, istilah teknis, atau kata asing
Menyesuaikan kecepatan bicara berdasarkan kompleksitas kalimat

ARIA membuat output suara Qwen 3.5 Omni terdengar lebih natural dan profesional, cocok untuk narasi podcast, audiobook, atau presentasi bisnis.

Pemrosesan Video Native: Tidak Perlu Ekstraksi Frame atau OCR

Di sinilah Qwen 3.5 Omni benar-benar unggul.

Sebagian besar AI termasuk ChatGPT 5.4 masih menggunakan pendekatan multistep untuk menganalisis video:

Ekstraksi frame gambar
Pemrosesan visual via model visi
Transkripsi audio via Whisper
OCR untuk teks di layar
Proses ini memakan waktu hingga 9 menit untuk video pendek.

Sebaliknya, Qwen 3.5 Omni menggunakan arsitektur omnimodal native yang dilatih pada lebih dari 100 juta jam data audio-visual. Ia bisa:

Mengenali siapa yang berbicara
Memahami topik pembicaraan
Mendeteksi emosi dan konteks non-verbal
Memberikan analisis lengkap dalam ~1 menit

Ini bukan sekadar efisiensi ini adalah paradigma baru dalam pemrosesan multimodal.

Audio-Visual Vibe Coding: AI yang Bisa Belajar Coding dari Video

Salah satu fitur paling futuristik dari Qwen 3.5 Omni adalah Audio-Visual Vibe Coding.
Dengan fitur ini, AI dapat:

Menonton rekaman layar proses coding
Mendengarkan penjelasan programmer
Menghasilkan kode fungsional yang setara tanpa satu pun instruksi teks

Contoh penggunaan:

Seorang developer merekam dirinya membuat fitur login di React. Qwen 3.5 Omni menonton video tersebut, lalu menghasilkan kode lengkap dengan autentikasi JWT, validasi form, dan styling hanya dari input visual dan audio.

Ini membuka jalan bagi asisten AI yang benar-benar menyatu dalam alur kerja pengguna, bukan sekadar alat sampingan.

Dukungan 113 Bahasa & Performa Multibahasa Terbaik

Qwen 3.5 Omni mendukung pengenalan suara dalam 113 bahasa dan dialek, naik drastis dari 19 bahasa di generasi sebelumnya.

Mampu beralih bahasa di tengah percakapan tanpa kehilangan konteks
Unggul dalam benchmark stabilitas suara multibahasa dibanding ElevenLabs, GPT-Audio, dan Minimax
Akurat dalam menangani bahasa dengan struktur kompleks seperti Arab, Mandarin, dan Hindi

Fitur ini menjadikannya ideal untuk aplikasi global, terutama di wilayah dengan keragaman linguistik tinggi seperti Asia Tenggara, Afrika, dan Eropa.

Tiga Varian: Plus, Flash, dan Light

Qwen 3.5 Omni tersedia dalam tiga versi:

Varian	Context Window	Kecepatan	Target Penggunaan
Plus	256.000 token	Tinggi	Enterprise, analisis kompleks
Flash	128.000 token	Sangat cepat	Aplikasi real-time
Light	64.000 token	Ringan	Perangkat edge, mobile

Dalam pengujian benchmark, Qwen 3.5 Omni Plus mengungguli Gemini 3.1 Pro dalam:

Pemahaman audio
Penalaran multimodal
Terjemahan lintas bahasa
Dan setara dalam pemahaman audio-visual

Ketersediaan dan Cara Mencoba

API: Tersedia di Alibaba Cloud untuk developer dan perusahaan
Demo Publik: Bisa diuji via Qwen Chat dan platform Hugging Face
Integrasi: Kompatibel dengan ekosistem Alibaba, termasuk DingTalk dan Taobao

Kesimpulan: Masa Depan AI adalah Omnimodal dan Kontekstual

Qwen 3.5 Omni bukan sekadar upgrade ia adalah manifestasi dari visi AI masa depan:

Sistem yang memahami dunia seperti manusia melalui mata, telinga, dan pikiran secara simultan.

Dengan kemampuan kloning suara, analisis video native, coding dari observasi, dan dukungan multibahasa,

Alibaba tidak hanya mengejar ketertinggalan dari OpenAI atau Google ia sedang menciptakan jalurnya sendiri.

Dan jika tren ini berlanjut, Qwen 3.5 Omni mungkin menjadi fondasi asisten pribadi generasi berikutnya: yang tidak hanya menjawab pertanyaan, tapi memahami hidup Anda dari segala sudut.