Alibaba Rilis Qwen 3.5 Omni: AI yang Bisa Kloning Suara & Pahami Video Langsung!

Alibaba Rilis Qwen 3.5 Omni: AI yang Bisa Kloning Suara & Pahami Video Langsung!
Sumber :
  • X/Tongyi Lab

Gadget – Pada Minggu, 29 Maret 2026, Alibaba melalui tim Tongyi Lab resmi meluncurkan Qwen 3.5 Omni, model kecerdasan buatan (AI) terbarunya yang disebut-sebut sebagai lompatan besar dalam kemampuan multimodal.

Bocoran iOS 27: Fitur Baru Siri Kini Dukung Multi-Command

Berbeda dari AI konvensional yang mengandalkan teks sebagai perantara, Qwen 3.5 Omni mampu memproses teks, gambar, audio, dan video secara langsung dalam satu sistem terpadu tanpa perlu memecah input menjadi beberapa tahap.

Salah satu fitur paling mencolok dari rilis ini adalah kemampuan voice cloning (kloning suara). Dengan hanya mengunggah sampel suara, pengguna bisa membuat AI merespons menggunakan suara mereka sendiri sebuah fitur yang langsung menempatkan Qwen 3.5 Omni sebagai pesaing serius bagi layanan seperti ElevenLabs dan GPT-Audio.

Razer Pro Type Ergo: Keyboard Split Pertama dengan Tombol AI

Namun, inovasi Alibaba tidak berhenti di situ. Qwen 3.5 Omni juga hadir dengan teknologi percakapan suara real-time yang lebih cerdas, pemrosesan video native, dukungan 113 bahasa, serta kemampuan unik: menghasilkan kode fungsional hanya dari rekaman video coding.

Artikel ini mengupas tuntas fitur utama, perbandingan dengan kompetitor, arsitektur teknis, dan implikasi masa depan dari salah satu model AI paling ambisius yang pernah dirilis oleh raksasa teknologi China ini.

Mengenal Attie: Fitur AI Bluesky yang Picu Gelombang Protes

Voice Cloning: AI yang Bisa “Menjadi” Anda

Fitur voice cloning pada Qwen 3.5 Omni memungkinkan pengguna mengunggah rekaman suara pendek (beberapa detik hingga menit), lalu AI akan meniru intonasi, nada, dan irama bicara tersebut saat memberikan respons.

  • Akses saat ini: Tersedia melalui API Alibaba Cloud
  • Tujuan utama: Personalisasi asisten virtual, konten audio interaktif, layanan pelanggan berbasis suara
  • Keunggulan: Tidak hanya meniru suara, tapi juga menyesuaikan ekspresi emosional berdasarkan konteks percakapan

Meski belum tersedia untuk publik umum via antarmuka web, fitur ini telah diuji dalam skenario enterprise dan menunjukkan akurasi suara yang sangat tinggi, bahkan mampu meniru aksen regional dan dialek minoritas.

Percakapan Suara Lebih Natural dengan “Semantic Interruption”

Salah satu masalah umum pada asisten suara adalah respons yang kaku terhadap gangguan. Misalnya, jika pengguna berkata “eh” atau “tunggu”, AI sering salah mengira itu sebagai akhir percakapan.

Qwen 3.5 Omni memperkenalkan semantic interruption detection sistem yang memahami niat sebenarnya di balik suara latar atau respons singkat. AI ini hanya akan berhenti berbicara jika benar-benar mendeteksi permintaan interupsi aktif, bukan sekadar suara latar.

Hasilnya? Alur percakapan terasa lebih manusiawi, mirip berdialog dengan orang sungguhan bukan mesin yang mudah “bingung”.

Teknologi ARIA: Sinkronisasi Suara & Teks yang Lebih Akurat

Untuk meningkatkan kualitas output suara, Alibaba memperkenalkan ARIA (Adaptive Rate Interleave Alignment), sebuah teknologi baru yang:

  • Menyelaraskan pengucapan suara dengan teks secara dinamis
  • Mengurangi kesalahan pengucapan pada angka, istilah teknis, atau kata asing
  • Menyesuaikan kecepatan bicara berdasarkan kompleksitas kalimat

ARIA membuat output suara Qwen 3.5 Omni terdengar lebih natural dan profesional, cocok untuk narasi podcast, audiobook, atau presentasi bisnis.

Pemrosesan Video Native: Tidak Perlu Ekstraksi Frame atau OCR

Di sinilah Qwen 3.5 Omni benar-benar unggul.

Sebagian besar AI termasuk ChatGPT 5.4 masih menggunakan pendekatan multistep untuk menganalisis video:

  • Ekstraksi frame gambar
  • Pemrosesan visual via model visi
  • Transkripsi audio via Whisper
  • OCR untuk teks di layar
  • Proses ini memakan waktu hingga 9 menit untuk video pendek.

Sebaliknya, Qwen 3.5 Omni menggunakan arsitektur omnimodal native yang dilatih pada lebih dari 100 juta jam data audio-visual. Ia bisa:

  • Mengenali siapa yang berbicara
  • Memahami topik pembicaraan
  • Mendeteksi emosi dan konteks non-verbal
  • Memberikan analisis lengkap dalam ~1 menit

Ini bukan sekadar efisiensi ini adalah paradigma baru dalam pemrosesan multimodal.

Audio-Visual Vibe Coding: AI yang Bisa Belajar Coding dari Video

Salah satu fitur paling futuristik dari Qwen 3.5 Omni adalah Audio-Visual Vibe Coding.
Dengan fitur ini, AI dapat:

  • Menonton rekaman layar proses coding
  • Mendengarkan penjelasan programmer
  • Menghasilkan kode fungsional yang setara tanpa satu pun instruksi teks

Contoh penggunaan:

Seorang developer merekam dirinya membuat fitur login di React. Qwen 3.5 Omni menonton video tersebut, lalu menghasilkan kode lengkap dengan autentikasi JWT, validasi form, dan styling hanya dari input visual dan audio.

Ini membuka jalan bagi asisten AI yang benar-benar menyatu dalam alur kerja pengguna, bukan sekadar alat sampingan.

Dukungan 113 Bahasa & Performa Multibahasa Terbaik

Qwen 3.5 Omni mendukung pengenalan suara dalam 113 bahasa dan dialek, naik drastis dari 19 bahasa di generasi sebelumnya.

  • Mampu beralih bahasa di tengah percakapan tanpa kehilangan konteks
  • Unggul dalam benchmark stabilitas suara multibahasa dibanding ElevenLabs, GPT-Audio, dan Minimax
  • Akurat dalam menangani bahasa dengan struktur kompleks seperti Arab, Mandarin, dan Hindi

Fitur ini menjadikannya ideal untuk aplikasi global, terutama di wilayah dengan keragaman linguistik tinggi seperti Asia Tenggara, Afrika, dan Eropa.

Tiga Varian: Plus, Flash, dan Light

Qwen 3.5 Omni tersedia dalam tiga versi:

VarianContext WindowKecepatanTarget Penggunaan
Plus256.000 tokenTinggiEnterprise, analisis kompleks
Flash128.000 tokenSangat cepatAplikasi real-time
Light64.000 tokenRinganPerangkat edge, mobile

Dalam pengujian benchmark, Qwen 3.5 Omni Plus mengungguli Gemini 3.1 Pro dalam:

  • Pemahaman audio
  • Penalaran multimodal
  • Terjemahan lintas bahasa
  • Dan setara dalam pemahaman audio-visual

Ketersediaan dan Cara Mencoba

  • API: Tersedia di Alibaba Cloud untuk developer dan perusahaan
  • Demo Publik: Bisa diuji via Qwen Chat dan platform Hugging Face
  • Integrasi: Kompatibel dengan ekosistem Alibaba, termasuk DingTalk dan Taobao

Kesimpulan: Masa Depan AI adalah Omnimodal dan Kontekstual

Qwen 3.5 Omni bukan sekadar upgrade ia adalah manifestasi dari visi AI masa depan:

  • Sistem yang memahami dunia seperti manusia melalui mata, telinga, dan pikiran secara simultan.

Dengan kemampuan kloning suara, analisis video native, coding dari observasi, dan dukungan multibahasa,

Alibaba tidak hanya mengejar ketertinggalan dari OpenAI atau Google ia sedang menciptakan jalurnya sendiri.

Dan jika tren ini berlanjut, Qwen 3.5 Omni mungkin menjadi fondasi asisten pribadi generasi berikutnya: yang tidak hanya menjawab pertanyaan, tapi memahami hidup Anda dari segala sudut.

Dapatkan informasi terbaru seputar Gadget, Anime, Game, Tech dan Berita lainnya setiap hari melalui social media Gadget VIVA. Ikuti kami di :
Instagram@gadgetvivacoid
FacebookGadget VIVA.co.id
X (Twitter)@gadgetvivacoid
Whatsapp ChannelGadget VIVA
Google NewsGadget