Alibaba Rilis Qwen 3.5 Omni: AI yang Bisa Kloning Suara & Pahami Video Langsung!

Alibaba Rilis Qwen 3.5 Omni: AI yang Bisa Kloning Suara & Pahami Video Langsung!
Sumber :
  • X/Tongyi Lab

Gadget – Pada Minggu, 29 Maret 2026, Alibaba melalui tim Tongyi Lab resmi meluncurkan Qwen 3.5 Omni, model kecerdasan buatan (AI) terbarunya yang disebut-sebut sebagai lompatan besar dalam kemampuan multimodal.

Eksperimen AI March Madness: Nyaris Sempurna Pakai ChatGPT!

Berbeda dari AI konvensional yang mengandalkan teks sebagai perantara, Qwen 3.5 Omni mampu memproses teks, gambar, audio, dan video secara langsung dalam satu sistem terpadu tanpa perlu memecah input menjadi beberapa tahap.

Salah satu fitur paling mencolok dari rilis ini adalah kemampuan voice cloning (kloning suara). Dengan hanya mengunggah sampel suara, pengguna bisa membuat AI merespons menggunakan suara mereka sendiri sebuah fitur yang langsung menempatkan Qwen 3.5 Omni sebagai pesaing serius bagi layanan seperti ElevenLabs dan GPT-Audio.

Bocoran iOS 27: Fitur Baru Siri Kini Dukung Multi-Command

Namun, inovasi Alibaba tidak berhenti di situ. Qwen 3.5 Omni juga hadir dengan teknologi percakapan suara real-time yang lebih cerdas, pemrosesan video native, dukungan 113 bahasa, serta kemampuan unik: menghasilkan kode fungsional hanya dari rekaman video coding.

Artikel ini mengupas tuntas fitur utama, perbandingan dengan kompetitor, arsitektur teknis, dan implikasi masa depan dari salah satu model AI paling ambisius yang pernah dirilis oleh raksasa teknologi China ini.

Razer Pro Type Ergo: Keyboard Split Pertama dengan Tombol AI

Voice Cloning: AI yang Bisa “Menjadi” Anda

Fitur voice cloning pada Qwen 3.5 Omni memungkinkan pengguna mengunggah rekaman suara pendek (beberapa detik hingga menit), lalu AI akan meniru intonasi, nada, dan irama bicara tersebut saat memberikan respons.

  • Akses saat ini: Tersedia melalui API Alibaba Cloud
  • Tujuan utama: Personalisasi asisten virtual, konten audio interaktif, layanan pelanggan berbasis suara
  • Keunggulan: Tidak hanya meniru suara, tapi juga menyesuaikan ekspresi emosional berdasarkan konteks percakapan

Meski belum tersedia untuk publik umum via antarmuka web, fitur ini telah diuji dalam skenario enterprise dan menunjukkan akurasi suara yang sangat tinggi, bahkan mampu meniru aksen regional dan dialek minoritas.

Percakapan Suara Lebih Natural dengan “Semantic Interruption”

Salah satu masalah umum pada asisten suara adalah respons yang kaku terhadap gangguan. Misalnya, jika pengguna berkata “eh” atau “tunggu”, AI sering salah mengira itu sebagai akhir percakapan.

Qwen 3.5 Omni memperkenalkan semantic interruption detection sistem yang memahami niat sebenarnya di balik suara latar atau respons singkat. AI ini hanya akan berhenti berbicara jika benar-benar mendeteksi permintaan interupsi aktif, bukan sekadar suara latar.

Halaman Selanjutnya
img_title