Alibaba Rilis Qwen 3.5 Omni: AI yang Bisa Kloning Suara & Pahami Video Langsung!

Alibaba Rilis Qwen 3.5 Omni: AI yang Bisa Kloning Suara & Pahami Video Langsung!
Sumber :
  • X/Tongyi Lab

Hasilnya? Alur percakapan terasa lebih manusiawi, mirip berdialog dengan orang sungguhan bukan mesin yang mudah “bingung”.

Bluesky Rilis AI Attie: Kendalikan Algoritma Sesuka Hati

Teknologi ARIA: Sinkronisasi Suara & Teks yang Lebih Akurat

Untuk meningkatkan kualitas output suara, Alibaba memperkenalkan ARIA (Adaptive Rate Interleave Alignment), sebuah teknologi baru yang:

Bos YouTube Neal Mohan Janji Berantas Konten AI Slop
  • Menyelaraskan pengucapan suara dengan teks secara dinamis
  • Mengurangi kesalahan pengucapan pada angka, istilah teknis, atau kata asing
  • Menyesuaikan kecepatan bicara berdasarkan kompleksitas kalimat

ARIA membuat output suara Qwen 3.5 Omni terdengar lebih natural dan profesional, cocok untuk narasi podcast, audiobook, atau presentasi bisnis.

Revolusi Siri: Apple Siapkan Siri AI App Store di iOS 27

Pemrosesan Video Native: Tidak Perlu Ekstraksi Frame atau OCR

Di sinilah Qwen 3.5 Omni benar-benar unggul.

Sebagian besar AI termasuk ChatGPT 5.4 masih menggunakan pendekatan multistep untuk menganalisis video:

  • Ekstraksi frame gambar
  • Pemrosesan visual via model visi
  • Transkripsi audio via Whisper
  • OCR untuk teks di layar
  • Proses ini memakan waktu hingga 9 menit untuk video pendek.

Sebaliknya, Qwen 3.5 Omni menggunakan arsitektur omnimodal native yang dilatih pada lebih dari 100 juta jam data audio-visual. Ia bisa:

  • Mengenali siapa yang berbicara
  • Memahami topik pembicaraan
  • Mendeteksi emosi dan konteks non-verbal
  • Memberikan analisis lengkap dalam ~1 menit

Ini bukan sekadar efisiensi ini adalah paradigma baru dalam pemrosesan multimodal.

Audio-Visual Vibe Coding: AI yang Bisa Belajar Coding dari Video

Salah satu fitur paling futuristik dari Qwen 3.5 Omni adalah Audio-Visual Vibe Coding.
Dengan fitur ini, AI dapat:

  • Menonton rekaman layar proses coding
  • Mendengarkan penjelasan programmer
  • Menghasilkan kode fungsional yang setara tanpa satu pun instruksi teks

Contoh penggunaan:

Seorang developer merekam dirinya membuat fitur login di React. Qwen 3.5 Omni menonton video tersebut, lalu menghasilkan kode lengkap dengan autentikasi JWT, validasi form, dan styling hanya dari input visual dan audio.

Ini membuka jalan bagi asisten AI yang benar-benar menyatu dalam alur kerja pengguna, bukan sekadar alat sampingan.

Dukungan 113 Bahasa & Performa Multibahasa Terbaik

Qwen 3.5 Omni mendukung pengenalan suara dalam 113 bahasa dan dialek, naik drastis dari 19 bahasa di generasi sebelumnya.

  • Mampu beralih bahasa di tengah percakapan tanpa kehilangan konteks
  • Unggul dalam benchmark stabilitas suara multibahasa dibanding ElevenLabs, GPT-Audio, dan Minimax
  • Akurat dalam menangani bahasa dengan struktur kompleks seperti Arab, Mandarin, dan Hindi
Halaman Selanjutnya
img_title