Xiaomi Pecahkan Rekor AI: 1.000 Token/detik dengan MiMo-V2.5-Pro!
- Xiaomi
1. FP4 Quantization pada Expert Layers
- Model MiMo-V2.5-Pro menggunakan arsitektur Mixture of Experts (MoE).
- Xiaomi menerapkan kuantisasi FP4 (4-bit floating point) hanya pada expert layers, bukan seluruh model.
- Teknik ini dipadukan dengan Quantization-Aware Training (QAT), sehingga kemampuan model tetap terjaga meski presisi dikurangi.
Hasil: ukuran model turun drastis, beban memori berkurang, tanpa kehilangan akurasi signifikan.
2. DFlash Speculative Decoding
- DFlash adalah teknik speculative decoding yang memprediksi blok token utuh dalam satu forward pass.
- Dalam tugas pemrograman, sistem mencapai rata-rata panjang penerimaan 6,30 token per prediksi jauh di atas metode konvensional.
Ini mengurangi jumlah iterasi inferensi, mempercepat output secara eksponensial.
3. TileRT Persistent-Core GPU Runtime
- TileRT mengembangkan runtime GPU khusus yang menggunakan inti persisten (persistent cores) dan pipa heterogen.
- Arsitektur ini menghilangkan overhead switching operator, memastikan GPU bekerja pada kapasitas penuh sepanjang waktu.
- Tidak ada idle cycle setiap siklus komputasi dimanfaatkan.
Yang mengejutkan: semua ini berjalan di server 8-GPU standar (kemungkinan besar NVIDIA A100/H100), tanpa ASIC, FPGA, atau chip khusus AI. Artinya, infrastruktur yang sudah dimiliki banyak perusahaan cukup untuk menjalankannya.
UltraSpeed API: 10x Lebih Cepat, Tapi 3x Lebih Mahal
Xiaomi menawarkan akses ke kecepatan ini melalui UltraSpeed API, dengan ketentuan:
- Harga: 3 kali lipat dari tarif standar MiMo-V2.5-Pro
- Kecepatan: ~10 kali lipat output per detik
Efisiensi biaya: Meski lebih mahal per permintaan, biaya per token justru lebih rendah karena throughput jauh lebih tinggi.
Bagi perusahaan yang mengandalkan volume inferensi tinggi, ini bisa berarti penghematan operasional signifikan terutama jika latensi adalah penghalang utama.
Uji Coba Terbatas: 9–23 Juni 2026
Xiaomi membuka uji coba terbatas mulai 9 hingga 23 Juni 2026, dengan syarat ketat:
- Akses berbasis aplikasi (bukan terbuka untuk umum)
- Prioritas untuk perusahaan dan pengembang profesional
- Fitur gratis: 2 minggu akses Chat dengan batasan:
- Maksimal 10 antrian per akun/hari
- Sesi maksimal 30 menit
- Sesi otomatis berakhir setelah 5 menit idle
- Tidak mendukung TokenPlan hanya akses API trial
Tujuan uji coba ini jelas: mengumpulkan umpan balik dari pengguna enterprise sebelum peluncuran komersial penuh.