Xiaomi Pecahkan Rekor AI: 1.000 Token/detik dengan MiMo-V2.5-Pro!

Rabu, 10 Juni 2026 - 00:22 WIB

Oleh :

Olin Sianturi

Sumber :

Xiaomi

Gadget – Selama ini, Xiaomi dikenal sebagai raksasa smartphone dan produsen skuter listrik. Tapi hari ini, perusahaan asal Tiongkok itu mengguncang dunia kecerdasan buatan (AI) dengan pencapaian yang nyaris mustahil: inferensi model AI berparameter 1 triliun dengan kecepatan lebih dari 1.000 token per detik dan semua itu dijalankan hanya dengan server komoditas 8-GPU standar, tanpa chip khusus atau infrastruktur eksotis.

Baca Juga

HoYoverse Kucurkan Rp230 Triliun Untuk Integrasi AI Di Game Masa Depan

Bekerja sama dengan mitra inferensi TileRT, Xiaomi meluncurkan MiMo-V2.5-Pro, versi terbaru dari keluarga model besar MiMo (Mi Mixture-of-experts). Dalam demo internal, model ini mencapai puncak 1.200 token per detik, menjadikannya model pertama di dunia yang menembus ambang 1.000 token/detik pada skala triliunan parameter tanpa bergantung pada perangkat keras proprietary seperti Google TPU atau NVIDIA Blackwell khusus.

Pencapaian ini bukan sekadar angka impresif ia membuka pintu bagi aplikasi AI real-time yang sebelumnya dianggap tidak layak secara teknis atau ekonomis.

Mengapa 1.000 Token per Detik Itu Revolusioner?

Baca Juga

HP Spek Rendah Bisa AI Sekarang? Google Resmi Bawa Gemini ke HP Kentang!

Untuk memahami signifikansi angka ini, bandingkan dengan model AI terkemuka saat ini:

Claude Opus 4.6: ~71 token/detik
Claude Haiku: ~98 token/detik
Gemini Flash: ~192 token/detik

Sementara itu, MiMo-V2.5-Pro dalam mode UltraSpeed berjalan di atas 1.000 token/detik artinya 5 hingga 14 kali lebih cepat dari pesaing terdekat.

Kecepatan ini bukan hanya soal “respons lebih cepat”. Ia mengubah kelayakan teknis dari seluruh kelas aplikasi AI:

Deteksi penipuan real-time dalam transaksi keuangan
Sinyal perdagangan otomatis berbasis analisis pasar mikrodetik
Rantai penalaran paralel untuk simulasi kompleks
Loop multi-agent AI yang berinteraksi dalam waktu nyata

Semua kasus ini memiliki batas latensi keras biasanya di bawah 100 milidetik. Dengan kecepatan 70 token/detik, sistem tidak mampu menyelesaikan tugas dalam jendela waktu tersebut. Tapi dengan 1.000+ token/detik, batas itu akhirnya bisa dilewati.