Xiaomi Pecahkan Rekor AI: 1.000 Token/detik dengan MiMo-V2.5-Pro!

Xiaomi Pecahkan Rekor AI: 1.000 Token/detik dengan MiMo-V2.5-Pro!
Sumber :
  • Xiaomi

Gadget – Selama ini, Xiaomi dikenal sebagai raksasa smartphone dan produsen skuter listrik. Tapi hari ini, perusahaan asal Tiongkok itu mengguncang dunia kecerdasan buatan (AI) dengan pencapaian yang nyaris mustahil: inferensi model AI berparameter 1 triliun dengan kecepatan lebih dari 1.000 token per detik dan semua itu dijalankan hanya dengan server komoditas 8-GPU standar, tanpa chip khusus atau infrastruktur eksotis.

img_title HoYoverse Kucurkan Rp230 Triliun Untuk Integrasi AI Di Game Masa Depan

Bekerja sama dengan mitra inferensi TileRT, Xiaomi meluncurkan MiMo-V2.5-Pro, versi terbaru dari keluarga model besar MiMo (Mi Mixture-of-experts). Dalam demo internal, model ini mencapai puncak 1.200 token per detik, menjadikannya model pertama di dunia yang menembus ambang 1.000 token/detik pada skala triliunan parameter tanpa bergantung pada perangkat keras proprietary seperti Google TPU atau NVIDIA Blackwell khusus.

Pencapaian ini bukan sekadar angka impresif ia membuka pintu bagi aplikasi AI real-time yang sebelumnya dianggap tidak layak secara teknis atau ekonomis.

img_title HarmonyOS 7 Resmi Hadir: Liquid Glass UI, AI Agentic & Performa Naik 15%

Artikel ini mengupas tuntas bagaimana Xiaomi melakukannya, mengapa kecepatan ini revolusioner, siapa yang bisa mencobanya, dan apa implikasinya bagi masa depan AI global.

Mengapa 1.000 Token per Detik Itu Revolusioner?

img_title HP Spek Rendah Bisa AI Sekarang? Google Resmi Bawa Gemini ke HP Kentang!

Untuk memahami signifikansi angka ini, bandingkan dengan model AI terkemuka saat ini:

  • Claude Opus 4.6: ~71 token/detik
  • Claude Haiku: ~98 token/detik
  • Gemini Flash: ~192 token/detik

Sementara itu, MiMo-V2.5-Pro dalam mode UltraSpeed berjalan di atas 1.000 token/detik artinya 5 hingga 14 kali lebih cepat dari pesaing terdekat.

Kecepatan ini bukan hanya soal “respons lebih cepat”. Ia mengubah kelayakan teknis dari seluruh kelas aplikasi AI:

  • Deteksi penipuan real-time dalam transaksi keuangan
  • Sinyal perdagangan otomatis berbasis analisis pasar mikrodetik
  • Rantai penalaran paralel untuk simulasi kompleks
  • Loop multi-agent AI yang berinteraksi dalam waktu nyata

Semua kasus ini memiliki batas latensi keras biasanya di bawah 100 milidetik. Dengan kecepatan 70 token/detik, sistem tidak mampu menyelesaikan tugas dalam jendela waktu tersebut. Tapi dengan 1.000+ token/detik, batas itu akhirnya bisa dilewati.

Rahasia di Balik Kecepatan: Tiga Lapisan Inovasi Teknis

Xiaomi dan TileRT tidak mencapai angka ini dengan satu trik ajaib, melainkan tiga lapisan optimasi yang saling melengkapi:

Halaman Selanjutnya
img_title