Pied Piper Beneran Ada! Google Luncurkan TurboQuant Hemat Memori 6x Lipat
1. PolarQuant: Representasi Data yang Lebih Efisien
PolarQuant mengubah cara vektor dalam KV cache direpresentasikan dari ruang Euclidean ke ruang polar. Dengan pendekatan ini, data yang mirip dikelompokkan lebih rapat, sehingga bisa dikompresi lebih agresif tanpa kehilangan informasi penting.
Hasilnya? Akurasi model tetap stabil, meski ukuran memori berkurang drastis.
2. Quantization-aware Joint Learning (QJL)
Ini adalah bagian paling cerdas dari TurboQuant. Alih-alih mengompresi model setelah dilatih, QJL melatih model sejak awal dengan kesadaran bahwa datanya akan dikuantisasi.
Bayangkan seperti ini:
“Jika kamu tahu nanti fotomu akan dikompresi JPEG, kamu akan menggambar dengan garis yang lebih tegas agar tetap jelas setelah dikompres.”
Begitu pula dengan AI QJL membuat model belajar beradaptasi dengan kompresi, sehingga output akhir tetap presisi.
Efisiensi Luar Biasa: Hemat Memori Hingga 6x Lipat
Menurut tim Google Research, TurboQuant mampu mengurangi penggunaan memori hingga 6 kali lipat dibanding metode konvensional tanpa penurunan signifikan pada akurasi atau kualitas respons.
Contoh konkret:
- Model yang sebelumnya butuh 12 GB RAM untuk inferensi kini hanya butuh 2 GB.
- Server AI bisa menangani 3–5x lebih banyak permintaan simultan dengan infrastruktur yang sama.
- Perangkat mobile atau laptop bisa menjalankan model AI yang sebelumnya hanya mungkin di cloud.
CEO Cloudflare, Matthew Prince, bahkan menyebut peluncuran ini sebagai “momen DeepSeek” bagi Google merujuk pada model AI China yang mengejutkan dunia karena efisiensinya yang luar biasa meski dengan anggaran terbatas.
Apakah TurboQuant Bisa Atasi Krisis RAM AI Secara Keseluruhan?
Sayangnya, belum sepenuhnya.
TurboQuant hanya berfokus pada tahap inferensi, bukan training. Padahal, 80–90% konsumsi RAM dalam siklus hidup AI terjadi saat pelatihan model proses yang membutuhkan ribuan GPU dan ratusan terabyte memori berkecepatan tinggi.
Artinya:
- TurboQuant tidak mengurangi biaya pelatihan.
- Tidak menyelesaikan kelangkaan HBM (High Bandwidth Memory) yang digunakan di chip AI seperti NVIDIA H100.
- Belum bisa mengatasi kenaikan harga DRAM global yang diprediksi berlanjut hingga 2030.
Namun, ini tetap langkah besar. Inferensi adalah tahap yang paling sering dijalankan setiap kali pengguna berinteraksi dengan AI, itulah inferensi. Dengan mengoptimalkannya, Google bisa: