Pied Piper Beneran Ada! Google Luncurkan TurboQuant Hemat Memori 6x Lipat

Kamis, 26 Maret 2026 - 20:43 WIB

Oleh :

Olin Sianturi

Sumber :

Google

1. PolarQuant: Representasi Data yang Lebih Efisien
PolarQuant mengubah cara vektor dalam KV cache direpresentasikan dari ruang Euclidean ke ruang polar. Dengan pendekatan ini, data yang mirip dikelompokkan lebih rapat, sehingga bisa dikompresi lebih agresif tanpa kehilangan informasi penting.

Efisiensi Luar Biasa: Hemat Memori Hingga 6x Lipat

Menurut tim Google Research, TurboQuant mampu mengurangi penggunaan memori hingga 6 kali lipat dibanding metode konvensional tanpa penurunan signifikan pada akurasi atau kualitas respons.

Contoh konkret:

Model yang sebelumnya butuh 12 GB RAM untuk inferensi kini hanya butuh 2 GB.
Server AI bisa menangani 3–5x lebih banyak permintaan simultan dengan infrastruktur yang sama.
Perangkat mobile atau laptop bisa menjalankan model AI yang sebelumnya hanya mungkin di cloud.

CEO Cloudflare, Matthew Prince, bahkan menyebut peluncuran ini sebagai “momen DeepSeek” bagi Google merujuk pada model AI China yang mengejutkan dunia karena efisiensinya yang luar biasa meski dengan anggaran terbatas.

Apakah TurboQuant Bisa Atasi Krisis RAM AI Secara Keseluruhan?

Sayangnya, belum sepenuhnya.

TurboQuant hanya berfokus pada tahap inferensi, bukan training. Padahal, 80–90% konsumsi RAM dalam siklus hidup AI terjadi saat pelatihan model proses yang membutuhkan ribuan GPU dan ratusan terabyte memori berkecepatan tinggi.

Artinya:

TurboQuant tidak mengurangi biaya pelatihan.
Tidak menyelesaikan kelangkaan HBM (High Bandwidth Memory) yang digunakan di chip AI seperti NVIDIA H100.
Belum bisa mengatasi kenaikan harga DRAM global yang diprediksi berlanjut hingga 2030.

Namun, ini tetap langkah besar. Inferensi adalah tahap yang paling sering dijalankan setiap kali pengguna berinteraksi dengan AI, itulah inferensi. Dengan mengoptimalkannya, Google bisa:

Halaman Selanjutnya

Menurunkan biaya layanan AI seperti GeminiMemperluas akses AI ke perangkat low-endMengurangi jejak karbon data centerReaksi Industri dan Potensi Implementasi