Peneliti MIT Temukan Trik Rahasia: Manfaatkan Waktu Idle GPU untuk Percepat AI!

Sabtu, 28 Februari 2026 - 11:40 WIB

Oleh :

Olin Sianturi

Sumber :

Gadget – Pelatihan Large Language Model (LLM) selama ini dikenal sebagai proses yang sangat mahal, lambat, dan boros energi. Banyak perusahaan berlomba membeli ribuan GPU demi mempercepat proses tapi ternyata, masalah utamanya bukan kurangnya hardware, melainkan cara menggunakannya.

Masalah Tersembunyi di Balik Pelatihan LLM: “Long-Tail” yang Membunuh Efisiensi

Saat melatih LLM berbasis reinforcement learning (RL) terutama yang fokus pada kemampuan reasoning seperti menjawab soal matematika atau logika ada satu tahap yang sangat menyita waktu: rollout phase.

Di fase ini, model menghasilkan banyak respons kandidat untuk mengevaluasi mana yang paling optimal. Namun, panjang respons tersebut tidak seragam. Sebagian besar selesai dalam hitungan milidetik, tapi segelintir respons jauh lebih panjang seperti ekor panjang (long tail) dalam distribusi statistik.

Masalahnya? GPU harus menunggu semua proses selesai sebelum melanjutkan. Artinya, GPU yang sudah selesai lebih awal terpaksa diam menunggu “penunggak” yang lambat. Dalam beberapa kasus, 85% waktu eksekusi habis hanya untuk menunggu.

Ini bukan sekadar inefisiensi kecil. Pada skala pelatihan industri yang bisa berlangsung berminggu-minggu waktu idle ini berubah menjadi jutaan dolar biaya listrik dan kesempatan yang terbuang.

Solusi Cerdas: Taming the Long Tail (TLT)

Alih-alih membiarkan GPU menganggur, tim MIT menciptakan TLT: sistem yang menggunakan waktu idle tersebut untuk melatih model cadangan (draft model) secara real-time.

Bagaimana TLT Bekerja?

Halaman Selanjutnya

Selama rollout, GPU yang selesai lebih awal tidak diam.Mereka langsung melatih model draft ringan menggunakan data dari model utama.Model draft ini terus diperbarui seiring perkembangan model utama.Saat dibutuhkan, draft model ini digunakan dalam teknik speculative decoding menebak token berikutnya agar model utama bisa memverifikasi beberapa token sekaligus.