Peneliti MIT Temukan Trik Rahasia: Manfaatkan Waktu Idle GPU untuk Percepat AI!
- Ist
Gadget – Pelatihan Large Language Model (LLM) selama ini dikenal sebagai proses yang sangat mahal, lambat, dan boros energi. Banyak perusahaan berlomba membeli ribuan GPU demi mempercepat proses tapi ternyata, masalah utamanya bukan kurangnya hardware, melainkan cara menggunakannya.
Kini, tim peneliti dari MIT, bekerja sama dengan NVIDIA dan mitra lainnya, telah menemukan cara revolusioner untuk memotong waktu pelatihan hingga hampir separuhnya tanpa menambah satu pun GPU. Caranya?
Memanfaatkan waktu “nganggur” yang selama ini terbuang sia-sia.
Teknologi baru ini disebut Taming the Long Tail (TLT), dan hasil eksperimennya mengejutkan: peningkatan kecepatan pelatihan antara 70% hingga 210%, dengan akurasi model tetap utuh. Bahkan, sistem ini menghasilkan bonus tak terduga: model cadangan yang bisa digunakan untuk inferensi cepat.
Artikel ini mengupas tuntas masalah yang dipecahkan, cara kerja TLT, dampaknya terhadap industri AI, dan mengapa pendekatan ini mewakili masa depan efisiensi komputasi.
Masalah Tersembunyi di Balik Pelatihan LLM: “Long-Tail” yang Membunuh Efisiensi
Saat melatih LLM berbasis reinforcement learning (RL) terutama yang fokus pada kemampuan reasoning seperti menjawab soal matematika atau logika ada satu tahap yang sangat menyita waktu: rollout phase.
Di fase ini, model menghasilkan banyak respons kandidat untuk mengevaluasi mana yang paling optimal. Namun, panjang respons tersebut tidak seragam. Sebagian besar selesai dalam hitungan milidetik, tapi segelintir respons jauh lebih panjang seperti ekor panjang (long tail) dalam distribusi statistik.
Masalahnya? GPU harus menunggu semua proses selesai sebelum melanjutkan. Artinya, GPU yang sudah selesai lebih awal terpaksa diam menunggu “penunggak” yang lambat. Dalam beberapa kasus, 85% waktu eksekusi habis hanya untuk menunggu.
Ini bukan sekadar inefisiensi kecil. Pada skala pelatihan industri yang bisa berlangsung berminggu-minggu waktu idle ini berubah menjadi jutaan dolar biaya listrik dan kesempatan yang terbuang.
Solusi Cerdas: Taming the Long Tail (TLT)
Alih-alih membiarkan GPU menganggur, tim MIT menciptakan TLT: sistem yang menggunakan waktu idle tersebut untuk melatih model cadangan (draft model) secara real-time.
Bagaimana TLT Bekerja?