Peneliti MIT Temukan Cara Gandakan Kecepatan Pelatihan AI

Sabtu, 28 Februari 2026 - 08:56 WIB

Oleh :

Olin Sianturi

Sumber :

Istimewa

Baca Juga

Asus ROG GM700TZ Rilis di RI: PC Gaming Monster Ryzen & Radeon

Biaya pelatihan model bahasa besar (LLM) kini sangat mahal dan menguras sumber daya energi yang masif. Peneliti dari MIT bersama Nvidia baru saja menemukan solusi praktis untuk mengoptimalkan kecepatan pelatihan AI dengan memanfaatkan waktu tunggu GPU. Teknik baru ini mampu memangkas waktu eksekusi hampir setengahnya dengan cara yang sangat efisien.

Terobosan ini berfokus pada fase "rollout" dalam reinforcement learning (RL). Pada tahap ini, model menghasilkan berbagai kandidat respons untuk mempelajari perilaku yang lebih baik. Namun, proses ini seringkali menjadi penghambat utama karena menghabiskan hingga 85% dari total waktu eksekusi.

Masalah "Long Tail" pada Performa GPU

Masalah utama dalam pelatihan model canggih terletak pada distribusi panjang respons yang tidak merata atau long-tail distribution. Sebagian besar respons selesai dengan cepat, namun beberapa respons membutuhkan waktu jauh lebih lama. Kondisi ini memaksa GPU yang bekerja cepat untuk berhenti dan menunggu GPU yang lebih lambat agar tetap sinkron.

Waktu menganggur atau idle time inilah yang menjadi sasaran tim peneliti MIT. Mereka memperkenalkan metode bernama Taming the Long Tail (TLT). Alih-alih membiarkan unit pemrosesan terdiam, TLT menggunakan sumber daya tersebut untuk melatih model "draft" ringan secara langsung di tengah proses pelatihan berlangsung.

Inovasi Speculative Decoding yang Dinamis

Teknik TLT ini mengandalkan konsep speculative decoding. Dalam metode tradisional, model kecil (draft) memprediksi token lebih awal agar model utama dapat memverifikasi beberapa token sekaligus secara paralel. Namun, model draft statis biasanya cepat usang saat model utama terus berevolusi selama proses RL.

TLT mengubah dinamika tersebut dengan melatih ulang model draft secara oportunistik menggunakan sumber daya yang menganggur. Hal ini memastikan model draft selalu selaras dengan model utama tanpa memerlukan biaya komputasi tambahan. Sistem ini secara cerdas mengubah waktu tunggu yang sia-sia menjadi sesi pelatihan produktif bagi model pendukung.

Halaman Selanjutnya

Dampak Efisiensi Komputasi Masa Depan