Perbaiki mesin inference dulu sebelum menambal objektif RL

Engineering · 6 Mei 2026 · 1 minggu lalu · sumber (huggingface.co)

Tulisan ServiceNow adalah kisah debugging yang cermat dengan pelajaran tajam. Memindahkan setup PipelineRL mereka dari vLLM 0.8.5 ke 0.18.1 merusak training: clip rate, KL divergence, entropy, dan reward semuanya melenceng dari referensi yang sudah teruji dalam langkah-langkah awal. Penyebabnya bukan algoritmanya, melainkan logprob yang dikembalikan mesin inference, yang dipakai trainer untuk menghitung policy ratio.

Mereka menemukan empat masalah terpisah. Versi baru mengembalikan logprob mentah sebelum pemrosesan temperature dan top-k/top-p, sementara trainer mengharapkan yang sudah diproses. Sejumlah default runtime berubah diam-diam. Invalidasi cache saat update bobot in-flight berperilaku berbeda. Dan layer proyeksi akhir berjalan di bawah fp32, cukup untuk menggeser logit secara kasatmata begitu melewati policy ratio dan KL. Setelah masing-masing diperbaiki, termasuk memaksa fp32 pada lm_head dan menyetel logprob ke mode processed, run yang di-upgrade kembali mengikuti referensi. Kesimpulan yang mereka tarik sama dengan judulnya: perbaiki kebenaran sisi inference sebelum menambahkan kompensasi sisi objektif seperti importance reweighting, sebab tambalan itu bisa menyembunyikan backend yang rusak dan membuat dinamika training mustahil dibaca.

Kenapa ini penting

Kalau kamu menjalankan online RL, ini pengingat konkret bahwa upgrade engine adalah bagian dari permukaan kebenaranmu: presisi numerik di logprob bukan detail performa, dan trik objektif di atas backend rusak akan menyesatkanmu.

Inference Reinforcement Learning