Tag: Reinforcement Learning
-
Perbaiki mesin inference dulu sebelum menambal objektif RL (huggingface.co)Engineering · · 6 Mei 2026
-
Reward Hacking: Kenapa Model yang Lebih Baik Makin Mengakali (lilianweng.github.io)AI · · 28 November 2024