Tag: Reinforcement Learning

Satu layer transformer bisa menyamai RL fine-tuning penuh (arxiv.org)

AI · 1 minggu lalu · 3 Juli 2026
Resep post-training model frontier kian rumit, dan distillation kini jadi pusatnya (interconnects.ai)

AI · 3 minggu lalu · 20 Juni 2026
OpenEnv ingin memberi stack agent open satu ABI environment bersama (huggingface.co)

AI · 1 bulan lalu · 9 Juni 2026
Async RL jadi murah dikirim saat 99% bobot model tidak berubah (huggingface.co)

AI · 1 bulan lalu · 27 Mei 2026
Perbaiki mesin inference dulu sebelum menambal objektif RL (huggingface.co)

Engineering · 2 bulan lalu · 6 Mei 2026
Reward Hacking: Kenapa Model yang Lebih Baik Makin Mengakali (lilianweng.github.io)

AI · 1 tahun lalu · 28 November 2024