Tülu 3 Membuka Resep Post-Training
Sebagian besar proses yang mengubah model pretrained mentah menjadi berguna terjadi di post-training, dan kebanyakan lab merahasiakan bagian itu. Tülu 3 dari Ai2, dirilis November 2024, membukanya. Keluarganya hadir di 8B dan 70B lengkap dengan data, campuran data, kode training, infrastruktur, dan kerangka evaluasi. Resepnya menggabungkan tiga tahap: supervised fine-tuning pada data instruksi kurasi dan sintetis, preference learning on-policy keluarga DPO, dan tahap reinforcement learning yang Ai2 sebut reinforcement learning dengan reward yang bisa diverifikasi. Bagian terakhir itu penting karena merupakan formalisasi publik awal dari pemakaian reward yang bisa diperiksa otomatis, untuk tugas seperti matematika dan kode yang jawabannya bisa diverifikasi, alih-alih model preferensi yang dipelajari. Ai2 juga merilis dataset keterampilan yang sudah didekontaminasi dan checkpoint antara supaya tiap tahap bisa dipelajari terpisah. Tulisan lengkapnya ada di blog Ai2.
Kenapa ini penting
Reinforcement learning dengan reward yang bisa diverifikasi menjadi inti gelombang model penalaran yang menyusul, dan Tülu 3 salah satu tempat pertama metode itu dan datanya dipaparkan terbuka. Kalau kamu mengerjakan post-training, ini resep yang berfungsi untuk dibandingkan, bukan menebak-nebak apa yang dilakukan lab tertutup.