DeepSeek-R1: Model Terbuka Menyamai Penalar Tertutup
DeepSeek merilis R1 pada Januari 2025: model mixture-of-experts dengan 671B parameter total dan 37B aktif, dibangun di atas DeepSeek-V3-Base, dengan context 128K dan lisensi MIT yang mengizinkan pemakaian komersial dan turunan. Dua hasil membuatnya mendarat keras. Pertama soal metode. Varian bernama R1-Zero menunjukkan perilaku menalar bisa dibangkitkan murni lewat reinforcement learning, tanpa tahap supervised fine-tuning lebih dulu; R1 penuh lalu menambah sedikit data cold-start sebelum RL untuk merapikan keluaran. Kedua soal papan skor. DeepSeek melaporkan R1 di 79,8 persen pada AIME 2024 melawan 79,2 milik o1, dan 97,3 pada MATH-500 melawan 96,4, sambil tertinggal dari o1 pada rating Codeforces (2029 berbanding 2061) dan GPQA Diamond (71,5 berbanding 75,7). Kira-kira, ia menyamai penalar frontier tertutup pada matematika dan tetap dekat di sisanya. DeepSeek juga merilis enam model dense terdistilasi dari 1,5B sampai 70B, dengan distilasi 32B mengungguli o1-mini.
Kenapa ini penting
Model berlisensi terbuka mencapai level o1, plus bukti bahwa RL murni bisa menghasilkan penalaran, mengubah ekspektasi soal berapa banyak uang dan kerahasiaan yang dibutuhkan sebuah penalar frontier. Kalau kamu men-deploy model, distilasi 32B-nya adalah intinya: penalaran kuat yang bisa kamu jalankan sendiri.