OpenAI o1 dan Awal Penalaran di Waktu Inferensi

AI · 12 September 2024 · 1 tahun lalu · sumber (openai.com)

OpenAI memperkenalkan o1 pada September 2024 sebagai model yang dilatih dengan reinforcement learning untuk menghasilkan chain of thought internal sebelum menjawab. Klaim yang penting menyangkut scaling. OpenAI menyebut performa o1 membaik baik dengan lebih banyak reinforcement learning saat training maupun dengan lebih banyak waktu berpikir saat inferensi, dan itu tuas yang berbeda dari sekadar memperbesar model dasar. Angka benchmark yang dilaporkan OpenAI tergolong kuat untuk masanya: o1 masuk kira-kira 500 siswa teratas pada kualifikasi matematika AIME, berada di persentil ke-89 pada pemrograman kompetitif Codeforces, dan melampaui akurasi manusia tingkat PhD pada GPQA, kumpulan soal sains pascasarjana. Model ini lebih lambat dan lebih mahal per jawaban, dan OpenAI cukup terus terang bahwa peningkatannya datang dengan ongkos latensi. Dalam hitungan bulan DeepSeek, Qwen, dan Google merilis model penalaran masing-masing yang mengejar ide yang sama.

Kenapa ini penting

Rilis ini membuka era model penalaran dan praktik membelanjakan lebih banyak compute saat inferensi, bukan hanya saat training. Kalau kamu memilih model atau merancang sistem, penalaran di waktu inferensi kini jadi tombol yang harus kamu anggarkan, dan o1 adalah titik tradeoff itu masuk produksi. Yang perlu dipahami adalah polanya, bukan model spesifiknya.

OpenAI Reasoning