Peta Sebastian Raschka soal inference-time scaling untuk reasoning

Engineering · 24 Januari 2026 · 3 bulan lalu · sumber (magazine.sebastianraschka.com)

Tulisan Sebastian Raschka ini sebuah peta, bukan manifesto. Ia menyortir cara training-free untuk menukar tambahan compute saat inference dengan jawaban yang lebih baik ke dalam enam kategori: chain-of-thought prompting, self-consistency, best-of-N ranking, rejection sampling dengan verifier, self-refinement, dan search over solution paths. Benang merahnya sederhana: tidak satu pun menyentuh bobot model, semuanya cuma menghabiskan lebih banyak waktu dan token saat soalnya sulit.

Jangkar konkretnya satu contoh kerja, ketika rangkaian teknik ini menaikkan akurasi model dasar dari sekitar 15 persen ke 52 persen lewat tuning ribuan run. Raschka menaruh tren ini berlatar OpenAI o1 sebagai model yang membuatnya jadi arus utama, dan mencatat penyedia besar kini memakai sebagian bentuknya. Artikel ini survei literatur terbaru, bukan intip ke implementasi vendor mana pun, dan ia jujur soal batas itu. Uraian lengkapnya di Ahead of AI.

Kenapa ini penting

Kalau kamu memutuskan ke mana budget compute dialirkan, ini kosakata untuk bernalar. Lompatan 15 ke 52 persen menunjukkan potensinya besar, tapi tiap kategori punya ongkos dan mode gagal berbeda. Menamainya adalah langkah pertama memilih dengan sengaja, bukan asal default.

LLM Architecture Reasoning