Qwen3 Menaruh Penalaran di Sebuah Sakelar

AI · 29 April 2025 · 1 tahun lalu · sumber (qwenlm.github.io)

Tim Qwen dari Alibaba merilis Qwen3 pada April 2025 sebagai lini lengkap di bawah lisensi Apache 2.0: model dense dari 0,6B sampai 32B, plus dua model mixture-of-experts, Qwen3-30B-A3B dengan 3B parameter aktif dan andalan Qwen3-235B-A22B dengan 22B aktif. Model ini dipretrain dengan sekitar 36 triliun token di 119 bahasa, kira-kira dua kali data Qwen2.5. Pilihan desain yang menonjol adalah satu model dengan mode berpikir dan non-berpikir yang bisa diganti plus anggaran berpikir yang bisa diatur, jadi kamu menentukan per permintaan seberapa banyak model menalar sebelum menjawab, bukan menjalankan model penalaran terpisah. Qwen menyebut andalan 235B-nya bersaing dengan DeepSeek-R1, OpenAI o1 dan o3-mini, Grok-3, serta Gemini 2.5 Pro, dan mengatakan Qwen3-30B-A3B yang kecil mengungguli QwQ-32B lama sambil mengaktifkan sekitar sepersepuluh parameter. Ini angka dari labnya sendiri, jadi jadikan titik awal untuk pengujianmu.

Kenapa ini penting

Lisensi longgar di rentang ukuran yang lebar membuat Qwen3 mudah jadi default terbuka, dan melipat penalaran menjadi sakelar per permintaan adalah pola praktis: kamu membayar berpikir hanya saat tugas memerlukannya, dengan satu model yang di-deploy, bukan dua.

Open Models Qwen