DeepSeek-V4 menghabiskan anggaran desainnya agar konteks panjang benar-benar terpakai
Tulisan rilis DeepSeek menyodorkan argumen yang sering dilewati pengumuman context window: satu juta token itu kapasitas, dan bagian sulitnya adalah membuat kapasitas itu cukup murah sehingga agent benar-benar bisa memakainya sepanjang satu rangkaian tool-use yang panjang. V4 hadir dalam dua ukuran mixture-of-experts, Pro dengan 1,6 triliun parameter total dan 49 miliar aktif, serta Flash dengan 284 miliar total dan 13 miliar aktif, keduanya dengan konteks 1M.
Angka yang menarik soal biaya, bukan ukuran. Pada konteks 1M token, V4-Pro menjalankan inference per token pada 27 persen FLOPs generasi sebelumnya dan memakai sekitar 10 persen KV cache-nya, sedangkan Flash turun ke 7 persen, kira-kira 2 persen dari kebutuhan grouped-query attention standar. Itu datang dari menyelang-nyeling dua skema kompresi, compressed sparse attention 4x dan heavily compressed attention 128x, dengan penyimpanan FP8 untuk entri cache. Ada juga pilihan khusus agent: jejak penalaran dipertahankan melewati batas pesan saat ada tool call, sehingga chain of thought menumpuk sepanjang tugas multilangkah, bukan ulang dari nol tiap giliran. Di benchmark ia dekat frontier, dengan SWE Verified 80,6 terselesaikan melawan 80,8 milik Opus 4.6.
Kenapa ini penting
Kalau kamu membangun agent yang berjalan lama, angka cache dan FLOPs inilah spec yang perlu dibaca: keduanya menentukan apakah jendela sejuta token terjangkau di produksi, dan DeepSeek merilis resepnya sebagai open weight.