Cara open model 2026 membeli efisiensi long-context tanpa mengecilkan diri

Engineering · 16 Mei 2026 · 1 hari lalu · sumber (magazine.sebastianraschka.com)

Ahead of AI terbaru dari Sebastian Raschka menelusuri bagaimana open model 2026 mengejar efisiensi long-context lewat perubahan arsitektur yang terarah, bukan dengan mengecilkan model. Padat, tapi beberapa mekanismenya layak diketahui.

Gemma 4 memakai ulang proyeksi key-value dari layer awal di layer berikutnya, memangkas KV cache sekitar separuh, kira-kira 6 GB hemat untuk model E4B di konteks 128K. Ia juga memakai per-layer embedding, sehingga varian E2B tercatat 2,3B parameter "efektif" dari total 5,1B sambil menjaga komputasi transformer tetap kecil. DeepSeek V4 cerita yang lebih besar. Manifold-constrained hyper-connections-nya mengganti satu residual stream dengan beberapa stream paralel hanya dengan tambahan 6,7 persen waktu training, dan skema compressed-attention-nya, CSA plus HCA yang lebih berat, menekan tajam ongkos long-context: pada 1 juta token, varian Pro cukup memakai 27 persen inference FLOPs dan 10 persen KV cache dibanding V3.2. Raschka jujur soal trade-off-nya, sebab kompresi sekuens yang lebih berat berisiko ke kualitas, dan itulah alasan model-model ini berganti-ganti mekanisme sambil mempertahankan cabang sliding-window. Uraian lengkapnya di Ahead of AI.

Kenapa ini penting

Kalau kamu men-serve atau fine-tuning open model, ini tombol-tombol yang menentukan tagihan memori di long-context. Angka DeepSeek V4 khususnya cukup konkret untuk dihitung terhadap deployment-mu sendiri sebelum model berikutnya memaksakan pilihan itu.

LLM Architecture Open Models