Peta varian attention yang benar-benar dipakai LLM modern
Visual guide Sebastian Raschka berguna karena tiap varian attention dikaitkan ke trade-off nyata sekaligus model yang memakainya. Multi-head attention polos jadi baseline GPT-2 dan OLMo: akurat, tapi berat di KV cache. Grouped-query attention, yang dipakai Llama 3, Qwen3, dan Gemma 3, berbagi proyeksi key-value antar query head untuk memangkas memori itu dengan sedikit perubahan lain. Multi-head latent attention, di DeepSeek V3, Kimi K2, dan GLM-5, mengompres isi cache dan menjaga kualitas lebih baik di atas 100B parameter.
Sisanya soal pertarungan long-context. Sliding window attention, dipakai Gemma 3 dengan rasio lokal ke global 5:1, membatasi tiap token ke konteks terdekat demi efisiensi besar dengan ongkos kualitas kecil. DeepSeek Sparse Attention belajar sendiri token lampau mana yang penting alih-alih memakai window tetap. Desain hybrid seperti Qwen3-Next dan Kimi Linear menukar mayoritas layer attention dengan blok linear atau state-space yang lebih murah, lalu menyisakan beberapa layer full-attention untuk retrieval. Panduan lengkapnya di Ahead of AI.
Kenapa ini penting
Kalau kamu memilih atau fine-tuning open model, ini kunci membaca spec sheet. Tahu sebuah model memakai MLA atau sliding window lebih memberi tahu soal ongkos dan kualitas long-context-nya ketimbang sekadar jumlah parameter.