Pilihan benchmark menentukan apakah open model dianggap jauh tertinggal

AI · 16 Mei 2026 · 1 hari lalu · sumber (interconnects.ai)

Center for AI Standards and Innovation menerbitkan evaluasi yang menyimpulkan open model tertinggal dari frontier Amerika dan jaraknya melebar seiring waktu. Florian Brand dan Nathan Lambert membaca angka di baliknya dan menemukan kesimpulan utama itu sangat bergantung pada tiga tes tempat DeepSeek V4 berskor buruk: CTF-Archive-Diamond, PortBench, dan ARC-AGI-2. Bertumpu pada itu, jaraknya tampak besar. Pakai metrik ECI dari Epoch AI, jaraknya tetap sekitar tiga sampai tujuh bulan di belakang sejak R1, cerita yang sangat berbeda.

Tulisan ini juga menyisir gelombang rilis open terbaru: Gemma 4 dalam beberapa ukuran, DeepSeek-V4 varian Flash dan Pro, Kimi-K2.6, MiMo-V2.5-Pro, dan GLM-5.1. Pola yang mereka tarik: benchmark coding yang dijalankan tanpa harness pengembangan yang dipakai saat model dilatih cenderung meremehkan kemampuan nyata, jadi pilihan metodologi, bukan sekadar mutu model, yang menggeser kesimpulan.

Nilai tulisan ini ada pada auditnya. Alih-alih mengulang simpulan resmi, keduanya menunjukkan benchmark mana yang menopangnya dan apa yang berubah saat alat ukurnya diganti.

Kenapa ini penting

Kalau sebuah hasil benchmark hampir dipakai untuk keputusan pengadaan atau kebijakan, periksa dulu tes mana yang menghasilkannya: model yang sama bisa tampak mandek atau hampir setara tergantung metrik, dan pilihan itu kini ikut menentukan penilaian pemerintah.

Open Models Evaluation