Satu angka benchmark menyembunyikan pekerjaan apa yang benar-benar dikuasai model
Argumen Nathan Lambert dalam esai ini: meringkas pertanyaan open lawan closed menjadi satu angka benchmark membuang satu-satunya informasi yang berguna, yaitu kemampuan spesifik apa yang kuat di sebuah model. Benchmark berkorelasi lemah dengan perilaku model setelah dipakai, dan fokus evaluasi di lapangan bergeser tiap dua belas sampai delapan belas bulan, jadi skor tunggal apa pun diukur di atas sasaran yang bergerak.
Contoh paling tajamnya adalah Gemini 3, yang mencetak benchmark sangat baik tapi, tulisnya, nyaris tak relevan dalam deployment agent, justru tempat alat ini benar-benar dipakai. Ia juga menelusuri perpindahan pusat gravitasi: dari chat dan matematika tepat setelah ChatGPT, ke coding dan tugas agentic, lalu kini ke kerja pengetahuan khusus di akuntansi, hukum, dan kesehatan. Masalahnya, data untuk memperbaiki model di ranah baru itu makin tertutup, beda dengan kode GitHub publik yang dulu mendorong kemajuan coding, sehingga evaluasi yang jujur jadi persoalan riset tersendiri.
Tulisan ini koreksi yang berguna terhadap refleks melihat leaderboard, tanpa berpura-pura benchmark tidak ada gunanya.
Kenapa ini penting
Kalau kamu membandingkan model untuk kerja nyata, bangun evaluasi sendiri yang spesifik pada tugasmu: skor publik makin menjauh dari kerja khusus dan tertutup tempat model kini bersaing, dan angka utama bisa menuntunmu memilih model yang keliru.