Menguji AI di dunia nyata, bukan cuma di benchmark
Tim berisi 17 peneliti yang dipimpin Sayash Kapoor dan Arvind Narayanan meluncurkan CRUX, singkatan dari Collaborative Research for Updating AI eXpectations, untuk menguji model frontier seperti cara model itu benar-benar dipakai, bukan lewat benchmark tetap. Inti argumennya: tes standar sudah kehabisan ruang. SWE-Bench, ARC-AGI, dan rangkaian time-horizon dari METR sudah jenuh atau dibangun ulang, dan banyak platform evaluasi sekaligus jadi target training reinforcement learning, sehingga skor tinggi makin sulit dipercaya.
Eksperimen utamanya gamblang. Memakai Claude Opus 4.6 dalam sebuah agent scaffold, tim menyuruh model membangun aplikasi latihan pernapasan sederhana dan membawanya menembus tinjauan App Store Apple. Agent itu menulis kode, menyusun kebijakan privasi, dan mengisi formulir kepatuhan. Pengembangan memakan sekitar 45 menit dan kira-kira 25 dolar untuk panggilan model, meski pemantauan selama sepuluh hari masa tinjauan mendorong total biaya mendekati 1.000 dolar. Model membuat dua kesalahan, butuh satu langkah manual di luar yang diwajibkan Apple, dan sempat menulis ulang pendekatannya sendiri hingga biaya jalan turun dari 35 dolar per jam ke 3 dolar. Aplikasinya kini tayang. Para peneliti memberi tahu tim keamanan Apple sebulan sebelumnya, memperingatkan bahwa spammer bisa segera mengirim aplikasi dalam skala seperti ini.
Tulisan yang terbit di situs AI as Normal Technology ini juga meninjau sepuluh eksperimen dunia nyata lain dan menyodorkan aturan praktis: nyatakan apa yang diukur, catat semua log, awasi agent secara langsung, dan laporkan biaya bersama kemampuan.
Kenapa ini penting
Kalau kamu mengambil keputusan dari skor benchmark model, ini pengingat bahwa benchmark yang sudah jenuh bisa menyembunyikan apa yang sebenarnya sanggup dilakukan agent dari ujung ke ujung, jadi uji di alur kerjamu sendiri yang berantakan sebelum percaya hype maupun cibiran.