Benchmark baru menyuruh agent menambal Kubernetes, dan tak satu pun lulus

AI · 27 Mei 2026 · 1 bulan lalu · sumber (huggingface.co)

Artificial Analysis dan IBM Research merilis ITBench-AA, benchmark yang menyuruh model frontier berperan sebagai SRE on-call dan mencari akar masalah insiden Kubernetes dari log, alert, trace, metrik, sampai topologi. Tugasnya konkret: baca seperti apa kondisi cluster saat gagal, serahkan diagnosis berstruktur JSON, dan dapat poin hanya kalau semua penyebab benar tertangkap tanpa menambahkan yang bukan-bukan. Dataset berisi 59 insiden (40 publik, 19 ditahan), dijalankan di harness open source Stirrup dengan akses shell ter-sandbox dan batas 100 turn. Skornya pakai average precision at full recall, jadi melewatkan satu saja penyebab membuat skor tugas itu jatuh ke nol.

Angka utamanya: tidak ada model yang lewat 50%. Claude Opus 4.7 di puncak dengan 47% (sekitar $5,38 per tugas pada mode Max Effort), GPT-5.5 menyusul 46%, dan Qwen3.7 Max 42%. Di sisi open weight, GLM-5.1 dan Gemini 3.5 Flash sama-sama 40%, DeepSeek V4 Pro 38%, dan Gemma 4 31B 37% dengan biaya $0,14 per tugas, yang menjadikannya pilihan terbaik dari sisi rasio biaya-performa. Temuan yang lebih menarik tersembunyi di hitungan turn. Gemini 3.1 Pro Preview rata-rata 83 turn dan hanya 30%; Gemma 4 31B pakai lebih sedikit turn dan justru skornya lebih tinggi. Investigasi yang kepanjangan cenderung memunculkan false positive seperti controller chaos-mesh atau mekanisme upstream, dan itu menggerus skor precision.

Benchmark ini sengaja dibuat sulit dijenuhkan: ada tugas held-out dan skoring yang ketat. Leaderboard, harness, dan dataset semuanya publik, jadi tim bisa menjalankan model sendiri dengan protokol yang sama tanpa harus percaya klaim vendor.

Kenapa ini penting

Buat tim yang lagi menimbang AI untuk respons insiden, ini benchmark pertama yang tidak akan memberi nilai gampang ke model yang kamu pertimbangkan. Baca kolom biaya berbarengan dengan kolom skor: model $0,14 yang mengalahkan model $2 di tugas SRE yang sama itu cerita sebenarnya, bukan angka tertinggi di puncak leaderboard.

Evaluation Agents Hugging Face