Tag: Evaluation

Agent AI kini menuntaskan 16 persen pekerjaan freelance nyata, naik dari 2,5 (safe.ai)

AI · 20 jam lalu · 15 Juli 2026
Kenapa harga per satu juta token hampir tak berarti (janilowski.pl)

AI · 1 minggu lalu · 7 Juli 2026
Benchmark GeneBench-Pro ungkap AI masih lemah di analisis biologi nyata (openai.com)

AI · 1 minggu lalu · 5 Juli 2026
DSPy membongkar bug tersembunyi di prompt sebuah agent (simonwillison.net)

AI · 1 minggu lalu · 3 Juli 2026
Benchmark baru: agent membangun ulang software yang butuh berminggu-minggu kerja manusia (epoch.ai)

AI · 2 minggu lalu · 30 Juni 2026
Model open-weight GLM-5.2 ungguli Claude Code di tes bug kontrol akses (semgrep.dev)

Security · 2 minggu lalu · 29 Juni 2026
Perubahan API yang membantu model besar bisa merusak model kecil (huggingface.co)

AI · 3 minggu lalu · 21 Juni 2026
GLM-5.2 jadi model open-weight terkuat saat ini (artificialanalysis.ai)

AI · 3 minggu lalu · 18 Juni 2026
OpenAI prediksi perilaku model dengan memutar ulang percakapan nyata (openai.com)

AI · 3 minggu lalu · 18 Juni 2026
olmo-eval dari AI2 membawa standar statistik ke loop pengembangan model (huggingface.co)

AI · 1 bulan lalu · 13 Juni 2026
Claude bikin rsync lebih bug? Datanya bilang tidak (alexispurslane.github.io)

AI · 1 bulan lalu · 5 Juni 2026
Microsoft ASSERT mengubah spek perilaku berbahasa biasa menjadi tes AI (techcrunch.com)

Engineering · 1 bulan lalu · 4 Juni 2026
Riset Princeton bedah klaim Google soal agent AI yang bangun OS $916 (normaltech.ai)

AI · 1 bulan lalu · 30 Mei 2026
Benchmark baru menyuruh agent menambal Kubernetes, dan tak satu pun lulus (huggingface.co)

AI · 1 bulan lalu · 27 Mei 2026
Papan peringkat terbuka untuk sistem agent utuh, bukan cuma model (huggingface.co)

AI · 1 bulan lalu · 19 Mei 2026
Ai2 menyiapkan tolok ukur bersama untuk model cuaca AI (allenai.org)

AI · 1 bulan lalu · 18 Mei 2026
Open ASR Leaderboard tambah data rahasia untuk lawan kecurangan benchmark (huggingface.co)

AI · 1 bulan lalu · 18 Mei 2026
Menguji AI di dunia nyata, bukan cuma di benchmark (normaltech.ai)

AI · 1 bulan lalu · 17 Mei 2026
Pilihan benchmark menentukan apakah open model dianggap jauh tertinggal (interconnects.ai)

AI · 2 bulan lalu · 16 Mei 2026
Satu angka benchmark menyembunyikan pekerjaan apa yang benar-benar dikuasai model (interconnects.ai)

AI · 2 bulan lalu · 20 April 2026
DeepMind usulkan kerangka kognitif untuk mengukur kemajuan menuju AGI (blog.google)

AI · 4 bulan lalu · 17 Maret 2026
Uji Tabrak GPT-4: Evaluasi Kapabilitas Berbahaya Pertama (asteriskmag.com)

AI · 3 tahun lalu · 1 Juni 2023