Tag: Evaluation
-
Menguji AI di dunia nyata, bukan cuma di benchmark (normaltech.ai)AI · · 17 Mei 2026
-
Pilihan benchmark menentukan apakah open model dianggap jauh tertinggal (interconnects.ai)AI · · 16 Mei 2026
-
Satu angka benchmark menyembunyikan pekerjaan apa yang benar-benar dikuasai model (interconnects.ai)AI · · 20 April 2026
-
AI · · 17 Maret 2026
-
Uji Tabrak GPT-4: Evaluasi Kapabilitas Berbahaya Pertama (asteriskmag.com)AI · · 1 Juni 2023