Tag: Safety
-
DeepMind menyusun cara mengukur kapan AI memanipulasi orang (deepmind.google)AI · · 26 Maret 2026
-
Reward Hacking: Kenapa Model yang Lebih Baik Makin Mengakali (lilianweng.github.io)AI · · 28 November 2024
-
Uji Tabrak GPT-4: Evaluasi Kapabilitas Berbahaya Pertama (asteriskmag.com)AI · · 1 Juni 2023
-
Peta Kubu-Kubu dalam Debat Keamanan AI (asteriskmag.com)AI · · 1 Juni 2023