Tag: Safety

OpenAI melatih GPT-Red untuk menyerang modelnya sendiri dalam skala besar (openai.com)

AI · baru saja · 16 Juli 2026
Lilian Weng: harness sama pentingnya dengan modelnya (lilianweng.github.io)

AI · 2 hari lalu · 13 Juli 2026
Claude punya ruang kerja internal, dan Anthropic membuat alat untuk membacanya (anthropic.com)

AI · 1 minggu lalu · 7 Juli 2026
AI kalahkan pembujuk manusia terlatih, tapi keunggulannya kecepatan, bukan retorika (importai.substack.com)

AI · 1 minggu lalu · 6 Juli 2026
Anthropic rancang skala keparahan untuk jailbreak AI (anthropic.com)

AI · 1 minggu lalu · 4 Juli 2026
DeepMind akan memperlakukan agent AI-nya sendiri sebagai ancaman dari dalam (deepmind.google)

AI · 3 minggu lalu · 21 Juni 2026
DeepMind memperlakukan agent AI yang melenceng seperti ancaman orang dalam (deepmind.google)

AI · 3 minggu lalu · 20 Juni 2026
OpenAI prediksi perilaku model dengan memutar ulang percakapan nyata (openai.com)

AI · 3 minggu lalu · 18 Juni 2026
Florida gugat OpenAI atas dampak terkait ChatGPT (techcrunch.com)

AI · 1 bulan lalu · 1 Juni 2026
Anthropic uji tool pengingat etika, klaim turunkan perilaku misaligned Claude (anthropic.com)

AI · 1 bulan lalu · 25 Mei 2026
Kapoor dan Narayanan tolak aturan AI luar biasa, dorong resiliensi gaya cybersecurity (normaltech.ai)

AI · 1 bulan lalu · 21 Mei 2026
OpenAI menandai gambar buatan AI-nya agar bisa dilacak (openai.com)

AI · 1 bulan lalu · 19 Mei 2026
Model default ChatGPT terbaru OpenAI lebih jarang berhalusinasi (openai.com)

AI · 1 bulan lalu · 18 Mei 2026
DeepMind menyusun cara mengukur kapan AI memanipulasi orang (deepmind.google)

AI · 3 bulan lalu · 26 Maret 2026
Reward Hacking: Kenapa Model yang Lebih Baik Makin Mengakali (lilianweng.github.io)

AI · 1 tahun lalu · 28 November 2024
Uji Tabrak GPT-4: Evaluasi Kapabilitas Berbahaya Pertama (asteriskmag.com)

AI · 3 tahun lalu · 1 Juni 2023
Peta Kubu-Kubu dalam Debat Keamanan AI (asteriskmag.com)

AI · 3 tahun lalu · 1 Juni 2023