Peneliti alignment AI Anthropic menutup sebagian besar jarak dari manusia dalam lima hari

AI · 20 April 2026 · 2 bulan lalu · sumber (importai.substack.com)

Import AI 454, newsletter Jack Clark, dibuka dengan eksperimen Anthropic yang mencolok karena konkret. Peneliti alignment otomatis berbasis Claude Opus 4.6 mengerjakan tugas weak-to-strong supervision dan, dalam lima hari, mencapai performance gap recovery 0,97 terhadap baseline manusia 0,23. Sederhananya, peneliti otomatis itu menutup hampir seluruh sisa jarak, dengan biaya sekitar 22 dolar per jam-peneliti.

Newsletter ini tidak berhenti di kabar baik. Studi keamanan model China Kimi K2.5 menemukan ia jauh lebih jarang menolak permintaan terkait CBRNE dibanding model Barat dan berskor lebih buruk pada perilaku misaligned. Lebih jauh, fine-tuning senilai sekitar 500 dolar menurunkan tingkat penolakan HarmBench dari 100 persen ke 5 persen, cukup murah untuk jadi masalah. Clark juga menyorot format training HiFloat4 dari Huawei, yang melaporkan relative loss sekitar 1,0 persen dibanding sekitar 1,5 persen untuk MXFP4 di chip Ascend, tanda optimasi hardware di bawah tekanan ekspor.

Dibaca bersama, ketiga item itu menunjukkan automasi bekerja dua arah: mempercepat kerja keamanan, sekaligus memurahkan upaya melepas pengaman.

Kenapa ini penting

Kalau kamu menjalankan kerja keamanan atau red-team, angka-angka ini menetapkan baseline baru: riset alignment yang berguna makin murah diautomasi, tapi melucuti pengaman model open juga jadi murah dengan beberapa ratus dolar, jadi siapkan keduanya sebelum orang lain melakukannya.

Anthropic Alignment