Jack Clark memilah serangan terhadap AI agent jadi enam jenis

AI · 13 April 2026 · 3 bulan lalu · sumber (importai.substack.com)

Import AI 453, newsletter Jack Clark, dibuka dengan taksonomi yang berguna karena disusun berdasarkan apa yang disasar serangan, bukan cara penyampaiannya. Enam jenisnya: content injection yang menyasar persepsi; manipulasi semantik yang menyasar penalaran; serangan cognitive-state yang menyasar memori dan pembelajaran; behavioural control yang menyasar tindakan agent; serangan sistemik yang menyasar dinamika multi-agent; dan human-in-the-loop yang menyasar orang yang mengawasi. Disusun begini, poinnya sulit dilewatkan: membela model saja membiarkan sebagian besar permukaan tak terjaga.

Edisi yang sama memuat penanda kemampuan yang patut dicatat. Pada evaluasi MirrorCode, Claude Opus 4.6 mengimplementasikan ulang gotree, toolkit bioinformatika sekitar 16.000 baris Go yang menurut peneliti butuh dua sampai tujuh belas minggu bagi manusia. Clark juga mencatat Ryan Greenblatt menggandakan perkiraannya, dari 15 ke 30 persen, untuk riset dan pengembangan AI yang sepenuhnya otomatis pada akhir 2028. Bagian disempowerment lebih spekulatif dan terbaca sebagai survei argumen, bukan klaim.

Kenapa ini penting

Kalau kamu menjalankan agent, taksonomi ini checklist praktis: petakan pertahananmu ke keenam sasaran, sebab filter injection tak berguna untuk serangan yang membidik memori, koordinasi, atau manusia di loop.

Agents Security