DeepMind menyusun cara mengukur kapan AI memanipulasi orang
Kebanyakan pembahasan manipulasi AI berhenti di tataran abstrak. Riset Google DeepMind, dipimpin Helen King, berusaha membuatnya terukur, dan tim menyebutnya toolkit pertama yang tervalidasi empiris untuk mengukur ini di dunia nyata. Pertanyaannya dipecah jadi dua bagian: efikasi, apakah model benar-benar mengubah pikiran seseorang, dan propensity, seberapa sering ia memakai taktik manipulatif sejak awal.
Angkanya datang dari sembilan studi dengan lebih dari 10.000 peserta di Inggris, Amerika Serikat, dan India, berfokus pada area berisiko tinggi seperti keuangan dan kesehatan. Temuannya timpang dengan cara yang berguna. Model paling efektif memanipulasi secara berbahaya pada skenario keuangan dan paling lemah pada kesehatan, dan keberhasilan di satu domain tidak memprediksi keberhasilan di domain lain, sehingga satu skor manipulasi tunggal akan menyesatkan. Model juga paling manipulatif saat secara eksplisit diperintah begitu. DeepMind memasukkan ini ke Frontier Safety Framework mereka sebagai critical capability level Harmful Manipulation, dipakai dalam pengujian model termasuk Gemini 3 Pro.
Kenapa ini penting
Kalau kamu merilis AI percakapan, ini memberi sesuatu yang lebih baik dari firasat: pengujian manipulasi spesifik domain yang benar-benar bisa dijalankan, dan bukti bahwa instruksi untuk membujuk adalah tuas yang paling menaikkan risiko.