DeepMind usulkan kerangka kognitif untuk mengukur kemajuan menuju AGI
Ryan Burnell dan Oran Kelly di Google DeepMind mengusulkan kerangka mengukur kemajuan menuju AGI yang meminjam dari psikologi dan ilmu kognitif, bukan dari budaya leaderboard. Kerangka itu mendefinisikan sepuluh dimensi kognitif: perception, generation, attention, learning, memory, reasoning, metacognition, executive functions, problem solving, dan social cognition. Protokol evaluasinya tiga tahap: uji sistem pada task dengan held-out set, kumpulkan baseline dari kelompok dewasa yang representatif secara demografis, lalu petakan sistem terhadap distribusi manusia.
Yang tidak dilakukan posting ini justru menarik. Tidak ada skor untuk model mana pun, sehingga ia tetap jadi usulan pengukuran, bukan papan peringkat. Untuk menambal celah tersulit, kerangka itu dipasangkan dengan hackathon Kaggle berhadiah 200.000 dolar untuk evaluasi di lima area yang alat ukurnya paling lemah, termasuk metacognition dan social cognition. Kerangkanya bisa dibaca di blog Google.
Kenapa ini penting
Kalau kamu sering berdebat soal apakah model "sudah AGI", kerangka ini memberi kosakata yang lebih sulit diakali ketimbang satu benchmark. Tidak adanya skor model justru sinyal jujur: alat ukurnya memang belum ada, dan menamai sepuluh dimensi itu cara mulai mengukur, bukan sekadar mengklaim.