Pelajaran Anthropic Membangun Periset Multi-Agent
Tim engineering Anthropic memaparkan sistem produksi di balik fitur risetnya, dan bagian yang berguna adalah angkanya, bukan diagram arsitekturnya. Susunannya orchestrator dan worker: agent utama Claude Opus 4 merencanakan dan memunculkan subagent Claude Sonnet 4 yang bekerja paralel. Pada evaluasi riset internal Anthropic, susunan ini mengungguli satu agent Opus 4 sebesar 90,2 persen. Itu tidak gratis. Tim menyebut agent saja sudah memakai sekitar empat kali token chat, dan run multi-agent memakai sekitar lima belas kali, dan bahwa pemakaian token saja menjelaskan kira-kira 80 persen variasi performa pada tugas penelusuran ini. Jadi aturan keputusannya bersifat ekonomi: multi-agent layak biayanya pada tugas bernilai tinggi yang bisa diparalelkan, dan boros di luar itu. Dua temuan konkret lain: menyuruh Claude menulis ulang deskripsi tool-nya sendiri memangkas waktu penyelesaian tugas 40 persen bagi agent berikutnya, dan mereka mengevaluasi dengan rubrik LLM-as-judge yang menilai akurasi fakta, akurasi sitasi, kelengkapan, kualitas sumber, dan efisiensi tool. Mereka terus terang bahwa tahap akhir, eksekusi yang tahan dan deployment tanpa mengganggu agent yang sedang berjalan, justru paling banyak menyita kerja.
Kenapa ini penting
Kalau kamu menimbang desain multi-agent, ini memberi kelipatan biaya nyata dan ambang, bukan firasat. Angka 15x token dan hasil variasi 80 persen itu yang perlu kamu masukkan ke estimasimu sendiri sebelum membangun.