Claude computer use: setelan-setelan kecil yang menentukan akurasi
Lucas Gonzalez dan Luca Weihs dari Anthropic menulis panduan teknis computer dan browser use dengan Claude. Isinya jarang sespesifik ini: berbasis angka, bukan prinsip. Yang bisa langsung dipraktikkan: mulai dari 1280x720, atau 1080p untuk Opus 4.7, dan selalu downscale gambar sebelum dikirim. Kalau melewati batasnya, API menurunkan kualitas diam-diam (1.568 px di sisi terpanjang untuk Claude 4.6, 2.576 px untuk Opus 4.7).
Ada satu detail yang gampang terlewat: taruh instruksi teks sebelum gambar di array pesan, akurasinya naik. Soal thinking effort, model 4.6 sudah mendekati performa puncak di "medium" dengan setengah ongkos token "high", sedangkan Opus 4.7 paling bagus di "high" dan nyaris tak bertambah di "max". Effort rendah pun masih mengalahkan tanpa thinking sama sekali, sebab makin sedikit kesalahan berarti makin sedikit retry.
Bagian caching menyimpan jebakan yang layak diketahui: rolling screenshot buffer kalau berdiri sendiri malah merusak cache. Perbaikannya, simpan tiga screenshot terbaru tapi pangkas per batch 25, dan pasang empat cache breakpoint, satu di prefix yang stabil dan tiga di hasil tool terakhir. Untuk antarmuka padat, nyalakan enable_zoom dan andalkan keyboard untuk target kecil seperti checkbox. Daftar lengkapnya di blog Anthropic.
Kenapa ini penting
Kalau kamu membangun computer-use agent, setelan inilah yang menentukan agent-mu akurat atau boros. Soal caching saja sudah jadi pembeda antara loop yang murah dan loop yang diam-diam bayar ulang konteks setiap langkah.