Import AI 445: Bostrom soal kapan ngebut, dan benchmark matematika yang belum tertembus AI

AI · 16 Februari 2026 · 4 bulan lalu · sumber (importai.substack.com)

Dua item di Import AI 445 layak diangkat. Pertama, framing Nick Bostrom soal timing superintelligence. Menurut dia, pilihannya bukan keamanan lawan bahaya, melainkan satu jalur berisiko lawan jalur berisiko lain, sebab status quo pun memakan korban, terutama di negara lebih miskin. Frasanya, "swift to harbor, slow to berth": ngebut menuju kapabilitas, lalu pertimbangkan jeda hanya di tahap kritis, sebab jeda yang datang terlalu dini mengundang regulasi buruk dan membuat masyarakat tanpa pertahanan canggih.

Kedua, sinyal empiris yang lebih bersih. Peneliti membangun benchmark proof yang benar-benar held-out: sepuluh problem belum terpublikasi dari riset aktif di algebraic combinatorics, spectral graph theory, dan topologi, sengaja dipilih supaya jawabannya tidak ada di internet. GPT-5.2 Pro maupun Gemini 3.0 DeepThink sama-sama gagal memecahkannya. Tes itu membidik lompatan kreatif yang biasa dilakukan matematikawan pada problem yang tidak punya jejak terpublikasi untuk dicocokkan polanya. Terbitan lengkapnya di Import AI.

Kenapa ini penting

Kalau kamu melacak kemajuan AI, benchmark matematika held-out itu instrumen yang lebih berguna ketimbang debat timeline. Benchmark publik yang sudah jenuh makin sedikit memberi tahu tiap bulan; tes yang sengaja dibangun supaya model mustahil pernah melihatnya adalah ukuran yang masih bermakna.

Forecasting Research