Ethan Mollick soal GPT-5.5: kuat di kerja yang bisa diverifikasi, lemah saat selera jadi inti
Ulasan Ethan Mollick soal GPT-5.5 berguna karena ia mengujinya pada task nyata, lalu melaporkan kegagalan sejelas keberhasilan. Kerangkanya: kemajuan sekarang datang dari tiga hal yang bergerak bersamaan, yaitu modelnya, app di sekelilingnya seperti Codex versi desktop, dan harness yang memberi model tool untuk dipakai.
Contoh-contohnya yang membawa poin itu. GPT-5.5 Pro membangun kota 3D ter-generate prosedural yang berevolusi dari 3000 SM ke 3000 M dengan pemodelan kota sungguhan, dan menuntaskan satu task simulasi sulit dalam 20 menit, dibanding 33 menit pada versi sebelumnya. Model gambar barunya menggambar "otters on planes using wifi" dalam gaya Klimt, Rothko, dan Matisse lengkap dengan label yang terbaca, sesuatu yang dulu mustahil. Diberi empat prompt dan dataset crowdfunding miliknya, ia menghasilkan paper 101 halaman dengan literature review dan statistik sungguhan, yang menurut Mollick layak ia terima dari proyek PhD tahun kedua. Ia juga membuat satu tabletop RPG utuh, lengkap dengan aturan, tabel, dan playtest tersimulasi.
Soal batasnya ia sama tegasnya. Fiksi panjang masih lemah, kalimatnya berhias dan semua karakter bicara dengan nada sama, dan hipotesis riset yang dibuat otomatis itu sahih secara statistik tapi membosankan di mata pakar. Tulisan lengkapnya di One Useful Thing.
Kenapa ini penting
Kalau kamu memutuskan sampai mana kelas model ini bisa dipercaya, pembagian Mollick itu panduan praktis: andal di kerja produksi yang terstruktur dan bisa diverifikasi, masih labil saat selera dan orisinalitas justru produknya. Di garis itulah manusia harus tetap ada.