Decoupled DiLoCo: latih model 12B lintas empat region, 20x lebih cepat
Training model besar biasanya menuntut chip identik yang harus melangkah nyaris serentak, dan itu makin sulit setiap kali jumlah chip bertambah. Decoupled DiLoCo mematahkan syarat itu. Training dipecah jadi pulau-pulau compute yang berdiri sendiri dan bertukar data secara asinkron, sehingga kegagalan di satu pulau tidak menghentikan yang lain. Pendekatan ini berdiri di atas dua ide sebelumnya: Pathways untuk distribusi asinkron dan DiLoCo asli untuk menekan bandwidth antar-data-center.
Angkanya bicara sendiri. Bandwidth antar-data-center turun dari 198 Gbps ke 0,84 Gbps lintas delapan data center. Saat laju kegagalan tinggi, throughput yang berguna bertahan di 88 persen, sementara metode standar anjlok ke 27 persen. DeepMind melatih model 12 miliar parameter lintas empat region di AS sekitar 20 kali lebih cepat dari cara konvensional, dan kualitas benchmark-nya setara baseline meski arsitekturnya berubah. Hasilnya, training bisa berjalan di atas koneksi sekelas internet dan generasi hardware campuran, tanpa harus satu cluster yang dibangun khusus. Tulisan lengkapnya di blog DeepMind.
Kenapa ini penting
Kalau akses compute jadi penghambat utamamu, ini melonggarkan keharusan training di satu cluster raksasa yang terkopel ketat. Selisih throughput saat gagal, 88 persen lawan 27 persen, adalah angka yang patut dilacak, sebab itulah penentu apakah training terdistribusi yang heterogen sekadar mungkin atau benar-benar praktis.