EMO dari Ai2 melatih mixture of experts yang bisa dijalankan seperdelapan ukuran
Tulisan EMO dari Allen Institute for AI menggarap kelemahan lama model mixture-of-experts: matikan sebagian besar expert, mutunya biasanya ambruk. EMO adalah MoE 14 miliar parameter, 1 miliar aktif, dengan 128 expert total dan 8 aktif, dilatih pada satu triliun token. Intinya bukan ukurannya, melainkan kamu bisa menjalankan subset 16 expert, seperdelapan model, dan hanya kehilangan sekitar 3 persen performa, atau subset 32 expert dengan sekitar 1 persen.
Triknya ada pada cara merutekan. Alih-alih memilih expert per token, EMO merata-ratakan preferensi router di seluruh dokumen dan mengirim semua token dokumen itu lewat pool bersama yang sama. Dokumen berbeda jatuh ke pool berbeda, sehingga kelompok expert yang koheren muncul sendiri tanpa ada yang melabeli domain. Ukuran pool diambil acak saat training agar model belajar bekerja pada berbagai ukuran subset, dan load balancing diterapkan global lintas banyak dokumen, bukan lokal, yang mencegah tujuan balancing bertabrakan dengan modularitas. Memilih expert yang tepat untuk sebuah tugas nyaris tak butuh data; satu contoh few-shot menyamai pemilihan dari set validasi penuh. Bobot dan kodenya open.
Kenapa ini penting
Kalau kamu melayani model dengan batas memori atau biaya ketat, MoE yang turun mutunya secara halus saat diperkecil memungkinkanmu menukar kualitas dengan ukuran per beban kerja, bukan merilis model terpisah.