Llama 3.1 405B dan Perubahan Lisensi yang Menentukan
Pada Juli 2024 Meta merilis Llama 3.1 dalam ukuran 8B, 70B, dan 405B. Yang jadi sorotan adalah model 405B. Meta menyebut model ini dilatih dengan lebih dari 15 triliun token memakai lebih dari 16.000 GPU H100, dengan context window 128K, dan diklaim setara GPT-4, GPT-4o, serta Claude 3.5 Sonnet di beragam tugas. Klaim itu besar, dan Meta menyatakan kesetaraan tanpa memuat tabel benchmark lengkap di tulisannya, jadi sebaiknya diperlakukan sebagai klaim yang perlu diuji pada beban kerjamu sendiri. Perubahan yang lebih senyap mungkin lebih berdampak ketimbang modelnya. Meta memperbarui lisensi sehingga developer boleh memakai output model, termasuk dari 405B, untuk melatih dan memperbaiki model lain. Untuk sistem di kelas kemampuan ini, itu hal baru, dan langsung membuka jalan bagi pembuatan data sintetis skala besar serta distilasi ke model yang lebih kecil. Meta membingkai rilis ini soal akses, menulis bahwa open source membantu lebih banyak orang ikut menikmati manfaat AI.
Kenapa ini penting
Kalau kamu membangun model, perubahan lisensi itu yang pertama harus dibaca. Itu menjadikan 405B model guru yang sah untuk pipeline data sintetis dan distilasi, dan begitulah banyak model kecil yang kuat sejak itu sebenarnya dibuat. Bobot terbuka memang berguna; izin melatih pada output-nya yang mengubah praktik.