Rilis LLaMA Pertama dan Apa yang Dipicunya
LLaMA pertama Meta, diumumkan Februari 2023, adalah keluarga model foundation berukuran 7B, 13B, 33B, dan 65B parameter. Model yang lebih besar dilatih dengan 1,4 triliun token, yang 7B dengan satu triliun. Meta merilisnya di bawah lisensi riset nonkomersial, dengan akses bergerbang lewat pengajuan untuk akademisi, kelompok pemerintah dan masyarakat sipil, serta lab industri. Bingkainya soal membuat riset large language model mungkin bagi kelompok tanpa infrastruktur besar. Paper risetnya, bukan tulisan blognya, yang memuat hasil terkenal bahwa LLaMA-13B bersaing dengan GPT-3 175B yang jauh lebih besar, jadi atribusikan itu ke paper, bukan ke pengumumannya. Yang sebenarnya mengubah lapangan bukan program resmi itu. Bobotnya bocor, dan dalam hitungan minggu muncul gelombang proyek di atasnya: Alpaca, Vicuna, dan llama.cpp, yang membuat model berjalan di perangkat keras biasa.
Kenapa ini penting
Ini rilis yang melahirkan ekosistem open-weight modern, sebagian besar lewat kebocoran yang tidak Meta rencanakan. Kalau kamu memakai model terbuka apa pun yang bisa dijalankan lokal hari ini, tooling dan ekspektasi bahwa model semacam itu ada berakar di momen ini. Ini juga studi kasus betapa sedikit kendali yang tersisa pada sebuah lab begitu bobot keluar.