LLM-jp-3 MoE シリーズ の公開
お知らせ
大規模言語モデル研究開発センター(LLMC)ではオープンかつ日本語に強い大規模言語モデルの開発を進めており、2024年9月以降 llm-jp-corpus v3 を用いて訓練した「LLM-jp-3」シリーズの公開を進めてきました。これまでに 150M、440M、980M、1.8B、3.7B、7.2B、13B、172B のモデルを公開しています。
このたび、 LLM-jp では初の MoE (Mixture of Experts) モデルシリーズとなる 8×1.8B と 8x13B の2つのモデルを新たにリリースします。どちらのモデルも llm-jp-corpus v3 で訓練されています。
llm-jp-eval (v1.4.1) と Japanese MT Bench において、8×1.8B は総パラメータ 9.2B、アクティブパラメータ 2.9B ながらも 7.2B モデルに匹敵する性能を実現しており、8x13Bは総パラメータ 73B 、アクティブパラメータ 22B で 172B モデルを上回る性能を達成しています。
モデルの公開に合わせて、MoE の事前学習手法や評価結果をまとめたテックブログもあわせて公開しています。
ベースモデル、チューニング済みモデルともに Apache License 2.0 のもとで提供されています。データや学習過程まで含めて完全にオープンなモデルとして、アプリケーションへの応用や追加学習などに自由にご利用いただけます。
今回公開するリソースの詳細については以下のリンクよりご確認ください。
- モデル