LLM-jp-3 172B alpha1, alpha2 の公開
研究成果
大規模言語モデル研究開発センター(LLMC)ではオープンかつ日本語に強いGPT-3級大規模言語モデル「LLM-jp-3 172B」の開発を進めています。
このたび、同モデルの開発の初期段階で得られた、学習設定の問題(※)により期待される性能を達成できなかったモデル「LLM-jp-3 172B alpha1(0.7兆トークン学習)」および「LLM-jp-3 172B alpha2 (1.4兆トークン学習)」を新たに公開します。また、これらのモデルに指示チューニングを施したモデルも同時に公開します。このたび公開するモデルは、性能面では既公開モデルに大きく劣ることが確認されていますが、研究目的では有用と考え、公開する運びとなりました。
モデルの詳細については以下のリンクよりご確認ください。
- llm-jp/llm-jp-3-172b-alpha1
- llm-jp/llm-jp-3-172b-alpha1-instruct
- llm-jp/llm-jp-3-172b-alpha2
- llm-jp/llm-jp-3-172b-alpha2-instruct
※ 最適化アルゴリズム AdamW のハイパーパラメータの一つであるεの問題。詳細は第11回LLM勉強会でのモデル構築WGの発表資料をご参照ください。また、この問題に関する技術レポートを執筆・公開予定です。