LLM-jp-3 172B: オープンかつ日本語に強いGPT-3級大規模言語モデル
大規模言語モデル研究開発センター(LLMC)では、オープンかつ日本語に強いGPT-3級大規模言語モデル「LLM-jp-3 172B」の開発を進めています。このページでは、本モデルの最新の開発状況について継続的にアップデートしながらお伝えしていきます。
News
- 2024年9月17日 7,000億トークン学習時点(目標学習量の三分の一)のモデルをプレビュー版として公開しました。
- ベースモデル:llm-jp-3-172b-beta1
- 指示学習済みモデル:llm-jp-3-172b-beta1-instruct
- 2024年9月10日 本ページを開設しました。
開発目的
本開発の目的は、GPT-3規模の日本語に強いオープンなマルチリンガルモデルを構築し、開発に用いた全てのリソースを公開することで、LLMの研究開発をリードするとともに、日本のコミュニティの知識基盤のかさ上げをはかることです。
モデルの仕様
「LLM-jp-3 172B」は、約1,720億パラメータ(GPT-3と同規模)を備えた言語モデルです。モデルアーキテクチャは、現在最も広く使われているオープンLLMの一つである「Llama-2」にならっています。
事前学習コーパスは、主に日本語・英語・コードで構成され、約2.1兆トークンを含みます。事前学習コーパスの内訳は以下の通りです。
言語 | データセット | トークン数 |
日本語 | Common Crawl* | 7,628億トークン |
WARP/PDF* | 2,373億トークン | |
WARP/HTML* | 27億トークン | |
Kaken* | 18億トークン | |
Wikipedia* | 26億トークン | |
英語 | Dolma/CC-head | 6,085億トークン |
Dolma/C4 | 1,816億トークン | |
Dolma/Reddit | 831億トークン | |
Dolma/PeS2o | 629億トークン | |
Dolma/Gutenberg | 55億トークン | |
Dolma/Wiki | 39億トークン | |
Wikipedia | 47億トークン | |
コード | Stack | 1,141億トークン |
韓国語 | Wikipedia | 3億トークン |
中国語 | Wikipedia | 8億トークン |
日本語部分については、大規模WebアーカイブCommon Crawlの全量から抽出した日本語テキストに加え、国立国会図書館から提供を受けたインターネット資料収集保存事業(WARP)のURLをもとにクロールしたデータ、KAKENに掲載されている研究課題の概要、Wikipediaの日本語部分を利用しています。英語とその他の部分に関しては、寛容なライセンスのもとで公開されているオープンなデータを使用しています。
「LLM-jp-3 172B」のファインチューニングには、13種類のインストラクションデータセットを用いています。インストラクションデータセットとしては、既存のオープンなデータセットに加え、新たに人手で作成した高品質なデータセット(ichikara-instruction、AnswerCarefully等)も活用しています。
計算資源
経済産業省・NEDOが主導する日本国内の生成AI開発力強化プロジェクト「GENIAC(Generative AI Accelerator Challenge)」の支援のもと、クラウド計算資源(グーグル・クラウド・ジャパン)を利用し、約4,000億トークンまでの事前学習を実施しました。現在は、文部科学省の補助金により調達したクラウド計算資源(さくらインターネット)を利用し、2.1兆トークンまでの事前学習およびファインチューニングを進めています。
開発の経過
2024年9月5日時点で目標学習量である2.1兆トークンの30%程度にあたる約6,000億トークンまでの事前学習が完了しています。
現時点でのモデル性能を「llm-leaderboard(g-leaderboard ブランチ)」を用いて評価しました。これは上述の「GENIAC」にてモデルの性能評価に使われた評価フレームワークで、モデルの言語理解能力と言語生成能力を日本語と英語で評価するものです。以下に学習の経過に伴う開発モデルの性能推移を示します。
モデル | 総合点 | 日本語性能 | 英語性能 | 備考 | ||||
理解 0-shot | 理解 4-shot | 生成 | 理解 0-shot | 理解 4-shot | 生成 | |||
gpt-4-turbo | 0.835 | 0.722 | 0.772 | 0.893 | 0.786 | 0.807 | 0.902 | W&Bによる評価結果を引用 |
gpt-3.5-turbo | 0.653 | 0.567 | 0.656 | 0.800 | 0.056 | 0.663 | 0.840 | W&Bによる評価結果を引用 |
LLM-jp-3 172B (学習進捗率27%) | 0.535 | 0.512 | 0.634 | 0.491 | 0.491 | 0.498 | 0.581 | LLMCにて評価 |
LLM-jp-3 172B (学習進捗率17%) | 0.442 | 0.415 | 0.526 | 0.403 | 0.326 | 0.397 | 0.534 | LLMCにて評価 |
LLM-jp-3 172B (学習進捗率7%) | 0.327 | 0.299 | 0.388 | 0.312 | 0.260 | 0.228 | 0.408 | LLMCにて評価 |
また、ファインチューニング前のモデル(ベースモデル)について、LLM-jpにて開発している評価フレームワーク「llm-jp-eval v1.3.1」を用い、モデルの学習が正常に進行しているか随時監視しています。「llm-jp-eval v1.3.1」は22種類の評価データをもとにLLMの性能を多角的に評価します。同設定で学習中の小規模モデルと合わせて、現時点までの評価結果を示します。
公開スケジュール
「LLM-jp-3 172B」は2024年12月頃の公開を予定しています。
それに先立ち、7,000億トークン学習時点(目標学習量の三分の一)のモデルをプレビュー版として公開しました。事前学習コーパスもあわせて公開しています。
- ベースモデル:llm-jp-3-172b-beta1
- 指示学習済みモデル:llm-jp-3-172b-beta1-instruct
- 事前学習コーパス:llm-jp-corpus v3
1.4兆トークン学習時点(目標学習量の三分の二)のモデルもプレビュー版として公開することを予定しています。安全性に関する懸念等から、プレビュー版は利用申請者に対して限定的に提供する形となる見込みです。詳細が決まり次第、本ページにてお知らせします。