LLM-jp-3 172B: オープンかつ日本語に強いGPT-3級大規模言語モデル

研究成果

大規模言語モデル研究開発センター(LLMC)では、オープンかつ日本語に強いGPT-3級大規模言語モデル「LLM-jp-3 172B」の開発を進めています。このページでは、本モデルの最新の開発状況について継続的にアップデートしながらお伝えしていきます。

News

  • 2024年9月17日 7,000億トークン学習時点(目標学習量の三分の一)のモデルをプレビュー版として公開しました。
  • 2024年9月10日 本ページを開設しました。

開発目的

本開発の目的は、GPT-3規模の日本語に強いオープンなマルチリンガルモデルを構築し、開発に用いた全てのリソースを公開することで、LLMの研究開発をリードするとともに、日本のコミュニティの知識基盤のかさ上げをはかることです。

モデルの仕様

「LLM-jp-3 172B」は、約1,720億パラメータ(GPT-3と同規模)を備えた言語モデルです。モデルアーキテクチャは、現在最も広く使われているオープンLLMの一つである「Llama-2」にならっています。

事前学習コーパスは、主に日本語・英語・コードで構成され、約2.1兆トークンを含みます。事前学習コーパスの内訳は以下の通りです。

言語データセットトークン数
日本語Common Crawl*7,628億トークン
WARP/PDF*2,373億トークン
WARP/HTML*27億トークン
Kaken*18億トークン
Wikipedia*26億トークン
英語Dolma/CC-head6,085億トークン
Dolma/C41,816億トークン
Dolma/Reddit831億トークン
Dolma/PeS2o629億トークン
Dolma/Gutenberg55億トークン
Dolma/Wiki39億トークン
Wikipedia47億トークン
コードStack1,141億トークン
韓国語Wikipedia3億トークン
中国語Wikipedia8億トークン
* 付きのデータセットは学習時に一部または全部を2周します。トークン数は2周した結果の数値です。

日本語部分については、大規模WebアーカイブCommon Crawlの全量から抽出した日本語テキストに加え、国立国会図書館から提供を受けたインターネット資料収集保存事業(WARP)のURLをもとにクロールしたデータ、KAKENに掲載されている研究課題の概要、Wikipediaの日本語部分を利用しています。英語とその他の部分に関しては、寛容なライセンスのもとで公開されているオープンなデータを使用しています。

「LLM-jp-3 172B」のファインチューニングには、13種類のインストラクションデータセットを用いています。インストラクションデータセットとしては、既存のオープンなデータセットに加え、新たに人手で作成した高品質なデータセット(ichikara-instructionAnswerCarefully等)も活用しています。

計算資源

経済産業省・NEDOが主導する日本国内の生成AI開発力強化プロジェクト「GENIAC(Generative AI Accelerator Challenge)」の支援のもと、クラウド計算資源(グーグル・クラウド・ジャパン)を利用し、約4,000億トークンまでの事前学習を実施しました。現在は、文部科学省の補助金により調達したクラウド計算資源(さくらインターネット)を利用し、2.1兆トークンまでの事前学習およびファインチューニングを進めています。

開発の経過

2024年9月5日時点で目標学習量である2.1兆トークンの30%程度にあたる約6,000億トークンまでの事前学習が完了しています。

現時点でのモデル性能を「llm-leaderboard(g-leaderboard ブランチ)」を用いて評価しました。これは上述の「GENIAC」にてモデルの性能評価に使われた評価フレームワークで、モデルの言語理解能力と言語生成能力を日本語と英語で評価するものです。以下に学習の経過に伴う開発モデルの性能推移を示します。

  モデル  総合点日本語性能英語性能  備考
理解
0-shot
理解
4-shot
生成理解
0-shot
理解
4-shot
生成
gpt-4-turbo0.8350.722    0.772    0.893 0.7860.8070.902W&Bによる評価結果を引用
gpt-3.5-turbo0.6530.5670.6560.8000.056    0.6630.840W&Bによる評価結果を引用
LLM-jp-3 172B
(学習進捗率27%)
0.5350.5120.6340.4910.4910.4980.581LLMCにて評価
LLM-jp-3 172B
(学習進捗率17%)
0.4420.4150.5260.4030.3260.3970.534LLMCにて評価
LLM-jp-3 172B
(学習進捗率7%)
0.3270.2990.3880.3120.2600.2280.408LLMCにて評価

また、ファインチューニング前のモデル(ベースモデル)について、LLM-jpにて開発している評価フレームワーク「llm-jp-eval v1.3.1」を用い、モデルの学習が正常に進行しているか随時監視しています。「llm-jp-eval v1.3.1」は22種類の評価データをもとにLLMの性能を多角的に評価します。同設定で学習中の小規模モデルと合わせて、現時点までの評価結果を示します。

公開スケジュール

「LLM-jp-3 172B」は2024年12月頃の公開を予定しています。

それに先立ち、7,000億トークン学習時点(目標学習量の三分の一)のモデルをプレビュー版として公開しました。事前学習コーパスもあわせて公開しています。

1.4兆トークン学習時点(目標学習量の三分の二)のモデルもプレビュー版として公開することを予定しています。安全性に関する懸念等から、プレビュー版は利用申請者に対して限定的に提供する形となる見込みです。詳細が決まり次第、本ページにてお知らせします。