LLM-jp-3 172B: オープンかつ日本語に強いGPT-3級大規模言語モデル

研究成果

大規模言語モデル研究開発センター(LLMC)では、オープンかつ日本語に強いGPT-3級大規模言語モデル「LLM-jp-3 172B」の開発を進めています。このページでは、本モデルの最新の開発状況について継続的にアップデートしながらお伝えしていきます。

News

  • 2024年11月15日 1.4兆トークン学習時点(目標学習量の三分の二)のモデルをプレビュー版として公開しました。
  • 2024年9月17日 7,000億トークン学習時点(目標学習量の三分の一)のモデルをプレビュー版として公開しました。
  • 2024年9月10日 本ページを開設しました。

開発目的

本開発の目的は、GPT-3規模の日本語に強いオープンなマルチリンガルモデルを構築し、開発に用いた全てのリソースを公開することで、LLMの研究開発をリードするとともに、日本のコミュニティの知識基盤のかさ上げをはかることです。

モデルの仕様

「LLM-jp-3 172B」は、約1,720億パラメータ(GPT-3と同規模)を備えた言語モデルです。モデルアーキテクチャは、現在最も広く使われているオープンLLMの一つである「Llama-2」にならっています。

事前学習コーパスは、主に日本語・英語・コードで構成され、約2.1兆トークンを含みます。事前学習コーパスの内訳は以下の通りです。

言語データセットトークン数
日本語Common Crawl*7,628億トークン
WARP/PDF*2,373億トークン
WARP/HTML*27億トークン
Kaken*18億トークン
Wikipedia*26億トークン
英語Dolma/CC-head6,085億トークン
Dolma/C41,816億トークン
Dolma/Reddit831億トークン
Dolma/PeS2o629億トークン
Dolma/Gutenberg55億トークン
Dolma/Wiki39億トークン
Wikipedia47億トークン
コードStack1,141億トークン
韓国語Wikipedia3億トークン
中国語Wikipedia8億トークン
* 付きのデータセットは学習時に一部または全部を2周します。トークン数は2周した結果の数値です。

日本語部分については、大規模WebアーカイブCommon Crawlの全量から抽出した日本語テキストに加え、国立国会図書館から提供を受けたインターネット資料収集保存事業(WARP)のURLをもとにクロールしたデータ、KAKENに掲載されている研究課題の概要、Wikipediaの日本語部分を利用しています。英語とその他の部分に関しては、寛容なライセンスのもとで公開されているオープンなデータを使用しています。

「LLM-jp-3 172B」のファインチューニングには、11種類のインストラクションデータセットを用いています。インストラクションデータセットとしては、既存のオープンなデータセットに加え、新たに人手で作成した高品質なデータセット(ichikara-instructionAnswerCarefully等)も活用しています。

計算資源

経済産業省・NEDOが主導する日本国内の生成AI開発力強化プロジェクト「GENIAC(Generative AI Accelerator Challenge)」の支援のもと、クラウド計算資源(グーグル・クラウド・ジャパン)を利用し、約4,000億トークンまでの事前学習を実施しました。現在は、文部科学省の補助金により調達したクラウド計算資源(さくらインターネット)を利用し、2.1兆トークンまでの事前学習およびファインチューニングを進めています。

開発の経過

2024年11月15日時点で目標学習量である2.1兆トークンの80%程度にあたる約1.6兆トークンまでの事前学習が完了しています。

現時点でのモデル性能を「llm-leaderboard(g-leaderboard ブランチ)」を用いて評価しました。これは上述の「GENIAC」にてモデルの性能評価に使われた評価フレームワークで、モデルの言語理解能力と言語生成能力を日本語と英語で評価するものです。以下に学習の経過に伴う開発モデルの性能推移を示します。

  モデル  総合点日本語性能英語性能  備考
理解
0-shot
理解
4-shot
生成理解
0-shot
理解
4-shot
生成
gpt-4-turbo0.8350.722    0.772    0.893 0.7860.8070.902W&Bによる評価結果を引用
gpt-3.5-turbo0.6530.5670.6560.8000.056    0.6630.840W&Bによる評価結果を引用
LLM-jp-3 172B beta2 instruct2
(1.4兆トークン学習)
0.6060.4200.6820.6720.5190.5900.646LLMCにて評価
LLM-jp-3 172B beta1 instruct
(7,000億トークン学習)
0.5290.5430.6380.5140.2670.5440.607LLMCにて評価

また、ファインチューニング前のモデル(ベースモデル)について、LLM-jpにて開発している評価フレームワーク「llm-jp-eval v1.4.1」を用い、モデルの学習が正常に進行しているか随時監視しています。「llm-jp-eval v1.4.1」は27種類の評価データをもとにモデルの性能を多角的に評価します。同設定で学習を行った小規模モデルと合わせて、現時点までの評価結果を示します。

公開スケジュール

「LLM-jp-3 172B」は2024年12月頃の公開を予定しています。

それに先立ち、7,000億トークン学習時点(目標学習量の三分の一)のモデル、1.4兆トークン学習時点(目標学習量の三分の二)のモデルをプレビュー版として公開しました。事前学習コーパスもあわせて公開しています。

なお、安全性に関する懸念等から、プレビュー版モデルは利用申請者に対して限定的に提供する形としています。またこの理由から、プレビュー版モデルおよびその派生物(利用者が独自にファインチューニングしたモデル等)の再配布は禁止としています。ご了承ください。