LLM-jp Corpus v4 の公開

2025.06.30 研究成果

大規模言語モデルを構築するための事前学習コーパスとして、LLM-jp Corpus v4 を公開しました。本コーパスは日本語6,880億トークンを含む総量19.5兆トークンからなるLLM-jp Corpusシリーズの最新版です。LLM-jpおよび大規模言語モデル研究開発センターにおいて今後開発、公開するモデルはこのコーパスを用いる予定です。
LLM-jp Corpus v4 のURL: https://gitlab.llm-jp.nii.ac.jp/datasets/llm-jp-corpus-v4