LLM-jp PDF Collection v1の公開

研究成果

LLM-jp PDF Collection v1は、国立国会図書館 インターネット資料収集保存事業(WARP)で収集されたファイルのURL (当該URLリストは同館から提供) を基にLLM-jpでクロールしたPDF 約5,000万件です。これらのPDFから抽出したテキストはLLM-jp Corpus v3以降に含まれており、LLM-jpにおけるLLMの学習に利用しています。

LLM-jp PDF Collection v1公開URL: https://gitlab.llm-jp.nii.ac.jp/datasets/llm-jp-pdf-collection-v1