llmc-ocrの公開

研究成果

日本語学術文献の解析に強いOCRツールを目指して開発したllmc-ocrをオープンソースソフトウェア(OSS)として一般公開しました。
このツールは、国立国会図書館が資料のデジタル化(全文テキストデータ作成)のために開発したndlocrのプログラムをベースに、科学技術情報発信・流通総合システムJ-STAGEのオープンな論文のPDFを用いて文字解析、読み順解析、構造解析のチューニングを大規模言語モデル研究開発センターが行ったものです。
llmc-ocr公開URL: https://gitlab.llm-jp.nii.ac.jp/tools/llmc-ocr