国産LLM「LLM-jp-4 8B」モデルを画像に対応させたマルチモーダル基盤モデル「LLM-jp-4-VL 9B beta」モデルを公開~日本語のベンチマークでQwen3-VL-8Bと同等の性能を達成~
研究成果
大規模言語モデル研究開発センター(LLMC)は、画像と言語を入力すると言語を出力する視覚言語モデル(VLM)を開発し、約91億パラメータの「LLM-jp-4-VL 9B beta」モデルを公開しました。
このモデルを開発するため、インターネット上の公開データや政府・国会の文書などから画像と言語のデータを抽出し、さらに合成データなどを合わせて約3340万件の学習データを開発・整備し、「LLM-jp-4 8B」モデルを画像に対応させる追加学習を行いました。
LLM-jp が開発する評価フレームワーク「simple-evals-mm」を用い、開発したLLM-jp-4-VL 9B betaの性能を評価しました。日本語の視覚言語モデルの性能を測定するタスクとして、日本語文字認識、日本の文化・常識の知識、複数画像の理解、画像を含む文書・スライド・図表の理解を問う10タスクが採用されています。Qwen3-VL 8Bと比較すると、LLM-jp-4-VL 9B betaは特に日本の文化・常識の知識を問うタスクで高い性能を発揮し、これらのモデルの全タスクの平均スコアはほぼ同じ(LLM-jp-4-VL 9B betaが70.8、Qwen3-VL 8Bが71.1)でした。
モデルの詳細については以下のリンクよりご確認ください。
https://huggingface.co/llm-jp/llm-jp-4-vl-9b-beta