報道における弊所モデル「LLM-jp-4 32B-A3B」と他モデルの性能比較について

2026.06.04 お知らせ

2026年6月4日
大学共同利用機関法人情報・システム研究機構国立情報学研究所（NII）
大規模言語モデル研究開発センター

2026年6月3日付の日本経済新聞「NIKKEI Digital Governance」に掲載された記事「みずほやライオンもQwen活用割安で純国産より高性能」におきまして、弊所が開発する大規模言語モデル「LLM-jp-4 32B-A3B」を、アリババクラウド「Qwen3.5-27B」およびグーグル「Gemma 4 31B」と比較し、「同規模の米中モデルに劣後」とご紹介いただきました。弊所の取り組みを取り上げていただいたことに感謝申し上げるとともに、モデルの性能を正しくご理解いただくため、以下のとおり技術的な補足を申し上げます。

記事で比較されている「Qwen3.5-27B」および「Gemma 4 31B」は、いずれもモデル内の全パラメータが推論時に動作する Dense（密）型 のモデルです。一方、弊所の「LLM-jp-4 32B-A3B」は、入力に応じて一部のパラメータのみが選択的に動作する Mixture of Experts（MoE、混合エキスパート）型 のモデルであり、総パラメータ数は約321億ですが、推論時に実際に動作する実効（アクティブ）パラメータ数は約38億です。

すなわち今回の比較は、実効パラメータ数が約38億である弊所モデルを、その約7～8倍にあたる約300億前後のモデルと並べたものであり、推論時に用いられる計算規模が大きく異なるクラスのモデル同士の比較となっています。記事では3モデルを「同規模」とされていますが、総パラメータ数こそ近いものの、実際に動作する計算規模には大きな開きがあり、性能を同一の条件で比較したものとは言いがたいと考えます。比較する場合には、条件（MoE型かDense型か、総パラメータ数、実効パラメータ数、推論型か否か）がほぼ同じモデルと比較することが妥当ではないかと考えます。

（なお、弊所では現在、記事で比較されたDense型モデルとほぼ同規模のDense型の「LLM-jp-4 32B」モデルの構築を進め、本年度内の公開を予定しています。）

技術的な補足は以上ですが、今回のNIKKEI Digital Governanceによる色々な観点でのご評価の結果は、弊所にとっても参考になるものでした。モデルの「ソフト開発」の能力など、これまで十分に取り組めていなかった事項についても今後取組を強化してまいりたいと考えています。

弊所は、学習の透明性、情報の機密性、説明可能性といった国産大規模言語モデルならではの意義を追求しつつ、引き続き研究開発に取り組んでまいります。