GPT, Geminiのマルチモーダルドキュメントの認識能力評価

はじめに

この記事は、LayerX Tech Advent Calendar 2025 の 17日目の記事です。

初めまして、LayerX Ai Workforce事業部でR&Dインターン生として勤務しているマツイと申します。 R&Dチームは発足から1年も経過しておらず、サマーインターン1期生としてマルチモーダルなドキュメント（スライドや図表、グラフなど）に関連するR&D業務に取り組んでいます！

本記事では、2025年10月時点の OpenAI GPT および Google Gemini のAPI単体を用いた、マルチモーダルドキュメントの認識能力評価の結果を紹介します。

(本調査を行った直後に、Gemini3が登場しました😭)

背景と目的

VLM（Vision-Language Model）の進化により、APIを利用するだけで複雑なドキュメントからの情報抽出が可能になりつつあります。しかし、プロダクト開発において重要なのは「具体的にどのようなドキュメントなら読み取れて、どこで失敗するのか」という境界線を明らかにすることです。

そこで本プロジェクトでは、MMMUなどの一般的なベンチマークではなく、業務帳票や複雑なグラフを含むデータセットを用いて、各モデルの認識能力を検証しました。

検証の概要

1. 検証したモデル

OpenAI: GPT-4.1-mini, GPT-4.1, GPT-5-mini (Reasoning Effort: low/medium/high), GPT-5 (参考)
Google: Gemini-2.5-pro

※ GPT-5はAzure経由での動作が不安定だったため、参考記録としています。

2. 利用したデータセット

多様なレイアウトと視覚的複雑性を持つ以下のデータセットを使用しました。

AI inside社 / PolySphere-3 評価用データ（請求書、領収書、アンケート等）
ECD（複雑な科学的チャート画像）
StockMark社 / Business Slide Questions（ビジネススライド）

3. 評価方法

各画像に対し、以下の統一プロンプトをベースにJSON出力を指示します。

この画像の内容を詳しく説明してください。
正確かつ網羅的な内容を教え、画像にない情報は教えないでください。

得られた出力とアノテーションデータを比較し、以下のプロンプトを用いてLLM（GPT-4.1）による判定で正答率を算出しました。目視での判定確認を行い、「画像内のテキストや数値が抽出できているか」というファクトチェックにおいては、GPT-4.1の評価は十分に信頼できると判断しています。

あなたはテキストの表記揺れと情報抽出の正確性を判定するエキスパートです。以下の指示に従い、
predicted_valuesとground_truth_valuesが**意味的に**同一であるか、
または許容できる程度の表記揺れと見なせるかを厳密に判定してください。
許容できる表記揺れの例: リストの順序違い、略称、不要な記号の有無、冗長な単語の軽微な追加/省略など。
不一致の例: 重要な情報の欠落、全く異なる情報の抽出、数値や文字の誤り。
回答は**'YES'**または**'NO'**のみを返してください。それ以外の文字列は含めないでください。

上記の処理により、認識が得意・不得意なドキュメント種別を調査しました。

また、各モデルの画像認識結果を個別に分析し、誤認識を起こしやすいパターンや扱える画像の複雑さを調査しました。

なお、今回はモデルごとのプロンプトエンジニアリングを行わず、簡単な統一プロンプトを採用しました。これは、特定のモデルに特化したチューニングによるバイアスを排除し、素の認識能力を比較するためです。後述するGPT-4.1のハルシネーションは、プロンプトチューニングを行うことで改善する可能性も大いにありえます。

検証結果

結論から言うと、性能面では Gemini-2.5-pro が頭一つ抜けており、コスト・速度面では GPT-4.1-mini が優秀という結果になりました。

ドキュメント種別ごとの正解率 (%)

Gemini-2.5-proの性能は上部の折れ線グラフで、ほとんどのカテゴリでトップクラスの性能を記録しています。次いでGPT-5-miniが高い性能を発揮しており、やはり新しいモデルが優れた画像認識能力を有しています。一方、レイテンシの観点ではGPT-4.1系が5sほど、それ以外が15~20sほどでGPT-4.1系に軍配が上がります。

どのモデルも満遍なく高い性能を発揮していますが、情報が多く、多様性のあるカタログ画像では性能が相対的に低下するという結果になりました。

※ GPT-5はAzure経由での動作が不安定だったため、参考記録としています。

定性評価：モデルごとの個別評価

各モデルの具体的な挙動の違いを解説します。

1. 全モデルがクリアできたこと

標準的な棒グラフ、折れ線グラフ、一般的なレイアウトの帳票については、どのモデルも数値や文字列を正確に読み取ることができました。グラフの長さから比率を計算するようなタスクもこなせます。

2. GPT-4.1 の課題

GPT-4.1では、以下のようなミスやハルシネーションが見られました。これらは他モデル（GPT-4.1-miniを含む）ではほとんど見られず、GPT-4.1でのみ発生したものです。

半角カナ・記号の誤認識: 請求書の宛名「ﾀﾅｶｺｳｷﾞｮｳ（ｶ」を「カタカナタナカコウジ」のように、ありそうな人名を捏造してしまうケースが多発。
文字の補正過多: 「5」がSに見えるフォントの場合、左右にアルファベットが含まれていると勝手に「S」と補正して読み取る。

今回の検証では、GPT-4.1よりもGPT-4.1-miniの方がハルシネーションが少ないという結果になりました。上記のようなミスはGPT-4.1-miniでは少なく、GPT-4.1より優れているという印象を受けました。GPT-4.1-miniはGPT-4.1に比べてパラメータが軽量で過度な推論を行うことが少ないため、結果として余計な補正が少なくなったと考えられます。

3. Gemini-2.5-pro だけが読み取れた画像

GPT系モデルが苦戦し、Gemini-2.5-proのみが正確に回答できたのは「情報量の多い複雑な表」です。

GPT系: カラム内の情報は拾えるが、関係のない単語が混ざったり、行がずれたりする。
Gemini-2.5-pro: 全てのカラムの内容を正確に構造化して抽出可能。

4. どのモデルでも無理だったこと

2025年10月時点のSOTAモデルでも、以下のようなパターンは読み取れませんでした。

グラフの一部拡大: グラフ上に「一部の時間帯の拡大図」が挿入されている場合、それを別のグラフとして認識したり、時間の連続性を理解できず数値を混同してしまう。
複雑なネットワーク図: ノード間の接続関係（どれとどれが繋がっているか）の回答は壊滅的
情報の重なり: 文字の上に訂正印やロゴが被っている箇所は、OCR精度が著しく低下し、被っている箇所の下部を推測するといったタスクは難しい

結論

今回の検証結果から得られた、現時点でのモデル選定指針は以下の通りです。

性能・精度を最優先するなら「Gemini-2.5-pro」
- 複雑なレイアウトの帳票や、密度の高い情報を扱う場合はGeminiが優れています。
コストと速度を重視するなら「GPT-4.1-mini」
- 一般的なドキュメントであれば十分な精度が出ます。また、無印GPT-4.1よりもハルシネーションが少ないため、扱いやすいモデルと言えます。

今後の展望

記事の冒頭でも触れましたが、本調査の直後にGemini 3が発表されるなど、LLMの進化速度は凄まじいものがあります。今回の検証で全モデルが苦戦した課題を、Gemini 3をはじめとする次世代モデルがどこまで克服できるか楽しみです。なお、今後も新しいモデルが公開されるごとに評価を回せるよう、本記事で行った評価フローはスクリプトとして整備しています。 Gemini 3を含めた最新の検証結果についても、またの機会に記事にできればと考えています。

また、今回の検証で「精度ならGemini-2.5-pro、速度とコストならGPT-4.1-mini」などの強みの違いが明らかになりました。実プロダクトへの応用を考える上では、すべてのタスクを単一モデルで処理するのではなく、入力画像の難易度やシステムの要件に応じて、モデルを使い分けることが重要になると感じています。今後様々な視覚処理を行う上で、今回の検証結果が参考になれば幸いです！

※本記事の検証結果は2025年10月時点のものです。