Skip to content
サポーターになる より良い ComfyUI ナレッジベースの構築を支援する
ニュースAlibaba、文書解析ツールViDoRAGをオープンソース化

Alibaba、文書解析ツールViDoRAGをオープンソース化

ViDoRAGワークフロー

Alibabaがオープンソース公開したViDoRAG文書解析システムは、GPT-4oテスト環境で79.4%の精度を達成し、従来手法より10%以上性能が向上しました。製品仕様書や技術マニュアルなど、テキスト・画像・表が混在する複雑な文書を効率的に処理できます。

3大コア機能

  1. インテリジェント検索: 100ページ文書の重要情報を3分以内に特定
  2. 文書-画像相互検証: テキスト説明とチャートデータの整合性自動確認
  3. 精密回答生成: 「最大作動温度は?」などの具体的質問にページ番号付きで回答

技術革新点

  • 3段階連携プロセス:
    • 探索モジュール(Seeker): 関連ページ迅速特定
    • 分析モジュール(Inspector): 内容信頼性深層評価
    • 回答生成モジュール(Answer Agent): 総合情報統合
  • ハイブリッド検索技術: テキスト意味と画像内容同時解析
  • モジュール式設計: 検索/分析/生成モジュール独立アップグレード可能

データセット例

専門テストデータセット

同時公開のViDoSeekテストセット包含:

  • 2,500+実践文書(製品マニュアル/学術論文/財務報告書)
  • 4種類質問タイプ:
    • テキスト情報検索
    • チャートデータ分析
    • ページ間関連性把握
    • 総合結論導出

実用ケース

  • 製造業: 設備仕様書から技術パラメータ抽出
  • 教育分野: 論文実験データチャート解析
  • 金融サービス: 年次報告書主要指標自動抽出

主要情報

Alibaba技術責任者は「ViDoRAGは専門アシスタント付き顕微鏡のように、大量文書から有用情報を迅速に抽出します。モジュール式設計で企業ニーズに応じた機能組み合わせが可能」と説明しました。