Alibaba、文書解析ツールViDoRAGをオープンソース化
Alibabaがオープンソース公開したViDoRAG文書解析システムは、GPT-4oテスト環境で79.4%の精度を達成し、従来手法より10%以上性能が向上しました。製品仕様書や技術マニュアルなど、テキスト・画像・表が混在する複雑な文書を効率的に処理できます。
3大コア機能
- インテリジェント検索: 100ページ文書の重要情報を3分以内に特定
- 文書-画像相互検証: テキスト説明とチャートデータの整合性自動確認
- 精密回答生成: 「最大作動温度は?」などの具体的質問にページ番号付きで回答
技術革新点
- 3段階連携プロセス:
- 探索モジュール(Seeker): 関連ページ迅速特定
- 分析モジュール(Inspector): 内容信頼性深層評価
- 回答生成モジュール(Answer Agent): 総合情報統合
- ハイブリッド検索技術: テキスト意味と画像内容同時解析
- モジュール式設計: 検索/分析/生成モジュール独立アップグレード可能
専門テストデータセット
同時公開のViDoSeekテストセット包含:
- 2,500+実践文書(製品マニュアル/学術論文/財務報告書)
- 4種類質問タイプ:
- テキスト情報検索
- チャートデータ分析
- ページ間関連性把握
- 総合結論導出
実用ケース
- 製造業: 設備仕様書から技術パラメータ抽出
- 教育分野: 論文実験データチャート解析
- 金融サービス: 年次報告書主要指標自動抽出
主要情報
- リポジトリ: GitHubプロジェクトページ
- テストデータ: HuggingFaceダウンロード
- 技術論文: 詳細研究内容
Alibaba技術責任者は「ViDoRAGは専門アシスタント付き顕微鏡のように、大量文書から有用情報を迅速に抽出します。モジュール式設計で企業ニーズに応じた機能組み合わせが可能」と説明しました。