Alibaba、文書解析ツールViDoRAGをオープンソース化

最終更新：2025年3月4日ComfyUI Wikinews

テキストと画像を同時に理解するAIシステム、複雑文書処理効率10%以上向上

ViDoRAGワークフロー

Alibabaがオープンソース公開したViDoRAG文書解析システムは、GPT-4oテスト環境で79.4%の精度を達成し、従来手法より10%以上性能が向上しました。製品仕様書や技術マニュアルなど、テキスト・画像・表が混在する複雑な文書を効率的に処理できます。

3大コア機能

インテリジェント検索: 100ページ文書の重要情報を3分以内に特定
文書-画像相互検証: テキスト説明とチャートデータの整合性自動確認
精密回答生成: 「最大作動温度は？」などの具体的質問にページ番号付きで回答

技術革新点

3段階連携プロセス:
- 探索モジュール（Seeker）: 関連ページ迅速特定
- 分析モジュール（Inspector）: 内容信頼性深層評価
- 回答生成モジュール（Answer Agent）: 総合情報統合
ハイブリッド検索技術: テキスト意味と画像内容同時解析
モジュール式設計: 検索/分析/生成モジュール独立アップグレード可能

データセット例

専門テストデータセット

同時公開のViDoSeekテストセット包含:

2,500+実践文書（製品マニュアル/学術論文/財務報告書）
4種類質問タイプ:
- テキスト情報検索
- チャートデータ分析
- ページ間関連性把握
- 総合結論導出

実用ケース

製造業: 設備仕様書から技術パラメータ抽出
教育分野: 論文実験データチャート解析
金融サービス: 年次報告書主要指標自動抽出

主要情報

リポジトリ: GitHubプロジェクトページ
テストデータ: HuggingFaceダウンロード
技術論文: 詳細研究内容

Alibaba技術責任者は「ViDoRAGは専門アシスタント付き顕微鏡のように、大量文書から有用情報を迅速に抽出します。モジュール式設計で企業ニーズに応じた機能組み合わせが可能」と説明しました。

コメント

GitHubでサインインしてディスカッションに参加しましょう。

コメントを読み込み中…

Alibaba、文書解析ツールViDoRAGをオープンソース化 | ComfyUI Wiki