Alibaba ouvre le code source de ViDoRAG, outil d’analyse de documents intelligents
Le système d’analyse de documents intelligent ViDoRAG récemment open-sourcé par Alibaba atteint un taux de précision de 79,4% dans les tests avec GPT-4o, soit une amélioration de plus de 10% par rapport aux méthodes traditionnelles. Ce système peut analyser rapidement des documents complexes contenant du texte, des images et des tableaux, par exemple en répondant avec précision à des questions pratiques comme “Quelle est la température de fonctionnement maximale du produit ?”.
Trois capacités clés
- Numérisation intelligente : Localise les informations clés dans des documents de 100 pages en moins de 3 minutes
- Vérification croisée texte-image : Vérifie automatiquement la cohérence entre les descriptions textuelles et les données des graphiques
- Génération précise : Fournit des réponses exactes avec les numéros de page correspondants
Percées technologiques
- Collaboration tripartite intelligente :
- Scanner intelligent (Seeker) : Localisation rapide des pages pertinentes
- Vérification experte (Inspector) : Analyse approfondie de la fiabilité du contenu
- Générateur de réponses (Answer Agent) : Synthèse des informations pour produire des résultats
- Recherche hybride intelligente : Compréhension simultanée du texte et des images
- Architecture modulaire : Possibilité de mettre à jour séparément les modules de recherche, d’analyse et de génération
Base de tests professionnelle
Le jeu de tests ViDoSeek open-source comprend :
- Plus de 2500 documents réels (manuels techniques/articles académiques/rapports financiers)
- Quatre types de questions typiques :
- Recherche d’informations textuelles
- Analyse de données graphiques
- Corrélation de contenu multi-pages
- Déduction de conclusions complexes
Cas d’utilisation pratiques
- Industrie manufacturière : Extraction rapide des paramètres techniques des manuels d’équipement
- Secteur éducatif : Analyse des données expérimentales dans les articles académiques
- Finance : Génération automatique de résumés des indicateurs clés des rapports annuels
Informations importantes
- Code source : Page GitHub du projet
- Jeu de données : Téléchargement sur HuggingFace
- Article technique : Détails de la recherche
Le responsable technique d’Alibaba déclare : “ViDoRAG fonctionne comme un microscope intelligent assisté par un expert, capable d’extraire rapidement des informations pertinentes dans des montagnes de documents. Le système adopte une conception modulaire permettant aux entreprises de combiner librement les fonctionnalités selon leurs besoins.”