Alibaba lanza ViDoRAG: herramienta de análisis de documentos inteligente de código abierto
El sistema de análisis documental inteligente ViDoRAG de código abierto de Alibaba ha alcanzado una precisión del 79.4% en pruebas con GPT-4o, superando los métodos tradicionales en más de 10%. Este sistema puede analizar documentos complejos que combinan texto, imágenes y tablas, respondiendo preguntas prácticas como “¿Cuál es la temperatura máxima de funcionamiento del producto?”.
Tres capacidades principales
- Escaneo inteligente: Localiza información clave en documentos de 100 páginas en 3 minutos
- Verificación cruzada: Comprueba automáticamente la coherencia entre texto e imágenes
- Generación precisa: Proporciona respuestas con referencias de página exactas
Avances tecnológicos
- Colaboración tripartita de inteligencia:
- Escáner inteligente (Seeker): Localización rápida de páginas relevantes
- Verificador profesional (Inspector): Análisis profundo de fiabilidad del contenido
- Generador de respuestas (Answer Agent): Síntesis de información para resultados finales
- Búsqueda híbrida inteligente: Interpreta tanto contenido textual como visual
- Diseño arquitectónico flexible: Módulos de búsqueda, análisis y generación actualizables por separado
Conjunto de datos de prueba
El conjunto de pruebas ViDoSeek incluye:
- Más de 2500 documentos reales (manuales técnicos/artículos académicos/informes financieros)
- Cuatro tipos de preguntas:
- Búsqueda de información textual
- Análisis de datos en gráficos
- Relación de contenido entre páginas
- Deducción de conclusiones integradas
Aplicaciones prácticas
- Manufactura: Extracción rápida de parámetros técnicos de manuales de equipos
- Educación: Interpretación de datos experimentales en artículos académicos
- Finanzas: Generación automática de resúmenes con indicadores clave de informes anuales
Información importante
- Código fuente: Página del proyecto en GitHub
- Datos de prueba: Descarga en HuggingFace
- Estudio técnico: Detalles completos de la investigación
El responsable técnico de Alibaba comentó: “ViDoRAG funciona como un microscopio inteligente con asistente profesional, capaz de extraer información valiosa de grandes volúmenes documentales. El diseño modular permite a las empresas combinar funciones según sus necesidades específicas.”