Skip to content
Follow me on X
ComfyUI Wiki
새소식알리바바, 시각 문서 분석 도구 ViDoRAG 오픈소스 공개

알리바바, 시각 문서 분석 도구 ViDoRAG 오픈소스 공개

ViDoRAG 작동流程

알리바바가 최근 오픈소스로 공개한 ViDoRAG 문서 분석 시스템은 GPT-4o 테스트 환경에서 79.4%의 정확도를 기록하며 기존 방법 대비 10% 이상 성능이 향상되었습니다. 이 시스템은 제품 설명서나 기술 매뉴얼과 같이 텍스트, 이미지, 표가 혼합된 복잡한 문서를 효과적으로 처리할 수 있습니다.

3대 핵심 기능

  1. 지능형 검색: 100페이지 문서 내 핵심 정보 3분 내 위치 파악
  2. 문서-이미지 상호 검증: 텍스트 설명과 차트 데이터의 일관성 자동 확인
  3. 정밀 답변 생성: “최대 작동 온도는 얼마인가요?”와 같은 구체적 질문에 페이지 번호 포함 정답 제공

기술 혁신점

  • 3단계 협업 프로세스:
    • 탐색기(Seeker): 관련 페이지 신속 탐색
    • 분석기(Inspector): 내용 신뢰도 심층 평가
    • 답변 생성기(Answer Agent): 종합 정보 통합 응답
  • 혼합 검색 기술: 텍스트 의미와 이미지 내용 동시 분석
  • 모듈식 설계: 검색/분석/생성 모듈 독립적 업그레이드 가능

데이터셋 예시

전문 테스트 데이터셋

동시 공개된 ViDoSeek 테스트셋 포함:

  • 2,500+ 실제 문서(제품 매뉴얼/학술 논문/재무 보고서)
  • 4가지 유형의 질문:
    • 텍스트 정보 검색
    • 차트 데이터 분석
    • 페이지 간 연관성 파악
    • 종합 결론 도출

실제 적용 사례

  • 제조업: 장비 설명서 기술 매개변수 추출
  • 교육 분야: 논문 실험 데이터 차트 해석
  • 금융 서비스: 연간 보고서 핵심 지표 자동 추출

주요 정보

알리바바 기술 책임자는 “ViDoRAG는 전문 조교가 있는 현미경처럼 방대한 문서에서 유용한 정보를 신속하게 추출합니다. 모듈식 설계로 기업 필요에 따라 기능을 자유롭게 조합할 수 있습니다”라고 설명했습니다.