Skip to content
후원자 되기 더 나은 ComfyUI 지식베이스 구축을 돕기
새소식알리바바, 시각 문서 분석 도구 ViDoRAG 오픈소스 공개

알리바바, 시각 문서 분석 도구 ViDoRAG 오픈소스 공개

ViDoRAG 작동流程

알리바바가 최근 오픈소스로 공개한 ViDoRAG 문서 분석 시스템은 GPT-4o 테스트 환경에서 79.4%의 정확도를 기록하며 기존 방법 대비 10% 이상 성능이 향상되었습니다. 이 시스템은 제품 설명서나 기술 매뉴얼과 같이 텍스트, 이미지, 표가 혼합된 복잡한 문서를 효과적으로 처리할 수 있습니다.

3대 핵심 기능

  1. 지능형 검색: 100페이지 문서 내 핵심 정보 3분 내 위치 파악
  2. 문서-이미지 상호 검증: 텍스트 설명과 차트 데이터의 일관성 자동 확인
  3. 정밀 답변 생성: “최대 작동 온도는 얼마인가요?”와 같은 구체적 질문에 페이지 번호 포함 정답 제공

기술 혁신점

  • 3단계 협업 프로세스:
    • 탐색기(Seeker): 관련 페이지 신속 탐색
    • 분석기(Inspector): 내용 신뢰도 심층 평가
    • 답변 생성기(Answer Agent): 종합 정보 통합 응답
  • 혼합 검색 기술: 텍스트 의미와 이미지 내용 동시 분석
  • 모듈식 설계: 검색/분석/생성 모듈 독립적 업그레이드 가능

데이터셋 예시

전문 테스트 데이터셋

동시 공개된 ViDoSeek 테스트셋 포함:

  • 2,500+ 실제 문서(제품 매뉴얼/학술 논문/재무 보고서)
  • 4가지 유형의 질문:
    • 텍스트 정보 검색
    • 차트 데이터 분석
    • 페이지 간 연관성 파악
    • 종합 결론 도출

실제 적용 사례

  • 제조업: 장비 설명서 기술 매개변수 추출
  • 교육 분야: 논문 실험 데이터 차트 해석
  • 금융 서비스: 연간 보고서 핵심 지표 자동 추출

주요 정보

알리바바 기술 책임자는 “ViDoRAG는 전문 조교가 있는 현미경처럼 방대한 문서에서 유용한 정보를 신속하게 추출합니다. 모듈식 설계로 기업 필요에 따라 기능을 자유롭게 조합할 수 있습니다”라고 설명했습니다.