알리바바, 시각 문서 분석 도구 ViDoRAG 오픈소스 공개

알리바바가 최근 오픈소스로 공개한 ViDoRAG 문서 분석 시스템은 GPT-4o 테스트 환경에서 79.4%의 정확도를 기록하며 기존 방법 대비 10% 이상 성능이 향상되었습니다. 이 시스템은 제품 설명서나 기술 매뉴얼과 같이 텍스트, 이미지, 표가 혼합된 복잡한 문서를 효과적으로 처리할 수 있습니다.

3대 핵심 기능

지능형 검색: 100페이지 문서 내 핵심 정보 3분 내 위치 파악
문서-이미지 상호 검증: 텍스트 설명과 차트 데이터의 일관성 자동 확인
정밀 답변 생성: "최대 작동 온도는 얼마인가요?"와 같은 구체적 질문에 페이지 번호 포함 정답 제공

기술 혁신점

3단계 협업 프로세스:
- 탐색기(Seeker): 관련 페이지 신속 탐색
- 분석기(Inspector): 내용 신뢰도 심층 평가
- 답변 생성기(Answer Agent): 종합 정보 통합 응답
혼합 검색 기술: 텍스트 의미와 이미지 내용 동시 분석
모듈식 설계: 검색/분석/생성 모듈 독립적 업그레이드 가능

전문 테스트 데이터셋

동시 공개된 ViDoSeek 테스트셋 포함:

2,500+ 실제 문서(제품 매뉴얼/학술 논문/재무 보고서)
4가지 유형의 질문:
- 텍스트 정보 검색
- 차트 데이터 분석
- 페이지 간 연관성 파악
- 종합 결론 도출

실제 적용 사례

제조업: 장비 설명서 기술 매개변수 추출
교육 분야: 논문 실험 데이터 차트 해석
금융 서비스: 연간 보고서 핵심 지표 자동 추출

주요 정보

오픈소스 저장소: GitHub 프로젝트 페이지
테스트 데이터셋: HuggingFace 다운로드
기술 백서: 상세 연구 내용

알리바바 기술 책임자는 "ViDoRAG는 전문 조교가 있는 현미경처럼 방대한 문서에서 유용한 정보를 신속하게 추출합니다. 모듈식 설계로 기업 필요에 따라 기능을 자유롭게 조합할 수 있습니다"라고 설명했습니다.

3대 핵심 기능

기술 혁신점

전문 테스트 데이터셋

실제 적용 사례

주요 정보

댓글