Skip to content
Follow me on X
ComfyUI Wiki
새소식DeepSeek, DeepSeek-OCR-2 출시 - 비주얼 인과 흐름 탑재 문서 이해 모델

DeepSeek, DeepSeek-OCR-2 출시 - 비주얼 인과 흐름 탑재 문서 이해 모델

2026년 1월 27일, DeepSeek은 최신 오픈소스 모델 DeepSeek-OCR-2를 정식으로 출시하고 새로운 DeepEncoder V2 비전 인코더를 도입했습니다. 이 인코더 아키텍처는 기존 모델의 고정 스캔 순서(왼쪽 위에서 오른쪽 아래)의 제한을 타파하고, 인간 시각의 “인과 흐름(Causal Flow)” 논리를 모방하여 AI가 이미지 의미에 기반해 이미지 세그먼트를 동적으로 재배열할 수 있게 합니다.

핵심 혁신: 비주얼 인과 흐름

고정 스캔 순서 타파

기존의 비전-언어 모델(VLM)은 일반적으로 고정된 래스터 스캔 순서(왼쪽 위에서 오른쪽 아래)로 이미지를 처리합니다. 이러한 경직된 접근 방식은 인간의 시각 인식과 일치하지 않습니다. 인간은 콘텐츠에 기반해 유연하게 스캔하며, 표, 수식, 다단 텍스트와 같은 복잡한 레이아웃을 처리할 때 고정 스캔은 잘못된 정보를 도입합니다.

DeepSeek-OCR-2는 새로운 DeepEncoder V2 인코더를 활용하여 모델에 “비주얼 인과 흐름 Visual Causal Flow” 능력을 부여하고, 이미지 콘텐츠에 기반해 비주얼 토큰을 동적으로 재배열할 수 있게 합니다.

DeepEncoder V2 아키텍처

DeepEncoder V2는 맞춤형 어텐션 마스크(Attention Mask) 전략을 채택합니다:

비주얼 토큰 부분

  • 양방향 어텐션 메커니즘 유지
  • CLIP과 같은 글로벌 수용 영역 확보
  • 이미지 전체 특징 포착

인과 흐름 토큰 부분

  • 인과 어텐션 메커니즘 채택 (Decoder-only LLM과 유사)
  • 각 쿼리 토큰은 이전 토큰만 참조 가능
  • 비주얼 정보의 지능적 재배열 실현

이 설계를 통해 비주얼 토큰은 글로벌 정보 상호작용을 유지하고, 인과 흐름 토큰은 비주얼 정보를 재배열하는 능력을 획득합니다.

Qwen2-0.5B 기반

구현에서 DeepSeek 팀은 Qwen2-0.5B를 사용하여 이 아키텍처를 인스턴스화하고, 경량 언어 모델의 인과 추론 능력을 비주얼 인코딩 단계에 도입했습니다.

기술 아키텍처

2단계 추론 루프

DeepSeek-OCR-2는 “2개의 캐스케이드된 1D 인과 추론기” 패턴을 보여줍니다:

  1. 1단계(인코더): 읽기 논리 추론

    • DeepEncoder V2 내에서 의미적 순서 지정 완료
    • 문서 구조에 기반해 토큰 순서를 동적으로 조정
  2. 2단계(디코더): 비주얼 작업 추론

    • 디코더에서 자기회귀 생성에 집중
    • 재배열된 비주얼 정보에 기반해 텍스트 생성

이 접근 방식은 2D 이해를 두 개의 보완적인 하위 작업으로 분해하여 진정한 2D 추론을 실현하기 위한 획기적인 아키텍처 방법을 나타냅니다.

멀티 크롭 전략

DeepSeek-OCR-2는 **멀티 크롭 전략(Multi-crop strategy)**을 채택합니다:

  • 이미지 해상도에 따라 변화
  • LLM에 입력되는 최종 재배열 비주얼 토큰의 총 수는 256에서 1120 범위
  • 1024×1024에서 256개의 조립도 쿼리 생성
  • 768×768 세부 영역에서 블록당 144개의 고정밀 쿼리 생성

이를 통해 수식, 스탬프, 작은 텍스트 주석 등의 세부 사항이 손실되지 않습니다.

비주얼 토크나이저 최적화

  • 80M 파라미터 SAM-base 아키텍처 사용
  • 출력 차원을 1024에서 896으로 압축
  • 16배 토큰 압축 비율과 결합
  • 글로벌 어텐션 계산 오버헤드 대폭 감소

디코더 아키텍처

  • 3B MoE 희소 아키텍처 계속
  • 실제 활성화는 약 500M 파라미터
  • 성능과 배포 비용의 균형

성능

OmniDocBench v1.5

잡지, 논문, 백서 등 9개 주요 카테고리 1,355페이지의 문서를 포함하는 권위 있는 벤치마크에서:

  • 종합 정확도: 91.09% (기록 갱신)
  • 이전 세대 대비 향상: 3.73%
  • 읽기 순서 편집 거리: 0.085에서 0.057로 감소

프로덕션 환경 성능

  • 온라인 서비스 중복률 감소: 33% (6.25% → 4.17%)
  • PDF 프로덕션 데이터 중복률 감소: 22% (3.69% → 2.88%)

Gemini-3 Pro와의 비교

문서 파싱 편집 거리에서:

  • DeepSeek-OCR-2: 0.100
  • Gemini-3 Pro: 0.115

읽기 순서 정확도가 34% 이상 향상되었습니다.

훈련 전략

데이터 배분 최적화

  • OCR 데이터 비율: 80%
  • 본문/수식/표 샘플링 비율: 3:1:1
  • “캡션/제목”과 같은 의미적으로 유사한 레이블 통합
  • 학술 PDF, 재무 보고서, 입찰 문서 등 실제 시나리오에 대한 일반화 능력 대폭 향상

중국어 문서 최적화

훈련 전략은 중국어 문서의 특성을 더 잘 이해하며, 복잡한 중국어 레이아웃 처리에서 뛰어난 성능을 발휘합니다.

응용 시나리오

DeepSeek-OCR-2는 특히 다음 시나리오에 적합합니다:

학술 문서 처리

  • 논문 PDF에서 Markdown으로 변환
  • 복잡한 수식 인식
  • 다단 레이아웃 이해
  • 참고 문헌 추출

비즈니스 문서 분석

  • 재무제표 파싱
  • 계약 텍스트 추출
  • 입찰 문서 처리
  • 송장 인식

기술 문서 변환

  • 기술 매뉴얼 디지털화
  • API 문서 추출
  • 코드 주석 인식

다국어 문서

  • 100개 이상의 언어 지원
  • 혼합 언어 문서 처리
  • 원본 형식 구조 유지

기술적 의의

통합 멀티모달 인코더를 향해

DeepSeek 팀은 이것이 통합 멀티모달 인코더로 가는 유망한 경로를 제공한다고 믿습니다. 미래에는 단일 인코더가 모달리티별 학습 가능한 쿼리를 구성함으로써 동일한 파라미터 공간 내에서 이미지, 오디오, 텍스트의 특징 추출 및 압축을 실현할 수 있을 것입니다.

비주얼 인코딩의 새로운 패러다임

DeepSeek-OCR 1이 업계에 “비주얼 압축”이 심각하게 과소평가된 기술 경로일 수 있음을 처음으로 인식시켰다면, DeepSeek-OCR-2는 분명히 이 길을 더 적극적으로 가기로 결정했습니다.

DeepEncoder V2는 더 이상 비주얼 인코딩을 정적이고 고정 전략의 스캔 프로세스로 보지 않고, 의미 주도형 동적 인코딩 메커니즘을 도입합니다. 모델은 인코딩 단계에서 어떤 영역이 중요한 정보를 포함할 가능성이 높은지 판단하기 시작하고, 그에 따라 비주얼 토큰의 할당 및 표현 방법을 조정합니다.

즉, 비주얼 인코딩은 더 이상 단순한 “전처리”가 아니라 이미 “이해 단계”에 미리 진입했습니다.

오픈소스 및 가용성

DeepSeek-OCR-2는 완전히 오픈소스화되어 다음을 제공합니다:

  • 모델 가중치
  • 완전한 코드
  • 기술 보고서

액세스

커뮤니티 지원

커뮤니티 개발자가 이미 DeepSeek-OCR-2의 ComfyUI 통합을 제공했습니다:

현재 V0.0.1 베타 버전이지만 ComfyUI 사용자에게 편리한 사용 방법을 제공합니다.

관련 링크