Skip to content
Follow me on X
ComfyUI Wiki
新闻DeepSeek 发布 DeepSeek-OCR-2 - 引入视觉因果流的文档理解模型

DeepSeek 发布 DeepSeek-OCR-2 - 引入视觉因果流的文档理解模型

2026年1月27日,DeepSeek 正式发布最新开源模型 DeepSeek-OCR-2,引入了全新的 DeepEncoder V2 视觉编码器。该编码器的架构打破了传统模型按固定顺序(从左上到右下)扫描图像的限制,转而模仿人类视觉的 “因果流(Causal Flow)” 逻辑,让 AI 能够根据图像含义动态重新排列图像片段。

核心创新:视觉因果流

突破固定扫描顺序

传统的视觉语言模型(VLM)通常按固定的 光栅扫描顺序(从左上到右下)处理图像,这种僵化的方式不符合人类的视觉感知。人类是基于内容的灵活扫描,而且在处理复杂布局时,如表格、公式、多栏文本,固定扫描会引入错误的信息。

DeepSeek-OCR-2 利用新型编码器 DeepEncoder V2,赋予模型 “视觉因果流 Visual Causal Flow” 的能力,让模型能够根据图像内容,动态地重新排序视觉 Token。

DeepEncoder V2 架构

DeepEncoder V2 采用了一种定制化的 注意力掩码(Attention Mask) 策略:

视觉 Token 部分

  • 保留 双向注意力机制
  • 确保模型能够像 CLIP 一样拥有全局感受野
  • 捕捉图像的整体特征

因果流 Token 部分

  • 采用 因果注意力机制(类似 Decoder-only LLM)
  • 每个查询 Token 只能关注之前的 Token
  • 实现视觉信息的智能重排序

通过这种设计,视觉 Token 保持了信息的全局交互,而因果流 Token 则获得了重排序视觉信息的能力。

基于 Qwen2-0.5B 构建

在具体实现上,DeepSeek 团队采用了 Qwen2-0.5B 来实例化这一架构,将轻量级语言模型的因果推理能力引入视觉编码阶段。

技术架构

两阶段推理闭环

DeepSeek-OCR-2 展示了 “两个级联的 1D 因果推理器” 模式:

  1. 第一阶段(编码器):阅读逻辑推理

    • 在 DeepEncoder V2 内完成语义理序
    • 根据文档结构动态调整 Token 顺序
  2. 第二阶段(解码器):视觉任务推理

    • 在解码器中专注自回归生成
    • 基于重排序后的视觉信息生成文本

这种方式将 2D 理解分解为两个互补子任务,代表了实现真正 2D 推理的一种突破性架构方法。

多裁剪策略

DeepSeek-OCR-2 采用了 多裁剪策略(Multi-crop strategy)

  • 根据图像分辨率不同
  • 最终输入 LLM 的重排序视觉 Token 总数在 256 到 1120 之间
  • 1024×1024 下生成 256 个粗粒度查询
  • 768×768 细部区域每块生成 144 个高精度查询

这确保了公式、印章、小字号注释等细节零丢失。

视觉分词器优化

  • 沿用 80M 参数 SAM-base 架构
  • 输出维度从 1024 压缩至 896
  • 配合 16 倍标记压缩比
  • 大幅降低全局注意力计算开销

解码器架构

  • 延续 3B MoE 稀疏架构
  • 实际激活仅约 500M 参数
  • 兼顾性能与部署成本

性能表现

OmniDocBench v1.5

在覆盖杂志、论文、白皮书等 9 大类共 1355 页文档的权威基准上:

  • 综合准确率:91.09%(刷新纪录)
  • 较前代提升:3.73%
  • 阅读顺序编辑距离:从 0.085 降至 0.057

生产环境表现

  • 线上服务重复率下降:33%(6.25% → 4.17%)
  • PDF 生产数据重复率下降:22%(3.69% → 2.88%)

与 Gemini-3 Pro 对比

在文档解析编辑距离上:

  • DeepSeek-OCR-2:0.100
  • Gemini-3 Pro:0.115

阅读顺序准确率提升超 34%

训练策略

数据配比优化

  • OCR 数据占比:80%
  • 正文/公式/表格采样比:3:1:1
  • 合并”图注/标题”等语义近似标签
  • 显著提升对学术 PDF、财报、招标文件等真实场景的泛化能力

中文文档优化

训练策略更懂中文文档特点,在处理中文复杂排版时表现优异。

应用场景

DeepSeek-OCR-2 特别适合以下场景:

学术文档处理

  • 论文 PDF 转 Markdown
  • 复杂公式识别
  • 多栏布局理解
  • 参考文献提取

商业文档分析

  • 财务报表解析
  • 合同文本提取
  • 招标文件处理
  • 发票识别

技术文档转换

  • 技术手册数字化
  • API 文档提取
  • 代码注释识别

多语言文档

  • 支持 100+ 语言
  • 混合语言文档处理
  • 保持原有格式结构

技术意义

迈向统一多模态编码器

DeepSeek 团队认为,这为迈向统一的全模态编码器提供了一条有希望的路径。未来,单一编码器可能通过配置特定模态的可学习查询,在同一参数空间内实现对图像、音频和文本的特征提取与压缩。

视觉编码的新范式

如果说 DeepSeek-OCR 1 让行业第一次意识到”视觉压缩”可能是一条被严重低估的技术路线,那么 DeepSeek-OCR-2 显然决定把这条路走得更激进。

DeepEncoder V2 不再将视觉编码视为一次静态的、固定策略的扫描过程,而是引入了 语义驱动的动态编码机制。模型会在编码阶段就开始判断哪些区域更可能承载关键信息,并据此调整视觉 token 的分配与表达方式。

换句话说,视觉编码不再只是”预处理”,而是已经提前进入了”理解阶段”。

开源与可用性

DeepSeek-OCR-2 完全开源,提供:

  • 模型权重
  • 完整代码
  • 技术报告

获取方式

社区支持

已有社区开发者为 DeepSeek-OCR-2 提供了 ComfyUI 集成:

虽然目前处于 V0.0.1 beta 状态,但为 ComfyUI 用户提供了便捷的使用方式。

相关链接