OpenMOSS 发布 MOVA - 开源音视频同步生成模型
2026/01/29
DeepSeek 发布 DeepSeek-OCR-2 - 引入视觉因果流的文档理解模型
2026年1月27日,DeepSeek 正式发布最新开源模型 DeepSeek-OCR-2,引入了全新的 DeepEncoder V2 视觉编码器。该编码器的架构打破了传统模型按固定顺序(从左上到右下)扫描图像的限制,转而模仿人类视觉的 “因果流(Causal Flow)” 逻辑,让 AI 能够根据图像含义动态重新排列图像片段。
核心创新:视觉因果流
突破固定扫描顺序
传统的视觉语言模型(VLM)通常按固定的 光栅扫描顺序(从左上到右下)处理图像,这种僵化的方式不符合人类的视觉感知。人类是基于内容的灵活扫描,而且在处理复杂布局时,如表格、公式、多栏文本,固定扫描会引入错误的信息。
DeepSeek-OCR-2 利用新型编码器 DeepEncoder V2,赋予模型 “视觉因果流 Visual Causal Flow” 的能力,让模型能够根据图像内容,动态地重新排序视觉 Token。
DeepEncoder V2 架构
DeepEncoder V2 采用了一种定制化的 注意力掩码(Attention Mask) 策略:
视觉 Token 部分
- 保留 双向注意力机制
- 确保模型能够像 CLIP 一样拥有全局感受野
- 捕捉图像的整体特征
因果流 Token 部分
- 采用 因果注意力机制(类似 Decoder-only LLM)
- 每个查询 Token 只能关注之前的 Token
- 实现视觉信息的智能重排序
通过这种设计,视觉 Token 保持了信息的全局交互,而因果流 Token 则获得了重排序视觉信息的能力。
基于 Qwen2-0.5B 构建
在具体实现上,DeepSeek 团队采用了 Qwen2-0.5B 来实例化这一架构,将轻量级语言模型的因果推理能力引入视觉编码阶段。
技术架构
两阶段推理闭环
DeepSeek-OCR-2 展示了 “两个级联的 1D 因果推理器” 模式:
-
第一阶段(编码器):阅读逻辑推理
- 在 DeepEncoder V2 内完成语义理序
- 根据文档结构动态调整 Token 顺序
-
第二阶段(解码器):视觉任务推理
- 在解码器中专注自回归生成
- 基于重排序后的视觉信息生成文本
这种方式将 2D 理解分解为两个互补子任务,代表了实现真正 2D 推理的一种突破性架构方法。
多裁剪策略
DeepSeek-OCR-2 采用了 多裁剪策略(Multi-crop strategy):
- 根据图像分辨率不同
- 最终输入 LLM 的重排序视觉 Token 总数在 256 到 1120 之间
- 在 1024×1024 下生成 256 个粗粒度查询
- 在 768×768 细部区域每块生成 144 个高精度查询
这确保了公式、印章、小字号注释等细节零丢失。
视觉分词器优化
- 沿用 80M 参数 SAM-base 架构
- 输出维度从 1024 压缩至 896
- 配合 16 倍标记压缩比
- 大幅降低全局注意力计算开销
解码器架构
- 延续 3B MoE 稀疏架构
- 实际激活仅约 500M 参数
- 兼顾性能与部署成本
性能表现
OmniDocBench v1.5
在覆盖杂志、论文、白皮书等 9 大类共 1355 页文档的权威基准上:
- 综合准确率:91.09%(刷新纪录)
- 较前代提升:3.73%
- 阅读顺序编辑距离:从 0.085 降至 0.057
生产环境表现
- 线上服务重复率下降:33%(6.25% → 4.17%)
- PDF 生产数据重复率下降:22%(3.69% → 2.88%)
与 Gemini-3 Pro 对比
在文档解析编辑距离上:
- DeepSeek-OCR-2:0.100
- Gemini-3 Pro:0.115
阅读顺序准确率提升超 34%。
训练策略
数据配比优化
- OCR 数据占比:80%
- 正文/公式/表格采样比:3:1:1
- 合并”图注/标题”等语义近似标签
- 显著提升对学术 PDF、财报、招标文件等真实场景的泛化能力
中文文档优化
训练策略更懂中文文档特点,在处理中文复杂排版时表现优异。
应用场景
DeepSeek-OCR-2 特别适合以下场景:
学术文档处理
- 论文 PDF 转 Markdown
- 复杂公式识别
- 多栏布局理解
- 参考文献提取
商业文档分析
- 财务报表解析
- 合同文本提取
- 招标文件处理
- 发票识别
技术文档转换
- 技术手册数字化
- API 文档提取
- 代码注释识别
多语言文档
- 支持 100+ 语言
- 混合语言文档处理
- 保持原有格式结构
技术意义
迈向统一多模态编码器
DeepSeek 团队认为,这为迈向统一的全模态编码器提供了一条有希望的路径。未来,单一编码器可能通过配置特定模态的可学习查询,在同一参数空间内实现对图像、音频和文本的特征提取与压缩。
视觉编码的新范式
如果说 DeepSeek-OCR 1 让行业第一次意识到”视觉压缩”可能是一条被严重低估的技术路线,那么 DeepSeek-OCR-2 显然决定把这条路走得更激进。
DeepEncoder V2 不再将视觉编码视为一次静态的、固定策略的扫描过程,而是引入了 语义驱动的动态编码机制。模型会在编码阶段就开始判断哪些区域更可能承载关键信息,并据此调整视觉 token 的分配与表达方式。
换句话说,视觉编码不再只是”预处理”,而是已经提前进入了”理解阶段”。
开源与可用性
DeepSeek-OCR-2 完全开源,提供:
- 模型权重
- 完整代码
- 技术报告
获取方式
- GitHub 项目:https://github.com/deepseek-ai/DeepSeek-OCR-2
- HuggingFace 模型:https://huggingface.co/deepseek-ai/DeepSeek-OCR-2
- 技术论文:https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf
社区支持
已有社区开发者为 DeepSeek-OCR-2 提供了 ComfyUI 集成:
- ComfyUI-DeepSeek-OCR:https://github.com/1038lab/ComfyUI-DeepSeek-OCR
虽然目前处于 V0.0.1 beta 状态,但为 ComfyUI 用户提供了便捷的使用方式。
相关链接
- GitHub 仓库:https://github.com/deepseek-ai/DeepSeek-OCR-2
- HuggingFace 模型:https://huggingface.co/deepseek-ai/DeepSeek-OCR-2
- 技术论文:https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf
- ComfyUI 插件:https://github.com/1038lab/ComfyUI-DeepSeek-OCR