OpenMOSS 发布 MOVA - 开源音视频同步生成模型

2026/01/29

DeepSeek 发布 DeepSeek-OCR-2 - 引入视觉因果流的文档理解模型

2026年1月27日，DeepSeek 正式发布最新开源模型 DeepSeek-OCR-2，引入了全新的 DeepEncoder V2 视觉编码器。该编码器的架构打破了传统模型按固定顺序（从左上到右下）扫描图像的限制，转而模仿人类视觉的 “因果流（Causal Flow）” 逻辑，让 AI 能够根据图像含义动态重新排列图像片段。

核心创新：视觉因果流

突破固定扫描顺序

传统的视觉语言模型（VLM）通常按固定的 光栅扫描顺序（从左上到右下）处理图像，这种僵化的方式不符合人类的视觉感知。人类是基于内容的灵活扫描，而且在处理复杂布局时，如表格、公式、多栏文本，固定扫描会引入错误的信息。

DeepSeek-OCR-2 利用新型编码器 DeepEncoder V2，赋予模型 “视觉因果流 Visual Causal Flow” 的能力，让模型能够根据图像内容，动态地重新排序视觉 Token。

DeepEncoder V2 架构

DeepEncoder V2 采用了一种定制化的 注意力掩码（Attention Mask） 策略：

视觉 Token 部分

保留 双向注意力机制
确保模型能够像 CLIP 一样拥有全局感受野
捕捉图像的整体特征

因果流 Token 部分

采用 因果注意力机制（类似 Decoder-only LLM）
每个查询 Token 只能关注之前的 Token
实现视觉信息的智能重排序

通过这种设计，视觉 Token 保持了信息的全局交互，而因果流 Token 则获得了重排序视觉信息的能力。

基于 Qwen2-0.5B 构建

在具体实现上，DeepSeek 团队采用了 Qwen2-0.5B 来实例化这一架构，将轻量级语言模型的因果推理能力引入视觉编码阶段。

技术架构

两阶段推理闭环

DeepSeek-OCR-2 展示了 “两个级联的 1D 因果推理器” 模式：

第一阶段（编码器）：阅读逻辑推理
- 在 DeepEncoder V2 内完成语义理序
- 根据文档结构动态调整 Token 顺序
第二阶段（解码器）：视觉任务推理
- 在解码器中专注自回归生成
- 基于重排序后的视觉信息生成文本

这种方式将 2D 理解分解为两个互补子任务，代表了实现真正 2D 推理的一种突破性架构方法。

多裁剪策略

DeepSeek-OCR-2 采用了 多裁剪策略（Multi-crop strategy）：

根据图像分辨率不同
最终输入 LLM 的重排序视觉 Token 总数在 256 到 1120 之间
在 1024×1024 下生成 256 个粗粒度查询
在 768×768 细部区域每块生成 144 个高精度查询

这确保了公式、印章、小字号注释等细节零丢失。

视觉分词器优化

沿用 80M 参数 SAM-base 架构
输出维度从 1024 压缩至 896
配合 16 倍标记压缩比
大幅降低全局注意力计算开销

解码器架构

延续 3B MoE 稀疏架构
实际激活仅约 500M 参数
兼顾性能与部署成本

性能表现

OmniDocBench v1.5

在覆盖杂志、论文、白皮书等 9 大类共 1355 页文档的权威基准上：

综合准确率：91.09%（刷新纪录）
较前代提升：3.73%
阅读顺序编辑距离：从 0.085 降至 0.057

生产环境表现

线上服务重复率下降：33%（6.25% → 4.17%）
PDF 生产数据重复率下降：22%（3.69% → 2.88%）

与 Gemini-3 Pro 对比

在文档解析编辑距离上：

DeepSeek-OCR-2：0.100
Gemini-3 Pro：0.115

阅读顺序准确率提升超 34%。

训练策略

数据配比优化

OCR 数据占比：80%
正文/公式/表格采样比：3:1:1
合并”图注/标题”等语义近似标签
显著提升对学术 PDF、财报、招标文件等真实场景的泛化能力

中文文档优化

训练策略更懂中文文档特点，在处理中文复杂排版时表现优异。

应用场景

DeepSeek-OCR-2 特别适合以下场景：

学术文档处理

论文 PDF 转 Markdown
复杂公式识别
多栏布局理解
参考文献提取

商业文档分析

财务报表解析
合同文本提取
招标文件处理
发票识别

技术文档转换

技术手册数字化
API 文档提取
代码注释识别

多语言文档

支持 100+ 语言
混合语言文档处理
保持原有格式结构

技术意义

迈向统一多模态编码器

DeepSeek 团队认为，这为迈向统一的全模态编码器提供了一条有希望的路径。未来，单一编码器可能通过配置特定模态的可学习查询，在同一参数空间内实现对图像、音频和文本的特征提取与压缩。

视觉编码的新范式

如果说 DeepSeek-OCR 1 让行业第一次意识到”视觉压缩”可能是一条被严重低估的技术路线，那么 DeepSeek-OCR-2 显然决定把这条路走得更激进。

DeepEncoder V2 不再将视觉编码视为一次静态的、固定策略的扫描过程，而是引入了 语义驱动的动态编码机制。模型会在编码阶段就开始判断哪些区域更可能承载关键信息，并据此调整视觉 token 的分配与表达方式。

换句话说，视觉编码不再只是”预处理”，而是已经提前进入了”理解阶段”。

开源与可用性

DeepSeek-OCR-2 完全开源，提供：

模型权重
完整代码
技术报告

获取方式

GitHub 项目：https://github.com/deepseek-ai/DeepSeek-OCR-2
HuggingFace 模型：https://huggingface.co/deepseek-ai/DeepSeek-OCR-2
技术论文：https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf

社区支持

已有社区开发者为 DeepSeek-OCR-2 提供了 ComfyUI 集成：

ComfyUI-DeepSeek-OCR：https://github.com/1038lab/ComfyUI-DeepSeek-OCR

虽然目前处于 V0.0.1 beta 状态，但为 ComfyUI 用户提供了便捷的使用方式。