智谱团队（THUDM）开源CogView4 - 原生支持中文的DiT文生图模型

最后更新：2025年3月4日ComfyUI Wikinews

智谱AI团队（THUDM）发布CogView4开源图像生成模型，支持中英双语输入与汉字生成，在多项基准测试中表现领先

CogView4生成效果展示

智谱AI团队（THUDM）于今日正式开源CogView4多模态生成模型，这是原生支持中文提示词并能在图像中生成汉字的开源扩散Transformer（DiT）模型。该模型在DPG-Bench基准测试中以85.13的综合评分位列榜首，展现了强大的图像生成能力。

核心功能亮点

双语生成能力

采用升级版GLM-4文本编码器，完美支持中英双语输入
训练数据包含百万级中英双语图文对，彻底解决中文提示词理解难题
在汉字生成准确率测试中，F1分数达61.68%，超越同类模型

智能文本处理

动态文本长度支持（最长1024词元）
相比固定长度方案减少50%冗余计算
训练效率提升最高达30%

灵活分辨率生成

支持512px-2048px任意尺寸输出
混合分辨率训练方案适应不同场景需求
特别优化社交媒体常用比例（9:16, 1:1, 4:3等）

技术优势

模型采用创新的「接力扩散」框架：

基础生成阶段：快速构建低分辨率图像轮廓
超分辨率阶段：通过flow-matching技术细化细节
动态噪声规划：优化生成速度与质量平衡

在权威评测中：

DPG-Bench综合评分85.13超越SDXL（74.65）和DALL-E 3（83.50）
T2I-CompBench复杂场景生成能力达0.3869分
中文文字生成准确率F1值61.68%，较同类提升114%

硬件适配

针对不同设备提供多级优化方案：

基础模式：RTX 3090即可运行512x512生成
内存优化：通过CPU卸载技术降低显存占用至13GB
4bit量化：支持文本编码器量化压缩，提升推理速度

使用方式

普通用户可通过HuggingFace Spaces平台直接体验在线演示，开发者可通过模型下载获取完整代码库。该模型支持通过简单API调用实现：

中英文混合提示词输入
自定义输出尺寸设置
批量生成功能

相关资源

智谱团队表示，未来三个月内将陆续推出ControlNet控制模块、ComfyUI可视化工作流支持，以及模型微调工具包，进一步降低普通用户的使用门槛。

评论

使用 GitHub 登录后即可参与讨论。

评论加载中…

智谱团队（THUDM）开源CogView4 - 原生支持中文的DiT文生图模型 | ComfyUI Wiki