Skip to content
帮助构建更好的 ComfyUI 知识库 成为赞助者
新闻智谱团队(THUDM)开源CogView4 - 原生支持中文的DiT文生图模型

智谱团队(THUDM)开源CogView4 - 原生支持中文的DiT文生图模型

CogView4生成效果展示

智谱AI团队(THUDM)于今日正式开源CogView4多模态生成模型,这是原生支持中文提示词并能在图像中生成汉字的开源扩散Transformer(DiT)模型。该模型在DPG-Bench基准测试中以85.13的综合评分位列榜首,展现了强大的图像生成能力。

核心功能亮点

双语生成能力

  • 采用升级版GLM-4文本编码器,完美支持中英双语输入
  • 训练数据包含百万级中英双语图文对,彻底解决中文提示词理解难题
  • 在汉字生成准确率测试中,F1分数达61.68%,超越同类模型

智能文本处理

  • 动态文本长度支持(最长1024词元)
  • 相比固定长度方案减少50%冗余计算
  • 训练效率提升最高达30%

灵活分辨率生成

  • 支持512px-2048px任意尺寸输出
  • 混合分辨率训练方案适应不同场景需求
  • 特别优化社交媒体常用比例(9:16, 1:1, 4:3等)

技术优势

模型采用创新的「接力扩散」框架:

  1. 基础生成阶段:快速构建低分辨率图像轮廓
  2. 超分辨率阶段:通过flow-matching技术细化细节
  3. 动态噪声规划:优化生成速度与质量平衡

在权威评测中:

  • DPG-Bench综合评分85.13超越SDXL(74.65)和DALL-E 3(83.50)
  • T2I-CompBench复杂场景生成能力达0.3869分
  • 中文文字生成准确率F1值61.68%,较同类提升114%

硬件适配

针对不同设备提供多级优化方案:

  • 基础模式:RTX 3090即可运行512x512生成
  • 内存优化:通过CPU卸载技术降低显存占用至13GB
  • 4bit量化:支持文本编码器量化压缩,提升推理速度

使用方式

普通用户可通过HuggingFace Spaces平台直接体验在线演示,开发者可通过模型下载获取完整代码库。该模型支持通过简单API调用实现:

  • 中英文混合提示词输入
  • 自定义输出尺寸设置
  • 批量生成功能

相关资源

智谱团队表示,未来三个月内将陆续推出ControlNet控制模块、ComfyUI可视化工作流支持,以及模型微调工具包,进一步降低普通用户的使用门槛。