字节跳动推出Seaweed-7B:高性价比的视频生成基础模型
2025/04/14
PixelFlow: 直接在像素空间工作的生成模型
香港大学和Adobe的研究者共同开发了PixelFlow,这是一种直接在原始像素空间工作的图像生成模型系列。与目前占主导地位的潜在空间模型不同,PixelFlow采用了全新的方法处理图像生成。
创新特点
PixelFlow最显著的创新在于它直接在原始像素空间操作,而不是像大多数主流模型那样在潜在空间工作。这种方法简化了图像生成流程,具有以下优势:
- 无需依赖预训练的变分自编码器(VAE)
- 支持整个模型端到端训练
- 通过高效的级联流建模实现像素空间中的可承受计算成本
在256x256 ImageNet类条件图像生成基准测试中,PixelFlow达到了1.98的FID分数,文本到图像的结果显示其在图像质量、艺术性和语义控制方面表现出色。
在线演示
PixelFlow团队提供了一个HuggingFace在线演示,供用户体验模型的图像生成能力: https://huggingface.co/spaces/ShoufaChen/PixelFlow
模型库
PixelFlow目前提供两种模型,分别是:
- 类别到图像模型:参数数量为677M,FID分数为1.98
- 文本到图像模型:参数数量为882M
这两种模型的详细信息如下:
模型名称 | 任务 | 参数数量 | FID | 模型权重 |
---|---|---|---|---|
PixelFlow | 类别到图像 | 677M | 1.98 | 🤗 |
PixelFlow | 文本到图像 | 882M | N/A | 🤗 |
这两种模型均可在HuggingFace平台上获取。
未来展望
研究团队希望这种新范式能够启发并为下一代视觉生成模型开辟新机会。PixelFlow的方法可能降低生成模型的开发门槛,激发更高效、更轻量化的图像生成方法的出现。