字节跳动发布 InfiniteYou:保留用户身份特征的灵活图像再创作框架
字节跳动智能创作团队近日发布了一个名为 InfiniteYou (InfU) 的新型图像生成框架,该技术能够在保持用户身份特征的同时,根据文本提示灵活地生成多样化的高质量图像。
技术突破
在保持个人身份特征的同时进行灵活且高保真的图像生成仍是一个极具挑战性的任务。InfiniteYou 是一种基于先进的扩散变换器(Diffusion Transformers, DiTs)的创新框架,特别是 FLUX 模型,旨在解决现有方法在身份相似度、文本-图像对齐和生成质量方面的不足。
核心优势
InfiniteYou 相较于现有的身份保留图像生成方法,展现出多方面的优势:
- 卓越的身份保持能力:InfuseNet 组件通过残差连接直接注入身份特征,确保用户的身份特征得到精确保留
- 优秀的文本-图像对齐:多阶段训练策略显著提高了生成图像与文本描述的匹配度
- 高生成质量和美学:生成的图像在细节、清晰度和美观度方面均超越了现有基线模型
- 缓解面部复制粘贴问题:能够更好地根据文本提示生成具有真实感的面部,减少了直接复制粘贴人脸的现象
- 即插即用特性:具有理想的即插即用设计,可以与多种现有方法和工具兼容
实用场景
InfiniteYou 技术可应用于多种创意场景:
- 个性化头像创作
- 内容创作者的形象多样化展示
- 虚拟试衣和形象变换
- 个性化广告和营销内容制作
开源与可用性
字节跳动已将 InfiniteYou 的代码和模型在 GitHub 上开源,开发者和研究人员可以通过 Apache 2.0 许可使用其代码,而模型则遵循 Creative Commons Attribution-NonCommercial 4.0 国际公共许可证,仅用于学术研究目的。
相关链接
- GitHub 项目地址:https://github.com/bytedance/InfiniteYou
- Hugging Face 模型:https://huggingface.co/ByteDance/InfiniteYou
- Hugging Face 在线演示:https://huggingface.co/spaces/ByteDance/InfiniteYou-FLUX