字节跳动推出Seaweed-7B:高性价比的视频生成基础模型
2025/04/14
字节跳动推出Seaweed-7B:高性价比的视频生成基础模型
字节跳动近日发布了一项视频生成领域的重要突破——Seaweed-7B,这是一个仅有70亿参数但性能卓越的视频生成基础模型。根据官方发布的技术报告,该模型在核心任务上已经超越了参数量为其两倍的主流模型,同时训练成本仅为竞争对手的三分之一左右。
突破性性能与高效率
Seaweed-7B(“海草”,取自”Seed-Video”的谐音)在多项关键指标上展现出令人印象深刻的性能:
- 参数规模:仅70亿参数,却能实现超越140亿参数Wan 2.1模型的效果
- 训练成本:使用665,000 H100 GPU小时完成训练,而同类模型通常需要超过200万GPU小时
- 推理速度:能够以24fps的速度实时生成720p分辨率视频,比同类模型快62倍
- 资源需求:仅需40GB显存即可支持1280×720分辨率视频生成,使中小团队也能够部署
在图像到视频生成的评测中,Seaweed-7B的Elo评分达1047,胜率58%,而Wan 2.1(14B参数)仅为53%,Sora的表现更是只有36%。
三大技术创新
Seaweed-7B的高性价比得益于三大关键技术创新:
1. 数据提纯技术
字节跳动团队开发了一套6阶段数据清洗流水线,通过时空分割、质量过滤和合成增强等步骤,将数据集中无效数据的比例从42%降低至2.9%,使得有效训练数据占比提升至97.1%,同等算力下数据利用效率提高4倍。
2. 创新架构设计
模型采用64×压缩比的VAE和混合流Transformer架构:
- VAE设计:抛弃传统补丁化压缩,采用因果3D卷积架构,同时保证720p高清重建效果并提升模型收敛速度30%
- Transformer优化:创新混合流Diffusion架构共享2/3前馈网络参数,比传统双流架构减少20%计算量
3. 渐进式训练策略
模型训练分为四个阶段进行:
- 图像筑基(256p):从静态画面入手,打牢视觉基础
- 短视频起步(360p):处理3-5秒短序列,聚焦动作连贯性
- 高清突破(720p):优化高分辨率细节,文本到视频任务占比提高到80%
- 后处理精调:通过SFT提升美学效果,RLHF优化运动结构,避免生成结果出现不自然动作
广泛的应用场景
Seaweed-7B作为基础模型,支持多种下游应用:
- 图像到视频生成:从单一图像或首尾两帧生成连贯视频
- 人物视频生成:生成逼真的人物角色,展现多样动作和表情
- 视听联合生成:同时生成匹配的音频和视频内容
- 长视频和故事讲述:支持长达一分钟的单镜头视频,以及多镜头长故事叙述
- 实时生成:以24fps速度实时生成720p视频
- 超分辨率生成:支持将视频提升至2K QHD(2560×1440)分辨率
- 相机控制生成:通过定义轨迹实现精确相机控制,提供交互式世界探索
物理一致性增强
通过在合成CGI渲染视频上进行后训练,Seaweed-7B还能增强视频生成的物理一致性,同时保持照片级真实感,使生成的复杂动作和3D场景更加真实自然。