Sulphur 2: 基于 LTX 2.3 的 9B 视频生成模型
Sulphur 2 是 LTX 2.3 的社区微调版本,提供文生视频和图生视频功能,内置提示词增强器和蒸馏 LoRA,基于 12.5 万段以上精选视频片段训练而成。
概述
Sulphur 2 由 SulphurAI 于 2026 年 5 月 3 日发布,是一个基于 12.5 万段以上精选视频片段 微调的视频生成模型。它基于 Lightricks 的 LTX 2.3 架构(一个 220 亿参数的扩散变换器),提供文生视频和图生视频功能,且没有基础 LTX 2.3 模型中的内容限制。
该模型支持所有 LTX 2.3 原生格式,并附带多个配套组件,包括 提示词增强器、蒸馏 LoRA(用于加速推理)以及开箱即用的 ComfyUI 工作流。
关键特性
| 特性 | 描述 |
|---|---|
| 架构 | 基于 Lightricks LTX 2.3(220 亿参数 DiT)微调 |
| 支持任务 | 文生视频(T2V)和图生视频(I2V) |
| 模型大小 | 约 90 亿有效参数(开发专用 BF16:16.7 GB,FP8:8.5 GB) |
| 提示词增强器 | 捆绑的 GGUF 提示词增强器 |
| 蒸馏 LoRA | 1.1 蒸馏 LoRA,用于加速生成 |
| 训练数据 | 12.5 万段以上精选视频片段 |
| 许可证 | 自定义非商业/研究许可 |
模型变体
Sulphur 2 提供多种权重变体以适应不同硬件:
- sulphur_dev_bf16.safetensors(约 16.7 GB)— 全精度开发专用版本
- sulphur_dev_fp8mixed.safetensors(约 8.5 GB)— 量化开发专用版本,更低显存需求
- sulphur_distil_bf16.safetensors: 蒸馏版本,推理速度更快
- sulphur_lora_rank_768.safetensors: 用于微调的 LoRA
- distill_loras/ltx-2.3-22b-distilled-lora-1.1.safetensors: 额外的蒸馏 LoRA
提示词增强器
Sulphur 2 的一个突出特性是包含了一个专用提示词增强器——一个封装为 GGUF 格式的小型语言模型,可自动重写并丰富用户提示词以提升视频生成效果。提供两个变体:
- 标准提示词增强器: 通用提示词重写
提示词增强器可在 LM Studio 或任何兼容 GGUF 的推理 UI 中加载。
ComfyUI 集成
Sulphur 2 附带开箱即用的 ComfyUI 工作流:
workflows/ltx23_t2v base.json: 文生视频基础工作流workflows/ltx23_t2v distilled.json: 文生视频(使用蒸馏 LoRA)workflows/ltx23_i2v base.json: 图生视频基础工作流workflows/ltx23_i2v distilled.json: 图生视频(使用蒸馏 LoRA)
由于 Sulphur 2 基于 LTX 2.3,因此它适用于任何支持 LTX 2.3 视频生成的 ComfyUI 配置。只需下载模型权重并将其放入 ComfyUI/models/diffusion_models/ 目录即可。
性能与质量
Sulphur 2 在精心筛选的 12.5 万段以上视频片段 数据集上训练,聚焦于以人为中心及多样化的视觉内容。它支持:
- 人体动作及交互,一致性更强
- 改进的提示词依从性,相比基础 LTX 2.3
- 在某些创意场景下,提示词遵循度优于基础 LTX 2.3
- 原生的人像及角色聚焦生成
获取方式
- Hugging Face: SulphurAI/Sulphur-2-base
- CivitAI: Sulphur 2 Base
- 浏览器演示: sulphur2ai.com
- Discord: 加入社区
总结
Sulphur 2 是 LTX 2.3 最受欢迎的社区微调版本之一,为创作者提供了一个视频生成替代方案,并配备了提示词增强和蒸馏推理等实用工具。其质量、灵活性以及开箱即用的 ComfyUI 工作流相结合,使其成为视频生成爱好者的一个极具吸引力的选择。