Sulphur 2: 基于 LTX 2.3 的 9B 视频生成模型

news

Sulphur 2 是 LTX 2.3 的社区微调版本,提供文生视频和图生视频功能,内置提示词增强器和蒸馏 LoRA,基于 12.5 万段以上精选视频片段训练而成。

Sulphur 2 是一个社区构建的开源视频生成模型,基于 Lightricks 的 LTX 2.3 进行微调。它在 Hugging Face 上获得了超过 1800 个赞和 80 万+ 下载量,迅速成为开源视频生成领域最受欢迎的 LTX 2.3 衍生模型之一。

概述

Sulphur 2SulphurAI 于 2026 年 5 月 3 日发布,是一个基于 12.5 万段以上精选视频片段 微调的视频生成模型。它基于 Lightricks 的 LTX 2.3 架构(一个 220 亿参数的扩散变换器),提供文生视频和图生视频功能,且没有基础 LTX 2.3 模型中的内容限制。

该模型支持所有 LTX 2.3 原生格式,并附带多个配套组件,包括 提示词增强器蒸馏 LoRA(用于加速推理)以及开箱即用的 ComfyUI 工作流。

关键特性

特性描述
架构基于 Lightricks LTX 2.3(220 亿参数 DiT)微调
支持任务文生视频(T2V)和图生视频(I2V)
模型大小约 90 亿有效参数(开发专用 BF16:16.7 GB,FP8:8.5 GB)
提示词增强器捆绑的 GGUF 提示词增强器
蒸馏 LoRA1.1 蒸馏 LoRA,用于加速生成
训练数据12.5 万段以上精选视频片段
许可证自定义非商业/研究许可

模型变体

Sulphur 2 提供多种权重变体以适应不同硬件:

  • sulphur_dev_bf16.safetensors(约 16.7 GB)— 全精度开发专用版本
  • sulphur_dev_fp8mixed.safetensors(约 8.5 GB)— 量化开发专用版本,更低显存需求
  • sulphur_distil_bf16.safetensors: 蒸馏版本,推理速度更快
  • sulphur_lora_rank_768.safetensors: 用于微调的 LoRA
  • distill_loras/ltx-2.3-22b-distilled-lora-1.1.safetensors: 额外的蒸馏 LoRA

提示词增强器

Sulphur 2 的一个突出特性是包含了一个专用提示词增强器——一个封装为 GGUF 格式的小型语言模型,可自动重写并丰富用户提示词以提升视频生成效果。提供两个变体:

  1. 标准提示词增强器: 通用提示词重写

提示词增强器可在 LM Studio 或任何兼容 GGUF 的推理 UI 中加载。

ComfyUI 集成

Sulphur 2 附带开箱即用的 ComfyUI 工作流:

  • workflows/ltx23_t2v base.json: 文生视频基础工作流
  • workflows/ltx23_t2v distilled.json: 文生视频(使用蒸馏 LoRA)
  • workflows/ltx23_i2v base.json: 图生视频基础工作流
  • workflows/ltx23_i2v distilled.json: 图生视频(使用蒸馏 LoRA)

由于 Sulphur 2 基于 LTX 2.3,因此它适用于任何支持 LTX 2.3 视频生成的 ComfyUI 配置。只需下载模型权重并将其放入 ComfyUI/models/diffusion_models/ 目录即可。

性能与质量

Sulphur 2 在精心筛选的 12.5 万段以上视频片段 数据集上训练,聚焦于以人为中心及多样化的视觉内容。它支持:

  • 人体动作及交互,一致性更强
  • 改进的提示词依从性,相比基础 LTX 2.3
  • 在某些创意场景下,提示词遵循度优于基础 LTX 2.3
  • 原生的人像及角色聚焦生成

获取方式

Sulphur 2 采用自定义非商业/研究许可协议发布。在将模型用于任何商业应用之前,请检查许可条款。

总结

Sulphur 2 是 LTX 2.3 最受欢迎的社区微调版本之一,为创作者提供了一个视频生成替代方案,并配备了提示词增强和蒸馏推理等实用工具。其质量、灵活性以及开箱即用的 ComfyUI 工作流相结合,使其成为视频生成爱好者的一个极具吸引力的选择。

Sulphur 2: 基于 LTX 2.3 的 9B 视频生成模型 | ComfyUI Wiki