美团开源 LongCat 2.0:基于 AI ASIC 训练的 1.6 万亿参数 MoE 模型
news
美团发布 LongCat 2.0,一个拥有 1 百万 token 上下文窗口的 1.6 万亿参数 MoE 语言模型,完全基于 AI ASIC 硬件训练。模型权重即将在 MIT 许可证下发布。
2026 年 6 月 30 日,美团 发布了 LongCat 2.0,一个大型混合专家(MoE)语言模型,拥有 1.6 万亿总参数,每 token 激活参数约 480 亿。该模型采用 MIT 许可证,是迄今为止发布的最大开源权重模型之一。
模型权重尚未发布——团队在 HuggingFace 仓库中注明“权重即将推出”。本文涵盖该公告及架构。
关键规格
| 规格 | 详情 |
|---|---|
| 架构 | 混合专家(MoE) |
| 总参数 | 1.6 万亿 |
| 激活参数 | 每 token 约 480 亿 |
| 上下文窗口 | 1 百万 token(LongCat 稀疏注意力) |
| 训练数据 | 35 万亿以上 token |
| 训练硬件 | AI ASIC 超级计算集群(非 NVIDIA GPU) |
| 许可证 | MIT |
意义:AI ASIC 训练
LongCat 2.0 最显著的特点之一是,完整的训练运行和大规模部署完全构建在 AI ASIC 超级计算集群上——即定制 AI 加速器芯片,而非 NVIDIA GPU。预训练跨数百万加速器小时,涉及超过 35 万亿 token,且没有出现回滚或不可恢复的损失峰值,展示了在替代硬件上进行前沿规模训练的能力。
架构亮点
LongCat 2.0 引入了 LongCat 稀疏注意力,旨在高效处理长上下文任务。该模型使用数千亿 token 的百万上下文数据进行训练。结合专门的后训练,使 LongCat 2.0 在编码和智能体任务上表现出色。
状态
HuggingFace 仓库(meituan-longcat/LongCat-2.0)已上线,包含文档和规格,但模型权重尚未发布。团队表示权重将后续提供。
链接
- HuggingFace 仓库
- 技术博客文章
- 许可证:MIT