Moonshot AI выпускает Kimi K2.5 - нативную мультимодальную агентную модель с 1T параметрами
27 января 2026 года Moonshot AI официально выпустила и опубликовала в открытом доступе мультимодальную модель следующего поколения Kimi K2.5. Как самая интеллектуальная и универсальная модель на сегодняшний день, K2.5 имеет нативную мультимодальную архитектуру, поддерживающую визуальный и текстовый ввод, режимы мышления и без мышления, задачи диалога и агента, с ведущей производительностью в агентах, кодировании, изображениях, видео и задачах общего интеллекта.
Архитектура модели
Нативный мультимодальный дизайн
Kimi K2.5 - это модель смеси экспертов (MoE) с 1T параметрами с примерно 32B активированными параметрами. Модель прошла непрерывное предварительное обучение на примерно 15 триллионах смешанных визуальных и текстовых токенов, достигнув истинных нативных мультимодальных возможностей.
Модель использует самостоятельно разработанный визуальный кодировщик MoonViT (400M параметров), бесшовно интегрирующий визуальное и языковое понимание, поддерживающий ввод изображений и видео, с отличной производительностью в визуальных знаниях, кросс-модальном рассуждении и использовании агентных инструментов на основе визуального ввода.
Механизм Agent Swarm
K2.5 вводит инновационный механизм Agent Swarm (рой агентов), переходя от масштабирования одного агента к самоуправляемой координированной схеме выполнения типа роя. Модель может разбивать сложные задачи на параллельные подзадачи, выполняемые динамически создаваемыми специализированными агентами для более эффективной обработки задач.
Основные возможности
Визуальное понимание и генерация кода
K2.5 демонстрирует отличное визуальное понимание:
- Понимание изображений: Оценка MMMU-Pro 78.5, CharXiv (RQ) оценка 77.5
- Математическое зрение: MathVision оценка 84.2, MathVista (mini) оценка 90.1
- Возможности OCR: OCRBench оценка 92.3, OmniDocBench 1.5 оценка 88.8
- Понимание видео: VideoMMMU оценка 86.6, VideoMME оценка 87.4
Модель может генерировать код из визуальных спецификаций (UI-дизайны, видео-рабочие процессы) и автономно организовывать инструменты для обработки визуальных данных.
Возможности кодирования
K2.5 имеет отличную производительность в задачах программирования:
- SWE-Bench Verified: 76.8% (превосходит Gemini 3 Pro)
- SWE-Bench Multilingual: 73.0% (превосходит GPT 5.2 и Gemini 3 Pro)
- LiveCodeBench (v6): 85.0%
- Terminal Bench 2.0: 50.8%
Возможности агента и поиска
K2.5 демонстрирует мощные возможности в задачах агента и поиска:
- BrowseComp: Базовая оценка 60.6%, улучшена до 78.4% с Agent Swarm
- WideSearch (item-f1): Базовая оценка 72.7%, улучшена до 79.0% с Agent Swarm
- DeepSearchQA: 77.1%
Достигла лучших результатов среди глобальных моделей с открытым исходным кодом в нескольких оценках агентов, включая HLE (Последний экзамен человечества), BrowseComp и DeepSearchQA.
Рассуждение и знания
- HLE-Full: 30.1% (без инструментов), 50.2% (с инструментами)
- AIME 2025: 96.1%
- HMMT 2025 (Feb): 95.4%
- GPQA-Diamond: 87.6%
- MMLU-Pro: 87.1%
Технические характеристики
Поддержка двойного режима
K2.5 поддерживает оба:
- Мгновенный режим: Быстрый ответ для повседневных разговоров и простых задач
- Режим мышления: Глубокое рассуждение для решения сложных проблем
Возможность длинного контекста
- Longbench v2: 61.0%
- AA-LCR: 70.0%
Модель может эффективно обрабатывать длинный текстовый и длинный видео контент.
Сценарии применения
Kimi K2.5 особенно подходит для:
- Визуальное программирование: Генерация кода непосредственно из изображений UI-дизайна или видео-демонстраций
- Автоматизация сложных задач: Параллельная обработка нескольких подзадач через Agent Swarm
- Понимание документов: Высокоточное OCR и анализ документов
- Анализ видео: Понимание и рассуждение о длинном видео контенте
- Интеллектуальный поиск: Глубокий веб-поиск и интеграция информации
- Мультимодальный диалог: Интеллектуальные разговоры, сочетающие изображения и видео
Открытый исходный код и доступность
Kimi K2.5 полностью открыт, поддерживает коммерческое и некоммерческое использование. Разработчики могут:
- Развертывать и запускать локально
- Тонко настраивать и кастомизировать
- Интегрировать в различные приложения
Технический прорыв
Основатель и генеральный директор Moonshot AI Чжилинь Ян заявил: “Мы перестроили инфраструктуру обучения с подкреплением и специально оптимизировали алгоритмы обучения, чтобы гарантировать достижение максимальной эффективности и производительности.”
Выпуск K2.5 знаменует важную веху для мультимодальных агентных моделей, интегрируя возможности визуального понимания, генерации кода и совместной работы агентов в одну модель, обеспечивая мощную основу для разработки AI-приложений.
Связанные ссылки
- Модель HuggingFace: https://huggingface.co/moonshotai/Kimi-K2.5
- Технический отчет: https://www.kimi.com/blog/kimi-k2-5.html
- Платформа NVIDIA Build: https://build.nvidia.com/moonshotai/kimi-k2.5