Moonshot AI выпускает Kimi K2.5 - нативную мультимодальную агентную модель с 1T параметрами

27 января 2026 года Moonshot AI официально выпустила и опубликовала в открытом доступе мультимодальную модель следующего поколения Kimi K2.5. Как самая интеллектуальная и универсальная модель на сегодняшний день, K2.5 имеет нативную мультимодальную архитектуру, поддерживающую визуальный и текстовый ввод, режимы мышления и без мышления, задачи диалога и агента, с ведущей производительностью в агентах, кодировании, изображениях, видео и задачах общего интеллекта.

Архитектура модели

Нативный мультимодальный дизайн

Kimi K2.5 - это модель смеси экспертов (MoE) с 1T параметрами с примерно 32B активированными параметрами. Модель прошла непрерывное предварительное обучение на примерно 15 триллионах смешанных визуальных и текстовых токенов, достигнув истинных нативных мультимодальных возможностей.

Модель использует самостоятельно разработанный визуальный кодировщик MoonViT (400M параметров), бесшовно интегрирующий визуальное и языковое понимание, поддерживающий ввод изображений и видео, с отличной производительностью в визуальных знаниях, кросс-модальном рассуждении и использовании агентных инструментов на основе визуального ввода.

Механизм Agent Swarm

K2.5 вводит инновационный механизм Agent Swarm (рой агентов), переходя от масштабирования одного агента к самоуправляемой координированной схеме выполнения типа роя. Модель может разбивать сложные задачи на параллельные подзадачи, выполняемые динамически создаваемыми специализированными агентами для более эффективной обработки задач.

Основные возможности

Визуальное понимание и генерация кода

K2.5 демонстрирует отличное визуальное понимание:

Понимание изображений: Оценка MMMU-Pro 78.5, CharXiv (RQ) оценка 77.5
Математическое зрение: MathVision оценка 84.2, MathVista (mini) оценка 90.1
Возможности OCR: OCRBench оценка 92.3, OmniDocBench 1.5 оценка 88.8
Понимание видео: VideoMMMU оценка 86.6, VideoMME оценка 87.4

Модель может генерировать код из визуальных спецификаций (UI-дизайны, видео-рабочие процессы) и автономно организовывать инструменты для обработки визуальных данных.

Возможности кодирования

K2.5 имеет отличную производительность в задачах программирования:

SWE-Bench Verified: 76.8% (превосходит Gemini 3 Pro)
SWE-Bench Multilingual: 73.0% (превосходит GPT 5.2 и Gemini 3 Pro)
LiveCodeBench (v6): 85.0%
Terminal Bench 2.0: 50.8%

Возможности агента и поиска

K2.5 демонстрирует мощные возможности в задачах агента и поиска:

BrowseComp: Базовая оценка 60.6%, улучшена до 78.4% с Agent Swarm
WideSearch (item-f1): Базовая оценка 72.7%, улучшена до 79.0% с Agent Swarm
DeepSearchQA: 77.1%

Достигла лучших результатов среди глобальных моделей с открытым исходным кодом в нескольких оценках агентов, включая HLE (Последний экзамен человечества), BrowseComp и DeepSearchQA.

Рассуждение и знания

HLE-Full: 30.1% (без инструментов), 50.2% (с инструментами)
AIME 2025: 96.1%
HMMT 2025 (Feb): 95.4%
GPQA-Diamond: 87.6%
MMLU-Pro: 87.1%

Технические характеристики

Поддержка двойного режима

K2.5 поддерживает оба:

Мгновенный режим: Быстрый ответ для повседневных разговоров и простых задач
Режим мышления: Глубокое рассуждение для решения сложных проблем

Возможность длинного контекста

Longbench v2: 61.0%
AA-LCR: 70.0%

Модель может эффективно обрабатывать длинный текстовый и длинный видео контент.

Сценарии применения

Kimi K2.5 особенно подходит для:

Визуальное программирование: Генерация кода непосредственно из изображений UI-дизайна или видео-демонстраций
Автоматизация сложных задач: Параллельная обработка нескольких подзадач через Agent Swarm
Понимание документов: Высокоточное OCR и анализ документов
Анализ видео: Понимание и рассуждение о длинном видео контенте
Интеллектуальный поиск: Глубокий веб-поиск и интеграция информации
Мультимодальный диалог: Интеллектуальные разговоры, сочетающие изображения и видео

Открытый исходный код и доступность

Kimi K2.5 полностью открыт, поддерживает коммерческое и некоммерческое использование. Разработчики могут:

Развертывать и запускать локально
Тонко настраивать и кастомизировать
Интегрировать в различные приложения

Технический прорыв

Основатель и генеральный директор Moonshot AI Чжилинь Ян заявил: “Мы перестроили инфраструктуру обучения с подкреплением и специально оптимизировали алгоритмы обучения, чтобы гарантировать достижение максимальной эффективности и производительности.”

Выпуск K2.5 знаменует важную веху для мультимодальных агентных моделей, интегрируя возможности визуального понимания, генерации кода и совместной работы агентов в одну модель, обеспечивая мощную основу для разработки AI-приложений.

Связанные ссылки

Модель HuggingFace: https://huggingface.co/moonshotai/Kimi-K2.5
Технический отчет: https://www.kimi.com/blog/kimi-k2-5.html
Платформа NVIDIA Build: https://build.nvidia.com/moonshotai/kimi-k2.5