Skip to content
Follow me on X
ComfyUI Wiki
НовостиMoonshot AI выпускает Kimi K2.5 - нативную мультимодальную агентную модель с 1T параметрами

Moonshot AI выпускает Kimi K2.5 - нативную мультимодальную агентную модель с 1T параметрами

27 января 2026 года Moonshot AI официально выпустила и опубликовала в открытом доступе мультимодальную модель следующего поколения Kimi K2.5. Как самая интеллектуальная и универсальная модель на сегодняшний день, K2.5 имеет нативную мультимодальную архитектуру, поддерживающую визуальный и текстовый ввод, режимы мышления и без мышления, задачи диалога и агента, с ведущей производительностью в агентах, кодировании, изображениях, видео и задачах общего интеллекта.

Архитектура модели

Нативный мультимодальный дизайн

Kimi K2.5 - это модель смеси экспертов (MoE) с 1T параметрами с примерно 32B активированными параметрами. Модель прошла непрерывное предварительное обучение на примерно 15 триллионах смешанных визуальных и текстовых токенов, достигнув истинных нативных мультимодальных возможностей.

Модель использует самостоятельно разработанный визуальный кодировщик MoonViT (400M параметров), бесшовно интегрирующий визуальное и языковое понимание, поддерживающий ввод изображений и видео, с отличной производительностью в визуальных знаниях, кросс-модальном рассуждении и использовании агентных инструментов на основе визуального ввода.

Механизм Agent Swarm

K2.5 вводит инновационный механизм Agent Swarm (рой агентов), переходя от масштабирования одного агента к самоуправляемой координированной схеме выполнения типа роя. Модель может разбивать сложные задачи на параллельные подзадачи, выполняемые динамически создаваемыми специализированными агентами для более эффективной обработки задач.

Основные возможности

Визуальное понимание и генерация кода

K2.5 демонстрирует отличное визуальное понимание:

  • Понимание изображений: Оценка MMMU-Pro 78.5, CharXiv (RQ) оценка 77.5
  • Математическое зрение: MathVision оценка 84.2, MathVista (mini) оценка 90.1
  • Возможности OCR: OCRBench оценка 92.3, OmniDocBench 1.5 оценка 88.8
  • Понимание видео: VideoMMMU оценка 86.6, VideoMME оценка 87.4

Модель может генерировать код из визуальных спецификаций (UI-дизайны, видео-рабочие процессы) и автономно организовывать инструменты для обработки визуальных данных.

Возможности кодирования

K2.5 имеет отличную производительность в задачах программирования:

  • SWE-Bench Verified: 76.8% (превосходит Gemini 3 Pro)
  • SWE-Bench Multilingual: 73.0% (превосходит GPT 5.2 и Gemini 3 Pro)
  • LiveCodeBench (v6): 85.0%
  • Terminal Bench 2.0: 50.8%

Возможности агента и поиска

K2.5 демонстрирует мощные возможности в задачах агента и поиска:

  • BrowseComp: Базовая оценка 60.6%, улучшена до 78.4% с Agent Swarm
  • WideSearch (item-f1): Базовая оценка 72.7%, улучшена до 79.0% с Agent Swarm
  • DeepSearchQA: 77.1%

Достигла лучших результатов среди глобальных моделей с открытым исходным кодом в нескольких оценках агентов, включая HLE (Последний экзамен человечества), BrowseComp и DeepSearchQA.

Рассуждение и знания

  • HLE-Full: 30.1% (без инструментов), 50.2% (с инструментами)
  • AIME 2025: 96.1%
  • HMMT 2025 (Feb): 95.4%
  • GPQA-Diamond: 87.6%
  • MMLU-Pro: 87.1%

Технические характеристики

Поддержка двойного режима

K2.5 поддерживает оба:

  • Мгновенный режим: Быстрый ответ для повседневных разговоров и простых задач
  • Режим мышления: Глубокое рассуждение для решения сложных проблем

Возможность длинного контекста

  • Longbench v2: 61.0%
  • AA-LCR: 70.0%

Модель может эффективно обрабатывать длинный текстовый и длинный видео контент.

Сценарии применения

Kimi K2.5 особенно подходит для:

  • Визуальное программирование: Генерация кода непосредственно из изображений UI-дизайна или видео-демонстраций
  • Автоматизация сложных задач: Параллельная обработка нескольких подзадач через Agent Swarm
  • Понимание документов: Высокоточное OCR и анализ документов
  • Анализ видео: Понимание и рассуждение о длинном видео контенте
  • Интеллектуальный поиск: Глубокий веб-поиск и интеграция информации
  • Мультимодальный диалог: Интеллектуальные разговоры, сочетающие изображения и видео

Открытый исходный код и доступность

Kimi K2.5 полностью открыт, поддерживает коммерческое и некоммерческое использование. Разработчики могут:

  • Развертывать и запускать локально
  • Тонко настраивать и кастомизировать
  • Интегрировать в различные приложения

Технический прорыв

Основатель и генеральный директор Moonshot AI Чжилинь Ян заявил: “Мы перестроили инфраструктуру обучения с подкреплением и специально оптимизировали алгоритмы обучения, чтобы гарантировать достижение максимальной эффективности и производительности.”

Выпуск K2.5 знаменует важную веху для мультимодальных агентных моделей, интегрируя возможности визуального понимания, генерации кода и совместной работы агентов в одну модель, обеспечивая мощную основу для разработки AI-приложений.

Связанные ссылки