Skip to content
Follow me on X
ComfyUI Wiki
ActualitésMoonshot AI lance Kimi K2.5 - Modèle d'agent multimodal natif de 1T paramètres
Aucun article pour le moment. Revenez plus tard !

Moonshot AI lance Kimi K2.5 - Modèle d’agent multimodal natif de 1T paramètres

Le 27 janvier 2026, Moonshot AI a officiellement lancé et publié en open source le modèle multimodal de nouvelle génération Kimi K2.5. En tant que modèle le plus intelligent et polyvalent à ce jour, K2.5 présente une conception d’architecture multimodale native, prenant en charge les entrées visuelles et textuelles, les modes de réflexion et non-réflexion, les tâches de dialogue et d’agent, avec des performances de pointe en matière d’agent, de codage, d’images, de vidéos et de tâches d’intelligence générale.

Architecture du modèle

Conception multimodale native

Kimi K2.5 est un modèle de mélange d’experts (MoE) de 1T paramètres avec environ 32B paramètres activés. Le modèle a subi un pré-entraînement continu sur environ 15 billions de tokens visuels et textuels mixtes, réalisant de véritables capacités multimodales natives.

Le modèle emploie un encodeur de vision MoonViT développé en interne (400M paramètres), intégrant de manière transparente la compréhension visuelle et linguistique, prenant en charge les entrées d’images et de vidéos, avec d’excellentes performances en matière de connaissances visuelles, de raisonnement cross-modal et d’utilisation d’outils d’agent basés sur des entrées visuelles.

Mécanisme Agent Swarm

K2.5 introduit un mécanisme innovant Agent Swarm (essaim d’agents), passant de la mise à l’échelle d’agent unique à un schéma d’exécution de type essaim auto-dirigé et coordonné. Le modèle peut décomposer des tâches complexes en sous-tâches parallèles exécutées par des agents spécifiques au domaine instanciés dynamiquement pour un traitement des tâches plus efficace.

Capacités principales

Compréhension visuelle et génération de code

K2.5 démontre une excellente compréhension visuelle :

  • Compréhension d’images : Score MMMU-Pro 78.5, CharXiv (RQ) score 77.5
  • Vision mathématique : MathVision score 84.2, MathVista (mini) score 90.1
  • Capacité OCR : OCRBench score 92.3, OmniDocBench 1.5 score 88.8
  • Compréhension vidéo : VideoMMMU score 86.6, VideoMME score 87.4

Le modèle peut générer du code à partir de spécifications visuelles (conceptions UI, flux de travail vidéo) et orchestrer de manière autonome des outils pour le traitement de données visuelles.

Capacités de codage

K2.5 a d’excellentes performances dans les tâches de programmation :

  • SWE-Bench Verified : 76.8% (dépassant Gemini 3 Pro)
  • SWE-Bench Multilingual : 73.0% (dépassant GPT 5.2 et Gemini 3 Pro)
  • LiveCodeBench (v6) : 85.0%
  • Terminal Bench 2.0 : 50.8%

Capacités d’agent et de recherche

K2.5 démontre de puissantes capacités dans les tâches d’agent et de recherche :

  • BrowseComp : Score de base 60.6%, amélioré à 78.4% avec Agent Swarm
  • WideSearch (item-f1) : Score de base 72.7%, amélioré à 79.0% avec Agent Swarm
  • DeepSearchQA : 77.1%

A obtenu les meilleurs résultats de modèles open source mondiaux dans plusieurs évaluations d’agents incluant HLE (Dernier Examen de l’Humanité), BrowseComp et DeepSearchQA.

Raisonnement et connaissances

  • HLE-Full : 30.1% (sans outils), 50.2% (avec outils)
  • AIME 2025 : 96.1%
  • HMMT 2025 (Feb) : 95.4%
  • GPQA-Diamond : 87.6%
  • MMLU-Pro : 87.1%

Caractéristiques techniques

Support en mode dual

K2.5 prend en charge les deux :

  • Mode instantané : Réponse rapide pour les conversations quotidiennes et les tâches simples
  • Mode de réflexion : Raisonnement profond pour la résolution de problèmes complexes

Capacité de contexte long

  • Longbench v2 : 61.0%
  • AA-LCR : 70.0%

Le modèle peut traiter efficacement du contenu textuel long et des vidéos longues.

Scénarios d’application

Kimi K2.5 est particulièrement adapté pour :

  • Programmation visuelle : Générer du code directement à partir d’images de conception UI ou de démonstrations vidéo
  • Automatisation de tâches complexes : Traitement parallèle de plusieurs sous-tâches via Agent Swarm
  • Compréhension de documents : OCR haute précision et analyse de documents
  • Analyse vidéo : Compréhension et raisonnement de contenu vidéo long
  • Recherche intelligente : Recherche web profonde et intégration d’informations
  • Dialogue multimodal : Conversations intelligentes combinant images et vidéos

Open source et disponibilité

Kimi K2.5 est entièrement open source, prenant en charge l’utilisation commerciale et non commerciale. Les développeurs peuvent :

  • Déployer et exécuter localement
  • Affiner et personnaliser
  • Intégrer dans diverses applications

Percée technique

Le fondateur et PDG de Moonshot AI, Zhilin Yang, a déclaré : “Nous avons reconstruit l’infrastructure d’apprentissage par renforcement et optimisé spécifiquement les algorithmes d’entraînement pour garantir qu’il puisse atteindre une efficacité et des performances ultimes.”

Le lancement de K2.5 marque une étape importante pour les modèles d’agents multimodaux, intégrant les capacités de compréhension visuelle, de génération de code et de collaboration d’agents dans un seul modèle, fournissant une base puissante pour le développement d’applications IA.

Liens connexes