Skip to content
Follow me on X
ComfyUI Wiki
ニュースMoonshot AI、Kimi K2.5をリリース - 1Tパラメータのネイティブマルチモーダルエージェントモデル

Moonshot AI、Kimi K2.5をリリース - 1Tパラメータのネイティブマルチモーダルエージェントモデル

2026年1月27日、Moonshot AIは次世代マルチモーダル大規模モデルKimi K2.5を正式にリリースし、オープンソース化しました。同社史上最も知的で多機能なモデルとして、K2.5はネイティブマルチモーダルアーキテクチャ設計を採用し、視覚とテキスト入力、思考モードと非思考モード、対話とエージェントタスクの両方をサポートし、エージェント、コーディング、画像、動画、および一般的な知能タスクにおいて優れたパフォーマンスを発揮します。

モデルアーキテクチャ

ネイティブマルチモーダル設計

Kimi K2.5は1Tパラメータの混合専門家モデル(MoE)で、実際に活性化されるパラメータは約32Bです。モデルは約15兆の混合ビジュアル・テキストトークンで継続的に事前学習され、真のネイティブマルチモーダル能力を実現しています。

モデルは自社開発のMoonViTビジョンエンコーダ(400Mパラメータ)を採用し、視覚と言語理解をシームレスに統合し、画像と動画入力をサポートし、視覚知識、クロスモーダル推論、視覚入力に基づくエージェントツール使用において優れたパフォーマンスを発揮します。

Agent Swarmメカニズム

K2.5は革新的な**Agent Swarm(エージェント群)**メカニズムを導入し、単一エージェントのスケーリングから自律的に協調する群体実行モードへと移行しました。モデルは複雑なタスクを並列サブタスクに分解し、動的にインスタンス化されたドメイン専用エージェントによって実行することで、より効率的なタスク処理を実現します。

コア機能

視覚理解とコード生成

K2.5は視覚理解において優れたパフォーマンスを発揮します:

  • 画像理解:MMMU-Proスコア78.5、CharXiv (RQ)スコア77.5
  • 数学ビジョン:MathVisionスコア84.2、MathVista (mini)スコア90.1
  • OCR能力:OCRBenchスコア92.3、OmniDocBench 1.5スコア88.8
  • 動画理解:VideoMMMUスコア86.6、VideoMMEスコア87.4

モデルは視覚仕様(UIデザイン、動画ワークフロー)からコードを生成し、視覚データ処理のためのツールを自律的に編成できます。

コーディング能力

K2.5はプログラミングタスクにおいて優れたパフォーマンスを発揮します:

  • SWE-Bench Verified:76.8%(Gemini 3 Proを超える)
  • SWE-Bench Multilingual:73.0%(GPT 5.2とGemini 3 Proを超える)
  • LiveCodeBench (v6):85.0%
  • Terminal Bench 2.0:50.8%

エージェントと検索能力

K2.5はエージェントと検索タスクにおいて強力な能力を発揮します:

  • BrowseComp:基本スコア60.6%、Agent Swarmで78.4%に向上
  • WideSearch (item-f1):基本スコア72.7%、Agent Swarmで79.0%に向上
  • DeepSearchQA:77.1%

HLE(人類最後の試験)、BrowseComp、DeepSearchQAなど複数のエージェント評価において、グローバルオープンソースモデルの最高成績を達成しました。

推論と知識

  • HLE-Full:30.1%(ツールなし)、50.2%(ツールあり)
  • AIME 2025:96.1%
  • HMMT 2025 (Feb):95.4%
  • GPQA-Diamond:87.6%
  • MMLU-Pro:87.1%

技術的特徴

デュアルモードサポート

K2.5は両方をサポートします:

  • インスタントモード:日常会話や簡単なタスクのための迅速な応答
  • 思考モード:複雑な問題解決のための深い推論

長文コンテキスト能力

  • Longbench v2:61.0%
  • AA-LCR:70.0%

モデルは長文テキストと長尺動画コンテンツを効果的に処理できます。

応用シナリオ

Kimi K2.5は特に以下のシナリオに適しています:

  • ビジュアルプログラミング:UIデザイン画像や動画デモから直接コードを生成
  • 複雑なタスク自動化:Agent Swarmによる複数のサブタスクの並列処理
  • 文書理解:高精度OCRと文書分析
  • 動画分析:長尺動画コンテンツの理解と推論
  • インテリジェント検索:深層ウェブ検索と情報統合
  • マルチモーダル対話:画像・動画を組み合わせたインテリジェント会話

オープンソースと可用性

Kimi K2.5は完全にオープンソース化され、商用・非商用の両方の使用をサポートしています。開発者は以下が可能です:

  • ローカルでのデプロイと実行
  • ファインチューニングとカスタマイズ
  • 各種アプリケーションへの統合

技術的ブレークスルー

Moonshot AI創業者兼CEOの楊植麟氏は次のように述べています:「私たちは強化学習のインフラを再構築し、トレーニングアルゴリズムを特別に最適化して、究極の効率とパフォーマンスを達成できるようにしました。」

K2.5のリリースは、マルチモーダルエージェントモデルの重要なマイルストーンを示し、視覚理解、コード生成、エージェント協調などの能力を単一モデルに統合し、AIアプリケーション開発のための強力な基盤を提供します。

関連リンク