
中国のスタートアップKimiが開発したオープンソース大規模言語モデル「Kimi K2 Thinking」が、複数のベンチマークで最先端の閉鎖型モデルを上回ったことが確認された。1兆パラメータを持つ同モデルは、ツール呼び出しを組み合わせた高度な推論能力で注目を集めている。
モデル概要と技術的特徴
K2 Thinkingは、2024年11月に正式リリースされたエージェント指向の混合専門家(MoE)モデルで、総パラメータ数は1兆、アクティブパラメータは32 B、コンテキスト長は256 Kトークンに達する。従来の大規模言語モデルと異なり、ツール呼び出しを200〜300回にわたってシーケンシャルに実行でき、タスク目標を保持しつつ継続的に思考を深めることが可能だ。
量子化と推論速度の向上
本モデルは訓練段階からINT4量子化感知訓練(QAT)を導入し、推論時のメモリ使用量を大幅に削減しつつ、速度を約2倍に向上させた。これにより、GPUメモリが限られた環境でも長鎖の推論が崩れずに実行できる点が評価されている。
ベンチマーク結果と競合比較
TAU(ツール呼び出し能力)ランキングでトップに立ち、OpenAIのGPT‑5やAnthropicのClaude 4.5 Sonnetを抜いた。さらに、Human‑Level‑Evaluation(HLE)やBrowseComp、複数のプログラミングベンチマークでも上位にランクインし、ClaudeやGPT系モデルに匹敵するスコアを記録した。
特に、学際的な専門家レベルの質問に対するHLEランキングと自律検索系の3つの指標で第1位を獲得。プログラミングタスクに関しては、3つの評価項目すべてでClaudeやGPT系モデルに近い得点を示した。
実際のタスクでのパフォーマンス
実証実験では、K2 Thinkingは23回のツール呼び出しと推論を組み合わせ、博士課程レベルの数学問題を解決した例が報告されている。また、曖昧な検索クエリに対しては、検索→ブラウジング→コード実行のサイクルを自律的に繰り返し、正確な情報を抽出した。
フロントエンド開発においては、HTMLやReactのコードを瞬時に生成し、機能的なウェブページを数分で完成させた。SVGを用いた「自転車に乗るペリカン」の描画でも、1分未満でコードを出力した。
エージェント機能と実装状況
現在、Kimi公式サイトのチャットモードでK2 Thinkingは利用可能だが、軽量化のため一部ツールと呼び出し回数が制限されている。フルエージェントモードは近日中にアップデート予定で、開発者はAPI経由でも同機能を試すことができる。
中国AI市場における位置付け
過去2年間、中国のAI競争はQwenや百度、DeepSeekといったモデルがChatGPTに追随する形で進展した。Kimiは2024年7月にK2、9月にK2 Instruct、11月にK2 Thinkingと、年内に3つの主要リリースを行い、オープンソース路線でスピード感を示した。
同時期に、智谱(Zhipu)やMiniMax、DeepSeekのR2・V3.2などもオープンソース化され、Hugging Faceのダウンロードランキング上位に名を連ねている。これにより、閉鎖型モデルが長い開発サイクルで市場に投入される中、オープンソースモデルがベンチマークで実績を示す転換点となっている。
今後の課題と展望
安定した出力やプロンプトへの寛容性に関しては、依然として閉鎖型モデルに劣る面が指摘されている。一方で、オープンソースでありながら高度なツール呼び出しと長文推論を実現できたことは、研究コミュニティ全体にとって大きな刺激となるだろう。
量子化技術の成熟とエージェント指向の設計が進むことで、将来的にはさらに低コストで高性能なAIサービスが提供可能になると期待されている。Kimi K2 Thinkingは、オープンソースAIが閉鎖型モデルと同等の実用性を持ち得ることを示す重要なマイルストーンである。