ラベル AIインフラ の投稿を表示しています。 すべての投稿を表示
ラベル AIインフラ の投稿を表示しています。 すべての投稿を表示

2025/10/14

中国移动、超大規模AI計算クラスターで万カードプールの長期安定稼働を実現

中国モバイルが示した超大規模AI計算クラスターの新たな指標

IT之家が10月14日に報じたところによると、中国移動(China Mobile)は、ハルビンデータセンターに構築した超大規模AI計算クラスター(以下、智算集群)において、万カード規模の計算リソースプール(万カードプール)を長期トレーニングシナリオで安定的に稼働させたと発表した。これにより、トレーニングの安定性が業界トップクラスに達し、超大規模計算リソースのスケジューリングや高信頼通信、障害の自動診断・高速復旧といった課題を克服したことになる。

背景:大規模モデル時代の計算インフラの課題

近年、人工知能(AI)技術は急速に進化し、特に大規模言語モデルやマルチモーダルモデルのパラメータ数は「万億(10^12)規模」へと拡大している。こうしたモデルを学習させるには、計算密度・安定性・協調効率のすべてが高度に求められ、万カード級(10,000カード)規模の協調トレーニングは、世界中の研究機関・企業が直面する共通課題となっている。

中国移動が採用した技術的アプローチ

中国移動は、ハルビンデータセンターの智算集群を基盤に、独自に開発した「全スケジューリングイーサネット(GSE)技術体系」を導入した。この体系は、以下の三つのコア課題に対する革新的解決策を提供する。

  • 「スローカード・スローネットワーク」リスク検知技術:典型的な障害シナリオをすべて感知し、診断精度を大幅に向上させた。
  • 「ブレークポイント再開」メカニズム:障害ノードを自動的に隔離した後、トレーニング状態を数分単位でロールバックし、ハードウェア障害による中断量を50%削減した。
  • AI運用エージェント:多層アーキテクチャのログ分析システムを活用し、25種類のハード・ソフトウェア障害に対して分単位で原因特定を実現。障害処理時間を数日規模から数分規模へ短縮した。

実績:トレーニング効率とリソース利用率の飛躍的向上

長期安定稼働が実証された結果、AIモデルのトレーニングサイクルは従来比で約3分の1に短縮された。さらに、計算リソースの利用率はほぼ100%に近づき、AI技術の産業化・量産化に向けた基盤が整ったことになる。この基盤は、自動運転、バイオ医薬、新素材開発といった先端分野の技術進歩を支えると期待されている。

地域展開と将来ビジョン

中国移動は、ハルビンに加えて黒竜江省と広東省でも智算運用のサンプルルームを構築し、地域ごとの運用ノウハウを蓄積している。2025年10月11日に開催された「中国移動グローバルパートナーカンファレンス」本部フォーラムにおいては、AI+(AIプラス)アクションプランの強化を発表。2028年末までにAI分野への総投資を現在の2倍に拡大し、国内最大規模かつ技術的にリードする智算インフラを完成させることを目指す。

具体的な目標としては、10万カード規模の智算クラスター構築を探索し、全国のAI計算能力を100エクサフロップス(EFLOPS)を超える規模に引き上げる計画が示された。これは、世界的に見てもトップクラスの計算能力であり、AI研究・産業応用の競争力を大幅に高めると見込まれる。

中国市場におけるAIインフラの位置付け

中国政府は「新基礎研究計画」や「デジタル中国」戦略の中で、AIインフラの整備を国家的課題として位置付けている。中国移動の取り組みは、国家戦略と民間投資が融合した典型例であり、他の通信事業者やクラウドプロバイダーにも波及効果をもたらす可能性が高い。特に、通信ネットワークと計算リソースをシームレスに統合するGSE技術は、5G/6G時代のエッジAIや分散学習においても応用が期待される。

まとめと今後の展望

中国移動が実証した万カードプールの長期安定稼働は、超大規模AI計算クラスター運用の新たなベンチマークとなった。障害検知から自動復旧、AI運用エージェントによる迅速な障害切り分けまで、全工程が分単位で完結できる点は、従来のデータセンター運用モデルを根本から変える可能性を示唆している。

今後、10万カード規模への拡張や100EFLOPS突破が実現すれば、中国はAI計算インフラにおいて世界トップクラスの地位を確固たるものにするだろう。自動運転や医薬開発といった産業応用が加速すれば、国内外のAIエコシステム全体に波及効果が広がることが期待される。

出典: https://www.ithome.com/0/889/428.htm