
ChatGPT が世界を驚かせた今、AI が本当に必要としているのは言語だけではなく、空間を正確に認識し操作できる能力だと李飛飛教授が指摘した。彼女は最新のブログで、次の十年で最も重要になるのは「空間インテリジェンス」だと論じている。
空間インテリジェンスとは何か
空間インテリジェンスは、物体の位置・距離・方向を感覚的に把握し、頭の中で回転させたり、物理法則を予測したりできる能力を指す。言語は情報を抽象化する手段だが、実際に手を伸ばしてコーヒーカップを掴むときに必要なのは、視覚・触覚・運動感覚が統合された空間的な理解である。古代ギリシャの学者が影を利用して地球の周長を測ったり、DNA の二重らせん構造を金属線で再現したりした例は、言語よりも先に空間認知が文明を牽引したことを示す。
現在の大型言語モデル(LLM)の限界
現在主流の大型言語モデル(LLM)は、膨大なテキストデータから文脈を予測する能力に長けているが、実世界の物理的経験は持ち合わせていない。そのため、ロボット制御や科学的発見、没入型クリエイティブ領域で根本的な壁に直面している。たとえば、AI が画像を生成できても、生成されたシーン内で物体同士の距離を正確に測れなければ、実際のロボットに指示を出すことはできない。
マルチモーダルモデルの現状と課題
マルチモーダル大規模モデル(MLLM)は画像とテキストを同時に扱えるようになり、一定の進歩は見られる。しかし、距離感の推定や物体の回転、重力や摩擦といった基本的な物理法則の予測は依然として人間の感覚に遠く及ばない。李飛飛氏は、これらのギャップを埋めるために「世界モデル(World Model)」の構築が必要だと述べている。
世界モデルが目指す三つの能力
李飛飛氏は、次の三つの特性を備えたモデルを「世界モデル」と定義した。
- 生成性(Generative):感覚情報・幾何情報・物理法則が一貫した仮想世界を生成できること。
- 多モーダル性(Multimodal):画像・動画・深度マップ・テキスト・動作指示など、複数の情報形式を同時に処理・出力できること。
- 相互作用性(Interactive):入力された「行動」に対して次の状態を予測し、さらに次に取るべき行動を提示できること。
世界モデル構築の三大挑戦
世界モデルは言語モデルよりもはるかに高次元の情報を扱うため、以下の三つの課題がある。
1. 新たな訓練タスクの設計
LLM で用いられる「次の単語予測」のようなシンプルで汎用的なタスク関数を、空間・物理情報に拡張する必要がある。これは単なる画像予測ではなく、時間軸を含む 3D/4D の変化を学習させるタスク設計が求められる。
2. 大規模な空間データの確保
インターネット上の画像・動画から深層的な空間情報を抽出し、合成データやシミュレーションデータと組み合わせて学習データセットを構築しなければならない。中国国内の大規模映像プラットフォームや産業用シミュレーションデータが活用される見込みだ。
3. 新しいモデルアーキテクチャの開発
従来の 1 次元・2 次元 シーケンス処理にとどまらず、3 次元・4 次元 の空間認識を直接扱える構造が必要になる。李飛飛氏が共同設立した World Labs は、独自の RTFM(Real‑Time Fusion Model)というアーキテクチャを提案し、空間情報の統合と高速推論を実現しようとしている。
空間インテリジェンスがもたらす産業変革
空間インテリジェンスは、短期・中期・長期の三段階で応用が広がると予測されている。
短期:クリエイティブ領域の拡張
ストーリーテリングや映画制作、ゲーム、建築デザインにおいて、AI が 3D 世界を自動生成し、クリエイターが直感的に編集できる環境が整う。World Labs が提供する「Marble」プラットフォームは、ユーザーがテキストや画像から即座に仮想空間を構築できるサービスとして注目されている。
中期:ロボットの具身知能化
世界モデルを用いたシミュレーション訓練により、ロボットは実環境での「行動と結果」の因果関係を学習し、人間と協働できる具身インテリジェンスを獲得する。中国の製造業や物流企業は、既に試験的に導入を進めている。
長期:科学・医療・教育へのインパクト
薬剤設計や材料探索において、分子構造の空間的相互作用を正確にシミュレートできれば、実験回数を大幅に削減できる。医療画像診断や遠隔教育でも、仮想空間でのインタラクティブな学習体験が実現し、教育格差の是正に寄与する可能性がある。
李飛飛氏のビジョンと中国AIエコシステムへの期待
李飛飛氏は、AI は人間の能力を拡張すべきであり、置き換えるべきではないと強調する。空間インテリジェンスは、人間の創造力や共感力を支える基盤として位置付けられ、AI がそれを補完する形で社会に貢献できると考えている。
中国では、政府主導のAI戦略と民間ベンチャーの活発な投資が相まって、世界モデルの研究開発が加速している。北京や上海の大学・研究機関がデータ収集・アルゴリズム開発に参画し、World Labs のようなスタートアップが実装段階へと橋渡しを行っている。李飛飛氏は、国内外の研究者・企業が協力し、空間インテリジェンスをオープンかつ安全に共有することが、次の十年のAI革命を実現する鍵だと呼び掛けている。
言語モデルが情報の「文字」を操る時代から、空間モデルが現実の「形」を扱う時代へ。AI が本当の意味で人間と同等、あるいはそれ以上の知能を持つために、空間インテリジェンスの実装は避けて通れない道である。