ラベル マルチモーダルAI の投稿を表示しています。 すべての投稿を表示
ラベル マルチモーダルAI の投稿を表示しています。 すべての投稿を表示

2025/11/11

AIの次の十年に必要な空間インテリジェンス―2025年の展望

AIの次の十年に必要な空間インテリジェンス―2025年の展望 のキービジュアル

ChatGPT が世界を驚かせた今、AI が本当に必要としているのは言語だけではなく、空間を正確に認識し操作できる能力だと李飛飛教授が指摘した。彼女は最新のブログで、次の十年で最も重要になるのは「空間インテリジェンス」だと論じている。

空間インテリジェンスとは何か

空間インテリジェンスは、物体の位置・距離・方向を感覚的に把握し、頭の中で回転させたり、物理法則を予測したりできる能力を指す。言語は情報を抽象化する手段だが、実際に手を伸ばしてコーヒーカップを掴むときに必要なのは、視覚・触覚・運動感覚が統合された空間的な理解である。古代ギリシャの学者が影を利用して地球の周長を測ったり、DNA の二重らせん構造を金属線で再現したりした例は、言語よりも先に空間認知が文明を牽引したことを示す。

現在の大型言語モデル(LLM)の限界

現在主流の大型言語モデル(LLM)は、膨大なテキストデータから文脈を予測する能力に長けているが、実世界の物理的経験は持ち合わせていない。そのため、ロボット制御や科学的発見、没入型クリエイティブ領域で根本的な壁に直面している。たとえば、AI が画像を生成できても、生成されたシーン内で物体同士の距離を正確に測れなければ、実際のロボットに指示を出すことはできない。

マルチモーダルモデルの現状と課題

マルチモーダル大規模モデル(MLLM)は画像とテキストを同時に扱えるようになり、一定の進歩は見られる。しかし、距離感の推定や物体の回転、重力や摩擦といった基本的な物理法則の予測は依然として人間の感覚に遠く及ばない。李飛飛氏は、これらのギャップを埋めるために「世界モデル(World Model)」の構築が必要だと述べている。

世界モデルが目指す三つの能力

李飛飛氏は、次の三つの特性を備えたモデルを「世界モデル」と定義した。

  • 生成性(Generative):感覚情報・幾何情報・物理法則が一貫した仮想世界を生成できること。
  • 多モーダル性(Multimodal):画像・動画・深度マップ・テキスト・動作指示など、複数の情報形式を同時に処理・出力できること。
  • 相互作用性(Interactive):入力された「行動」に対して次の状態を予測し、さらに次に取るべき行動を提示できること。

世界モデル構築の三大挑戦

世界モデルは言語モデルよりもはるかに高次元の情報を扱うため、以下の三つの課題がある。

1. 新たな訓練タスクの設計

LLM で用いられる「次の単語予測」のようなシンプルで汎用的なタスク関数を、空間・物理情報に拡張する必要がある。これは単なる画像予測ではなく、時間軸を含む 3D/4D の変化を学習させるタスク設計が求められる。

2. 大規模な空間データの確保

インターネット上の画像・動画から深層的な空間情報を抽出し、合成データやシミュレーションデータと組み合わせて学習データセットを構築しなければならない。中国国内の大規模映像プラットフォームや産業用シミュレーションデータが活用される見込みだ。

3. 新しいモデルアーキテクチャの開発

従来の 1 次元・2 次元 シーケンス処理にとどまらず、3 次元・4 次元 の空間認識を直接扱える構造が必要になる。李飛飛氏が共同設立した World Labs は、独自の RTFM(Real‑Time Fusion Model)というアーキテクチャを提案し、空間情報の統合と高速推論を実現しようとしている。

空間インテリジェンスがもたらす産業変革

空間インテリジェンスは、短期・中期・長期の三段階で応用が広がると予測されている。

短期:クリエイティブ領域の拡張

ストーリーテリングや映画制作、ゲーム、建築デザインにおいて、AI が 3D 世界を自動生成し、クリエイターが直感的に編集できる環境が整う。World Labs が提供する「Marble」プラットフォームは、ユーザーがテキストや画像から即座に仮想空間を構築できるサービスとして注目されている。

中期:ロボットの具身知能化

世界モデルを用いたシミュレーション訓練により、ロボットは実環境での「行動と結果」の因果関係を学習し、人間と協働できる具身インテリジェンスを獲得する。中国の製造業や物流企業は、既に試験的に導入を進めている。

長期:科学・医療・教育へのインパクト

薬剤設計や材料探索において、分子構造の空間的相互作用を正確にシミュレートできれば、実験回数を大幅に削減できる。医療画像診断や遠隔教育でも、仮想空間でのインタラクティブな学習体験が実現し、教育格差の是正に寄与する可能性がある。

李飛飛氏のビジョンと中国AIエコシステムへの期待

李飛飛氏は、AI は人間の能力を拡張すべきであり、置き換えるべきではないと強調する。空間インテリジェンスは、人間の創造力や共感力を支える基盤として位置付けられ、AI がそれを補完する形で社会に貢献できると考えている。

中国では、政府主導のAI戦略と民間ベンチャーの活発な投資が相まって、世界モデルの研究開発が加速している。北京や上海の大学・研究機関がデータ収集・アルゴリズム開発に参画し、World Labs のようなスタートアップが実装段階へと橋渡しを行っている。李飛飛氏は、国内外の研究者・企業が協力し、空間インテリジェンスをオープンかつ安全に共有することが、次の十年のAI革命を実現する鍵だと呼び掛けている。

言語モデルが情報の「文字」を操る時代から、空間モデルが現実の「形」を扱う時代へ。AI が本当の意味で人間と同等、あるいはそれ以上の知能を持つために、空間インテリジェンスの実装は避けて通れない道である。

出典: https://www.ifanr.com/1644054

商汤が開源した空間理解AI SenseNova‑SI、2025年にGPT‑5を上回る性能を示す

商汤が開源した空間理解AI SenseNova‑SI、2025年にGPT‑5を上回る性能を示す のキービジュアル

概要

中国のAIベンチャー、商汤科技(SenseTime)は本日、空間構造の理解と推論に特化した大規模マルチモーダルモデル「SenseNova‑SI」シリーズをオープンソース化したと発表した。公式のベンチマーク結果によれば、同シリーズは同規模のオープンソースモデルだけでなく、米国や欧州のトップクラスのクローズドモデルであるGPT‑5やGemini 2.5 Proをも上回る性能を示した。

背景と市場の位置付け

近年、自然言語処理やコード生成といった領域で大規模言語モデル(LLM)が急速に進化した一方で、空間情報の認識・推論は依然として弱点とされてきた。ロボティクスや拡張現実(AR)といった「具身知能(Embodied Intelligence)」の実装には、視覚情報と空間関係を正確に捉える能力が不可欠である。中国政府は2023年に「新一代人工知能産業発展計画」を策定し、空間認知技術を重点分野に掲げているため、商汤の取り組みは政策的後押しとも合致している。

SenseNova‑SI の技術概要

SenseNova‑SI は 2 B と 8 B の二つのパラメータ規模で提供され、マルチモーダル入力(画像+テキスト)を統合的に処理できるよう設計されている。モデルは従来のトランスフォーマーアーキテクチャに加え、空間関係を明示的に学習するための「空間埋め込み層(Spatial Embedding Layer)」を組み込んでいる。この層は、画像中のオブジェクト間の相対位置や視点変化をベクトル化し、言語トークンと同時にエンコードすることで、空間的推論を自然言語生成にシームレスに結び付ける。

オープンソース化の意義

GitHub(https://github.com/EvolvingLMMs-Lab/EASI)で公開されたコードは、モデル本体だけでなく、学習に使用したデータパイプラインや評価スクリプトも含まれる。これにより、研究者やスタートアップは独自のデータでファインチューニングを行うことが可能となり、国内外のエコシステム全体の活性化が期待される。

ベンチマーク結果と他モデルとの比較

商汤が提示した評価は、空間理解に特化した4つのベンチマーク(VSI、MMSI、MindCube、ViewSpatial)を中心に実施された。特に 8 B バージョン(SenseNova‑SI‑8B)は、4 つのベンチマークの平均スコアが 60.99 と、同規模のオープンソースマルチモーダルモデルである Qwen3‑VL‑8B(40.16)や BAGEL‑7B(35.01)を大きく上回った。

さらに、空間タスクに特化したモデルである SpatialMLLM(35.05)や ViLaSR‑7B(36.41)と比較しても、同様に高得点を記録している。興味深いのは、クローズドモデルである GPT‑5(49.68)や Gemini‑2.5‑Pro(48.81)をも上回っている点である。これは、単なるパラメータ数の増加による性能向上ではなく、空間認知能力に関する「質的」なブレークスルーを示唆している。

具体的な問題例と回答比較

以下は、公開された SITE‑Bench と MindCube の問題例と、GPT‑5 と SenseNova‑SI‑8B の回答を比較したものだ。

  • 立方体の組み合わせ図から正しい俯視図を選択する問題:正解は B。GPT‑5 は D を選択したが、SenseNova‑SI‑8B は正解の B を選んだ。
  • 手持ちカメラの位置から見たモーターサイクルの左右判定:正解は右側(B)。GPT‑5 は左側(A)を選択し、SenseNova‑SI‑8B は正解の B を選んだ。
  • 多車線道路で黄色車の次の動作を予測:正解は右折(D)。GPT‑5 は静止(C)と回答し、SenseNova‑SI‑8B は正解の D を選択した。
  • 屋外シーンで視点変化に伴う移動方向を判断:正解は左前方(D)。GPT‑5 は C を選び、SenseNova‑SI‑8B は正解の D を選んだ。
  • 室内シーンで家具配置からの移動方向:正解は左前方(A)。GPT‑5 は D を選択し、SenseNova‑SI‑8B は正解の A を選んだ。
  • 黒い服を着た人物が写ったテーブルの右側にある物体を判定:正解はドア(C)。GPT‑5 は B を選び、SenseNova‑SI‑8B は正解の C を選んだ。

これらの例は、空間的文脈を正確に把握し、視点変化や相対位置を推論できる点で、従来の大規模言語モデルが抱えていた根本的な課題を克服したことを示している。

中国AI産業へのインパクト

商汤は2024年度の決算で売上 37.7 億人民元(約5.9 億米ドル)を計上し、前年同期比 10.8 %増と報告した。そのうち生成AI事業の売上は 24 億人民元に達し、前年から 103.1 %増加した。SenseNova‑SI のオープンソース化は、同社が生成AI領域でのリーダーシップを強化しつつ、エコシステム全体の活性化を狙う戦略的な動きと捉えられる。

中国国内では、百度や阿里巴巴(Alibaba)も独自のマルチモーダルモデルを開発中であり、競争は激化している。オープンソース化は、研究者コミュニティからのフィードバックを迅速に取り込むだけでなく、国内外のスタートアップが商用化に向けたプロトタイプを短期間で構築できる環境を提供する。

今後の展望と課題

技術的には、現在の評価は主に 2 D 画像とテキストの組み合わせに限られている。真の具身知能を実現するには、3 D センサーデータやリアルタイム動画ストリームへの対応が不可欠である。商汤は 2026 年までに「SenseNova‑SI‑3D」や「リアルタイム推論」機能を追加する計画を示しており、ハードウェア側の AI チップやエッジコンピューティングインフラとの連携が鍵になるだろう。

また、オープンソースモデルは知的財産権や安全性の観点から慎重な運用が求められる。中国政府は AI の安全性評価フレームワークを整備中であり、商汤はそのガイドラインに沿ったデータガバナンスを実装する必要がある。

総じて、SenseNova‑SI は空間認知という未踏の領域で実用的なブレークスルーを示した点で、2025 年の中国 AI 産業における重要なマイルストーンとなるだろう。今後、オープンソースコミュニティと産業界がどのように協働し、実世界のロボティクスや AR/VR アプリケーションへと結びつけていくかが注目される。

出典: https://www.ithome.com/0/896/448.htm