2025/11/11

商汤が開源した空間理解AI SenseNova‑SI、2025年にGPT‑5を上回る性能を示す

商汤が開源した空間理解AI SenseNova‑SI、2025年にGPT‑5を上回る性能を示す のキービジュアル

概要

中国のAIベンチャー、商汤科技(SenseTime)は本日、空間構造の理解と推論に特化した大規模マルチモーダルモデル「SenseNova‑SI」シリーズをオープンソース化したと発表した。公式のベンチマーク結果によれば、同シリーズは同規模のオープンソースモデルだけでなく、米国や欧州のトップクラスのクローズドモデルであるGPT‑5やGemini 2.5 Proをも上回る性能を示した。

背景と市場の位置付け

近年、自然言語処理やコード生成といった領域で大規模言語モデル(LLM)が急速に進化した一方で、空間情報の認識・推論は依然として弱点とされてきた。ロボティクスや拡張現実(AR)といった「具身知能(Embodied Intelligence)」の実装には、視覚情報と空間関係を正確に捉える能力が不可欠である。中国政府は2023年に「新一代人工知能産業発展計画」を策定し、空間認知技術を重点分野に掲げているため、商汤の取り組みは政策的後押しとも合致している。

SenseNova‑SI の技術概要

SenseNova‑SI は 2 B と 8 B の二つのパラメータ規模で提供され、マルチモーダル入力(画像+テキスト)を統合的に処理できるよう設計されている。モデルは従来のトランスフォーマーアーキテクチャに加え、空間関係を明示的に学習するための「空間埋め込み層(Spatial Embedding Layer)」を組み込んでいる。この層は、画像中のオブジェクト間の相対位置や視点変化をベクトル化し、言語トークンと同時にエンコードすることで、空間的推論を自然言語生成にシームレスに結び付ける。

オープンソース化の意義

GitHub(https://github.com/EvolvingLMMs-Lab/EASI)で公開されたコードは、モデル本体だけでなく、学習に使用したデータパイプラインや評価スクリプトも含まれる。これにより、研究者やスタートアップは独自のデータでファインチューニングを行うことが可能となり、国内外のエコシステム全体の活性化が期待される。

ベンチマーク結果と他モデルとの比較

商汤が提示した評価は、空間理解に特化した4つのベンチマーク(VSI、MMSI、MindCube、ViewSpatial)を中心に実施された。特に 8 B バージョン(SenseNova‑SI‑8B)は、4 つのベンチマークの平均スコアが 60.99 と、同規模のオープンソースマルチモーダルモデルである Qwen3‑VL‑8B(40.16)や BAGEL‑7B(35.01)を大きく上回った。

さらに、空間タスクに特化したモデルである SpatialMLLM(35.05)や ViLaSR‑7B(36.41)と比較しても、同様に高得点を記録している。興味深いのは、クローズドモデルである GPT‑5(49.68)や Gemini‑2.5‑Pro(48.81)をも上回っている点である。これは、単なるパラメータ数の増加による性能向上ではなく、空間認知能力に関する「質的」なブレークスルーを示唆している。

具体的な問題例と回答比較

以下は、公開された SITE‑Bench と MindCube の問題例と、GPT‑5 と SenseNova‑SI‑8B の回答を比較したものだ。

  • 立方体の組み合わせ図から正しい俯視図を選択する問題:正解は B。GPT‑5 は D を選択したが、SenseNova‑SI‑8B は正解の B を選んだ。
  • 手持ちカメラの位置から見たモーターサイクルの左右判定:正解は右側(B)。GPT‑5 は左側(A)を選択し、SenseNova‑SI‑8B は正解の B を選んだ。
  • 多車線道路で黄色車の次の動作を予測:正解は右折(D)。GPT‑5 は静止(C)と回答し、SenseNova‑SI‑8B は正解の D を選択した。
  • 屋外シーンで視点変化に伴う移動方向を判断:正解は左前方(D)。GPT‑5 は C を選び、SenseNova‑SI‑8B は正解の D を選んだ。
  • 室内シーンで家具配置からの移動方向:正解は左前方(A)。GPT‑5 は D を選択し、SenseNova‑SI‑8B は正解の A を選んだ。
  • 黒い服を着た人物が写ったテーブルの右側にある物体を判定:正解はドア(C)。GPT‑5 は B を選び、SenseNova‑SI‑8B は正解の C を選んだ。

これらの例は、空間的文脈を正確に把握し、視点変化や相対位置を推論できる点で、従来の大規模言語モデルが抱えていた根本的な課題を克服したことを示している。

中国AI産業へのインパクト

商汤は2024年度の決算で売上 37.7 億人民元(約5.9 億米ドル)を計上し、前年同期比 10.8 %増と報告した。そのうち生成AI事業の売上は 24 億人民元に達し、前年から 103.1 %増加した。SenseNova‑SI のオープンソース化は、同社が生成AI領域でのリーダーシップを強化しつつ、エコシステム全体の活性化を狙う戦略的な動きと捉えられる。

中国国内では、百度や阿里巴巴(Alibaba)も独自のマルチモーダルモデルを開発中であり、競争は激化している。オープンソース化は、研究者コミュニティからのフィードバックを迅速に取り込むだけでなく、国内外のスタートアップが商用化に向けたプロトタイプを短期間で構築できる環境を提供する。

今後の展望と課題

技術的には、現在の評価は主に 2 D 画像とテキストの組み合わせに限られている。真の具身知能を実現するには、3 D センサーデータやリアルタイム動画ストリームへの対応が不可欠である。商汤は 2026 年までに「SenseNova‑SI‑3D」や「リアルタイム推論」機能を追加する計画を示しており、ハードウェア側の AI チップやエッジコンピューティングインフラとの連携が鍵になるだろう。

また、オープンソースモデルは知的財産権や安全性の観点から慎重な運用が求められる。中国政府は AI の安全性評価フレームワークを整備中であり、商汤はそのガイドラインに沿ったデータガバナンスを実装する必要がある。

総じて、SenseNova‑SI は空間認知という未踏の領域で実用的なブレークスルーを示した点で、2025 年の中国 AI 産業における重要なマイルストーンとなるだろう。今後、オープンソースコミュニティと産業界がどのように協働し、実世界のロボティクスや AR/VR アプリケーションへと結びつけていくかが注目される。

出典: https://www.ithome.com/0/896/448.htm