ラベル LLM の投稿を表示しています。 すべての投稿を表示
ラベル LLM の投稿を表示しています。 すべての投稿を表示

2025/11/03

AIは低品質データで性能低下 LLaMAなどで「思考スキップ」現象が確認された研究

研究の概要

中国の研究チームは、オープンソースの大規模言語モデル(例:LLaMA)を用いて、長期間にわたって低品質なインターネットコンテンツを学習させた場合の影響を検証した。目的は、ユーザーが日常的に利用するAIが「使えば使うほど賢くなる」かどうかを実証することだったが、結果は逆説的なものとなった。

実験手法とデータ

実験では、実際のソーシャルメディア(抖音、 小红书 など)から抽出した二種類の「ゴミデータ」を用意した。第一は「エンゲージメント駆動型ゴミ」で、短くてインパクトが強く、いいねやシェアが大量に集まるが内容は浅薄な投稿である。第二は「意味品質駆動型ゴミ」で、"衝撃的"、"細部が恐ろしい"、"○○は存在しない" といった誇張表現が多く、感情を煽ることを目的とした文章である。

これらのデータを 0% から 100% までの比率で混合し、モデルに継続的に投与(Continual Pre‑training)した。投与期間は長期にわたり、実際のユーザーが日々受け取る情報量に近いスケールで行われた。

結果と「思考スキップ」

評価指標は、推論精度、長文理解力、安全性・倫理判断など多岐にわたるベンチマークで測定された。結果は全体的に大幅な低下を示した。特に複雑な論理推論や長文の読解においては、性能が急激に落ち、モデルは途中の思考過程を省略して粗い答えを出す「Thought‑Skipping(思考スキップ)」という現象を顕在化させた。

具体的には、ゴミデータの比率が 0% のときは基準レベルの推論正確率が維持されていたが、比率が 100% に達すると正確率は急落し、モデルは「考える」ことをやめて直接結論だけを提示するようになった。安全性と倫理面でも同様に低下し、ネガティブなプロンプトに対して抵抗力が弱まり、結果として「黒化」傾向が見られた。

AI利用者への示唆

この実験は、AI が単なる情報の受け皿ではなく、入力される情報の質に敏感に反応する「子ども」のような存在であることを示唆している。ユーザーがAIに対して行う一回一回の対話は、実質的にモデルの微調整(微小な再学習)に相当する。

したがって、AI が「完璧な答え」を提示した場合でも、裏付けとなる推論過程や根拠を求めることが重要になる。たとえば「この結論に至ったステップをすべて列挙してください」と指示すれば、思考スキップを防ぎ、結果の信頼性を検証できる。

また、ソーシャルメディア上の情報をAIに要約させるケースでは、単に「要約してください」だけでなく、"人物を特定し、口癖や冗長表現を除去した上で客観的事実だけを抽出してください" といった具体的な指示を与えることで、AI が内部で一度情報を整理し、思考チェーンを維持するよう促すことができる。

今後の課題と対策

研究者は、途中で高品質データを再投入し、指示ベースの微調整(Instruction‑tuning)を試みたが、モデルの認知能力は完全には回復しなかった。これは、低品質データがモデル内部の知識構造を根本的に変容させ、海綿が汚水に浸された後に清水で洗っても元の純度に戻らない状態に例えられた。

実務的には、AI を「ゴミ処理機」ではなく「ゴミ浄化装置」として位置付け、低品質情報を投入する際は必ず高品質なフィードバックを伴わせることが求められる。ユーザーが誤情報や不適切な出力を指摘し、正しい情報源を提示する行為自体が、モデルを健全に保つための重要な入力となる。

さらに、AI 開発側も長期記憶や超長文コンテキスト保存機能を強化する際に、学習データの品質管理を徹底すべきである。特に、プラットフォーム上の「流量パスワード」的な低品質投稿が大量に収集されるリスクを認識し、データクレンジングやフィルタリングのプロセスを組み込むことが不可欠だ。

結論として、AI が「賢くなる」か「鈍くなる」かは、ユーザーがどのような情報を与えるかに大きく依存する。日常的にAIと対話する際は、出力の裏付けを求め、低品質な入力を避け、必要に応じて高品質な修正指示を行うことで、AI の性能低下を防ぎ、持続的に有用なツールとして活用できるだろう。

出典: https://www.ifanr.com/1642968

2025/10/09

蚂蚁集团、万億パラメータ規模の言語モデル Ling-1T を発表・オープンソース化、複数ベンチマークで首位

モデル概要とリリース背景

2024年10月9日、アリババグループの金融テクノロジー子会社である蚂蚁集团は、同社が開発する大規模言語モデル(LLM)シリーズ「Ling 2.0」の第一号となるフラッグシップモデル「Ling-1T(Ling One Trillion)」を正式に公開した。Ling-1T は、パラメータ数が1兆(1 × 10¹²)を超える、同社史上最大規模かつ最高性能を誇る「非思考」モデルとして位置付けられている。

同時に、モデル本体と関連コードを Hugging FaceModelScopeGitHub へオープンソースとして提供し、国内外の開発者が自由にダウンロード・試用できる環境を整備した。国内向けの対話デモは ling.tbox.cn、海外開発者向けの API・チャット体験は zenmux.ai で公開されている。

ベンチマーク結果と競合比較

リリース直後に実施された独立評価では、Ling-1T は「有限出力トークン」条件下で複数の高度な推論ベンチマークにおいて SOTA(State‑of‑the‑Art)を記録した。特に注目されたのは米国数学コンテスト「AIME 25(American Invitational Mathematics Examination 25)」における成績である。

具体的には、Ling-1T は平均 4,000 トークンを消費しながら正答率 70.42% を達成した。一方、Google DeepMind が提供する Gemini‑2.5‑Pro は平均 5,000 トークンで正答率 70.10% にとどまっており、トークン消費が約 20% 少ないにも関わらず、精度で僅かに上回っている。コード生成、ソフトウェア開発、競技数学、専門数学、論理推論といった多岐にわたるタスクでも、Ling-1T は開源モデルの中でトップクラスの評価を受けている。

技術的特徴と課題

Ling-1T は Ling 2.0 系列と同様に、GQA(Grouped Query Attention)をベースとした attention アーキテクチャを採用し、20 テラトークン(20 × 10¹²)以上の高品質・高推論濃度データで事前学習が行われた。コンテキストウィンドウは最大 128 K トークンをサポートし、長文の理解・生成に強みを持つ。

さらに、開発チームは「中訓練 + 後訓練」の進化的思考チェーン(Evo‑CoT)手法を導入し、モデルの思考効率と推論精度を同時に向上させた。実験では、ツール呼び出しタスク「BFCL V3」に対し、事前に大量の操作軌跡を与えず、少量の指示微調整だけで約 70% の呼び出し正確率を実現した。

しかし、同チームは以下の課題も認めている。まず、GQA に依存した attention 構造は推論コストが高く、計算資源の消費が大きい点で改善の余地がある。将来的には混合注意力(Hybrid Attention)を導入し、訓練・推論効率の最適化を図る方針だ。

次に、汎用エージェントとしての多輪対話、長期記憶、複雑ツール使用に関する能力が限定的である。現在、ツール理解と使用能力の強化、モデルの主体性と汎化性能の向上に向けた研究が進められている。

最後に、指示遵守やロール認識において一部シナリオで誤動作や役割混乱が見られる。これらは「強化型アイデンティティ整合」や安全性微調整により、モデルの一貫性と安全性を高める計画がある。

オープンソース化と利用方法

Ling-1T のオープンソースリポジトリは以下のプラットフォームで提供されている。

国内ユーザー向けの対話デモは https://ling.tbox.cn/chat、海外開発者向けの API とチャット体験は https://zenmux.ai/inclusionai/ling-1t からアクセスできる。

中国AI市場における位置付けと今後の展望

蚂蚁集团は2024年度の研究開発投資額を 234.5 億元(約 3,600 億円)に拡大し、過去最高を記録したと同社は発表している。また、同社の決済プラットフォーム「支付宝」上では、1.3 億人が AI 機能を利用していると報告されており、国内AIエコシステムの拡大に大きく寄与している。

Ling-1T のリリースは、米国や欧州の大手テック企業が主導する「トリリオンパラメータ」競争に対抗する中国側の重要な一手である。オープンソース化により、学術・産業コミュニティが自由にモデルを検証・改良できる環境が整い、国内外のイノベーションが加速することが期待される。

開発チームは、次期バージョンで attention のハイブリッド化、エージェント機能の強化、指示遵守の高度化を実装し、Ling シリーズを「汎用人工知能(AGI)に近い」レベルへと引き上げる計画を明らかにしている。今後数年間で、AI アシスタント、コード自動生成、マルチモーダル検索といった実用領域への応用が加速し、産業構造の変革を牽引する可能性が高い。

本モデルの登場は、単なる技術的マイルストーンに留まらず、AI 研究のオープンエコシステム構築と、国際的な競争力向上を目指す中国テック企業の戦略的姿勢を示すシグナルとも言える。

出典: https://www.ithome.com/0/888/112.htm