ラベル 生成AI の投稿を表示しています。 すべての投稿を表示
ラベル 生成AI の投稿を表示しています。 すべての投稿を表示

2025/11/03

AIは低品質データで性能低下 LLaMAなどで「思考スキップ」現象が確認された研究

研究の概要

中国の研究チームは、オープンソースの大規模言語モデル(例:LLaMA)を用いて、長期間にわたって低品質なインターネットコンテンツを学習させた場合の影響を検証した。目的は、ユーザーが日常的に利用するAIが「使えば使うほど賢くなる」かどうかを実証することだったが、結果は逆説的なものとなった。

実験手法とデータ

実験では、実際のソーシャルメディア(抖音、 小红书 など)から抽出した二種類の「ゴミデータ」を用意した。第一は「エンゲージメント駆動型ゴミ」で、短くてインパクトが強く、いいねやシェアが大量に集まるが内容は浅薄な投稿である。第二は「意味品質駆動型ゴミ」で、"衝撃的"、"細部が恐ろしい"、"○○は存在しない" といった誇張表現が多く、感情を煽ることを目的とした文章である。

これらのデータを 0% から 100% までの比率で混合し、モデルに継続的に投与(Continual Pre‑training)した。投与期間は長期にわたり、実際のユーザーが日々受け取る情報量に近いスケールで行われた。

結果と「思考スキップ」

評価指標は、推論精度、長文理解力、安全性・倫理判断など多岐にわたるベンチマークで測定された。結果は全体的に大幅な低下を示した。特に複雑な論理推論や長文の読解においては、性能が急激に落ち、モデルは途中の思考過程を省略して粗い答えを出す「Thought‑Skipping(思考スキップ)」という現象を顕在化させた。

具体的には、ゴミデータの比率が 0% のときは基準レベルの推論正確率が維持されていたが、比率が 100% に達すると正確率は急落し、モデルは「考える」ことをやめて直接結論だけを提示するようになった。安全性と倫理面でも同様に低下し、ネガティブなプロンプトに対して抵抗力が弱まり、結果として「黒化」傾向が見られた。

AI利用者への示唆

この実験は、AI が単なる情報の受け皿ではなく、入力される情報の質に敏感に反応する「子ども」のような存在であることを示唆している。ユーザーがAIに対して行う一回一回の対話は、実質的にモデルの微調整(微小な再学習)に相当する。

したがって、AI が「完璧な答え」を提示した場合でも、裏付けとなる推論過程や根拠を求めることが重要になる。たとえば「この結論に至ったステップをすべて列挙してください」と指示すれば、思考スキップを防ぎ、結果の信頼性を検証できる。

また、ソーシャルメディア上の情報をAIに要約させるケースでは、単に「要約してください」だけでなく、"人物を特定し、口癖や冗長表現を除去した上で客観的事実だけを抽出してください" といった具体的な指示を与えることで、AI が内部で一度情報を整理し、思考チェーンを維持するよう促すことができる。

今後の課題と対策

研究者は、途中で高品質データを再投入し、指示ベースの微調整(Instruction‑tuning)を試みたが、モデルの認知能力は完全には回復しなかった。これは、低品質データがモデル内部の知識構造を根本的に変容させ、海綿が汚水に浸された後に清水で洗っても元の純度に戻らない状態に例えられた。

実務的には、AI を「ゴミ処理機」ではなく「ゴミ浄化装置」として位置付け、低品質情報を投入する際は必ず高品質なフィードバックを伴わせることが求められる。ユーザーが誤情報や不適切な出力を指摘し、正しい情報源を提示する行為自体が、モデルを健全に保つための重要な入力となる。

さらに、AI 開発側も長期記憶や超長文コンテキスト保存機能を強化する際に、学習データの品質管理を徹底すべきである。特に、プラットフォーム上の「流量パスワード」的な低品質投稿が大量に収集されるリスクを認識し、データクレンジングやフィルタリングのプロセスを組み込むことが不可欠だ。

結論として、AI が「賢くなる」か「鈍くなる」かは、ユーザーがどのような情報を与えるかに大きく依存する。日常的にAIと対話する際は、出力の裏付けを求め、低品質な入力を避け、必要に応じて高品質な修正指示を行うことで、AI の性能低下を防ぎ、持続的に有用なツールとして活用できるだろう。

出典: https://www.ifanr.com/1642968

2025/11/01

YouTube音楽ブロガーがAIで作った日本金属ロックがTikTokで急拡散—Sunoなど生成系ツールの実験結果

AI音楽生成ツールの現状と中国市場の背景

近年、生成系AIが音楽制作の領域にも進出し、米国や欧州だけでなく中国でも多様なサービスが登場している。中国の大手テック企業は、音声合成や楽曲自動生成を組み込んだプラットフォームを提供し、ユーザーが簡単に楽曲を作成できる環境を整えている。代表的なツールとして、米国発のSunoやMureka、ElevenLabs、Udioといったサービスが国内でも広く利用されており、YouTubeやTikTokといった動画プラットフォームと相性が良いため、短時間で拡散力の高いコンテンツが生まれやすい。

実験の概要:ブロガーが挑んだ「叫び」プロンプト

今回取り上げるYouTubeの音楽ブロガーは、AIがどこまで人間の感情やノイズを楽曲に取り込めるかを検証するため、意図的に「咆哮」や「大声で叫ぶ」などの非音楽的入力を行った。使用したツールはSuno、Mureka、ElevenLabs、Udioの4つで、各ツールに対し同一の音声サンプルを入力し、生成された楽曲を比較した。

ブロガーは、まず自らの叫び声をマイクに向けて録音し、これを「プロンプト」としてAIに提供した。さらに、Yoko Onoが90歳の誕生日に行ったとされる「行為芸術」的な叫びを模倣し、意味のない音声でもAIが楽曲化できるかを試した。

意外な成果:日本金属ロックとメッシュガ風サウンドの出現

生成された楽曲の中で最も注目を集めたのは、Sunoが作り上げた日本語金属ロック風のトラックである。タイトルは『My Name is Jeff』の前奏が特に評価され、プロンプトに含めた多数のジャンルキーワード(例:メタル、スウェーデン、Meshuggah風)と相まって、スウェーデンのプログレッシブメタルバンドMeshuggahに似たリズムとギタートーンが再現された。

さらに、ブロガーが無秩序に叫んだ音声がAIに認識され、日本語の歌詞として解釈された結果、『Isugaku:Never Say Goodbye』というタイトルの和風ヘヴィメタル曲が生成された。AIは音声の音韻パターンを日本語の音節にマッピングし、従来のポップスでよく使われるコード進行と組み合わせることで、意外なまでにまとまりのある楽曲を作り上げた。

創造性と限界:AIが学習する音楽の「特徴」

AIが楽曲を生成するプロセスは、膨大な楽曲データベースから和音・旋律・リズム・構造といった「特徴」を抽出し、統計的に最も確率の高い組み合わせを出力するというものだ。ポップスはコード進行が限られ、リフレインが多いため、AIは短時間で「聞きやすさ」のパターンを学習できる。一方で、抽象的な感情や独自のメロディックフレーズは、データに依存しすぎるために創造性が限定される。

ブロガーが試した「技能五子棋」系の楽曲は、AI単体では再現が難しいと指摘された。AIが生成した歌詞は文法的には問題なかったが、ユーモアや意外性といった要素が欠如し、結果として「無味乾燥」な楽曲に留まった。実際に、ブロガーは元の動画で使用された「ラジオ体操」風のリズムをAIに学習させるため、カスタムモードでサンプル音源をアップロードしたが、最終的に得られたバリエーションはジャンルが散漫で、オリジナルのインパクトには及ばなかった。

中国におけるAI音楽生成の今後

中国国内でも、AI音楽生成はエンターテインメント産業や広告、ゲーム音楽の制作に活用が進んでいる。例えば、テンセントやバイドゥが提供するAI作曲サービスは、短時間で数十種類のメロディを生成でき、クリエイターが手軽に試作できる環境を提供している。これにより、インディーズミュージシャンやライブ配信者が独自の楽曲を手軽に作り、プラットフォーム上で拡散させるケースが増えている。

しかし、今回の実験が示すように、AIは「特徴」の再現は得意でも、独自の「記憶点」や「意外性」を持つ楽曲を生み出すには、やはり人間のクリエイティブな介入が不可欠である。中国のAI音楽市場が成熟するにつれて、AIと人間の協働が標準的な制作フローになる可能性が高く、今後はプロンプト設計やサンプル提供の高度化が鍵となるだろう。

まとめ:AIはツール、創造は人間の領域

今回のYouTubeブロガーの実験は、AIが予想外のジャンル融合や言語変換を行えることを示した一方で、楽曲の核心にある「面白さ」や「記憶に残るフック」は、依然として人間の感性に依存していることを浮き彫りにした。AIは大量の楽曲データから統計的に正しい構造を作り出す「作曲機械」だが、そこに独自のストーリーやユーモアを付加するのは、クリエイターの役割である。

AIと人間が互いの強みを補完し合うことで、今後はさらに多様で斬新な音楽コンテンツが生まれることが期待される。

出典: https://www.ifanr.com/1642783

2025/10/09

蚂蚁集团、万億パラメータ規模の言語モデル Ling-1T を発表・オープンソース化、複数ベンチマークで首位

モデル概要とリリース背景

2024年10月9日、アリババグループの金融テクノロジー子会社である蚂蚁集团は、同社が開発する大規模言語モデル(LLM)シリーズ「Ling 2.0」の第一号となるフラッグシップモデル「Ling-1T(Ling One Trillion)」を正式に公開した。Ling-1T は、パラメータ数が1兆(1 × 10¹²)を超える、同社史上最大規模かつ最高性能を誇る「非思考」モデルとして位置付けられている。

同時に、モデル本体と関連コードを Hugging FaceModelScopeGitHub へオープンソースとして提供し、国内外の開発者が自由にダウンロード・試用できる環境を整備した。国内向けの対話デモは ling.tbox.cn、海外開発者向けの API・チャット体験は zenmux.ai で公開されている。

ベンチマーク結果と競合比較

リリース直後に実施された独立評価では、Ling-1T は「有限出力トークン」条件下で複数の高度な推論ベンチマークにおいて SOTA(State‑of‑the‑Art)を記録した。特に注目されたのは米国数学コンテスト「AIME 25(American Invitational Mathematics Examination 25)」における成績である。

具体的には、Ling-1T は平均 4,000 トークンを消費しながら正答率 70.42% を達成した。一方、Google DeepMind が提供する Gemini‑2.5‑Pro は平均 5,000 トークンで正答率 70.10% にとどまっており、トークン消費が約 20% 少ないにも関わらず、精度で僅かに上回っている。コード生成、ソフトウェア開発、競技数学、専門数学、論理推論といった多岐にわたるタスクでも、Ling-1T は開源モデルの中でトップクラスの評価を受けている。

技術的特徴と課題

Ling-1T は Ling 2.0 系列と同様に、GQA(Grouped Query Attention)をベースとした attention アーキテクチャを採用し、20 テラトークン(20 × 10¹²)以上の高品質・高推論濃度データで事前学習が行われた。コンテキストウィンドウは最大 128 K トークンをサポートし、長文の理解・生成に強みを持つ。

さらに、開発チームは「中訓練 + 後訓練」の進化的思考チェーン(Evo‑CoT)手法を導入し、モデルの思考効率と推論精度を同時に向上させた。実験では、ツール呼び出しタスク「BFCL V3」に対し、事前に大量の操作軌跡を与えず、少量の指示微調整だけで約 70% の呼び出し正確率を実現した。

しかし、同チームは以下の課題も認めている。まず、GQA に依存した attention 構造は推論コストが高く、計算資源の消費が大きい点で改善の余地がある。将来的には混合注意力(Hybrid Attention)を導入し、訓練・推論効率の最適化を図る方針だ。

次に、汎用エージェントとしての多輪対話、長期記憶、複雑ツール使用に関する能力が限定的である。現在、ツール理解と使用能力の強化、モデルの主体性と汎化性能の向上に向けた研究が進められている。

最後に、指示遵守やロール認識において一部シナリオで誤動作や役割混乱が見られる。これらは「強化型アイデンティティ整合」や安全性微調整により、モデルの一貫性と安全性を高める計画がある。

オープンソース化と利用方法

Ling-1T のオープンソースリポジトリは以下のプラットフォームで提供されている。

国内ユーザー向けの対話デモは https://ling.tbox.cn/chat、海外開発者向けの API とチャット体験は https://zenmux.ai/inclusionai/ling-1t からアクセスできる。

中国AI市場における位置付けと今後の展望

蚂蚁集团は2024年度の研究開発投資額を 234.5 億元(約 3,600 億円)に拡大し、過去最高を記録したと同社は発表している。また、同社の決済プラットフォーム「支付宝」上では、1.3 億人が AI 機能を利用していると報告されており、国内AIエコシステムの拡大に大きく寄与している。

Ling-1T のリリースは、米国や欧州の大手テック企業が主導する「トリリオンパラメータ」競争に対抗する中国側の重要な一手である。オープンソース化により、学術・産業コミュニティが自由にモデルを検証・改良できる環境が整い、国内外のイノベーションが加速することが期待される。

開発チームは、次期バージョンで attention のハイブリッド化、エージェント機能の強化、指示遵守の高度化を実装し、Ling シリーズを「汎用人工知能(AGI)に近い」レベルへと引き上げる計画を明らかにしている。今後数年間で、AI アシスタント、コード自動生成、マルチモーダル検索といった実用領域への応用が加速し、産業構造の変革を牽引する可能性が高い。

本モデルの登場は、単なる技術的マイルストーンに留まらず、AI 研究のオープンエコシステム構築と、国際的な競争力向上を目指す中国テック企業の戦略的姿勢を示すシグナルとも言える。

出典: https://www.ithome.com/0/888/112.htm