リアルタイム音声偽造技術の概要と実験結果
IT之家が2025年10月25日に報じたところによると、米国のサイバーセキュリティ企業NCC Groupは、AIを活用した音声深層偽造(deepfake)技術が「リアルタイム」段階に到達したと発表した。従来の音声変換ツールは数分から数時間の学習が必要で、生成された音声は事前に録音されたものに限られていたが、今回のシステムは通話中に相手の声を即座に模倣できる。
この技術は「deepfake vishing(ディープフェイク・ヴィッシング)」と呼ばれ、対象人物の音声サンプルをAIモデルに学習させた上で、ウェブ上のカスタムインターフェースからワンクリックで起動できる。実装に必要な計算リソースは中程度で、NVIDIA RTX A1000搭載のノートパソコン1台で遅延は0.5秒未満に抑えられ、従来の「間が空く」感覚がほぼ解消された。
実証実験で示された驚異的な欺瞞率
NCC Groupのセキュリティ顧問Pablo Alobera氏は、同社が実施した許可済みのコントロールテストの結果を公表した。テストでは、リアルタイム音声偽造と電話番号偽装(caller ID spoofing)を組み合わせたシナリオを用いたが、ほぼすべての被験者が偽装電話に騙されたという。成功率は「ほぼ100%」と表現され、従来の音声フィッシング(vishing)に比べて格段に高いことが示された。
この結果は、音声だけでなく発話のトーンや速度までリアルタイムで調整できる点が要因とみられる。低品質な録音データでも高い再現性が確認されており、一般的なノートパソコンやスマートフォンさえあれば、専門的なハードウェアを持たない攻撃者でも同様の手法を実行できる可能性がある。
動画偽造との比較:リアルタイム化の壁は残る
音声偽造がリアルタイム化した一方で、動画のリアルタイム深層偽造はまだ技術的ハードルが高い。最近流出した高品質な動画偽造例は、主に中国のAlibabaが開発したWAN 2.2 Animateや、米GoogleのGemini Flash 2.5 Imageといった最先端AIモデルを利用している。これらは人物を別の映像シーンに「移植」できるが、表情と感情の不一致、音声との同期ずれといった問題が残り、一般視聴者でも違和感を感じやすい。
The Circuit創業者のTrevor Wiseman氏は、IEEE Spectrumへのインタビューで「リアルタイム動画偽造はまだ完璧ではないが、音声偽造が実用化したことで、社会的リスクは急速に拡大している」と指摘した。
実社会への影響と中国市場の動向
音声偽造技術の実用化は、特に中国において急速に広がるAI産業と相まって、詐欺手口の多様化を促進している。中国国内では、AI生成コンテンツに対する規制強化の議論が進んでおり、2024年に制定された「AI生成情報管理条例」では、偽装音声や映像の商用利用に対し罰則を設ける方針が示された。にもかかわらず、個人レベルでの悪用は技術的ハードルが低下したことで増加傾向にある。
実際、浙江省の消費者保護委員会が2024年上半期に公表した苦情統計では、AI深層偽造を利用した詐欺が上位の苦情項目に挙げられ、被害総額は数億円規模に上ると報告されている。中国の大手通信事業者は、通話の発信元情報を検証する新たなシステム導入を検討中だが、リアルタイム音声偽造は既存の番号偽装対策だけでは防ぎきれない。
専門家が提言する新たな本人確認手段
Wiseman氏は、AI偽装が常態化する中で従来の音声・映像通話を本人確認手段として利用することは危険だと警鐘を鳴らす。彼は、野球の試合で用いられる「暗号」方式にヒントを得た、事前に共有した構造化コードやワンタイムフレーズを遠隔会話で使用する「暗号認証」の導入を提案した。
このような多要素認証は、音声だけでなく、テキストや画像、さらにはハードウェアトークンと組み合わせることで、AIによる社会工学的攻撃の成功確率を大幅に低減できると期待されている。企業や金融機関は、早急に認証プロトコルの見直しを迫られるだろう。
まとめと今後の課題
AIがリアルタイム音声偽造を実現したことは、サイバー犯罪の手口を根本から変える可能性を秘めている。NCC Groupの実証実験が示すように、攻撃者はほぼ確実に相手を騙すことができ、従来の電話番号偽装と組み合わせるだけで高い成功率を得られる。
中国をはじめとする各国は、技術的対策だけでなく、法制度や認証フローの刷新が急務である。AI偽装技術がさらに高度化すれば、音声だけでなく動画やテキストでも同様のリアルタイム偽造が実現する恐れがある。個人・組織ともに、AI時代に適した安全対策を早急に検討すべきである。


