中国AI番犬: Anthropicの書籍スキャン問題

TL;DR: 米国のAIスタートアップ、Anthropicが数百万冊の本をスキャンして破棄し、生成AIの訓練データを作り出したことが明らかになった。

Quick Facts

Anthropicが数百万冊の本を破壊しながらAI訓練データを確保した実態
米国裁判所がAI訓練を「合理的使用」と認めたが、和解金は15億ドルに上る
日本の著作者や出版社にも波及する、AIと著作権の新たな課題とは

最近、AI業界で大きな波紋を呼んでいるニュースをご存知ですか？米国のAIスタートアップ、Anthropic（アンソロピック）が、書籍を大量にスキャンして破棄しながら、生成AIの訓練データを作り出したという衝撃的な事実が明らかになったんです。この記事では、その裏側にある「バナマプロジェクト」の全容と、私たち日本のクリエイターにとって何が問題なのかを、分かりやすく解説していきます。

1. バナマプロジェクトとは何だったのか

2024年初頭、米国の倉庫で行われたのは、文字通り「本を切り刻んでスキャンし、紙はリサイクルに回す」作業でした。対象は新品や新しく購入した本で、読まれることは一切想定されていません。内部文書ではこの計画は「バナマプロジェクト」と呼ばれ、外部に漏らさないようにと指示が出されていました。

Anthropicは、ネット上のテキストだけでは高品質な訓練データが不足すると認識。書籍は編集・校正が徹底され、構造が明確であるため、AIに「良い文章を書く」能力を学習させるのに最適だと考えたわけです。ところが、出版社や著者と個別にライセンス交渉を行うと時間とコストがかかりすぎるため、違法手段に走ったというわけです。

2. 違法ダウンロードから産業規模のスキャンへ

実はバナマプロジェクトが始まる前から、Anthropicの創業者Ben Mannは2021年に「LibGen」という海賊版図書館から大量の書籍をダウンロードしていました。さらに2022年には「Pirate Library Mirror」という、著作権違反を公言するサイトのリンクを社内に共有していたことが、裁判所の文書から明らかになっています。

その後、同社は米国の中古書店「Better World Books」や英国の「World of Books」から数万冊単位で本を購入し、専用のハイドロリックカッターで背表紙を切り落とし、ハイスピードスキャナーでデジタル化。残った紙はリサイクルに回すという、まさに工業的なライン作業が構築されました。提案書には「6か月で50万〜200万冊のデジタル化を完了させる」目標が記されていました。

3. 法的争点と15億ドルの和解金

2023年に米連邦裁判所がAnthropicの訓練行為を「本質的に変換的（transformative）」と認め、合理的使用の範囲と判断しました。しかし、同社は最終的に15億ドル（約2兆円）もの和解金を支払うことで訴訟を終結させました。1冊あたり約3,000ドルという金額は、米国の著作権法で定められた上限（15万ドル）に比べてわずか2％に過ぎません。

この和解は、AI企業にとって「著作権侵害はコストとして計上できる」ことを示す先例となり、今後の業界全体に大きな影響を与える可能性があります。実際、Googleが2000年代に行った大規模図書スキャンと同様に、AIが大量のテキストを「吸収」し、低コストで無限に生成できる点が問題視されています。

4. 日本の著作者・出版社への示唆

日本でもAIと著作権の境界線は曖昧です。例えば、出版社がAI訓練用データとして自社の書籍を提供する際、どのような条件で許諾すべきか、または全く提供しない選択肢があるのか、明確な指針が不足しています。Anthropicのケースは、以下の点で日本のクリエイティブ産業に警鐘を鳴らしています。

「高品質な書籍データはAIにとって金鉱」だという認識が、違法取得を正当化しがちになるリスク。
和解金が実質的に「過料」レベルに抑えられると、企業側がリスクを取ってでもデータを取得し続けるインセンティブが残る。
日本の著作者団体や出版社が、AI訓練データ利用に関する標準契約やロイヤリティ体系を事前に整備しないと、同様の事態が国内でも起こり得る。

実務的には、AIベンダーと「データ使用許諾契約（Data License Agreement）」を結び、使用範囲や再配布の有無を明確にすることが重要です。また、AIが生成したテキストが既存作品と「実質的に同一」かどうかを評価する「データ・評価・安全性」のフレームワークを導入すれば、訴訟リスクを低減できるでしょう。

5. 生成AIと著作権の未来像

AIが大量の書籍を「学習」し、数秒で新しい文章を生成できる時代、著作者の収入構造は大きく変わります。AIが生成したテキストは低コストで市場に流通し、従来の書籍販売や執筆活動の価値が希薄化する恐れがあります。だからこそ、著作権法だけでなく、AI倫理やデータガバナンスの観点からも議論が必要です。

「AIは人が読んだ本の要点をまとめるだけ」だという楽観的な見方もありますが、実際にはAIは何百万冊ものテキストを同時に処理し、ほぼ無限にコピーできる能力を持っています。このスケールの違いが、従来の「合理的使用」論を覆すポイントになるのではないでしょうか。

まとめ

Anthropicのバナマプロジェクトは、生成AIが高品質データを求めてどこまで手段を選ばないかを示す象徴的な事例です。米国の裁判所は「合理的使用」と認めたものの、巨額の和解金が支払われたことで、実質的に「データ取得はコストとして計上できる」前例ができました。日本の著作者や出版社は、早急にデータ利用のルール作りと、AIベンダーとの適切な契約交渉を進める必要があります。AIと共存する未来を築くために、今こそ行動を起こす時です。

2026/02/25

Anthropicの書籍スキャン問題