ChatGPT公開後のWebサイト35%にAI生成テキスト — スタンフォード大らが大規模実証

スタンフォード大学・インペリアル・カレッジ・ロンドン・Internet Archiveの共同研究で、ChatGPT公開後に開設された新規WebサイトのうちAI生成テキストを含むものが約35%に上ることが判明した
AI生成テキストを含むサイトの感情的「ポジティビティスコア」は人間作成サイトと比べて107%高く、意見表現に著しい偏りが確認された
Wayback Machineを活用した大規模調査がインターネット全体の情報品質変容を定量的に示し、コンテンツ制作・教育・研究の各領域に新たな課題を提起した

調査の概要と手法

スタンフォード大学・インペリアル・カレッジ・ロンドン・Internet Archive（インターネットアーカイブ）の研究者らが共同で発表した論文「The Impact of AI-Generated Text on the Internet」が、Webコンテンツの現状を定量的に示す大規模調査として注目を集めています。

調査では、Internet Archiveが運営するWayback Machineに蓄積されたデータを活用し、2022年8月から2025年5月にかけて新規開設されたWebサイトを網羅的に収集・分析しました。AI生成テキストの判定にはAI検出ツール「Pangram v3」を用い、ChatGPT・Claude・Geminiなど主要な大規模言語モデル（Large Language Model、LLM）による生成物を識別しています。過去のWebコンテンツを大規模にアーカイブするWayback Machineならではのアプローチにより、ChatGPT登場前後の変化を時系列で追うことが可能になりました。

ChatGPT公開が転換点に

分析の結果、ChatGPTが一般公開された2022年11月を境に、新規開設サイトに含まれるAI生成・支援テキストの割合が顕著に増加したことが確認されました。ChatGPT公開以降に開設されたWebサイトのうち約35%にAI生成テキストが含まれており、単純計算では5サイトのうち約2サイトがAIの生成物を含む割合です。

この数値は、日常的に目にするWebコンテンツの相当数がAI起源である可能性を示しています。公開以前のサイト群と比較することで、ChatGPTの登場がWeb上のコンテンツ生態系にいかに急速な変化をもたらしたかが浮き彫りになりました。

AI生成コンテンツの質的な特性

今回の調査では量的な増加だけでなく、AI生成テキストが持つ質的な偏りも明らかになっています。研究チームが感情的表現の指標として「ポジティビティスコア」を用いて分析したところ、AI生成テキストを含むサイトのスコアは人間が執筆したサイトと比べて107%高い、つまり2倍以上という結果が得られました。

研究チームはこの傾向を「意見表現において不自然で極めて望ましくない特性」と表現しています。AIは批判的な評価や否定的な観点を回避し、肯定的な文章を過剰に生成する傾向があることが背景として指摘されています。さらに、AIが意図的に人間の一般的な意見とは異なる立場を提示するケースも確認されており、情報の中立性や多様性に影響を与える可能性も示されました。

インターネット全体への波及と課題

今回の調査が示す影響は、コンテンツの量的変化にとどまりません。情報の信頼性評価・検索エンジンの品質維持・教育や研究への波及など、複数の領域にわたる課題を提起しています。

AI生成コンテンツが急速に拡大することで、検索エンジンが高品質なコンテンツとAI生成の低品質コンテンツを区別する難しさが増しているという懸念は、SEO実務者や編集者の間でもすでに広がっています。AI面接官の急速な普及を示す調査と同様に、AIの利用が社会規範や品質基準の整備を先行してしまう構図が、Webコンテンツの世界でも確認された形です。

一方、方法論の観点では、Wayback Machineのアーカイブデータを活用した本手法が今後のWeb品質モニタリング研究の基盤になりうる点も評価されています。AI検出精度の向上や調査範囲の拡大により、インターネット全体の変容をより精緻に追うことが可能になると期待されます。コンテンツ制作に携わる開発者・編集者・マーケターにとっては、AI支援を活用しながらも人間による検証・編集の工程を維持することの重要性を、改めて示す調査結果です。