※ AIによる要約
ネットサービスの大手であるOpenAIが運営するウェブクローラーボットが、3Dスキャンデータを販売するサイト「Triplegangers」を実質的にDDoS攻撃のような形でダウンさせたことが明らかになりました。この件に関する詳細は、同社のCEOであるオレクサンドル・トムチュク氏がニュースメディア「TechCrunch」に語った内容から報じられています。
「Triplegangers」は10年以上にわたり、顔や全身、手、彫像など、さまざまなカテゴリーに分類された数十万点の高解像度3Dスキャンデータを販売してきた小規模な運営のサイトです。しかし、OpenAIのボットが同サイトに膨大なリクエストを発信し、すべてのデータをスクレイピングしようと試みた結果、膨大なトラフィックが発生。最終的にサイトがダウンしてしまいました。この出来事に対し、トムチュク氏は「OpenAIのクローラーは我々のサイトをぶっ壊しました。要するにDDoS攻撃だったのです」とコメントしています。
調査によると、OpenAIのボットは600もの異なるIPアドレスを使用してデータにアクセスしており、スクレイピングの開始時期は特定されていません。同サイトは利用規約上で無断のスクレイピングを禁止していたものの、ウェブクローラーに対する「robots.txt」ファイルでの適切なブロック設定が欠けていた可能性も浮上。この点について「TechCrunch」は、OpenAI側にも対応の曖昧さや責任がある可能性を指摘しています。
OpenAIは2023年に大規模言語モデルの性能向上を目的として新しいウェブクローラー「GPTBot」の開発を公表し、これをブロックする方法も合わせて公開していましたが、ChatGPT-UserやOAI-SearchBotといった他のクローラーも使用しているとされています。それだけに、たとえ「robots.txt」に記載があったとしても、すべてのクローラーがそれを遵守する保証はない状況。
同様の問題は他の生成AI関連企業でも発生しており、例えばAnthropicではあるサイトに1日で100万回のアクセスを行った事例や、生成検索エンジンPerplexityでも「robots.txt」を順守していないとの指摘が出ています。このようなケースが増える中、ウェブ管理者とAI企業の間での透明性や責任の在り方がますます問われる状況となっています。