Reddit、Perplexityをデータスクレイピングで提訴
Reddit、AIデータハーベスティングに対する法的紛争を拡大
ソーシャルメディア大手のRedditは、AIスタートアップのPerplexityに対し、Redditの膨大なユーザー生成コンテンツを不正に取得したとして、著作権侵害訴訟を提起しました。訴訟の中心は、RedditがAIモデルのトレーニングや「回答エンジン」の提供に利用しているとされる、Redditの著作物保護を目的とした技術的保護措置をPerplexityが回避したという主張です。この法的措置は、AI開発者がモデルトレーニングのためにオンラインデータを活用しようとする動きと、コンテンツプラットフォームが自社素材へのアクセスと利用方法を管理しようとする動きとの間の、高まる緊張関係を浮き彫りにしています。
約20年間にわたる会話データと、数多くの興味に基づいたコミュニティで構成される広範なオンラインディスカッションプラットフォームであるRedditは、明示的な契約なしにそのコンテンツが商業的に利用されることはないと主張しています。訴訟によると、Perplexityとその alleged の共同被告は、Webクローラーとボットを使用して、RedditとRedditのデータを掲載するGoogle検索結果の両方からコンテンツを自動的にコピーしたとのことです。この alleged の無許可取得は、Redditが維持している確立されたライセンスチャネルを迂回するものであり、契約上の管理策を通じてプラットフォームとユーザー双方の権利を保護するように設計されています。
「マークドビル」トラップ
Redditの法務チームは、調査の詳細な報告の中で、Perplexityを捕らえるための巧妙な罠を仕掛けたと説明しています。同ソーシャルメディア企業は、Redditとコンテンツライセンス契約を結んでいるGoogleの検索エンジンにのみインデックスされるように特別に設計されたテスト投稿を作成しました。しかし、Perplexityはこのようなライセンスを持っていません。訴訟によると、Perplexityがこの特定のテストコンテンツにアクセスできた唯一の方法は、Googleの検索結果を通じてRedditの保護措置を回避することだったとのことです。数時間以内に、PerplexityのAIはこのテスト投稿のコンテンツを提示し始めました。Redditは、これがPerplexityが、直接であろうとデータスクレイピングパートナーを通じてであろうと、Googleの検索結果からデータを収集し、それを迅速に自社のシステムに組み込んだ明確な証拠であると主張しています。
回避と不当利得の申し立て
ニューヨーク州南部地区で提起されたこの訴訟には、DMCA(デジタルミレニアム著作権法)違反の申し立てが含まれており、特に技術的保護措置の回避を対象とした条項、および不当利得と不正競争の申し立てが含まれています。Redditの戦略は、著作物の最終的な使用だけでなく、技術的管理の回避行為に焦点を当てています。訴状には、被告がどのように身元を隠蔽し、IPアドレスをローテーションさせ、アクセス制御を回避して、Redditのコンテンツを含む数十億ものGoogle検索結果ページ(SERPs)をスクレイピングしたかが詳述されています。このデータはその後、PerplexityのAIに摂取されたとalleged されています。Redditは、この無許可アクセスにより、利益損失、ビジネス機会、評判への損害を含む重大な損害が発生し、Redditの犠牲でPerplexityが不当に利益を得たと主張しています。
データスクレイピング会社の役割
Redditの訴訟の中心には、Oxylabs UAB、AWM Proxy、SerpApiという3つの特定のデータスクレイピング企業に対するallegation があります。Redditは、Perplexityがこれらの企業と協力し、RedditとGoogle双方のアクセス制御の「産業規模」での回避を促進したと主張しています。これらの企業は、許可なくRedditの投稿を収集し、そのデータをPerplexityに販売したとalleged されています。訴訟は、Perplexityの慣行が既存のライセンス契約を損なうだけでなく、ユーザーエンゲージメントをRedditからそらしていると述べています。ユーザーが直接Redditを訪問する必要性を減らすことで、この慣行はプラットフォームの商業的有用性を低下させ、制限された投稿や削除された投稿をキャプチャすることでユーザープライバシーを侵害する可能性があり、Redditがユーザーの要求に応え、信頼を維持することを妨げます。
Perplexityの弁護と広範なAIデータ情勢
訴訟に応じ、PerplexityはReddit自体で「AIモデルをコンテンツでトレーニングすることはありません」と公に述べました。この声明は、データがどのように取得されたかではなく、最終的にどのように使用されるかに焦点を当てた防御戦略を示唆しています。しかし、Redditの法的論証、特にDMCAの技術的保護措置回避条項への依存は、技術的障壁の侵害行為に焦点を移しています。このケースは、AIトレーニングのためのデータスクレイピングの倫理的および法的境界に関するAI業界における広範な議論の象徴です。AIモデルがより洗練されるにつれて、膨大なデータセットへの需要が高まっており、Redditのようなプラットフォームは、不正かつ潜在的に有害なハーベスティングと見なされるものに対して、知的財産とユーザーデータの権利を保護する上で重要な位置にあります。
AI開発とコンテンツプラットフォームの将来への影響
RedditとPerplexityの訴訟の結末は、AI企業がオンラインプラットフォームからどのようにデータを取得し利用するかについて、重要な先例となる可能性があります。Redditが勝訴した場合、他のコンテンツクリエイターやプラットフォームが同様の法的手段を追求する勇気を与える可能性があり、データスクレイピングのより厳格な管理と、より堅牢なライセンス交渉につながる可能性があります。逆に、Perplexityに有利な判決は、AIトレーニングデータ取得のための許容される慣行を明確にするか、より明確な業界標準の必要性を強調する可能性があります。特にDMCAの下での技術的保護措置回避策に焦点を当てた法的戦略は、デジタル時代の知的財産紛争に対する斬新なアプローチを提供します。このケースは、AIにおけるイノベーションと、ますますデータ主導型になる世界における著作物およびユーザープライバシーの保護とのバランスを取るという継続的な課題を強調しています。