Reddit poursuit Perplexity pour le scraping de données

Reddit intensifie sa bataille juridique contre la récolte de données par l'IA

Le géant des réseaux sociaux Reddit a intenté une action en justice pour violation du droit d'auteur contre la startup d'intelligence artificielle Perplexity, accusant l'entreprise et plusieurs entités de scraping de données d'avoir obtenu illégalement la vaste réserve de contenu généré par les utilisateurs de Reddit. Le cœur de l'accusation repose sur la prétendue contournement par Perplexity des mesures de protection technologiques conçues pour protéger les données protégées par le droit d'auteur de Reddit, que la société d'IA utiliserait pour entraîner son modèle d'IA et alimenter son « moteur de réponses ». Cette action en justice met en évidence une tension croissante entre les développeurs d'IA cherchant à exploiter les données en ligne pour l'entraînement de modèles et les plateformes de contenu visant à contrôler la manière dont leurs matériels sont accessibles et utilisés.

Reddit, une vaste plateforme de discussion en ligne qui abrite près de deux décennies de données conversationnelles organisées dans de nombreuses communautés basées sur des centres d'intérêt, affirme que son contenu ne doit pas être exploité commercialement sans accords exprès. Le procès affirme que Perplexity et ses co-défendeurs présumés ont utilisé des robots d'exploration et des bots pour copier automatiquement le contenu des résultats de recherche de Reddit et de Google qui présentent des données de Reddit. Cette acquisition présumée non autorisée contourne les canaux de licence établis que Reddit maintient, des canaux conçus pour protéger les droits de la plateforme et de ses utilisateurs grâce à des garde-fous contractuels.

Le piège du « billet marqué »

Dans un compte rendu détaillé de leur enquête, l'équipe juridique de Reddit a décrit la mise en place d'un piège sophistiqué pour attraper Perplexity en flagrant délit. La société de médias sociaux a créé un article de test spécifiquement conçu pour être indexé uniquement par le moteur de recherche de Google, une plateforme avec laquelle Reddit a un accord de licence de contenu. Perplexity, cependant, ne partage pas une telle licence. Le procès affirme que la seule façon pour Perplexity d'accéder à ce contenu de test spécifique serait de contourner les mesures de protection de Reddit via les résultats de recherche de Google. En quelques heures, l'IA de Perplexity a commencé à faire surface le contenu de cet article de test, ce que Reddit soutient être une preuve définitive que Perplexity, directement ou par l'intermédiaire de ses partenaires de scraping de données, a récolté les données à partir des résultats du moteur de recherche de Google et les a rapidement intégrées dans son propre système.

Allégations de contournement et d'enrichissement sans cause

Le procès, intenté dans le district sud de New York, comprend des accusations de violations du Digital Millennium Copyright Act (DMCA) ciblant spécifiquement les dispositions anti-contournement, ainsi que des accusations d'enrichissement sans cause et de concurrence déloyale. La stratégie de Reddit se concentre sur l'acte de contournement des contrôles technologiques plutôt que sur la seule utilisation finale du matériel protégé par le droit d'auteur. La plainte détaille comment les défendeurs auraient masqué leurs identités, fait pivoter les adresses IP et contourné les contrôles d'accès pour scraper des milliards de pages de résultats de moteurs de recherche (SERP) de Google contenant le contenu de Reddit. Ces données auraient ensuite été ingérées par l'IA de Perplexity. Reddit soutient que cet accès non autorisé a causé des dommages importants, notamment des pertes de profits, des opportunités commerciales et un préjudice à la réputation, tout en enrichissant Perplexity aux dépens de Reddit.

Le rôle des sociétés de scraping de données

Au cœur du procès de Reddit se trouvent les allégations contre trois sociétés spécifiques de scraping de données : Oxylabs UAB, AWM Proxy et SerpApi. Reddit affirme que Perplexity a collaboré avec ces sociétés pour faciliter le contournement « à l'échelle industrielle » des contrôles d'accès de Reddit et de Google. Ces sociétés sont accusées d'avoir potentiellement récolté les publications de Reddit sans permission, puis d'avoir vendu ces données à Perplexity. Le procès suppose que les pratiques de Perplexity non seulement sapent les accords de licence existants, mais détournent également l'engagement des utilisateurs loin de Reddit. En réduisant le besoin pour les utilisateurs de visiter Reddit directement, cette pratique diminue l'utilité commerciale de la plateforme et compromet potentiellement la confidentialité des utilisateurs en capturant des publications restreintes ou supprimées, entravant ainsi la capacité de Reddit à honorer les demandes des utilisateurs et à maintenir la confiance.

La défense de Perplexity et le paysage plus large des données de l'IA

En réponse au procès, Perplexity a déclaré publiquement qu'elle « n'entraîne pas de modèles d'IA sur du contenu ». Cette déclaration, faite sur Reddit même, suggère une stratégie de défense qui pourrait se concentrer sur la manière dont les données sont finalement utilisées, plutôt que sur la manière dont elles ont été acquises. Cependant, l'argument juridique de Reddit, en particulier son recours aux accusations anti-contournement du DMCA, déplace l'attention en amont vers l'acte de franchissement des barrières techniques. Cette affaire est emblématique d'un débat plus large dans l'industrie de l'IA concernant les limites éthiques et juridiques du scraping de données pour l'entraînement de l'IA. À mesure que les modèles d'IA deviennent plus sophistiqués, la demande de vastes ensembles de données s'intensifie, plaçant des plateformes comme Reddit dans une position critique pour défendre leur propriété intellectuelle et les droits sur les données des utilisateurs contre ce qu'elles perçoivent comme une récolte non autorisée et potentiellement nuisible.

Implications futures pour le développement de l'IA et les plateformes de contenu

L'issue du procès de Reddit contre Perplexity pourrait créer des précédents importants quant à la manière dont les sociétés d'IA accèdent et utilisent les données des plateformes en ligne. Si Reddit obtient gain de cause, cela pourrait encourager d'autres créateurs de contenu et plateformes à poursuivre des voies juridiques similaires, conduisant potentiellement à des contrôles plus stricts sur le scraping de données et à des négociations de licence plus robustes. Inversement, une décision favorable à Perplexity pourrait clarifier les pratiques acceptables pour l'acquisition de données d'entraînement de l'IA, ou souligner la nécessité de normes industrielles plus claires. Les stratégies juridiques employées, en particulier l'accent mis sur les mesures anti-contournement en vertu du DMCA, offrent une approche nouvelle aux litiges de propriété intellectuelle à l'ère numérique. Cette affaire souligne le défi permanent d'équilibrer l'innovation dans l'IA avec la protection du matériel protégé par le droit d'auteur et la vie privée des utilisateurs dans un monde de plus en plus axé sur les données.

Retour Inscription