Reddit fa causa a Perplexity per lo scraping dei dati

Reddit Intensifica la Battaglia Legale contro il Raccolta Dati dell'IA

Il gigante dei social media Reddit ha intentato una significativa causa per violazione del copyright contro la startup di intelligenza artificiale Perplexity, accusando la società e diverse entità di data scraping di aver ottenuto illegalmente l'enorme quantità di contenuti generati dagli utenti di Reddit. Il fulcro dell'accusa riguarda la presunta elusione da parte di Perplexity delle misure di sicurezza tecnologica progettate per proteggere i dati protetti da copyright di Reddit, che la società di IA starebbe utilizzando per addestrare il proprio modello AI e alimentare il suo "motore di risposte". Questa azione legale evidenzia una crescente tensione tra gli sviluppatori di IA che cercano di sfruttare i dati online per l'addestramento dei modelli e le piattaforme di contenuti che mirano a controllare come il loro materiale viene accessibile e utilizzato.

Reddit, un'ampia piattaforma di discussione online che vanta quasi due decenni di dati conversazionali organizzati in numerose comunità basate sugli interessi, afferma che i suoi contenuti non devono essere sfruttati commercialmente senza accordi espliciti. La causa sostiene che Perplexity e i suoi presunti co-imputati hanno impiegato crawler web e bot per copiare automaticamente contenuti sia dai risultati di ricerca di Reddit che da quelli di Google che presentano i dati di Reddit. Questa presunta acquisizione non autorizzata aggira i canali di licenza stabiliti da Reddit, canali progettati per proteggere i diritti sia della piattaforma che dei suoi utenti attraverso salvaguardie contrattuali.

La Trappola del "Segnale di Fatturazione"

In un resoconto dettagliato della loro indagine, il team legale di Reddit ha descritto la creazione di una sofisticata trappola per cogliere Perplexity in flagrante. La società di social media ha creato un post di prova specificamente progettato per essere indicizzato solo dal motore di ricerca di Google, una piattaforma con la quale Reddit ha un accordo di licenza sui contenuti. Perplexity, tuttavia, non ha una licenza simile. La causa sostiene che l'unico modo in cui Perplexity potrebbe accedere a questi contenuti di prova specifici sarebbe aggirando le misure protettive di Reddit attraverso i risultati di ricerca di Google. Entro poche ore, l'IA di Perplexity ha iniziato a far emergere il contenuto di questo post di prova, che Reddit sostiene essere una prova definitiva che Perplexity, direttamente o tramite i suoi partner di data scraping, ha raccolto i dati dai risultati del motore di ricerca di Google e li ha rapidamente incorporati nel proprio sistema.

Accuse di Elusione e Arricchimento Ingiusto

La causa, intentata nel Distretto Meridionale di New York, include accuse di violazione del Digital Millennium Copyright Act (DMCA) che prendono di mira specificamente le disposizioni anti-elusione, oltre a reclami di arricchimento ingiusto e concorrenza sleale. La strategia di Reddit si concentra sull'atto di aggirare i controlli tecnologici piuttosto che esclusivamente sull'uso finale del materiale protetto da copyright. La denuncia descrive come gli imputati avrebbero mascherato le identità, ruotato gli indirizzi IP e aggirato i controlli di accesso per scansionare miliardi di pagine dei risultati del motore di ricerca di Google (SERP) contenenti contenuti di Reddit. Questi dati sarebbero stati poi ingeriti dall'IA di Perplexity. Reddit sostiene che questo accesso non autorizzato ha causato danni significativi, inclusi mancati profitti, opportunità commerciali e danni reputazionali, arricchendo Perplexity a spese di Reddit.

Il Ruolo delle Società di Data Scraping

Al centro della causa di Reddit ci sono le accuse contro tre società specifiche di data scraping: Oxylabs UAB, AWM Proxy e SerpApi. Reddit sostiene che Perplexity ha collaborato con queste società per facilitare l'elusione "su scala industriale" dei controlli di accesso sia di Reddit che di Google. Queste società sono accusate di aver potenzialmente raccolto post di Reddit senza permesso e poi di aver venduto questi dati a Perplexity. La causa ipotizza che le pratiche di Perplexity non solo minano gli accordi di licenza esistenti, ma deviano anche il coinvolgimento degli utenti lontano da Reddit. Riducendo la necessità per gli utenti di visitare direttamente Reddit, questa pratica diminuisce l'utilità commerciale della piattaforma e potenzialmente compromette la privacy degli utenti catturando post ristretti o cancellati, ostacolando la capacità di Reddit di onorare le richieste degli utenti e mantenere la fiducia.

La Difesa di Perplexity e il Panorama Generale dei Dati AI

In risposta alla causa, Perplexity ha dichiarato pubblicamente che "non addestra modelli AI su contenuti". Questa dichiarazione, fatta su Reddit stesso, suggerisce una strategia di difesa che potrebbe concentrarsi su come i dati vengono utilizzati in ultima analisi, piuttosto che su come sono stati acquisiti. Tuttavia, l'argomentazione legale di Reddit, in particolare la sua dipendenza dalle accuse di anti-elusione del DMCA, sposta l'attenzione a monte sull'atto di violare le barriere tecniche. Questo caso è emblematico di un dibattito più ampio nell'industria dell'IA riguardante i confini etici e legali del data scraping per l'addestramento dell'IA. Man mano che i modelli di IA diventano più sofisticati, la domanda di vasti set di dati si intensifica, ponendo le piattaforme come Reddit in una posizione critica per difendere la loro proprietà intellettuale e i diritti sui dati degli utenti contro quella che percepiscono come una raccolta non autorizzata e potenzialmente dannosa.

Implicazioni Future per lo Sviluppo dell'IA e le Piattaforme di Contenuti

L'esito della causa di Reddit contro Perplexity potrebbe stabilire precedenti significativi su come le società di IA accedono e utilizzano i dati dalle piattaforme online. Se Reddit vincerà, potrebbe incoraggiare altri creatori di contenuti e piattaforme a perseguire vie legali simili, portando potenzialmente a controlli più severi sullo scraping dei dati e a negoziazioni di licenza più robuste. Al contrario, una sentenza favorevole a Perplexity potrebbe chiarire le pratiche accettabili per l'acquisizione di dati di addestramento AI, o evidenziare la necessità di standard di settore più chiari. Le strategie legali impiegate, in particolare l'attenzione sulle misure anti-elusione ai sensi del DMCA, offrono un approccio innovativo alle controversie sulla proprietà intellettuale nell'era digitale. Questo caso sottolinea la sfida continua di bilanciare l'innovazione nell'IA con la protezione del materiale protetto da copyright e della privacy degli utenti in un mondo sempre più basato sui dati.

Indietro Registrati