Reddit verklagt Perplexity wegen Datendiebstahls
Reddit verschärft Rechtsstreit gegen KI-Datensammlung
Der Social-Media-Gigant Reddit hat eine bedeutende Urheberrechtsklage gegen das aufstrebende KI-Startup Perplexity eingereicht und beschuldigt das Unternehmen und mehrere Daten-Scraping-Unternehmen, rechtswidrig auf den riesigen Fundus an nutzergenerierten Inhalten von Reddit zugegriffen zu haben. Der Kern der Anschuldigung liegt darin, dass Perplexity angeblich technische Schutzmaßnahmen umgangen hat, die zum Schutz von Reddits urheberrechtlich geschützten Daten bestimmt waren, welche das KI-Unternehmen Berichten zufolge zum Trainieren seines KI-Modells und zur Stromversorgung seiner "Antwortmaschine" nutzt. Diese rechtliche Maßnahme unterstreicht eine wachsende Spannung zwischen KI-Entwicklern, die Online-Daten für das Modelltraining nutzen wollen, und Content-Plattformen, die kontrollieren möchten, wie auf ihre Materialien zugegriffen und wie sie genutzt werden.
Reddit, eine weitläufige Online-Diskussionsplattform mit fast zwei Jahrzehnten Konversationsdaten, die in zahlreichen interessenbasierten Gemeinschaften organisiert sind, behauptet, dass seine Inhalte nicht ohne ausdrückliche Vereinbarungen kommerziell genutzt werden dürfen. Die Klage besagt, dass Perplexity und seine angeblichen Mitangeklagten Web-Crawler und Bots eingesetzt haben, um Inhalte von Reddit und Google-Suchergebnissen, die Reddits Daten enthalten, automatisch zu kopieren. Diese mutmaßliche unbefugte Erfassung umgeht die etablierten Lizenzierungswege, die Reddit unterhält, Wege, die durch vertragliche Leitplanken sowohl die Plattform als auch die Rechte der Nutzer schützen sollen.
Die "Marked Bill"-Falle
In einem detaillierten Bericht über seine Untersuchung beschrieb Reddits Rechtsteam die Einrichtung einer ausgeklügelten Falle, um Perplexity auf frischer Tat zu ertappen. Das Social-Media-Unternehmen erstellte einen Testbeitrag, der speziell dafür ausgelegt war, nur von Googles Suchmaschine indiziert zu werden, einer Plattform, mit der Reddit eine Content-Lizenzvereinbarung hat. Perplexity verfügt jedoch nicht über eine solche Lizenz. Die Klage besagt, dass Perplexity auf diesen spezifischen Testinhalt nur durch Umgehung der Schutzmaßnahmen von Reddit über die Google-Suchergebnisse hätte zugreifen können. Innerhalb weniger Stunden begann Perplexitys KI, den Inhalt dieses Testbeitrags zu präsentieren, was Reddit als eindeutigen Beweis dafür anführt, dass Perplexity, entweder direkt oder durch seine Daten-Scraping-Partner, die Daten aus den Google-Suchergebnissen gesammelt und schnell in sein eigenes System integriert hat.
Vorwürfe der Umgehung und ungerechtfertigten Bereicherung
Die im Southern District of New York eingereichte Klage umfasst Ansprüche wegen Verstößen gegen den Digital Millennium Copyright Act (DMCA), die speziell auf Bestimmungen zur Umgehung technischer Schutzmaßnahmen abzielen, sowie Ansprüche wegen ungerechtfertigter Bereicherung und unlauteren Wettbewerbs. Reddits Strategie konzentriert sich auf die Umgehung technischer Kontrollen und nicht allein auf die Endnutzung des urheberrechtlich geschützten Materials. Die Beschwerde beschreibt detailliert, wie die Angeklagten angeblich Identitäten maskierten, IP-Adressen rotierten und Zugriffskontrollen umgingen, um Milliarden von Google Search Engine Results Pages (SERPs) zu scrapen, die Reddits Inhalte enthielten. Diese Daten wurden angeblich dann von Perplexitys KI aufgenommen. Reddit argumentiert, dass dieser unbefugte Zugriff erhebliche Schäden verursacht hat, darunter entgangene Gewinne, Geschäftsmöglichkeiten und Reputationsschäden, während Perplexity auf Kosten von Reddit bereichert wurde.
Die Rolle von Data-Scraping-Firmen
Im Mittelpunkt der Klage von Reddit stehen die Vorwürfe gegen drei spezifische Data-Scraping-Unternehmen: Oxylabs UAB, AWM Proxy und SerpApi. Reddit behauptet, dass Perplexity mit diesen Unternehmen zusammengearbeitet hat, um die "industrielle" Umgehung der Zugriffssteuerungen von Reddit und Google zu ermöglichen. Diesen Unternehmen wird vorgeworfen, Reddits Beiträge möglicherweise ohne Erlaubnis gesammelt und diese Daten dann an Perplexity verkauft zu haben. Die Klage besagt, dass Perplexitys Praktiken nicht nur bestehende Lizenzvereinbarungen untergraben, sondern auch die Nutzerinteraktion von Reddit ablenken. Indem die Notwendigkeit für Nutzer, Reddit direkt zu besuchen, reduziert wird, mindert diese Praxis die kommerzielle Nützlichkeit der Plattform und kann die Privatsphäre der Nutzer gefährden, indem eingeschränkte oder gelöschte Beiträge erfasst werden und Reddit seine Fähigkeit verliert, Nutzeranfragen zu erfüllen und Vertrauen aufrechtzuerhalten.
Perplexitys Verteidigung und die breitere Landschaft der KI-Daten
Als Reaktion auf die Klage hat Perplexity öffentlich erklärt, dass es "keine KI-Modelle auf Inhalten trainiert". Diese Aussage, die auf Reddit selbst gemacht wurde, deutet auf eine Verteidigungsstrategie hin, die sich möglicherweise darauf konzentriert, wie die Daten letztendlich verwendet werden, und nicht darauf, wie sie erworben wurden. Reddits rechtliche Argumentation, insbesondere die Berufung auf die DMCA-Bestimmungen zur Umgehung technischer Schutzmaßnahmen, verlagert den Fokus jedoch nach oben auf den Akt der Umgehung technischer Barrieren. Dieser Fall ist ein Beispiel für eine breitere Debatte in der KI-Branche über die ethischen und rechtlichen Grenzen des Data-Scrapings für das KI-Training. Da KI-Modelle immer ausgefeilter werden, steigt die Nachfrage nach riesigen Datensätzen, wodurch Plattformen wie Reddit in die kritische Position geraten, ihr geistiges Eigentum und die Rechte an Nutzerdaten gegen das zu verteidigen, was sie als unbefugte und potenziell schädliche Sammlung betrachten.
Zukünftige Auswirkungen auf die KI-Entwicklung und Content-Plattformen
Das Ergebnis von Reddits Klage gegen Perplexity könnte bedeutende Präzedenzfälle für den Zugriff und die Nutzung von Daten von Online-Plattformen durch KI-Unternehmen schaffen. Wenn Reddit obsiegt, könnte dies andere Content-Ersteller und Plattformen ermutigen, ähnliche Rechtsmittel einzulegen, was möglicherweise zu strengeren Kontrollen beim Data-Scraping und robusteren Lizenzverhandlungen führt. Umgekehrt könnte ein Urteil zugunsten von Perplexity akzeptable Praktiken für den Erwerb von Trainingsdaten für KI klären oder die Notwendigkeit klarerer Industriestandards hervorheben. Die angewandten juristischen Strategien, insbesondere der Fokus auf Maßnahmen zur Umgehung technischer Schutzmaßnahmen gemäß dem DMCA, bieten einen neuartigen Ansatz für Streitigkeiten über geistiges Eigentum im digitalen Zeitalter. Dieser Fall unterstreicht die fortwährende Herausforderung, Innovationen in der KI mit dem Schutz von urheberrechtlich geschütztem Material und der Privatsphäre der Nutzer in einer zunehmend datengesteuerten Welt in Einklang zu bringen.