Reddit pozywa Perplexity za zeskrobywanie danych

Reddit eskaluje batalię prawną przeciwko gromadzeniu danych przez AI

Gigant mediów społecznościowych Reddit wniósł znaczący pozew o naruszenie praw autorskich przeciwko startupowi z branży sztucznej inteligencji Perplexity, oskarżając firmę i kilka podmiotów zajmujących się skrobywaniem danych o nielegalne pozyskiwanie ogromnych zasobów treści generowanych przez użytkowników Reddita. Główny zarzut dotyczy rzekomego obejścia przez Perplexity zabezpieczeń technologicznych mających na celu ochronę chronionych prawem autorskim danych Reddita, które firma AI rzekomo wykorzystuje do trenowania swojego modelu AI i zasilania swojej "maszyny do odpowiedzi". To działanie prawne podkreśla rosnące napięcia między deweloperami AI dążącymi do wykorzystania danych online do trenowania modeli a platformami treści dążącymi do kontrolowania sposobu dostępu do ich materiałów i ich wykorzystania.

Reddit, rozbudowana platforma dyskusyjna online posiadająca prawie dwie dekady danych konwersacyjnych zorganizowanych w liczne społeczności oparte na zainteresowaniach, twierdzi, że jej treści nie powinny być komercyjnie wykorzystywane bez wyraźnych umów. Pozew twierdzi, że Perplexity i jej domniemani współoskarżeni wykorzystywali roboty sieciowe i boty do automatycznego kopiowania treści zarówno z Reddita, jak i z wyników wyszukiwania Google zawierających dane Reddita. To rzekomo nieautoryzowane pozyskiwanie omija ustalone kanały licencjonowania, które Reddit utrzymuje, kanały zaprojektowane w celu ochrony praw zarówno platformy, jak i jej użytkowników poprzez mechanizmy umowne.

Pułapka "oznakowanego rachunku"

W szczegółowym opisie swojego śledztwa zespół prawny Reddita opisał stworzenie wyrafinowanej pułapki, aby przyłapać Perplexity na gorącym uczynku. Firma mediów społecznościowych stworzyła testowy post specjalnie zaprojektowany do indeksowania tylko przez wyszukiwarkę Google, platformę, z którą Reddit ma umowę licencyjną na treści. Perplexity jednak nie posiada takiej licencji. Pozew twierdzi, że jedynym sposobem, w jaki Perplexity mogło uzyskać dostęp do tej konkretnej testowej treści, byłoby obejście środków ochronnych Reddita za pośrednictwem wyników wyszukiwania Google. W ciągu kilku godzin sztuczna inteligencja Perplexity zaczęła wyświetlać treść tego testowego posta, co zdaniem Reddita jest definitywnym dowodem na to, że Perplexity, bezpośrednio lub za pośrednictwem swoich partnerów zajmujących się skrobywaniem danych, pobrało dane z wyników wyszukiwania Google i szybko włączyło je do własnego systemu.

Zarzuty o obchodzenie zabezpieczeń i nieuczciwe wzbogacenie

Pozew, złożony w Sądzie Południowego Dystryktu Nowego Jorku, zawiera zarzuty naruszenia Digital Millennium Copyright Act (DMCA) skierowane konkretnie przeciwko przepisom dotyczącym obchodzenia zabezpieczeń, a także zarzuty nieuczciwego wzbogacenia i nieuczciwej konkurencji. Strategia Reddita skupia się na akcie obchodzenia kontroli technologicznych, a nie wyłącznie na końcowym wykorzystaniu materiałów chronionych prawem autorskim. Skarga szczegółowo opisuje, w jaki sposób oskarżeni rzekomo maskowali tożsamość, rotowali adresy IP i obchodzili kontrolę dostępu, aby zeskrobać miliardy stron wyników wyszukiwania Google (SERP) zawierających treści Reddita. Dane te zostały następnie rzekomo wchłonięte przez AI Perplexity. Reddit argumentuje, że ten nieautoryzowany dostęp spowodował znaczne szkody, w tym utratę zysków, możliwości biznesowe i szkody reputacyjne, jednocześnie wzbogacając Perplexity kosztem Reddita.

Rola firm zajmujących się skrobywaniem danych

Centralnym elementem pozwu Reddita są zarzuty przeciwko trzem konkretnym firmom zajmującym się skrobywaniem danych: Oxylabs UAB, AWM Proxy i SerpApi. Reddit twierdzi, że Perplexity współpracowało z tymi firmami w celu ułatwienia "przemysłowego" obchodzenia kontroli dostępu zarówno Reddita, jak i Google. Firmy te są oskarżone o potencjalne pozyskiwanie postów Reddita bez zgody, a następnie sprzedawanie tych danych Perplexity. Pozew sugeruje, że praktyki Perplexity nie tylko podważają istniejące umowy licencyjne, ale także odciągają zaangażowanie użytkowników od Reddita. Poprzez zmniejszenie potrzeby bezpośredniego odwiedzania Reddita przez użytkowników, praktyka ta zmniejsza komercyjną użyteczność platformy i potencjalnie zagraża prywatności użytkowników, przechwytując ograniczone lub usunięte posty, utrudniając Redditowi honorowanie próśb użytkowników i utrzymanie zaufania.

Obrona Perplexity i szerszy krajobraz danych AI

W odpowiedzi na pozew, Perplexity publicznie oświadczyło, że "nie trenuje modeli AI na treściach". To oświadczenie, złożone na samym Reddicie, sugeruje strategię obronną, która może koncentrować się na sposobie ostatecznego wykorzystania danych, a nie na sposobie ich pozyskania. Jednak argument prawny Reddita, w szczególności jego oparcie na zarzutach dotyczących obchodzenia zabezpieczeń DMCA, przenosi ciężar dyskusji na wcześniejszy etap, na akt przełamywania barier technicznych. Ta sprawa jest symbolem szerszej debaty w branży AI dotyczącej etycznych i prawnych granic skrobywania danych do trenowania AI. W miarę jak modele AI stają się coraz bardziej wyrafinowane, zapotrzebowanie na ogromne zbiory danych rośnie, stawiając platformy takie jak Reddit w kluczowej pozycji do obrony swojej własności intelektualnej i praw do danych użytkowników przed tym, co postrzegają jako nieautoryzowane i potencjalnie szkodliwe skrobywanie.

Przyszłe implikacje dla rozwoju AI i platform treści

Wynik pozwu Reddita przeciwko Perplexity może ustanowić ważne precedensy dotyczące tego, w jaki sposób firmy AI uzyskują i wykorzystują dane z platform internetowych. Jeśli Reddit wygra, może ośmielić innych twórców treści i platform do podjęcia podobnych kroków prawnych, co potencjalnie doprowadzi do bardziej rygorystycznych kontroli nad skrobywaniem danych i bardziej solidnych negocjacji licencyjnych. Odwrotnie, orzeczenie korzystne dla Perplexity mogłoby wyjaśnić dopuszczalne praktyki dotyczące pozyskiwania danych treningowych dla AI lub podkreślić potrzebę jaśniejszych standardów branżowych. Zastosowane strategie prawne, w szczególności skupienie się na środkach zapobiegających obchodzeniu zabezpieczeń w ramach DMCA, oferują nowatorskie podejście do sporów o własność intelektualną w erze cyfrowej. Ta sprawa podkreśla ciągłe wyzwanie równoważenia innowacji w AI z ochroną materiałów chronionych prawem autorskim i prywatności użytkowników w coraz bardziej opartym na danych świecie.

Wstecz Zarejestruj się