레딧, 퍼플렉시티 데이터 스크래핑으로 제소

레딧, 퍼플렉시티 데이터 스크래핑으로 제소

레딧, 퍼플렉시티 데이터 스크래핑으로 제소 - GodofPanel SMM Panel Blog

레딧, AI 데이터 수집에 대한 법적 분쟁 확대

소셜 미디어 거대 기업 레딧이 인공지능 스타트업 퍼플렉시티를 상대로 중대한 저작권 침해 소송을 제기했습니다. 이들은 퍼플렉시티와 여러 데이터 스크래핑 업체들이 레딧의 방대한 사용자 생성 콘텐츠를 불법적으로 획득했다고 비난하고 있습니다. 이번 소송의 핵심은 퍼플렉시티가 AI 모델 훈련 및 "답변 엔진" 구동에 사용하고 있는 것으로 알려진 레딧의 저작권 데이터를 보호하기 위해 설계된 기술적 안전장치를 우회했다는 혐의입니다. 이러한 법적 조치는 AI 개발자들이 모델 훈련을 위해 온라인 데이터를 활용하려는 움직임과, 콘텐츠 플랫폼이 자료 접근 및 사용 방식을 통제하려는 노력 사이의 긴장이 고조되고 있음을 강조합니다.

거의 20년간의 대화 데이터를 다양한 관심 기반 커뮤니티에 걸쳐 보유하고 있는 방대한 온라인 토론 플랫폼인 레딧은 상업적 합의 없이는 콘텐츠가 상업적으로 이용되지 않는다고 주장합니다. 소송은 퍼플렉시티와 피고들이 웹 크롤러와 봇을 사용하여 레딧과 레딧 데이터를 포함하는 구글 검색 결과 모두에서 콘텐츠를 자동으로 복사했다고 주장합니다. 이러한 불법적인 취득은 레딧이 유지하는 기존의 라이선스 채널을 우회하며, 이는 계약상의 안전장치를 통해 플랫폼과 사용자 모두의 권리를 보호하도록 설계되었습니다.

"마크된 게시물" 함정

조사에 대한 상세한 보고서에서 레딧의 법무팀은 퍼플렉시티를 현장에서 포착하기 위해 정교한 함정을 설정했다고 설명했습니다. 이 소셜 미디어 회사는 레딧과 콘텐츠 라이선스 계약을 맺은 구글 검색 엔진에만 색인되도록 특별히 설계된 테스트 게시물을 만들었습니다. 그러나 퍼플렉시티는 이러한 라이선스를 공유하지 않습니다. 소송은 퍼플렉시티가 이 특정 테스트 콘텐츠에 접근할 수 있는 유일한 방법은 구글의 검색 결과를 통해 레딧의 보호 조치를 우회하는 것이었다고 주장합니다. 몇 시간 내에 퍼플렉시티의 AI가 이 테스트 게시물의 콘텐츠를 표면화하기 시작했으며, 레딧은 퍼플렉시티가 직접 또는 데이터 스크래핑 파트너를 통해 구글 검색 엔진 결과에서 데이터를 수집하여 신속하게 자체 시스템에 통합했다는 결정적인 증거라고 주장합니다.

우회 및 부당 이득 혐의

뉴욕 남부 지방 법원에 제기된 이번 소송에는 디지털 밀레니엄 저작권법(DMCA) 위반 혐의, 특히 기술 보호 조치 무력화 조항 위반과 함께 부당 이득 및 불공정 경쟁 혐의도 포함됩니다. 레딧의 전략은 저작물에 대한 최종 사용보다는 기술적 통제 우회 행위에 초점을 맞추고 있습니다. 고소장에는 피고들이 어떻게 신원을 숨기고, IP 주소를 변경하고, 액세스 제어를 우회하여 레딧 콘텐츠를 포함하는 수십억 개의 구글 검색 결과 페이지(SERP)를 스크래핑했는지 자세히 설명되어 있습니다. 그런 다음 이 데이터는 퍼플렉시티의 AI에 의해 수집되었다고 주장됩니다. 레딧은 이러한 무단 접근이 이익 손실, 사업 기회 손실, 평판 손상 등 상당한 피해를 야기했으며, 동시에 레딧의 비용으로 퍼플렉시티를 부당하게 이득을 얻게 했다고 주장합니다.

데이터 스크래핑 회사의 역할

레딧 소송의 중심에는 Oxylabs UAB, AWM Proxy, SerpApi라는 세 개의 특정 데이터 스크래핑 회사에 대한 혐의가 있습니다. 레딧은 퍼플렉시티가 이 회사들과 협력하여 레딧과 구글의 액세스 제어를 "산업 규모"로 우회하는 것을 용이하게 했다고 주장합니다. 이 회사들은 허가 없이 레딧의 게시물을 수집한 다음 이 데이터를 퍼플렉시티에 판매한 혐의를 받고 있습니다. 소송은 퍼플렉시티의 관행이 기존 라이선스 계약을 약화시킬 뿐만 아니라 사용자 참여를 레딧에서 멀어지게 한다고 주장합니다. 사용자가 레딧을 직접 방문할 필요성을 줄임으로써, 이 관행은 플랫폼의 상업적 유용성을 감소시키고 제한되거나 삭제된 게시물을 캡처하여 사용자 개인 정보를 손상시킬 수 있으며, 레딧이 사용자의 요청을 이행하고 신뢰를 유지하는 능력을 저해합니다.

퍼플렉시티의 방어 및 더 넓은 AI 데이터 환경

소송에 대응하여 퍼플렉시티는 "AI 모델을 콘텐츠로 훈련시키지 않는다"고 공개적으로 밝혔습니다. 레딧 자체에 게시된 이 성명은 데이터 획득 방식이 아니라 데이터가 궁극적으로 사용되는 방식에 중점을 둔 방어 전략을 시사합니다. 그러나 특히 DMCA 기술 보호 조치 무력화 혐의에 의존하는 레딧의 법적 주장은 기술적 장벽을 침해하는 행위로 초점을 옮깁니다. 이 사례는 AI 훈련을 위한 데이터 스크래핑의 윤리적, 법적 경계에 관한 AI 산업의 광범위한 논쟁을 상징합니다. AI 모델이 더욱 정교해짐에 따라 방대한 데이터 세트에 대한 수요가 증가하고 있으며, 이는 레딧과 같은 플랫폼이 자신들이 인식하는 무단의 잠재적으로 해로운 수집으로부터 지적 재산권과 사용자 데이터 권리를 보호하는 데 중요한 위치에 놓이게 합니다.

AI 개발 및 콘텐츠 플랫폼의 미래 시사점

레딧의 퍼플렉시티에 대한 소송 결과는 AI 회사가 온라인 플랫폼의 데이터를 어떻게 접근하고 활용하는지에 대한 중요한 선례를 설정할 수 있습니다. 레딧이 승소하면 다른 콘텐츠 제작자와 플랫폼도 유사한 법적 절차를 추구하도록 고무될 수 있으며, 이는 데이터 스크래핑에 대한 더 엄격한 통제와 더 강력한 라이선스 협상으로 이어질 수 있습니다. 반대로 퍼플렉시티에 유리한 판결은 AI 훈련 데이터 획득에 대한 허용 가능한 관행을 명확히 하거나, 명확한 산업 표준의 필요성을 강조할 수 있습니다. DMCA에 따른 기술 보호 조치 무력화에 초점을 맞춘 법적 전략은 디지털 시대의 지적 재산 분쟁에 대한 새로운 접근 방식을 제공합니다. 이 사례는 점점 더 데이터 중심적인 세상에서 AI 혁신과 저작물 및 사용자 개인 정보 보호의 균형을 맞추는 지속적인 과제를 강조합니다.

Services API