Reddit kiện Perplexity về hành vi cào dữ liệu

Reddit leo thang cuộc chiến pháp lý chống lại việc thu hoạch dữ liệu AI

Gã khổng lồ mạng xã hội Reddit đã đệ đơn kiện bản quyền quan trọng chống lại công ty khởi nghiệp trí tuệ nhân tạo Perplexity, cáo buộc công ty và một số đơn vị cào dữ liệu đã lấy trái phép kho nội dung khổng lồ do người dùng tạo ra của Reddit. Cốt lõi của cáo buộc xoay quanh việc Perplexity bị cáo buộc đã vô hiệu hóa các biện pháp bảo vệ công nghệ được thiết kế để bảo vệ dữ liệu có bản quyền của Reddit, mà công ty AI này được cho là đang sử dụng để huấn luyện mô hình AI của mình và cung cấp năng lượng cho "công cụ trả lời" của họ. Hành động pháp lý này nêu bật sự căng thẳng ngày càng tăng giữa các nhà phát triển AI tìm cách khai thác dữ liệu trực tuyến để huấn luyện mô hình và các nền tảng nội dung muốn kiểm soát cách tài liệu của họ được truy cập và sử dụng.

Reddit, một nền tảng thảo luận trực tuyến rộng lớn với gần hai thập kỷ dữ liệu hội thoại được tổ chức trên nhiều cộng đồng dựa trên sở thích, khẳng định rằng nội dung của họ không được khai thác thương mại mà không có thỏa thuận rõ ràng. Vụ kiện tuyên bố rằng Perplexity và các bị đơn bị cáo buộc đã sử dụng các trình thu thập web và bot để tự động sao chép nội dung từ cả Reddit và kết quả tìm kiếm của Google có chứa dữ liệu của Reddit. Việc thu thập trái phép bị cáo buộc này bỏ qua các kênh cấp phép đã được thiết lập mà Reddit duy trì, các kênh được thiết kế để bảo vệ cả nền tảng và quyền của người dùng thông qua các biện pháp bảo vệ theo hợp đồng.

Bẫy "Hóa đơn được đánh dấu"

Trong một báo cáo chi tiết về cuộc điều tra của mình, đội ngũ pháp lý của Reddit đã mô tả việc thiết lập một cái bẫy tinh vi để bắt Perplexity. Công ty truyền thông xã hội đã tạo một bài đăng thử nghiệm được thiết kế đặc biệt để chỉ được lập chỉ mục bởi công cụ tìm kiếm của Google, một nền tảng mà Reddit có thỏa thuận cấp phép nội dung. Tuy nhiên, Perplexity không chia sẻ giấy phép như vậy. Vụ kiện cáo buộc rằng cách duy nhất Perplexity có thể truy cập nội dung thử nghiệm cụ thể này là bằng cách bỏ qua các biện pháp bảo vệ của Reddit thông qua kết quả tìm kiếm của Google. Trong vòng vài giờ, AI của Perplexity bắt đầu hiển thị nội dung của bài đăng thử nghiệm này, mà Reddit cho rằng đây là bằng chứng dứt khoát rằng Perplexity, trực tiếp hoặc thông qua các đối tác cào dữ liệu của mình, đã thu thập dữ liệu từ kết quả tìm kiếm của Google và nhanh chóng tích hợp nó vào hệ thống của riêng mình.

Cáo buộc về việc vượt qua và làm giàu bất chính

Vụ kiện, được đệ trình tại Quận phía Nam New York, bao gồm các yêu cầu bồi thường vi phạm Đạo luật Bản quyền Kỹ thuật số Thiên niên kỷ (DMCA) đặc biệt nhắm vào các quy định chống vượt qua, cùng với các yêu cầu về làm giàu bất chính và cạnh tranh không lành mạnh. Chiến lược của Reddit tập trung vào hành vi bỏ qua các biện pháp kiểm soát kỹ thuật thay vì chỉ sử dụng cuối cùng của tài liệu có bản quyền. Đơn khiếu nại chi tiết cách các bị đơn được cho là đã che giấu danh tính, luân chuyển địa chỉ IP và bỏ qua các biện pháp kiểm soát truy cập để cào hàng tỷ trang kết quả tìm kiếm của Google (SERPs) có chứa nội dung của Reddit. Sau đó, dữ liệu này được cho là đã được AI của Perplexity tiếp nhận. Reddit lập luận rằng việc truy cập trái phép này đã gây ra thiệt hại đáng kể, bao gồm lợi nhuận bị mất, cơ hội kinh doanh và tổn hại danh tiếng, đồng thời làm giàu cho Perplexity với chi phí của Reddit.

Vai trò của các công ty cào dữ liệu

Trung tâm của vụ kiện của Reddit là các cáo buộc chống lại ba công ty cào dữ liệu cụ thể: Oxylabs UAB, AWM Proxy và SerpApi. Reddit khẳng định rằng Perplexity đã hợp tác với các công ty này để tạo điều kiện cho việc "vượt qua quy mô công nghiệp" các biện pháp kiểm soát truy cập của cả Reddit và Google. Các công ty này bị cáo buộc có thể đã thu thập các bài đăng của Reddit mà không được phép và sau đó bán dữ liệu này cho Perplexity. Vụ kiện cho rằng các hoạt động của Perplexity không chỉ làm suy yếu các thỏa thuận cấp phép hiện có mà còn chuyển hướng sự tương tác của người dùng khỏi Reddit. Bằng cách giảm nhu cầu người dùng truy cập trực tiếp Reddit, hoạt động này làm giảm tiện ích thương mại của nền tảng và có khả năng làm tổn hại quyền riêng tư của người dùng bằng cách thu thập các bài đăng bị hạn chế hoặc đã bị xóa, cản trở khả năng của Reddit trong việc tôn trọng yêu cầu của người dùng và duy trì sự tin cậy.

Phòng thủ của Perplexity và bối cảnh dữ liệu AI rộng lớn hơn

Để đáp lại vụ kiện, Perplexity đã tuyên bố công khai rằng họ "không huấn luyện mô hình AI trên nội dung". Tuyên bố này, được đưa ra ngay trên Reddit, cho thấy một chiến lược phòng thủ có thể tập trung vào cách dữ liệu cuối cùng được sử dụng, thay vì cách nó được thu thập. Tuy nhiên, lập luận pháp lý của Reddit, đặc biệt là việc dựa vào các yêu cầu chống vượt qua theo DMCA, đã chuyển trọng tâm lên thượng nguồn, vào hành vi phá vỡ các rào cản kỹ thuật. Vụ kiện này là biểu tượng cho một cuộc tranh luận rộng lớn hơn trong ngành AI về các ranh giới đạo đức và pháp lý của việc cào dữ liệu để huấn luyện AI. Khi các mô hình AI ngày càng trở nên tinh vi, nhu cầu về các bộ dữ liệu khổng lồ ngày càng tăng, đặt các nền tảng như Reddit vào một vị trí quan trọng để bảo vệ tài sản trí tuệ và quyền dữ liệu người dùng của họ chống lại những gì họ coi là việc thu hoạch trái phép và có khả năng gây hại.

Hàm ý tương lai đối với Phát triển AI và Nền tảng Nội dung

Kết quả của vụ kiện của Reddit chống lại Perplexity có thể thiết lập các tiền lệ quan trọng cho cách các công ty AI truy cập và sử dụng dữ liệu từ các nền tảng trực tuyến. Nếu Reddit thắng kiện, điều đó có thể khuyến khích các nhà sáng tạo nội dung và nền tảng khác theo đuổi các con đường pháp lý tương tự, có khả năng dẫn đến các biện pháp kiểm soát chặt chẽ hơn đối với việc cào dữ liệu và các cuộc đàm phán cấp phép mạnh mẽ hơn. Ngược lại, một phán quyết có lợi cho Perplexity có thể làm rõ các hoạt động chấp nhận được đối với việc thu thập dữ liệu huấn luyện AI, hoặc nhấn mạnh sự cần thiết của các tiêu chuẩn ngành rõ ràng hơn. Các chiến lược pháp lý được sử dụng, đặc biệt là trọng tâm vào các biện pháp chống vượt qua theo DMCA, cung cấp một phương pháp tiếp cận mới lạ đối với các tranh chấp sở hữu trí tuệ trong thời đại kỹ thuật số. Vụ kiện này nhấn mạnh thách thức không ngừng trong việc cân bằng sự đổi mới trong AI với việc bảo vệ tài liệu có bản quyền và quyền riêng tư của người dùng trong một thế giới ngày càng dựa trên dữ liệu.

Quay lại Đăng ký