Reddit 起诉 Perplexity 数据抓取
Reddit 加大对人工智能数据收集的法律诉讼力度
社交媒体巨头 Reddit 已对人工智能初创公司 Perplexity 提起重大版权诉讼,指控该公司及数家数据抓取实体非法获取 Reddit 海量的用户生成内容。指控的核心是 Perplexity 涉嫌规避旨在保护 Reddit 版权数据的技术保护措施,而据称 AI 公司正在利用这些数据来训练其 AI 模型并为其“答案引擎”提供动力。此次法律行动凸显了寻求利用在线数据进行模型训练的 AI 开发商与旨在控制其内容访问和使用方式的内容平台之间日益紧张的关系。
Reddit 是一个拥有近二十年对话数据、围绕众多兴趣社区组织的庞大在线讨论平台,它声称未经明确协议,其内容不得被商业剥削。诉讼声称,Perplexity 及其所谓的共同被告使用网络爬虫和机器人自动复制 Reddit 和包含 Reddit 数据的谷歌搜索结果中的内容。这种所谓的未经授权的获取规避了 Reddit 维护的既定许可渠道,这些渠道旨在通过合同保障来保护平台和用户的权利。
“标记账单”陷阱
在其调查的详细说明中,Reddit 的法律团队描述了一个复杂的陷阱,以抓获 Perplexity 的现行行为。该社交媒体公司发布了一个专门设计用于被索引的测试帖子,仅限谷歌搜索引擎索引,而 Reddit 与谷歌签订了内容许可协议。然而,Perplexity 并没有类似的许可。诉讼声称,Perplexity 访问此特定测试内容的唯一方法就是通过谷歌的搜索结果绕过 Reddit 的保护措施。在数小时内,Perplexity 的 AI 开始出现该测试帖子的内容,Reddit 认为这是确凿的证据,证明 Perplexity 或通过其数据抓取合作伙伴,从谷歌搜索引擎结果中提取了数据,并迅速将其整合到自己的系统中。
规避和不当得利的指控
在美国纽约南区提起的诉讼,包括违反《数字千年版权法》(DMCA) 的指控,特别是针对反规避条款,以及不当得利和不正当竞争的指控。Reddit 的策略侧重于规避技术控制的行为,而不仅仅是版权材料的最终用途。投诉详细说明了被告如何涉嫌隐藏身份、轮换 IP 地址和绕过访问控制来抓取包含 Reddit 内容的数十亿谷歌搜索结果页面 (SERP)。然后,这些数据据称被 Perplexity 的 AI 吸收。Reddit 认为,这种未经授权的访问已造成重大损害,包括利润损失、商业机会丧失和声誉损害,同时使 Perplexity 以 Reddit 为代价而获利。
数据抓取公司的作用
Reddit 诉讼的核心是对三家特定数据抓取公司:Oxylabs UAB、AWM Proxy 和 SerpApi 的指控。Reddit 声称,Perplexity 与这些公司合作,促成了对 Reddit 和谷歌访问控制的“工业规模”规避。这些公司被指控可能在未经许可的情况下抓取 Reddit 的帖子,然后将这些数据出售给 Perplexity。诉讼认为,Perplexity 的做法不仅破坏了现有的许可协议,还转移了用户对 Reddit 的参与度。通过减少用户直接访问 Reddit 的需求,这种做法降低了平台的商业价值,并通过捕获受限制或已删除的帖子,可能损害用户隐私,阻碍了 Reddit 兑现用户请求和维护信任的能力。
Perplexity 的辩护以及更广泛的人工智能数据格局
针对此诉讼,Perplexity 公开表示,它“不使用内容来训练人工智能模型”。这一声明是在 Reddit 本身发布的,暗示其辩护策略可能侧重于数据的最终使用方式,而不是其获取方式。然而,Reddit 的法律论点,特别是其对 DMCA 反规避条款的依赖,将重点转移到打破技术壁垒的行为上。此案是人工智能行业中关于数据抓取用于人工智能训练的道德和法律界限的更广泛辩论的缩影。随着人工智能模型的日益复杂,对海量数据集的需求不断增加,这使得 Reddit 等平台处于维护其知识产权和用户数据权利的关键地位,以对抗它们认为是未经授权且可能有害的数据收集。
对人工智能开发和内容平台未来的影响
Reddit 对 Perplexity 的诉讼结果,可能为人工智能公司如何访问和利用在线平台的数据设定重要的先例。如果 Reddit 胜诉,可能会鼓励其他内容创作者和平台采取类似的法律途径,可能导致对数据抓取进行更严格的控制和更强有力的许可谈判。反之,对 Perplexity 有利的裁决可能会澄清人工智能训练数据获取的可接受实践,或强调制定更清晰的行业标准。所采用的法律策略,特别是对 DMCA 反规避措施的关注,为数字时代的知识产权纠纷提供了一种新颖的方法。此案突显了在日益数据驱动的世界中,平衡人工智能创新与版权材料和用户隐私保护的持续挑战。