Reddit подал в суд на Perplexity за сбор данных
Reddit усиливает юридическую битву против сбора данных с помощью ИИ
Гигант социальных сетей Reddit подал значительный иск об авторском праве против стартапа в области искусственного интеллекта Perplexity, обвиняя компанию и ряд компаний, занимающихся сбором данных, в незаконном получении огромного массива пользовательского контента Reddit. Основное обвинение сосредоточено на предполагаемом обходе Perplexity технологических средств защиты, предназначенных для защиты авторских данных Reddit, которые, как сообщается, использует ИИ-компания для обучения своей модели ИИ и питания своего «движка ответов». Этот юридический шаг подчеркивает растущую напряженность между разработчиками ИИ, стремящимися использовать онлайн-данные для обучения моделей, и контент-платформами, стремящимися контролировать, как их материалы доступны и используются.
Reddit, обширная онлайн-платформа для обсуждений, насчитывающая почти два десятилетия разговорных данных, организованных по многочисленным сообществам по интересам, утверждает, что ее контент не подлежит коммерческой эксплуатации без явных соглашений. В иске утверждается, что Perplexity и ее предполагаемые сообвиняемые использовали веб-краулеры и ботов для автоматического копирования контента как из Reddit, так и из результатов поиска Google, содержащих данные Reddit. Это предполагаемое несанкционированное приобретение обходит установленные каналы лицензирования, которые поддерживает Reddit, каналы, предназначенные для защиты прав как платформы, так и ее пользователей посредством договорных механизмов.
Ловушка «отмеченного сообщения»
В подробном описании своего расследования юридическая команда Reddit описала создание сложной ловушки, чтобы поймать Perplexity с поличным. Компания социальных сетей создала тестовое сообщение, специально предназначенное для индексации только поисковой системой Google, платформой, с которой у Reddit есть соглашение о лицензировании контента. Однако Perplexity не имеет такой лицензии. В иске утверждается, что единственным способом, которым Perplexity мог получить доступ к этому конкретному тестовому контенту, было бы обойти меры защиты Reddit через результаты поиска Google. В течение нескольких часов ИИ Perplexity начал выдавать контент этого тестового сообщения, что, по утверждению Reddit, является неопровержимым доказательством того, что Perplexity, либо напрямую, либо через своих партнеров по сбору данных, собрала данные из результатов поиска Google и быстро включила их в свою собственную систему.
Обвинения в обходе и неосновательном обогащении
Иск, поданный в Южном округе Нью-Йорка, включает в себя обвинения в нарушении Закона об авторском праве в цифровую эпоху (DMCA), специально направленные на положения о запрете обхода, наряду с обвинениями в неосновательном обогащении и недобросовестной конкуренции. Стратегия Reddit сосредоточена на акте обхода технических средств контроля, а не только на конечном использовании материалов, защищенных авторским правом. В жалобе подробно описывается, как ответчики предположительно маскировали личности, вращали IP-адреса и обходили средства контроля доступа для сбора миллиардов страниц результатов поиска Google (SERP), содержащих контент Reddit. Эти данные затем, по утверждению, были поглощены ИИ Perplexity. Reddit утверждает, что этот несанкционированный доступ нанес значительный ущерб, включая упущенную выгоду, деловые возможности и репутационный ущерб, одновременно обогащая Perplexity за счет Reddit.
Роль фирм, занимающихся сбором данных
Центральное место в иске Reddit занимают обвинения против трех конкретных компаний, занимающихся сбором данных: Oxylabs UAB, AWM Proxy и SerpApi. Reddit утверждает, что Perplexity сотрудничала с этими фирмами для содействия «промышленному» обходу средств контроля доступа как Reddit, так и Google. Эти компании обвиняются в потенциальном сборе сообщений Reddit без разрешения и последующей продаже этих данных Perplexity. В иске предполагается, что практика Perplexity не только подрывает существующие лицензионные соглашения, но и отвлекает вовлеченность пользователей от Reddit. Уменьшая необходимость для пользователей напрямую посещать Reddit, эта практика снижает коммерческую ценность платформы и потенциально ставит под угрозу конфиденциальность пользователей, захватывая ограниченные или удаленные сообщения, препятствуя способности Reddit удовлетворять запросы пользователей и поддерживать доверие.
Защита Perplexity и более широкий ландшафт данных ИИ
В ответ на иск Perplexity публично заявила, что она «не обучает модели ИИ на контенте». Это заявление, сделанное в самом Reddit, предполагает стратегию защиты, которая может сосредоточиться на том, как данные в конечном итоге используются, а не на том, как они были получены. Однако юридический аргумент Reddit, особенно его опора на обвинения в обходе DMCA, смещает фокус вверх по потоку к акту нарушения технических барьеров. Этот случай является примером более широких дебатов в индустрии ИИ относительно этических и юридических границ сбора данных для обучения ИИ. По мере того как модели ИИ становятся все более изощренными, спрос на огромные наборы данных усиливается, ставя платформы, такие как Reddit, в критическую позицию для защиты своей интеллектуальной собственности и прав на пользовательские данные от того, что они считают несанкционированным и потенциально вредным сбором.
Будущие последствия для разработки ИИ и контент-платформ
Исход судебного иска Reddit против Perplexity может установить значительные прецеденты для того, как ИИ-компании получают доступ к данным с онлайн-платформ и используют их. Если Reddit выиграет, это может побудить других создателей контента и платформы преследовать аналогичные юридические пути, что потенциально приведет к более строгим мерам контроля над сбором данных и более надежным переговорам по лицензированию. И наоборот, решение в пользу Perplexity может прояснить приемлемые практики приобретения данных для обучения ИИ или подчеркнуть необходимость более четких отраслевых стандартов. Используемые юридические стратегии, особенно акцент на мерах по предотвращению обхода в соответствии с DMCA, предлагают новый подход к спорам об интеллектуальной собственности в цифровую эпоху. Этот случай подчеркивает продолжающуюся проблему балансировки инноваций в ИИ с защитой материалов, защищенных авторским правом, и конфиденциальности пользователей во все более ориентированном на данные мире.