Reddit подав до суду на Perplexity за зішкрібання даних
Reddit загострює юридичну битву проти збору даних штучним інтелектом
Гігант соціальних мереж Reddit подав значний позов про порушення авторських прав проти стартапу штучного інтелекту Perplexity, звинувачуючи компанію та кілька компаній, що займаються збором даних, у незаконному отриманні величезної кількості створеного користувачами контенту Reddit. Основне звинувачення зосереджується на тому, що Perplexity нібито обійшла технологічні засоби захисту, призначені для захисту даних, захищених авторським правом Reddit, які, як повідомляється, компанія ШІ використовує для тренування своєї моделі ШІ та живлення свого «механізму відповідей». Ця юридична дія підкреслює зростаючу напруженість між розробниками ШІ, які прагнуть використовувати онлайн-дані для тренування моделей, та контент-платформами, які прагнуть контролювати доступ до своїх матеріалів та їх використання.
Reddit, велика онлайн-платформа для обговорень, яка може похвалитися майже двома десятиліттями розмовних даних, організованих у численних спільнотах за інтересами, стверджує, що її контент не підлягає комерційній експлуатації без прямої згоди. Позов стверджує, що Perplexity та її заявлені співвідповідачі використовували веб-сканери та ботів для автоматичного копіювання контенту як з Reddit, так і з результатів пошуку Google, що містять дані Reddit. Це нібито несанкціоноване отримання обходить встановлені канали ліцензування, які підтримує Reddit, канали, призначені для захисту прав як платформи, так і її користувачів за допомогою договірних обмежень.
Пастка «Позначений Білл»
У детальному звіті про своє розслідування юридична команда Reddit описала створення складного пастки, щоб спіймати Perplexity на гарячому. Соціальна компанія створила тестовий пост, спеціально розроблений для індексації лише пошуковою системою Google, платформою, з якою Reddit має угоду про ліцензування контенту. Натомість Perplexity не має такої ліцензії. Позов стверджує, що єдиний спосіб, яким Perplexity могла б отримати доступ до цього конкретного тестового контенту, — це обійти захисні заходи Reddit через результати пошуку Google. Протягом кількох годин ШІ Perplexity почав виводити контент цього тестового поста, що, на думку Reddit, є незаперечним доказом того, що Perplexity, безпосередньо або через своїх партнерів зі збору даних, зібрав дані з результатів пошукової системи Google і швидко інтегрував їх у власну систему.
Звинувачення в обході та недобросовісному збагаченні
Позов, поданий у Південному окрузі Нью-Йорка, включає звинувачення в порушенні Закону про захист авторських прав у цифрову епоху (DMCA), зокрема, що стосуються положень про протидію обходу, а також звинувачення в недобросовісному збагаченні та недобросовісній конкуренції. Стратегія Reddit зосереджується на акті обходу технологічних засобів контролю, а не виключно на кінцевому використанні матеріалу, захищеного авторським правом. Скаргу детально описано, як відповідачі нібито приховували особистості, обертали IP-адреси та обходили засоби контролю доступу для збору мільярдів сторінок результатів пошукової системи Google (SERPs), які містили контент Reddit. Потім ці дані нібито були оброблені ШІ Perplexity. Reddit стверджує, що цей несанкціонований доступ завдав значної шкоди, включаючи втрачені прибутки, бізнес-можливості та репутаційну шкоду, одночасно збагачуючи Perplexity за рахунок Reddit.
Роль компаній зі збору даних
Центральне місце в позові Reddit займають звинувачення проти трьох конкретних компаній зі збору даних: Oxylabs UAB, AWM Proxy та SerpApi. Reddit стверджує, що Perplexity співпрацювала з цими фірмами для сприяння «промисловому» обходу засобів контролю доступу як Reddit, так і Google. Ці компанії звинувачуються у потенційному зборі постів Reddit без дозволу, а потім у продажу цих даних Perplexity. Позов стверджує, що практика Perplexity не тільки підриває існуючі угоди про ліцензування, але й відволікає взаємодію користувачів від Reddit. Зменшуючи потребу користувачів відвідувати Reddit безпосередньо, ця практика знижує комерційну цінність платформи та потенційно ставить під загрозу конфіденційність користувачів, захоплюючи обмежені або видалені пости, перешкоджаючи здатності Reddit виконувати запити користувачів та підтримувати довіру.
Захист Perplexity та ширший ландшафт даних ШІ
У відповідь на позов Perplexity публічно заявила, що вона «не тренує моделі ШІ на контенті». Ця заява, зроблена безпосередньо на Reddit, свідчить про стратегію захисту, яка може зосереджуватися на тому, як дані зрештою використовуються, а не на тому, як вони були отримані. Однак юридичний аргумент Reddit, зокрема його посилання на звинувачення у протидії обходу DMCA, зміщує фокус вгору до акту порушення технічних бар'єрів. Ця справа є прикладом ширшої дискусії в індустрії ШІ щодо етичних та правових меж збору даних для тренування ШІ. Оскільки моделі ШІ стають все більш досконалими, попит на величезні набори даних зростає, ставлячи платформи, подібні до Reddit, у критичне становище для захисту своєї інтелектуальної власності та прав на дані користувачів від того, що вони вважають несанкціонованим і потенційно шкідливим збором.
Майбутні наслідки для розвитку ШІ та контент-платформ
Результат позову Reddit проти Perplexity може встановити значні прецеденти для того, як компанії ШІ отримують та використовують дані з онлайн-платформ. Якщо Reddit переможе, це може заохотити інших творців контенту та платформи до подібних юридичних кроків, що потенційно може призвести до суворішого контролю над збором даних та більш надійних переговорів щодо ліцензування. І навпаки, рішення на користь Perplexity може прояснити прийнятні практики для придбання даних для тренування ШІ або виділити необхідність чіткіших галузевих стандартів. Застосовані юридичні стратегії, зокрема фокус на заходах протидії обходу згідно з DMCA, пропонують новий підхід до спорів щодо інтелектуальної власності в цифрову епоху. Ця справа підкреслює триваючу проблему балансування інновацій у ШІ з захистом матеріалів, захищених авторським правом, та конфіденційності користувачів у світі, що все більше керується даними.