Reddit به دلیل جمعآوری دادهها از Perplexity شکایت میکند
Reddit نبرد حقوقی را علیه برداشت دادههای هوش مصنوعی تشدید میکند
Reddit، غول رسانههای اجتماعی، شکایت حقوقی مهمی را علیه شرکت نوپای هوش مصنوعی Perplexity ثبت کرده است و این شرکت و چندین نهاد جمعآوریکننده داده را به دست آوردن غیرقانونی حجم عظیمی از محتوای تولید شده توسط کاربر Reddit متهم میکند. هسته اصلی این اتهام بر ادعای Perplexity مبنی بر دور زدن تدابیر امنیتی فنی طراحی شده برای محافظت از دادههای دارای حق چاپ Reddit متمرکز است، که گفته میشود شرکت هوش مصنوعی از آن برای آموزش مدل هوش مصنوعی خود و تغذیه «موتور پاسخ» خود استفاده میکند. این اقدام قانونی، تنش فزاینده بین توسعهدهندگان هوش مصنوعی که به دنبال بهرهبرداری از دادههای آنلاین برای آموزش مدل هستند و پلتفرمهای محتوا که به دنبال کنترل نحوه دسترسی و استفاده از مواد خود هستند را برجسته میکند.
Reddit، یک پلتفرم بحث آنلاین گسترده با تقریباً دو دهه داده مکالمه سازماندهی شده در جوامع متعدد مبتنی بر علاقهمندی، ادعا میکند که محتوای آن بدون توافق صریح نباید به صورت تجاری مورد بهرهبرداری قرار گیرد. این شکایت ادعا میکند که Perplexity و شرکای ادعایی آن از خزندههای وب و رباتها برای کپی خودکار محتوا از نتایج جستجوی Reddit و Google که شامل دادههای Reddit هستند، استفاده کردهاند. این ادعای مالکیت غیرمجاز، کانالهای مجوزدهی موجود را که Reddit حفظ میکند، دور میزند؛ کانالهایی که برای محافظت از حقوق پلتفرم و کاربران آن از طریق گاردریلهای قراردادی طراحی شدهاند.
تله "صورتحساب علامتگذاری شده"
تیم حقوقی Reddit در شرح مفصلی از تحقیقات خود، تله پیچیدهای را برای گرفتن Perplexity در حین عمل توصیف کرد. شرکت رسانههای اجتماعی یک پست آزمایشی ایجاد کرد که به طور خاص برای نمایهسازی فقط توسط موتور جستجوی Google طراحی شده بود، پلتفرمی که Reddit با آن قرارداد مجوز محتوا دارد. با این حال، Perplexity چنین مجوزی را ندارد. این شکایت ادعا میکند که تنها راهی که Perplexity میتوانست به این محتوای آزمایشی خاص دسترسی پیدا کند، دور زدن اقدامات حفاظتی Reddit از طریق نتایج جستجوی Google بود. ظرف چند ساعت، هوش مصنوعی Perplexity شروع به نمایش محتوای این پست آزمایشی کرد، که Reddit استدلال میکند اثبات قطعی است که Perplexity، چه مستقیماً و چه از طریق شرکای جمعآوری داده خود، دادهها را از نتایج موتور جستجوی Google جمعآوری کرده و به سرعت آن را در سیستم خود ادغام کرده است.
اتهامات مربوط به دور زدن و غنای ناروا
این شکایت که در ناحیه جنوبی نیویورک ثبت شده است، شامل ادعاهای نقض قانون حق چاپ هزاره دیجیتال (DMCA) به طور خاص با هدف قرار دادن مقررات ضد دور زدن، همراه با ادعاهای غنای ناروا و رقابت ناعادلانه است. استراتژی Reddit بر عمل دور زدن کنترلهای فنی تمرکز دارد تا صرفاً بر استفاده نهایی از مطالب دارای حق چاپ. این شکایت جزئیاتی را در مورد چگونگی ادعای متهمان مبنی بر پنهان کردن هویتها، چرخاندن آدرسهای IP و دور زدن کنترلهای دسترسی برای جمعآوری میلیاردها صفحه نتایج موتور جستجوی Google (SERPs) که حاوی محتوای Reddit بودند، ارائه میدهد. سپس این دادهها ادعا میشود توسط هوش مصنوعی Perplexity بلعیده شده است. Reddit استدلال میکند که این دسترسی غیرمجاز باعث خسارات قابل توجهی از جمله زیان سود، فرصتهای تجاری و آسیب به اعتبار شده است، در حالی که Perplexity را به ضرر Reddit غنی کرده است.
نقش شرکتهای جمعآوری داده
در مرکز پرونده Reddit، اتهامات علیه سه شرکت جمعآوری داده خاص قرار دارند: Oxylabs UAB، AWM Proxy و SerpApi. Reddit ادعا میکند که Perplexity با این شرکتها برای تسهیل دور زدن "در مقیاس صنعتی" کنترلهای دسترسی Reddit و Google همکاری کرده است. این شرکتها متهم به جمعآوری احتمالی پستهای Reddit بدون اجازه و سپس فروش این دادهها به Perplexity هستند. این شکایت نشان میدهد که شیوههای Perplexity نه تنها توافقنامههای مجوزدهی موجود را تضعیف میکند، بلکه مشارکت کاربران را از Reddit منحرف میکند. با کاهش نیاز کاربران به بازدید مستقیم از Reddit، این عمل کاربرد تجاری پلتفرم را کاهش میدهد و به طور بالقوه با گرفتن پستهای محدود یا حذف شده، حریم خصوصی کاربران را به خطر میاندازد و توانایی Reddit برای رعایت درخواستهای کاربر و حفظ اعتماد را مختل میکند.
دفاع Perplexity و چشمانداز گستردهتر دادههای هوش مصنوعی
در پاسخ به این شکایت، Perplexity به طور عمومی اعلام کرده است که "محتوا را برای آموزش مدلهای هوش مصنوعی استفاده نمیکند". این بیانیه که در خود Reddit منتشر شده است، نشاندهنده یک استراتژی دفاعی است که ممکن است بر نحوه استفاده نهایی از دادهها، بیش از نحوه دستیابی به آن تمرکز کند. با این حال، استدلال حقوقی Reddit، به ویژه اتکای آن به ادعاهای ضد دور زدن DMCA، تمرکز را به سمت بالا و به عمل شکستن موانع فنی تغییر میدهد. این پرونده نمادی از بحث گستردهتر در صنعت هوش مصنوعی در مورد مرزهای اخلاقی و حقوقی جمعآوری داده برای آموزش هوش مصنوعی است. با پیچیدهتر شدن مدلهای هوش مصنوعی، تقاضا برای مجموعه دادههای عظیم افزایش مییابد و پلتفرمهایی مانند Reddit را در موقعیت حیاتی برای دفاع از حقوق مالکیت معنوی و دادههای کاربر خود در برابر آنچه که آنها برداشت غیرمجاز و بالقوه مضر تلقی میکنند، قرار میدهد.
پیامدهای آینده برای توسعه هوش مصنوعی و پلتفرمهای محتوا
نتیجه شکایت Reddit علیه Perplexity میتواند سوابق مهمی را برای نحوه دسترسی و استفاده شرکتهای هوش مصنوعی از دادههای پلتفرمهای آنلاین تعیین کند. اگر Reddit پیروز شود، ممکن است سازندگان محتوا و پلتفرمهای دیگر را به پیگیری مسیرهای حقوقی مشابه تشویق کند، که به طور بالقوه منجر به کنترلهای سختگیرانهتر بر جمعآوری داده و مذاکرات مجوزدهی قویتر میشود. برعکس، حکمی به نفع Perplexity میتواند شیوههای قابل قبول برای اکتساب دادههای آموزش هوش مصنوعی را روشن کند، یا نیاز به استانداردهای روشنتر صنعت را برجسته کند. استراتژیهای حقوقی مورد استفاده، به ویژه تمرکز بر اقدامات ضد دور زدن تحت DMCA، رویکرد جدیدی را به اختلافات مالکیت معنوی در عصر دیجیتال ارائه میدهد. این پرونده بر چالش مداوم متعادل کردن نوآوری در هوش مصنوعی با حفاظت از مطالب دارای حق چاپ و حریم خصوصی کاربر در دنیایی که به طور فزایندهای مبتنی بر داده است، تأکید میکند.