واکنش پرپلکسی به اتهامات کلودفلر درباره «خزش پنهانی» برای دور زدن بلاک‌های AI

کلودفلر پرپلکسی را متهم کرده است که به درخواست وب‌سایت‌ها برای انصراف از جمع‌آوری محتوا توسط شرکت‌های هوش مصنوعی احترام نمی‌گذارد.

ماه گذشته، این شرکت زیرساخت وب سیستمی را برای مسدود کردن دسترسی شرکت‌های AI به وب‌سایت‌ها بدون اجازه یا پرداخت هزینه معرفی کرد. این اقدام بخشی از مقابله با رویکرد شرکت‌های AI برای جمع‌آوری کل اینترنت به‌عنوان داده آموزشی بود ـ رویکردی که باعث شکایت‌های حقوقی شده است.

سیستم کلودفلر به ناشران آنلاین و سایر صاحبان وب‌سایت اجازه می‌دهد دسترسی خزنده‌های AI به محتوای خود را مسدود کنند و در آینده تنها به کسانی که برای خزش هزینه می‌پردازند، اجازه دسترسی دهند.

چند هفته پس از راه‌اندازی سیستم مسدودسازی، کلودفلر گزارش داد که شرکت AI پرپلکسی از تکنیک‌های گریز برای دسترسی به آن محتوا استفاده می‌کند. در یک پست وبلاگی این هفته، این شرکت گفت پرپلکسی وقتی با بلاک مواجه می‌شود، نحوه معرفی خود به وب‌سایت را تغییر می‌دهد.

در این پست آمده است: «اگرچه پرپلکسی ابتدا با user agent اعلام‌شده خود خزش می‌کند، وقتی با مسدودسازی شبکه مواجه می‌شود، به نظر می‌رسد هویت خزنده خود را مبهم می‌سازد تا ترجیحات وب‌سایت را دور بزند.»

سایت ITPro برای دریافت بیانیه با پرپلکسی تماس گرفت اما در زمان انتشار پاسخی دریافت نکرد. یک سخنگوی این شرکت به TechCrunch گفت تحقیق کلودفلر یک «ترفند فروش» برای محصول مسدودسازی آن است و افزود بات مورد بحث «حتی متعلق به ما نیست.»

در بیانیه جداگانه‌ای به The Verge، این شرکت گفت گزارش کلودفلر یک «حقه تبلیغاتی» است و «بسیاری سوءتفاهم‌ها» در پست وبلاگی وجود دارد.

این نخستین بار نیست که پرپلکسی متهم به خزش در جاهایی می‌شود که مایل به حضور آن نیستند. سال گذشته، گزارش‌هایی از Wired چنین رفتاری را مشاهده کردند، در حالی که Forbes، نیویورک تایمز و BBC نیز این شرکت را به خزش و بازتولید محتوای خود بدون اجازه متهم کردند. پرپلکسی این اتهامات را رد کرده است.

ادعاهای کلودفلر

کلودفلر گفت «شواهد مداومی» وجود دارد که پرپلکسی user agent خود و منبعی که از آن می‌آید را تغییر داده تا این فعالیت را پنهان کند و حتی فایل‌های «robots.txt» را نادیده گرفته یا مشاهده نکرده است ـ فایل‌هایی که شامل دستورالعمل‌هایی برای بات‌ها درباره آنچه می‌توانند یا نمی‌توانند دسترسی پیدا کنند هستند و برای خزنده‌های جست‌وجو و اکنون عاملان AI استفاده می‌شوند.

پس از شنیدن شکایات مشتریانی که تلاش کرده بودند خزنده‌های AI را مسدود کنند، کلودفلر مجموعه‌ای از آزمایش‌ها را با استفاده از وب‌سایت‌های آزمایشی جدیدی که به‌طور عمومی قابل دسترسی نبودند انجام داد و فایل robots.txt را برای جلوگیری کامل از دسترسی خزنده‌های محترم قرار داد.

سپس کلودفلر از پرپلکسی درباره این دامنه‌ها پرسش کرد و دریافت که پرپلکسی قادر به دسترسی به اطلاعات جزئی از سایت‌های آزمایشی محدود بود.

در پست آمده است: «این پاسخ غیرمنتظره بود، زیرا ما همه اقدامات لازم را برای جلوگیری از قابل بازیابی بودن این داده‌ها توسط خزنده‌های آن‌ها انجام داده بودیم.»

کلودفلر گفت پرپلکسی نه تنها از user agent اعلام‌شده خود استفاده می‌کند بلکه وقتی آن مسدود می‌شود از یک مرورگر عمومی که مرورگر Chrome روی macOS را جعل می‌کند نیز استفاده می‌کند.

برای مقایسه، کلودفلر آزمایش‌های مشابهی را با ChatGPT انجام داد و متوجه شد این سرویس فایل robots.txt را واکشی کرده و وقتی گفته شد به صفحه‌ای دسترسی نداشته باشد، خزش را متوقف می‌کند؛ و زمانی که در فایل robots.txt دستوری وجود نداشت اما یک صفحه بلاک وجود داشت، ChatGPT باز هم خزش را متوقف کرد.

کلودفلر گفت: «هر دوی این موارد پاسخ مناسب به ترجیحات صاحبان وب‌سایت‌ها را نشان می‌دهند.»

خطر برای اینترنت؟

کلودفلر گفت این رفتار اعتماد شبکه‌ای که اینترنت را حفظ می‌کند به خطر می‌اندازد.

در پست آمده است: «ترجیحات روشنی وجود دارد که خزنده‌ها باید شفاف باشند، هدف مشخصی داشته باشند، فعالیت مشخصی انجام دهند و مهم‌تر از همه، به دستورالعمل‌ها و ترجیحات وب‌سایت‌ها احترام بگذارند.»

این شرکت افزود اکنون شرکت AI را از وب‌سایت‌های استفاده‌کننده از سرویس خود مسدود خواهد کرد.

«بر اساس رفتار مشاهده‌شده پرپلکسی که با این ترجیحات ناسازگار است، ما آن‌ها را از فهرست بات‌های تأییدشده حذف کرده و قوانین مدیریت‌شده خود را با افزودن معیارهایی برای مسدودسازی این خزش پنهانی به‌روزرسانی کرده‌ایم.»

کلودفلر با دعوت از شرکت‌های AI برای رفتار بهتر گفت «خزنده‌های خوش‌نیت که با حسن نیت عمل می‌کنند» باید شفاف باشند، هویت عامل را صادقانه معرفی کنند و تلاش نکنند با سایت‌هایی که سعی در مسدودسازی چنین دسترسی‌ای دارند، بازی کنند.

برای سایت‌هایی که اجازه دسترسی می‌دهند، خزنده‌های AI نباید ترافیک بیش‌ازحد ایجاد کنند یا داده‌های حساس را جمع‌آوری کنند و باید «هدف روشنی» داشته باشند ـ مانند بررسی یک قیمت یا پشتیبانی از یک دستیار صوتی.

کلودفلر همچنین پیشنهاد کرد شرکت‌های AI برای هر فعالیت خود از خزنده‌های جداگانه استفاده کنند تا صاحبان وب‌سایت‌ها راحت‌تر بتوانند برخی فعالیت‌های خزنده را مجاز کنند و برخی دیگر را نه. «مالکین سایت را مجبور به گرفتن تصمیمی همه یا هیچ نکنید.»