مجله اینترنتی یستا

رسانه تخصصی اینترنتی یستا

خزنده Anthropic به قوانین ضداسکرپینگ احترام نمی‌گذارد

تبلیغات بنری



آنتروپیک با استفاده از خزنده ClaudeBot، داده هایی را از وب سایت های مختلف بدون توجه به قوانین منع جمع آوری داده ها برای آموزش هوش مصنوعی به دست آورد.

TechNock گزارش می دهد که Anthropic از خزنده وب ClaudeBot برای جمع آوری داده های آموزشی برای مدل های هوش مصنوعی مانند Claude استفاده می کند. اخیراً یک ربات در یک بازه زمانی 24 ساعته نزدیک به یک میلیون بار به وب سایت iFixit حمله کرده و ظاهراً شرایط استفاده از آن را در این فرآیند نقض کرده است.

مدیر عامل iFixit، کایل وینز، اسکرین شات هایی را در شبکه اجتماعی منتشر کرد وینس خطاب به آنتروپیک گفت:

اگر چنین درخواستی به شرایط خدمات ما برسد، به شما خواهد گفت که استفاده از محتوای ما اکیداً ممنوع است. اما از من نپرس، از کلود بپرس!

فقط محتوای ما را به صورت رایگان دانلود نکنید. اما شما منابع توسعه و عملیات ما را نیز در اختیار دارید. اگر می‌خواهید درباره مجوز محتوای ما برای استفاده تجاری بحث کنید، ما آماده همکاری هستیم.

شرایط استفاده iFixit بیان می کند که تکثیر، کپی یا توزیع هر گونه محتوایی از سایت بدون اجازه کتبی قبلی iFixit اکیداً ممنوع است. این همچنین شامل “آموزش یک مدل یادگیری ماشینی یا هوش مصنوعی” است.

با این حال، زمانی که 404 Media در مورد این موضوع از Anthropic پرسید، این شرکت به صفحه پرسش‌های متداول خود اشاره کرد و بیان کرد که خزنده آن فقط از طریق یک فایل robots.txt مسدود می‌شود.

ورود انسان به قوانین ضد خراشیدنورود انسان به قوانین ضد خراشیدن

Wiens می گوید که iFixit از آن زمان افزونه تاخیر خزیدن را به فایل robots.txt خود اضافه کرده است. به نظر می رسد iFixit در این زمینه تنها نیست. اریک هولشر، یکی از بنیانگذاران Read the Docs و مدیر عامل Freelancer.com مت بری اعلام کردند که خزنده وب Anthropic به شدت وب سایت آنها را اسکن کرده است.

این رفتار جدیدی برای ClaudeBot نیست. زیرا چندین رشته قدیمی در Reddit افزایش قابل توجهی در فعالیت خزیدن وب Anthropic گزارش کردند. در آوریل امسال، جامعه وب لینوکس مینت، قطع شدن وب سایت خود را به استرس ناشی از فعالیت های اسکن ClaudeBot نسبت داد.

به گفته The Verge، محدود کردن خزنده ها از طریق فایل های robots.txt روش ترجیحی بسیاری از شرکت های هوش مصنوعی دیگر مانند OpenAI است. اما به صاحبان وب سایت انعطاف پذیری نمی دهد تا تصمیم بگیرند چه نوع انتزاعی مجاز است یا نه.

یکی دیگر از شرکت های هوش مصنوعی، Perplexity، شناخته شده است که به طور کامل محدودیت های robots.txt را نادیده می گیرد. با این حال، این یکی از معدود گزینه‌هایی است که شرکت‌ها می‌توانند داده‌های خود را از مواد آموزشی هوش مصنوعی، که Reddit در سرکوب اخیر خزنده‌های وب از آن استفاده کرد، دور نگه دارند.

تبلیغات بنری

parseek به نقل از یستا