آنتروپیک با استفاده از خزنده ClaudeBot، داده هایی را از وب سایت های مختلف بدون توجه به قوانین منع جمع آوری داده ها برای آموزش هوش مصنوعی به دست آورد.
TechNock گزارش می دهد که Anthropic از خزنده وب ClaudeBot برای جمع آوری داده های آموزشی برای مدل های هوش مصنوعی مانند Claude استفاده می کند. اخیراً یک ربات در یک بازه زمانی 24 ساعته نزدیک به یک میلیون بار به وب سایت iFixit حمله کرده و ظاهراً شرایط استفاده از آن را در این فرآیند نقض کرده است.
مدیر عامل iFixit، کایل وینز، اسکرین شات هایی را در شبکه اجتماعی منتشر کرد وینس خطاب به آنتروپیک گفت:
اگر چنین درخواستی به شرایط خدمات ما برسد، به شما خواهد گفت که استفاده از محتوای ما اکیداً ممنوع است. اما از من نپرس، از کلود بپرس!
فقط محتوای ما را به صورت رایگان دانلود نکنید. اما شما منابع توسعه و عملیات ما را نیز در اختیار دارید. اگر میخواهید درباره مجوز محتوای ما برای استفاده تجاری بحث کنید، ما آماده همکاری هستیم.
شرایط استفاده iFixit بیان می کند که تکثیر، کپی یا توزیع هر گونه محتوایی از سایت بدون اجازه کتبی قبلی iFixit اکیداً ممنوع است. این همچنین شامل “آموزش یک مدل یادگیری ماشینی یا هوش مصنوعی” است.
با این حال، زمانی که 404 Media در مورد این موضوع از Anthropic پرسید، این شرکت به صفحه پرسشهای متداول خود اشاره کرد و بیان کرد که خزنده آن فقط از طریق یک فایل robots.txt مسدود میشود.
Wiens می گوید که iFixit از آن زمان افزونه تاخیر خزیدن را به فایل robots.txt خود اضافه کرده است. به نظر می رسد iFixit در این زمینه تنها نیست. اریک هولشر، یکی از بنیانگذاران Read the Docs و مدیر عامل Freelancer.com مت بری اعلام کردند که خزنده وب Anthropic به شدت وب سایت آنها را اسکن کرده است.
این رفتار جدیدی برای ClaudeBot نیست. زیرا چندین رشته قدیمی در Reddit افزایش قابل توجهی در فعالیت خزیدن وب Anthropic گزارش کردند. در آوریل امسال، جامعه وب لینوکس مینت، قطع شدن وب سایت خود را به استرس ناشی از فعالیت های اسکن ClaudeBot نسبت داد.
به گفته The Verge، محدود کردن خزنده ها از طریق فایل های robots.txt روش ترجیحی بسیاری از شرکت های هوش مصنوعی دیگر مانند OpenAI است. اما به صاحبان وب سایت انعطاف پذیری نمی دهد تا تصمیم بگیرند چه نوع انتزاعی مجاز است یا نه.
یکی دیگر از شرکت های هوش مصنوعی، Perplexity، شناخته شده است که به طور کامل محدودیت های robots.txt را نادیده می گیرد. با این حال، این یکی از معدود گزینههایی است که شرکتها میتوانند دادههای خود را از مواد آموزشی هوش مصنوعی، که Reddit در سرکوب اخیر خزندههای وب از آن استفاده کرد، دور نگه دارند.
parseek به نقل از یستا
مطالب مرتبط
افغانستان و ایران تفاهمنامه اتصال شبکههای اینترنت امضا کردند
آیا مدارس اصفهان فردا چهارشنبه (۵ دی ۱۴۰۳) تعطیل است؟
خروج نیروهای فرانسوی از جمهوری چاد (یکم دی ۱۴۰۳)