مایکروسافت مولد گفتار VALL-E 2 را بیش‌ازحد واقعی می‌داند

مایکروسافت یک سیستم هوش مصنوعی (AI) تولید کننده گفتار جدید به نام VALL-E 2 توسعه داده است که به گفته آن‌ها دقیق‌تر از آن است که در دسترس عموم قرار گیرد.

مایکروسافت این هفته اعلام کرد که توسعه VALL-E 2، دومین نسخه از تولید کننده گفتار VALL-E AI را به پایان رسانده است. به گفته محققان، VALL-E 2 آنقدر پیشرفته است که انتشار آن برای عموم خطرناک است. زیرا می توان از این ابزار برای تقلید قانع کننده صدای واقعی انسان استفاده کرد. بنابراین، این فرم فقط برای اهداف تحقیقاتی در نظر گرفته شده است.

Extremetech می نویسد که VALL-E 2، مانند نسخه قبلی، یک مدل زبان کدگذاری عصبی است. کلاسی از یادگیری عمیق که از تکنیک های شبکه عصبی برای رمزگذاری و رمزگشایی اطلاعات زبانی استفاده می کند. با این حال، بر خلاف VALL-E، مدل VALL-E 2 متن به گفتار (TTS) را نصب می کند، که از ورودی متن برای تولید گفتار برای صداهایی استفاده می کند که به طور خاص برای آنها آموزش ندیده است.

این مدل از کتابخانه های آموزشی گسترده LibriSpeech و VCTK برای نگاشت ورودی های متن به خروجی های صوتی مرتبط استفاده می کند. این نقشه برداری تغییرات در تلفظ، لحن، موسیقی و غیره را در نظر می گیرد. پس از شنیدن یک کلیپ کوتاه از فردی که با ورودی متن کاربر صحبت می کند، VALL-E 2 برخی از این تغییرات را در پاسخ خود اعمال می کند تا گفتار مصنوعی تولید کند که نمونه های صوتی را شبیه سازی می کند و کلمات ورودی متن را شامل می شود.

هر کسی که در گذشته جملات خشک و مصنوعی تولید کننده های گفتار هوش مصنوعی را شنیده باشد، می داند که این کار چقدر دشوار است. اما به گفته محققان گروه محاسبات زبان طبیعی در Microsoft Research Asia، VALL-E 2 این کار را یکپارچه انجام می دهد. در واقع، به گفته محققان، این تولید کننده گفتار اولین نمونه ای است که به سطح “شبیه انسان” رسیده است و در دسترس قرار دادن آن برای عموم می تواند مضرتر باشد.

Val-E2 Val-E2

محققان در بیانیه ای نوشتند:

VALL-E 2 فقط یک پروژه تحقیقاتی است. در حال حاضر، ما هیچ برنامه ای برای ادغام VALL-E 2 در محصول یا گسترش دسترسی عمومی نداریم. این مدل ممکن است خطرات بالقوه سوء استفاده داشته باشد. مانند جعل صدا یا تقلید از یک گوینده خاص.

این تیم خاطرنشان می‌کند که VALL-E 2 در زمینه‌های آموزشی یا سرگرمی مؤثرتر خواهد بود. زیرا در این شکل می تواند با حفظ صدای طبیعی خاص انسان، دوره های آنلاین یا کتاب های صوتی را روایت کند.

با این حال، حتی این می تواند مشکلات اخلاقی ایجاد کند. تولیدکننده‌های گفتار دیگر، مانند Voicebox Meta و ابزار روایت هوش مصنوعی آمازون، به دلیل اجازه دادن به هوش مصنوعی برای تقلید صدای یک شخص واقعی، به خصوص زمانی که آن شخص برای رضایت در دسترس نباشد، بحث‌هایی را به راه انداخته‌اند.

مانند سایر اشکال هوش مصنوعی مولد، مولدهای گفتار سوالاتی را در مورد جایگزینی عملکردهای انسانی مطرح کرده اند. مشکلی که به ویژه صداپیشگان را نگران می کند. با خاموش کردن VALL-E 2، مایکروسافت می تواند به راحتی محدودیت های عملی مدل را آزمایش کند. محققان می نویسند:

ما آزمایش‌ها را با این فرض انجام دادیم که کاربر موافق است گوینده هدف در تولید گفتار باشد. اگر قرار است این مدل برای گنجاندن سخنرانان ناشناخته در دنیای واقعی گسترش یابد، باید پروتکلی برای اطمینان از تأیید با استفاده از صدای گوینده و مدل تشخیص گفتار داخلی ایجاد شود.

parseek به نقل از یستا

مایکروسافت مولد گفتار VALL-E 2 را بیش‌ازحد واقعی می‌داند

افغانستان و ایران تفاهم‌نامه اتصال شبکه‌های اینترنت امضا کردند

آیا مدارس اصفهان فردا چهارشنبه (۵ دی ۱۴۰۳) تعطیل است؟

خروج نیرو‌های فرانسوی از جمهوری چاد (یکم دی ۱۴۰۳)

افغانستان و ایران تفاهم‌نامه اتصال شبکه‌های اینترنت امضا کردند

آیا مدارس اصفهان فردا چهارشنبه (۵ دی ۱۴۰۳) تعطیل است؟

خروج نیرو‌های فرانسوی از جمهوری چاد (یکم دی ۱۴۰۳)

آیت‌الله علم‌الهدی: خدمت به مجاوران باید تشکیلاتی و مستمر باشد

لینک های مفید

آخرین مطالب

دیدگاهتان را بنویسید لغو پاسخ

مطالب مرتبط

افغانستان و ایران تفاهم‌نامه اتصال شبکه‌های اینترنت امضا کردند

آیا مدارس اصفهان فردا چهارشنبه (۵ دی ۱۴۰۳) تعطیل است؟

خروج نیرو‌های فرانسوی از جمهوری چاد (یکم دی ۱۴۰۳)

سایر مطالب

افغانستان و ایران تفاهم‌نامه اتصال شبکه‌های اینترنت امضا کردند

آیا مدارس اصفهان فردا چهارشنبه (۵ دی ۱۴۰۳) تعطیل است؟

خروج نیرو‌های فرانسوی از جمهوری چاد (یکم دی ۱۴۰۳)

آیت‌الله علم‌الهدی: خدمت به مجاوران باید تشکیلاتی و مستمر باشد