ElevenLabs اپلیکیشنی به نام ElevenLabs Reader: AI Audio برای آیفون منتشر کرده است که می تواند هر نوع سند متنی را با صداهای تولید شده توسط هوش مصنوعی این شرکت بخواند.
ElevenLabs، شرکتی که توسط مهندسان سابق Palantir تأسیس شده و ابزارهای صوتی هوش مصنوعی را توسعه میدهد، اولین اپلیکیشن خود را برای iOS با نام ElevenLabs Reader: AI Audio معرفی کرد.
برخلاف وبسایت ElevenLabs که شامل طیف گستردهای از ماژولهای هوش مصنوعی و ویژگیهایی مانند تبدیل متن به گفتار، گفتار به صدا و سایر زبانها، دوبله هوش مصنوعی و جلوههای صوتی مبتنی بر هوش مصنوعی است، برنامه جدید iOS این شرکت محدودتر است. . در عملکرد و تبدیل متمرکز، آنها حاوی فایل های متنی یا لینک های وب برای روایت صوتی هستند.
در حال حاضر، قابلیت تبدیل متن به گفتار فقط به زبان انگلیسی در این برنامه در دسترس خواهد بود. با این حال، صفحه پاپ آپ اشاره می کند که تمام 29 زبان پشتیبانی شده توسط ElevenLabs در وب به زودی به برنامه iOS Reader این شرکت اضافه خواهند شد. برنامه مذکور برای دانلود رایگان از طریق اپ استور اپل در دسترس است و برای نصب iOS 15 یا بالاتر نیاز دارد.
برای استفاده از برنامه ElevenLabs Reader: AI Audio، باید با یک حساب ElevenLabs موجود احراز هویت کنید، یک حساب کاربری جدید با ایمیل و رمز عبور ایجاد کنید، یا از حساب Google یا Apple استفاده کنید. پس از ورود به اپلیکیشن، لیستی از فایل های متنی از پیش بارگذاری شده با روایت صوتی به کاربر نمایش داده می شود.
با کلیک بر روی هر یک از این داستان ها، متن آن نمایش داده می شود و صدای هوش مصنوعی بلافاصله شروع به پخش می کند. در حالی که برجستهکننده تعاملی سبز، متن را کلمه به کلمه، همزمان با ارائه گفتار هوش مصنوعی برجسته میکند.
دکمه مثبت دیگری در گوشه سمت راست بالای منوی اصلی برنامه تعبیه شده است. با کلیک بر روی این دکمه منویی برای افزودن محتوای شخصی کاربر باز می شود. این محتوا را می توان از طریق یک URL از یک مرورگر وب تلفن همراه وارد کرد، یا کاربر می تواند فایلی را برای تبدیل به صدا از طریق برنامه Files برای iOS انتخاب کند.
ElevenLabs Reader: AI Audio همچنین با ویژگی پیشفرض «اشتراکگذاری» iOS ادغام شده است. این بدان معناست که کاربر می تواند در حین مرور اینترنت با استفاده از سافاری، ویجت را به صفحه اشتراک گذاری اضافه کند و لینک ها را مستقیماً از سافاری به برنامه بدون نیاز به کپی و پیست منتقل کند.
با ضربه زدن بر روی نشانگر سرعت پیش فرض 0.1x در گوشه سمت راست پایین برنامه، کاربر می تواند سرعت روایت صدا را بین 0.8x و 2x افزایش یا کاهش دهد. اما این سرعت ها را نمی توان از طریق منوی کشویی یا اسکرول انتخاب کرد و کاربر باید با ضربات مکرر سرعت را به طور مکرر تغییر دهد که ممکن است برای برخی کاربران آزاردهنده باشد.
به گزارش Venturebeat، با ضربه زدن بر روی نماد شکل موج صوتی در سمت چپ، میتوانید از میان 11 صدا و لهجه طبیعی مختلف، از مرد و زن گرفته تا انگلیسی آمریکایی، اتریشی و بریتانیایی انتخاب کنید.
در آزمایشهای ما، آپلود یک فایل PDF حاوی تصاویر و گرافیک از برنامه iOS Files در برنامه ElevenLabs Reader: AI Audio چند ثانیه طول کشید و متأسفانه برنامه همه تصاویر را حذف کرد و فقط متن را نشان داد.
من همچنین با مشکلات قالب بندی مواجه شدم که باعث می شد روایت صدا کمی غیر طبیعی به نظر برسد و به دلیل تغییر فونت در مکان های نامناسب متوقف شود. تست های انجام شده با چندین پیام خطای تصادفی و تبدیل متن به گفتار ناموفق مواجه شدند.
با این حال، از آنجایی که این یک برنامه نسبتاً جدید است، به سرعت بهبود خواهد یافت. عملکرد کلی روایت صوتی مبتنی بر هوش مصنوعی به طرز شگفت انگیزی روان، دقیق و فوق العاده جذاب بود. این ویژگی همچنین بر روی مقالات در وب سایت VentureBeat و رمان کامل 300 صفحه ای به خوبی کار می کرد.
parseek به نقل از یستا
مطالب مرتبط
آیا مدارس اصفهان فردا چهارشنبه (۵ دی ۱۴۰۳) تعطیل است؟
خروج نیروهای فرانسوی از جمهوری چاد (یکم دی ۱۴۰۳)
آیتالله علمالهدی: خدمت به مجاوران باید تشکیلاتی و مستمر باشد