هوش مصنوعی VALL-E مایکروسافت با قابلیت تقلید صدا در 3 ثانیه!

تحریریه هوش مصنوعی 20 دی 1401 بازدید: 106

هوش مصنوعی جدید مایکروسافت معروف به VALL-E می تواند در عرض 3 ثانیه صدای شما را بازسازی کند.

VALL E هوش مصنوعی

مایکروسافت به تازگی از هوش مصنوعی جدید خود با نام VALL-E رو نمایی کرد. البته، این هوش مصنوعی هنوز به صورت عمومی منتشر نشده است و دسترسی به آن فعلا امکان پذیر نیست. شما می توانید 3 ثانیه صدای خود را به این AL بدهید و طبق ویژگی های گوینده به عبارت های جدید بپردازید.
این هوش مصنوعی بر اساس EnCodec (مدل زبان کدک عصبی) کدهای کدک صوتی گسسته را از متن و درخواست‌های صوتی تولید می‌کند. اما، مدل زبان کدک عصبی چیست؟!

VALL E هوش مصنوعی مایکروسافت
کدک عصبی به این معناست که هوش مصنوعی VALL-E نحوه صدای یک فرد را به اجزای جداگانه ای که توکن نامیده می شوند تقسیم می کند و سپس از پایگاه داده خود برای شبیه سازی نمونه صوتی ارائه شده، استفاده می کند. محققان مایکروسافت VALL-E را با استفاده از یک کتابخانه صوتی که شرکت متا ارائه کرده بود، به نام LibriLight آموزش دادند. این کتابخانه شامل 60000 ساعت زبان انگلیسی از حدود 7000 سخنران است که بیشتر آن ها از کتاب های صوتی عمومی LibriVox گرفته شده اند.

برای اینکه VALL-E نتیجه خوبی در خروجی ارائه دهد باید صدای نمونه سه ثانیه‌ای با صدای داده‌های آموزشی مطابقت کامل داشته باشد. قابلیت VALL-E ممکن است باعث سوء استفاده عده ای شود بنابراین، مایکروسافت قصد دارد کد VALL-E را سری نگه دارد. به نظر می رسد محققان این پروژه از آسیب اجتماعی بالقوه ای که می تواند این فناوری به همراه داشته باشد کاملا آگاهند. آن ها در بخش نتیجه گیری مقاله، نوشتند:
“به علت این که VALL-E می تواند صدای گوینده را به طور کامل شبیه سازی کند، ممکن است در مواردی مانند جعل هویت صدا یا جعل هویت یک گوینده خاص مورد سوء استفاده قرار گیرد. برای جلوگیری از این اتفاقات، می توان یک مدل تشخیص جداگانه ای ایجاد کرد."