تبدیل عکس به ویدئوی واقعی با هوش مصنوعی VASA-1 مایکروسافت

تحریریه هوش مصنوعی 02 ارديبهشت 1403 بازدید: 21

ابزار جدید هوش مصنوعی مایکروسافت به نام VASA-1 می تواند عکس ها را طوری تبدیل به ویدئو کند که واقعی به نظر برسند.

تبدیل عکس به ویدئو هوش مصنوعی مایکروسافت

مرکز تحقیقات مایکروسافت آسیا از یک ابزار هوش مصنوعی جدید به نام VASA-1 رونمایی کرد. ابزار جدید می‌تواند با استفاده از یک عکس یا حتی تصویری از یک فرد و انتخاب یک قطعه صدا از پایگاه داده خود ، به صورت لحظه‌ای یک ویدیوی واقعی از آن فرد در حال صحبت کردن بسازد. VASA-1 می‌تواند بر اساس تصویر اولیه حالات چهره و حرکات سر را بازسازی کند و حرکات لب‌ متناسب با آن گفتار یا صدا را شبیه‌سازی نماید. محققان نمونه‌های زیادی را در صفحه‌ی پروژه آپلود کرده‌اند. نتایج آنقدر به واقعیت نزدیک بود که حتی می تواند ما را به اشتباه بیندازد. اگر یک کاربر بدون اطلاع از این موضوع ویدئو را ببیند هرگز متوجه ساختگی بودن آن نمی شود.

اما اگر در زمان تماشا دقت کنیم شاید متوجه حرکات غیر طبیعی لب و سر در نمونه منتشر شده VASA-1 بشویم. اگر چه این فناوری در نگاه اول ما را به تحسین وا می دارد اما، نباید از خطرات آن غافل شد. با این فناوری، ساخت تصاویر و ویدئوهای جعلی از شخصیت های مهم مانند سیاستمداران، بازیگران مشهور و حتی افراد عادی خیلی ساده و سریع می شود. سازندگان این ابزار هم از این مشکل باخبر هستند و برای حل آن راه حلی پیدا کردند. آنها متعهد شدند که هیچ دمو آنلاین، API، محصول، جزئیات بیشتری در مورد نحوه پیاده‌سازی یا امکانات آن منتشر نکنند. اما نباید تا همین حد راضی شد. سازندگان باید اقدامات خاصی برای جلوگیری از سوءاستفاده‌ی مهاجمان سایبری در نظر بگیرند تا کاربران بتوانند به ابزار جدید اعتماد کنند!

علی‌رغم احتمال سوءاستفاده از این فناوری، محققان معتقدند که ابزار هوش مصنوعی 1VASA- کاربردهای زیادی دارد. آن‌ها معتقدند که 1VASA- می‌تواند برای ایجاد برابری در آموزش و افزایش دسترسی افرادی که دچار مشکلات برقراری ارتباط هستند مفید باشد. این ابزار حتی برای کسانی که نیاز به حمایت درمانی یا همراهی دارند خیلی کارساز خواهد بود. در مجموع 1VASA- می تواند در برنامه هایی که امکان صحبت با شخصیت های هوش مصنوعی آزاد است، مورد استفاده قرار بگیرد.

تبدیل عکس به ویدئو هوش مصنوعی

براساس مقاله‌ای که همزمان با معرفی این ابزار منتشر شده، این ابزار تحت مدل VoxCeleb2 آموزش دیده است. این پایگاه داده حدود ۱ میلیون جمله از صحبت‌های ۶,۱۱۲ سلبریتی را در بر می گیرد که از ویدیوهای یوتیوب استخراج شده‌اند. با وجود آن که ابزار جدید با چهره‌های واقعی آموزش داده شده است، اما روی عکس‌های هنری مانند مونالیزا هم می تواند کار ‌کند. محققان به شکل جالبی تصویر مونالیزا را با آهنگ «پاپاراتزی» از لیل وین ترکیب کرده‌اند. نتیجه آن را خودتان ببینید و قضاوت کنید!