سیستم مورد بحث برای عملکرد مطلوب، به تجزیه و تحلیل حداقل 14 ساعت ویدیو از سخنرانی فرد مورد نظر نیاز دارد، اما محققین امیدوارند این زمان را به یک ساعت کاهش دهند. آنها با بهره گیری از شبکه های عصبی، شکل کلی چهره و وضعیت لب و دهان را با نحوه بیان کلمات هماهنگ می کنند.

در نهایت، ویدیویی از سخنرانی فرد را با فایل صوتی دیگری به سیستم می دهیم تا ویدیوی نهایی از ترکیب آن دو حاصل شود. برای عملیات ترکیب، صدای ویدیوی اولیه حذف و با فایل صوتی دوم جایگزین می شود، سپس انیمیشن تولید شده از حرکات دهان روی چهره اصلی قرار می گیرد. با مشاهده ویدیوی نهایی، به سختی می توان باور کرد که فرد مورد نظر هیچگاه چنین صحبت هایی را مطرح نکرده باشد.

اگرچه به نظر می رسد تنها کاربرد این فناوری در جعل گفتار باشد، اما محققین اهداف دیگری را در سر دارند. آنها می گویند بهبود کنفرانس های ویدیویی، گفتگوی واقعی با شخصیت های تاریخی، یا شخصیت بخشی به فایل های صوتی از جمله کاربردهای این تکنولوژی هستند، و باید امیدوار باشیم که این فناوری در اختیار تبهکاران و بدخواهان قرار نگیرد.


نظرات شما عزیزان:

نام :
آدرس ایمیل:
وب سایت/بلاگ :
متن پیام:
:) :( ;) :D
;)) :X :? :P
:* =(( :O };-
:B /:) =DD :S
-) :-(( :-| :-))
نظر خصوصی

 کد را وارد نمایید:

 

 

 

عکس شما

آپلود عکس دلخواه:








دسته بندی : علمی ,  فناوری اطلاعات  ,   ,