بهار نیوز - وقتی عکس‌ها به حرف می‌آیند!

گروه علم و فناوری: پژوهشگران آزمایشگاه هوش مصنوعی شرکت سامسونگ در روسیه، سیستمی توسعه داده‌اند که می‌تواند تنها از روی تصاویر افراد، مدل صحبت کردن آن‌ها را شبیه‌سازی کند.

پیشرفت فناوری خوب است، اما در گاهی موارد ترسناک می‌شود؛ چراکه اکنون هوش مصنوعی سامسونگ می‌تواند تنها از روی تصاویر افراد، مدل صحبت کردن آن‌ها را شبیه‌سازی کند؛ برای مثال ممکن است در آینده افراد بتوانند تنها از روی عکس شما در حساب کاربریتان در شبکه‌های اجتماعی مدل صحبت کردن شما را ببینند.غول فناوری کره‌ای اخیراً یک سیستم هوش مصنوعی "دیپ‌فیک" (deepfake) جدیدی را توسعه داده است که می‌تواند تنها با داشتن یک تصویر از افراد، نحوه حرف زدن آنها را شبیه‌سازی کند.البته این فناوری آنچنان که فکر می‌کنید ترسناک هم نیست و می‌توان به عنوان نوعی سرگرمی هم به آن نگاه کرد؛ چراکه توسط آن می‌توانید مدل حرف زدن مشاهیر جهان را نیز شبیه‌سازی کنید.برای مثال شاید برای برخی همیشه یک معما بود که "مونالیزا" چگونه حرف می‌زد، اما اکنون تنها با وارد کردن پرتره او به این سیستم می‌توانید این معما را حل کنید. این نرم افزار دیپ فیک نیز همانند فتوشاپ با استفاده از یادگیری ماشین می‌تواند مدل صحبت کردن افراد را شبیه‌سازی کند.

آزمایشگاه هوش مصنوعی سامسونگ، سیستم خود را "صحبت عصبی واقع گرایانه" (realistic neural talking heads) نامید. اصطلاح " talking heads " اشاره به ژانر ویدئویی دارد که این سیستم می‌تواند ایجاد کند. کلمه "عصبی" (neural) نیز به شبکه‌های عصبی مرتبط است. شبکه‌های عصبی نوعی سیستم یادگیری ماشین هستند که ساختار مغز انسان را تقلید می‌کنند.به گفته محققان می‌توان از این سیستم در بازی‌های ویدئویی و یا فیلم‌ها استفاده کرد. آن‌ها افزودند: چنین سیستمی کاربردهایی در فناوری دورحضوری یا حضور از دور (Telepresence) نیز دارد. دورحضوری به فناوری‌ای گفته می‌شود که به فرد اجازه می‌دهد حضورش را از راه دور در مکانی دیگر احساس کند، گاهی این حضور می‌تواند به صورت تله‌رباتیک یا کنفرانس ویدئویی باشد.از آن‌جایی‌که در توسعه این سیستم در ابتدا تعداد زیادی عکس از یک فرد مورد نیاز بود، بنابراین محققان تصاویر زیادی از افراد مشهور (هنرمندان یا سیاستمداران) را به آن وارد کردند.

جمله معروف " قبل از هر چیز دیگر، آمادگی کلید موفقیت استِ"مبتکر، دانشمند و مخترع تلفن "الکساندر گراهام بل" الهام‌بخش سامسونگ برای طراحی این سیستم بوده است. این سیستم با یک مرحله طولانی به نام "فرا یادگیری" (meta-learning stage) شروع می‌کند و در آن مرحله تعداد زیادی از فیلم‌ها را تماشا می‌کند تا بدانند چهره انسان چگونه هنگام صحبت حرکت می‌کنند و پس از آن با داشتن یک یا چند تصویر می‌تواند مدل صحبت کردن افراد را شبیه‌سازی کند.