cookieOptions = {...}; .三星新技術:讓蒙娜麗莎開口「說話」 - 3S Market「全球智慧科技應用」市場資訊網

3S MARKET

3S MARKET
2019年6月28日 星期五

Reddit reacts to Samsung AI Deepfake technology - A wild future is imminent


ifanr

你有沒有想過,有一天蒙娜麗莎不只會神秘微笑,還會對你挑眉眨眼、娓娓而談?



不止蒙娜麗莎,瑪麗蓮夢露也「活」過來了,紅唇一張就開始說話,眼角眉梢風情萬種。


還有只在物理書裡面,看到過的愛因斯坦,你現在甚至能感受到,科學道理正從他口中傾瀉而出……


現在,你可能會以為,這是什麼特效影像裡截取的畫面,但事實上,這些人物的動態影像,都僅源於旁邊那一張照片。

來自三星 AI 中心,和莫斯科 Skolkovo 科學技術研究所的研究人員,成功地開發出了這個「人像照變動態表情包」的 AI 系統,並於 5 月 20 日在 ArXiv.org 網站上,公佈了他們的研究成果。


前陣子鬧得沸沸揚揚的「色情換臉」,需要大量人物的圖像資訊,再加原生影像,才能生產出一個新的合成影像,而這次三星 AI ,只需基於一張肖像照片,或一張畫像,就能讓裡面人物的臉部表情,都動得栩栩如生。

雖然並非完美無瑕,但足以讓人產生信以為真的錯覺。


製作這個影像並不容易。

因為人類的視覺思維,對臉部細節極其敏感,因此每個微小部分,包括嘴巴的弧度、頭髮的輪廓、眨眼的速度都很難忽視。所以這套人工智慧系統,經過了一段漫長的訓練時光。

研究人員從 YouTube 收集了 7000 張名人照片,提取其「標誌性」的臉部特徵,然後系統透過觀看,大量人類說話的臉孔和表情豐富的影片進行學習

「讓照片動起來」的學習架構圖

之後,人工智慧系統就能將學到的內容,應用到單張照片或多張照片上,高效地找到與系統學習的臉部相對應的部分,然後因人而異地針對新臉部裡各個的關鍵點,特別是眼睛、鼻子和嘴巴進行調整,最後達到最自然的動態效果。

當可以使用的照片越多,影像就會越加逼真,32 個圖像,就足以讓影像以假亂真。


雖然仔細看,人物邊緣的地方,依然有模糊的部分,不能辨識的地方,也只能用背景畫面粗糙填充,瑪麗蓮夢露的影像,還少了那顆標誌性的痣。

而且,影像也沒有聲音,動態只能呈現在臉部,一張一合的嘴角,就像一個練習生在唱 Rap,但它依然是一個顛覆式的創新,簡單點說,實現了一鍵把 JPG 變 GIF。

研究人員表示,未來,這個 AI 系統,將會被廣泛應用在視訊、遊戲、電視、電影,以及特效行業中,估計現在,它就已經被 B 站上的鬼畜藝術家盯上了。而單張或少量照片,就能完成動態人像的速度和效率,也讓該模型更利於推廣。


不過同時,這也意味著很快會有圖謀不軌之人,利用臨時拼湊的工具來模仿它,進行群眾誤導或虛假詐騙,還有可能把一個人的人像照片,製作出不可描述的動態表情,放在不可描述的身體上,做不可描述的事情。

儘管它還不足以引起 Deepfakes「色情換臉」那樣的風波,但它比起「色情換臉」,使用起來更簡易便捷,在人人都暴露無遺的網路時代,擔憂也並非沒有必要,只是現在還為時尚早。


目前,該研究還處於簡單測試階段,複雜的神經網路模型,要變得輕量化,也有重擔在後。不過就像哈利波特,第一次去霍格沃茨魔法學校,看到那活了的石牆肖像,而驚詫不已一樣,現在,它在現實裡也成真了。

0 comments: