2016年12月9日 星期五

.傳說中的「讀唇術」終於有專門的學習軟體了

Watch: What It’s Like to Read Lips | Short Film Showcase


传说中的“读唇术”终于有专门的学习软件了


「 讀唇」是一門技術活,國外測試實驗發現,大部分人在別人說法時,通過觀看後者的嘴唇動作,只能辨別出十分之一的單詞,即便是所謂的唇語專家,其準確辨識率也是不夠理想。

不過,牛津大學研究人員稱,人工智慧技術——比如深度學習,就能夠幫助解決這樣的問題。

眾所周知,通過獲取大量數據來尋找「共同點」的人工智慧技術能夠提升音頻語言辨識,使其達到跟「面對面」對話一樣的準確率,為什麼它就能不能完成「讀唇」的任務呢?

牛津大學人工智慧實驗室的研究人,最新發表的論文中提到,他們使用深度學習技術開發出了一種「讀唇」軟體,他們的軟體名為「LipNet」,它的「表現」要遠勝於那些唇語解讀者:在某些測試中,LipNet軟體能夠達到93.4%的準確率,而唇語解讀者的準確率只有52.3%。

即便是現在還處在初期階段,但這款軟體運行的速度,已經非常快,幾乎達到了一種能夠「即時」將靜音視訊轉化為文本腳本的處理速度。

研究人員選用了一組數據庫,用它對這套系統進行訓練和測試。測試中,研究人員收集了來自34名志願者所錄製的短片。在短片中,志願者讀取的是一些「毫無意義」的句子(比如插圖說明),每個短片只有三秒長,並且每個句子都採用非常簡單的句式結構:命令動詞+顏色+介詞+字母+數字+副詞,比如「set blue by A four please」或者「place red at C zero again」。

事實上,這些句子有它的局限性,比如,它們僅僅使用了四個不同指令和顏色詞語,這也是引來了該領域其他研究人員的質疑,他們認為這份研究報告水分太大,讓人難以信服。

不過,情況並非如此。在接受採訪時,這份報告作者,同時也是兩名研究人員Yannis Assael和Brendan Shillingford承認,他們的研究受限於單詞和語法的限制。不過,這是由於可使用的數據有限,這個數據庫非常小,但測試結果也說明瞭,它們能夠在更大的數據庫中,也同樣表現出色。」

Assael 和 Shillingford 都強調,他們的研究成果應用在監控領域,道理很簡單,「讀唇術」要求你需要注視目標人的嘴,這也就意味著,攝影機必須擺好到最佳位置,來獲取好的結果。「從技術層面來看,想要在監控領域應用讀唇術,這是非常、非常困難的。」Assael表示。

不過,這兩名研究人員表示,讀唇人工智慧能夠幫助到那些聽力受損的人群,尤其是在一個比較吵鬧的環境(也就是電腦很難分離出噪音的環境)。

比如,這類人群可以佩戴內置攝影機的眼鏡,他們在參加聚會的時候,可以清楚地拍攝出目標人物,說話時嘴唇動作,然後使用這款軟體,來即時將嘴唇「語言」翻譯成文本,然後在將其語音傳輸到佩戴者耳朵中。

「只要你有語音辨識和攝影機,我們就可以提升它。」Assael表示。他也提及到,蘋果Siri或者谷歌Now語音助手,或將能夠應用他們的軟體。

未來,或許我們就不敢對著自己的電腦講話了,原因很簡單,它們可能會讀懂我們說得內容。(原作者James Vincent 編譯:Newsboy)

                                                                                                                                                                                                                             


Netgear R8500 三頻極速路由器

沒有留言:

張貼留言