．傳說中的「讀唇術」終於有專門的學習軟體了

Watch: What It’s Like to Read Lips | Short Film Showcase

「讀唇」是一門技術活，國外測試實驗發現，大部分人在別人說法時，通過觀看後者的嘴唇動作，只能辨別出十分之一的單詞，即便是所謂的唇語專家，其準確辨識率也是不夠理想。

不過，牛津大學研究人員稱，人工智慧技術——比如深度學習，就能夠幫助解決這樣的問題。

眾所周知，通過獲取大量數據來尋找「共同點」的人工智慧技術能夠提升音頻語言辨識，使其達到跟「面對面」對話一樣的準確率，為什麼它就能不能完成「讀唇」的任務呢？

牛津大學人工智慧實驗室的研究人，最新發表的論文中提到，他們使用深度學習技術開發出了一種「讀唇」軟體，他們的軟體名為「LipNet」，它的「表現」要遠勝於那些唇語解讀者：在某些測試中，LipNet軟體能夠達到93.4%的準確率，而唇語解讀者的準確率只有52.3%。

即便是現在還處在初期階段，但這款軟體運行的速度，已經非常快，幾乎達到了一種能夠「即時」將靜音視訊轉化為文本腳本的處理速度。

研究人員選用了一組數據庫，用它對這套系統進行訓練和測試。測試中，研究人員收集了來自34名志願者所錄製的短片。在短片中，志願者讀取的是一些「毫無意義」的句子（比如插圖說明），每個短片只有三秒長，並且每個句子都採用非常簡單的句式結構：命令動詞+顏色+介詞+字母+數字+副詞，比如「set blue by A four please」或者「place red at C zero again」。

事實上，這些句子有它的局限性，比如，它們僅僅使用了四個不同指令和顏色詞語，這也是引來了該領域其他研究人員的質疑，他們認為這份研究報告水分太大，讓人難以信服。

不過，情況並非如此。在接受採訪時，這份報告作者，同時也是兩名研究人員Yannis Assael和Brendan Shillingford承認，他們的研究受限於單詞和語法的限制。不過，這是由於可使用的數據有限，這個數據庫非常小，但測試結果也說明瞭，它們能夠在更大的數據庫中，也同樣表現出色。」

Assael 和 Shillingford 都強調，他們的研究成果應用在監控領域，道理很簡單，「讀唇術」要求你需要注視目標人的嘴，這也就意味著，攝影機必須擺好到最佳位置，來獲取好的結果。「從技術層面來看，想要在監控領域應用讀唇術，這是非常、非常困難的。」Assael表示。

不過，這兩名研究人員表示，讀唇人工智慧能夠幫助到那些聽力受損的人群，尤其是在一個比較吵鬧的環境（也就是電腦很難分離出噪音的環境）。

比如，這類人群可以佩戴內置攝影機的眼鏡，他們在參加聚會的時候，可以清楚地拍攝出目標人物，說話時嘴唇動作，然後使用這款軟體，來即時將嘴唇「語言」翻譯成文本，然後在將其語音傳輸到佩戴者耳朵中。

「只要你有語音辨識和攝影機，我們就可以提升它。」Assael表示。他也提及到，蘋果Siri或者谷歌Now語音助手，或將能夠應用他們的軟體。

未來，或許我們就不敢對著自己的電腦講話了，原因很簡單，它們可能會讀懂我們說得內容。（原作者James Vincent 編譯：Newsboy）

按此回今日3S Market新聞首頁