2017年9月20日 星期三

.語音辨識的前世今生:深度學習徹底改變對話式人工智慧

Amazon Echo Alexa's voice recognition skills tested






來源: 科技行者



「語音辨識」的終極夢想,是真正能夠理解人類語言,甚至是方言環境的系統。但幾十年來,人們並沒有一個有效的策略,來創建這樣一個系統,直到人工智慧技術的爆發。

在過去幾年中,人們在人工智慧和深度學習領域的突破,讓語音辨識的探索跨了一大步。市面上玲琅滿目的產品,也反映了這種飛躍式發展,例如亞馬遜Echo、蘋果Siri 等等。本文將回顧語音辨識技術領域的最新進展,研究促進其迅猛發展進程的元素,並探討其未來,以及我們距離可以完全解決這個問題,還有多遠。

背景:人機交互
多年來,理解人類一直都是人工智慧的最重要任務之一。人們不僅希望機器能夠理解他們在說些什麼,還希望它們能夠理解他們所要表達的意思,並基於這些資訊採取特定的行動。而這一目標正是對話式人工智慧(AI)的精髓。


對話式AI包含有兩個主要類別:人機介面,以及人與人溝通的介面。在人機介面中,人類與機器往往透過語音或文本交互,屆時機器會理解人類 (儘管這種理解方式是有限的) 並採取相應的一些措施。圖1表明,這台機器可以是一個私人助理 ( Siri、Alexa之類的產品 ) 或某種聊天機器人。


语音识别的前世今生:深度学习彻底改变对话式人工智能
1:人機交互AI



在人與人之間的互動中,人工智慧會在兩個或兩個以上,進行會話、互動或提出見解的人類用戶之間,構建一座橋梁 ( 參見圖2 ) 。例如,一個AI在聽取電話會議後,能夠創立出一段簡要的電話記錄摘要,並跟進相關人員。


语音识别的前世今生:深度学习彻底改变对话式人工智能
2:人與人之間互動的人工智慧




對話式AI背後:機器感知與機器辨識
為了理解對話式AI背後的挑戰與技術,我們必須研究人工智慧的基本概念:機器感知與機器辨識。

機器感知是指機器能夠採用,類似於人類自己憑感覺,感知周圍世界,來分析數據的能力;換句話說,其本質上就是為機器賦予人類的感知能力。

近來很多的人工智慧算法,都需要使用電腦攝影機,如目標檢測和辨識,都歸屬於機器感知範疇——主要涉及視覺處理。語音辨識和分析,則是那些利用聽覺的機器感知技術。

機器辨識是在機器感知,所生成的元數據之上的推理運算。機器辨識包括決策制訂、專家系統、行動執行,以及用戶的意圖等方面。一般情況下,如果沒有機器辨識,對AI的感知系統不會產生任何影響,而機器感知會提供適當的元數據資訊,來令其做出決策與執行行動。

在對話式AI中,機器感知包括所有的語音分析技術,如辨識和性能分析;機器辨識則包括所有與語言理解能力相關的技術,而這也是自然語言處理 ( NLP ) 的一部分。

語音辨識的發展
語音辨識的研究和發展情況基本分為三個主要時期:

2011年之前
人們對語音辨識的活躍研究,已經進行了幾十年,而事實上,即使是在二十世紀50年代和60年代,人們也一直在試圖構建語音辨識系統。然而,在2011年以及深度學習、大數據和雲計算出現以前,這些解決方案還遠遠不足以被大規模採用,以及商業使用。從本質上來說,其算法還不夠好,當時也沒有足夠的數據可以用於算法的訓練,而且無法進行高性能電腦,也阻礙了研究人員運行更複雜的實驗。

2011年-2014年
深度學習產生的第一個重大影響發生在2011年,當時有一個研究小組,一同創造了第一個基於深度學習的語音辨識系統,而這個研究小組成員包括來自微軟的研究人員、李登(Li Deng)、董玉(Dong Yu)和亞歷克斯·阿賽羅(Alex Acero),以及傑弗里·希爾頓(Geoffrey Hinton)和他的學生喬治·達爾(George Dahl)。

效果很即時:其相對錯誤率降低了25%以上。而這個系統也是深度學習領域進行大規模發展和改進的切入點。

此後,在有了更多數據、雲計算可用後,蘋果(Siri)、亞馬遜 (Alexa) 和谷歌這類的大公司,均採用了深度學習技術,而且對其產品性能有著顯著的改善,並將其產品發佈到了市場上。

2015至今
在2014年底,遞歸神經網路獲得了更多的關注。與此同時,遞歸神經網路與注意力模型、記憶網路,以及其他技術一起,掀起了這個領域發展的第三次浪潮。

如今,幾乎每一種算法或者解決方案,都採用了某種類型的神經模型,而且實際上,幾乎所有的關於語音的研究,都已轉向深度學習。

語音辨識領域,神經模型的最新進展
過去六年中,語音辨識在此前,40多年的基礎上,創造了更多的突破。這種非凡的新進展,主要歸功於神經網路。要理解深度學習所帶來的影響,以及它所扮演的角色,我們首先需要理解語音辨識是如何工作的。

儘管近50年來語音辨識,一直屬於熱門研究領域,然而構建能夠理解人類語言的,及其仍舊是人工智慧最具挑戰性的問題之一,要實現這一目標非常困難。

語音辨識由不少明確的任務組成:給出某種制訂的人類語言,然後嘗試將其語音轉換成文字。然而,機器所辨識的語音中可能包括一部分噪音,所以就要求其能夠從噪聲中,提取出與對話相關的部分,並將其轉換成有意義的文字。

語音辨識系統的基本構造塊
語音辨識基本分為三個主要部分:

信號位準信號位準的目的是提取語音信號,並增強信號(如果有必要的話),或是進行適當的預處理、清理和特徵提取。這非常類似於每一項機器學習任務,換句話說,如果給定一些數據,我們需要做適當的數據預處理和特徵提取。

噪音位噪音位準的目的在於將不同的特徵,劃分成不同的聲音。換句話說,聲音本身並不能提供出一個足夠精確的標準,而有時我們將次於原聲的聲音稱為聲學標準。

語言位因為我們假設這些聲音都是人類所產生,而且是有意義的,因此我們可以把這些聲音組合成詞語,然後把這些詞語組合成句子。在語言位準中,這些技術通常屬於不同類型的NLP技術。

基於深度學習的改進
深入學習對語音辨識領域產生了巨大的影響。其影響非常深遠,即使在今天,幾乎每一個語音辨識領域的解決方案,都可能包含有一個或多個,基於神經模型的嵌入算法。

通常而言,人們對語音辨識系統的評價,都基於一個名為配電盤(SWBD)的行業標準。SWBD是一個語音語料庫,整合了電話中的即興對話,包含音頻和人聲的副本。

語音辨識系統的評估標準,主要基於其誤字率(WER),誤字率是指語音辨識系統,辨別錯誤的單詞有多少。圖3展示了從2008年到2017的誤字率改進情況。



语音识别的前世今生:深度学习彻底改变对话式人工智能
3:誤字率改進情況




從2008年到2011年,誤字率一直都處於一個穩定的狀態,位於23%至24%之間;而深度學習從2011年開始出現時起,誤字率從23.6%降低至5.5%。這一重大發展對語音辨識開發而言,是一種變革,其誤字率的改進相對提高了近77%。

誤字率的改善也產生了廣泛應用,例如蘋果Siri、亞馬遜 Alexa、微軟 Cortana 和 Google Now,這些應用也可以透過語音辨識啟動各種家居,如亞馬遜Echo 和 Google Home。

秘密武器
那麼,系統產生如此大幅度改善的原因是什麼呢?是不是有什麼技術可以使得誤字率從23.6%減少到了5.5%呢?遺憾的是,並沒有其他單獨的技術、方法。

然而,深入學習和語音辨識息息相關,構造出了一個,可以涉及各種不同技術和方法的先進系統。

例如,在信號位準中,有著不同的基於神經模型,從信號中提取和增強語音本身的技術 (圖4) 。同時,還有能夠用更加複雜高效的,基於神經模型的方法,取代經典特徵提取方法的技術。


语音识别的前世今生:深度学习彻底改变对话式人工智能
4:信號位準的分析




聲音和語言位準中,也包含有各種各樣不同的深度學習技術,無論是聲音等級分類,還是語言等級分類,都採用了不同類型,基於神經模型的架構(見圖5)。


语音识别的前世今生:深度学习彻底改变对话式人工智能
5:聲音和語言位準分析




總而言之,建立一個先進的系統並不是一項容易的工作,而實現將所有涉及的這些不同技術,整合為一個系統的過程也不輕鬆。

先進研究
近來在語音辨識領域有這麼多的突破,那麼我們自然要問,語音識別接下來的突破口在哪?未來聚焦的研究點,或將從以下三個主要領域展開:算法、數據和可擴展性。

算法
隨著亞馬遜Echo 與 Google Home 的成功,許多公司正在發佈能夠辨識理解語音的智慧喇八揚聲器和家庭設備。然而,這些設備的推出又帶來了一個新問題:用戶說話時往往距離麥克風不是很近,例如用戶用手機對話時的狀態。

而處理遠距離語音辨識又是一個具有挑戰性的問題,很多研究小組也正在積極研究這個問題。如今,創新的深度學習和信號處理技術,已經可以提高語音辨識的品質了。

數據
語音辨識系統的關鍵問題之一,是缺乏現實生活的數據。例如,很難獲得高品質的遠端通話數據。但是,有很多來自其他來源的數據可用。一個問題是:我們可以創建合適的合成器,來生成訓練用的數據嗎?今天,生成合成數據並訓練系統正在受到重視。

為了訓練語音辨識別系統,我們需要同時具備音頻和轉錄的數據集。人工轉錄是繁瑣的工作,有時會導致大量音頻的問題。因此,就有了對半監督培訓的積極研究,並為辨識者建立了適當程度的信心。

由於深度學習與語音辨識相結合,因此對CPU和內存的佔用量不容小覷。隨著用戶大量採用語音辨識系統,構建經濟高效的雲解決方案,是一個具有挑戰性的重要問題。

對如何降低計算成本,並開發更有效的解決方案的研究,一直在進行。今天,大多數語音辨識系統都是基於雲的,並且具有必須解決的兩個具體問題:延遲和持續連接。

延遲是需要立即響應的設備(如機器人)的關鍵問題。在長時間監聽的系統中,由於頻寬成本,持續連接是一個問題。因此,還需要對邊緣語音辨識的研究,它必須保持基於雲的系統的質量。

解決語音辨識問題
近年來,語音辨識的表現和應用,出現了巨大的飛躍。我們離完全解決這個問題還有多遠?答案也許五年、也許十年,但仍然有一些挑戰性的問題需要時間來解決。

第一個問題是對噪音的敏感性問題。一個語音辨識系統在非常接近麥克風,而且不嘈雜的環境中運行得很好——然而,如果說話的聲音比較遠,或者環境很嘈雜能迅速降低系統的效能。

第二個必須解決的問題是語言擴展:世界上大約有7000種語言,絕大多數語音辨識系統能夠支持的語言數量,大約是八十種。擴展系統帶來了巨大的挑戰。

此外,我們缺少許多語言的數據,而且匱乏數據資源,則難以創建語音辨識系統。

結論
深度學習在語音辨識和對話式AI領域,刻下了深深的印記。而鑒於該技術最近獲得的突破,我們真的正處於一場革命的邊緣。

而最大的問題在於,我們是否準備贏得語音辨識領域的技術挑戰,並像其他商品化技術一樣,開始運用它呢?或者說,是否還有另一個新的解決方案,正等待著我們去發現?畢竟,語音辨識的最新進展,只是未來科技藍圖的一小塊:語言理解本身就是一個複雜,而且或許更加強大的一個領域。


                                                                                                                                                                                                                 

沒有留言:

張貼留言