Introducing Amazon Echo
來源: 鎂客網
近日,根據調查機構CIRP的報告顯示,亞馬遜在2014年11月推出的Echo系列智慧音箱產品,在美銷量已突破510萬台。並且,根據市場數據,CIRP推算2016年前九個月亞馬遜就已經售出200萬台Echo產品(包括Echo DotEcho Tap)。
看到亞馬遜的智慧音箱銷量如此之好,我們都意識了智慧家庭語音控制系統的前景之利好。不過,即使當前的語音辨識技術,已經基本上達到了人們所需要的標準,在智慧家庭語音控制系統之中,仍然有一些瑕疵的存在,比如在人聲嘈雜的環境裡,如何正確辨識出用戶發出的命令。
出於需求,聲紋辨識是智慧家庭的一個補充
當前,儘管智慧家庭語音控制系統,已經滿足了人們的基本需求,不過,仍然有一些小小的不足,而這方面,就需要聲紋辨識技術進行補充了。
借助聲紋辨識,進一步提升用戶體驗。以智慧音箱為例,為了更好的進行定位、捕捉聲音、以及降低無關噪音的影響,開發者們會採用多麥克風的形式,不過,一旦處於人聲鼎沸的環境之中,智慧音箱的語音辨識系統極有可能「罷工」,因為它很難從眾多聲音中,準確的辨識出下命令的用戶。
在智慧家庭之中,大多家庭往往只買一個智慧音箱。打個比方,當聲紋辨識技術發展較為成熟之時,若一位家庭成員呼喚音箱打開自己房間的燈,語音控制系統就能通過聲紋辨識技,術確認說話人的身份,從而準確的打開說話人房間的燈。
由此,在體驗上,不管是從眾多人聲中準確辨認用戶,還是確認說話人的身份,聲紋辨識都能讓用戶體驗進一步的提升。
搭載聲紋辨識,提高家庭安全指數。由於不能確認說話人的身份,只要條件允許,當非用戶下達命令之時,語音控制系統極有可能會執行。
舉個例子,有人非法入侵住宅,若語音控制系統不限制說話人的身份,縱然有著智慧監控系統,闖入者完全可以直接下命令關閉監控系統,如此一來,闖入者就成功的得到了住宅的臨時控制權。
當搭載聲紋辨識技術,基於聲紋的獨特性,再不能辨識出闖入者身份的前提下,語音控制系統就能接著進行,警報等一系列安全措施。
備受青睞,聲紋辨識仍有「困擾」
如今,在智慧家庭領域,語言辨識已經充分的體現了自己的價值,緊接著,隨著語音辨識熱潮的過去,聲紋辨識又成為了新的熱門,被稱為智慧家庭未來發展的關鍵,或是語音交互的下一個風口。
且不論它在智慧家庭領域的未來發展如何,就目前而言,其想在智慧家庭領域真正實現,還需解決一些困擾。
首先是聲紋的採集和特徵的建立。不管是人工辨識,還是依靠深度學習算法進行自動化辨識,聲紋庫的建立都是進行一切行動的前提。
當前,警政的聲紋鑒別庫應該是要最健全的,不過,企業要想研究聲紋辨識,從警政處入手顯然行不通,因而,聲紋庫的建立就依賴於企業自行收集,這是一件相當艱難的任務
不同於人類的雙耳,機器的辨識都是在數以百萬、千萬計的數據訓練中不斷改善的,可以說,如果沒有足夠的數據支持,就沒有如今的語音辨識等,人工智慧技術的突破。
對於企業而言,想要訓練聲紋辨識算法,他們所需的不僅僅是語音數據,還需要特徵多樣化的語音數據,像方言、口音等等,如此才能全方面的對聲紋辨識算法進行訓練。
除了聲紋的採集,聲紋特徵的建立,也是當前聲紋辨識進展的一個難題。理論上來講,聲紋就像指紋一樣,很少會有兩個人具有相同的聲紋特徵。
雖說如此,但正如雙胞胎一般,有些聲紋極其相似,可能只存在一點點的差異,這時,找出特徵就成了一件相當具有難度的事。當然,你或許會說這部分可以由電腦完成,的確,依電腦的運算速度,該工作的完成還是相當不費吹灰之力的。
不過,在特徵建立工作中,這裡又再次回到了上一個話題,沒有充足的聲紋庫,又如何建立足夠的聲紋特徵?
其次,除了聲紋的採集和特徵的建立,如何準確電腦說話人,也是當前一個急需解決的問題。不僅僅是靜態檢測,現在的聲紋電腦更多的是,被要求進行即時動態監測,因而,說話環境、說話人身體狀況、情緒變化等,都能對聲紋辨識的結果造成影響。
以說話人本身的狀況為例,用iPhone 7上Siri的聲紋辨識做實驗,在提前保存聲紋數據的基礎上,小編分別以正常、加粗、尖細的聲音喚醒Siri,結果證明,只有正常的語音狀態下,Siri才能被喚醒,其他則是毫無反應。
對照該結果,我們可以總結,只要說話人的聲音出現狀況,比如沙啞、情緒化等等,聲紋辨識系統就不能將之,與庫中的聲紋對上號,從而不能確認說話人的身份。
正如當前人們所言,在語音辨識之後,聲紋辨識成了智慧家庭的又一個關注點。然而,聲紋庫、特徵的建立,以及提高準確率,也不是一朝一夕可以完成的,就比如語音辨識,縱然準確率已經接近百分之百,但若周遭環境嘈雜,其準確率就差強人意了。
沒有留言:
張貼留言