來源: 電子發燒友網原創
語音辨識技術並不是一項新興的技術,並且技術門檻也不算太高。在需求巨大的智慧家居市場語音辨識,能否代替智慧手機成為另一大入口?
全球範圍內哪些廠商在佈局語音辨識技術,語音是辨識的技術原理和難點又在哪?
物聯網市場潛力巨大應用眾多,在繁多的應用中智慧家居或許能優先落地。不過,除了物聯網標準和觀念模糊不清,阻礙智慧家居的發展,手機作為目前首要的入口,也大大影響了體驗。語音辨識並不是一項新興的技術,但在智慧家居甚至人工智慧領域,或許能大展身手。
物聯網與智慧家居市場潛力可期
市場研究咨詢公司Gartner預測,2020年全球物聯網終端設備的出貨量將達到66億,而物聯網設備數量總數將達到208億,花費在物聯網上的總支出,將達到約2420億美元。
Gartner同時預測,2017年以後智慧家居將成為物聯網最大的用戶。有機構預測2016年中國智慧家居市場規模增速將達到50.1% ,並保持這一增速,到2018年中國智慧家居市場規模將達到1396億元,市場規模約佔全球總規模的32%,2020年中國智慧家居市場規模將達到3000多億元。
全球TOP100電信運營商中,已有60%計劃進軍智慧家居市場更讓我們有理由相信,智慧家居將會成為最先應驗的物聯網應用。
智慧家居入口單一
無論是在正式還是非正式場合,談起智慧家居總能聽到手機作為唯一入口的抱怨。舉個簡單的例子,當你安裝了智慧燈具,但你想要打開或調整,還要先找到手機打開APP。這時候可能很多人會選擇直接用開關解決問題,而非使用手機。
智慧家居的願景很好,但目前的體驗確實還有很大的提升空間。關於手機作為智慧家居的唯一入口的問題,艾拉物聯的聯合創始人、大中華區總裁Phillip張南雄就表示:「手機可能不是智慧家居甚至物聯網的唯一入口,語音辨識是一個很大的入口。」美的智慧總經理李強也表示,手機作為智慧家居唯一入口的局面將被改變。
語音辨識成為爭奪焦點
據悉,全球範圍人工智慧公司多專攻深度學習方向,而在對岸中國人工智慧方向的200家左右的創業公司,有超過70%的公司主攻圖像或語音辨識這兩個分類。
全球都有哪些公司在佈局語音辨識?他們的發展情況又如何?
其實,早在電腦發明之前,自動語音辨識的設想,就已經被提上了議事日程,早期的聲碼器可被視作語音辨識及合成的雛形。
最早的基於電腦的語音辨識系統是由AT&T貝爾實驗室開發的Audrey語音辨識系統,它能夠辨識10個英文數字。到1950年代末,倫敦學院(Colledge of London)的Denes已經將語法概率加入語音辨識中。
1960年代,人工神經網路被引入了語音辨識。這一時代的兩大突破是線性預測編碼Linear Predictive Coding (LPC),及動態時間規整Dynamic Time Warp技術。
語音辨識技術最重大的突破,是隱含馬爾科夫模型Hidden Markov Model的應用。從Baum提出相關數學推理,經過Rabiner等人的研究,卡內基梅隆大學的李開復最終實現了第一個,基於隱馬爾科夫模型的大詞彙量語音辨識系統Sphinx。
蘋果Siri
許多人認識語音辨識,可能還得歸功於蘋果鼎鼎大名的語音助手Siri。
2011年蘋果將語音辨識技術融入到iPhone 4S中,並發布了Siri語音助理,不過Siri並不是蘋果研發的技術,而是收購成立於2007年的Siri Inc.這家公司獲得的技術。
在iPhone4s發佈以後,Siri的體驗並不理想,遭到了吐槽。因此,2013年蘋果又收購了Novauris Technologies。Novauris是一種可辨識整個短語的語音辨識技術,這種技術並非簡單辨識單個詞句,而是試圖利用超過2.45億個短語的辨識輔助理解上下文,這讓Siri的功能進一步完善。
不過Siri並沒有因為收購Novauris變得完美,2016年蘋果又收購了開發的人工智慧軟體,能夠幫助電腦與用戶,進行更為自然的對話——英國語音技術初創公司VocalIQ。隨後,蘋果還收購了美國聖地牙哥 AI 技術公司 Emotient,接收其臉部表情分析,與情緒辨識技術。據悉,Emotient開發的情緒引擎,可讀取人們的臉部表情,並且預測其情緒狀態。
谷歌 Google Now
與蘋果Siri類似,谷歌的Google Now知名度也比較高。不過相比蘋果谷歌在語音辨識領域的動作稍顯遲緩。2011年谷歌才出手收購語音通信公司SayNow,和語音合成公司Phonetic Arts。
SayNow可以把語音通信、點對點對話、以及群組通話和Facebook、Twitter、MySpace、Android和 iPhone等等應用等整合在一起,而Phonetic Arts可以把錄製的語音對話,轉化成語音庫,然後把這些聲音結合到一起,從而生成聽上去非常逼真的人聲對話。
2012年的Google I/O開發者大會上,Google Now第一次亮相。
2013年谷歌又以超過3000萬美元,收購了新聞閱讀應用開發商Wavii。Wavii擅長「自然語言處理」技術,可以通過掃描互聯網發現新聞,並直接給出一句話摘要及鏈接。
之後,谷歌又收購了SR Tech Group 的多項語音辨識相關的專利,這些技術和專利谷歌也很快應用到市場,比如YouTube已提供標題自動語音轉錄支持,Google Glass使用了語音控制技術,Android也整合了語音辨識技術等等,Google Now更是擁有了完整的語音辨識引擎。
谷歌可能出於戰略佈局方面的考慮,2015年入資了中國的出門問問,這是一款以語音導航為主的公司,最近也發佈了智慧手錶,「出門問問」也有中國著名聲學器件廠商歌爾聲學的背景。
微軟 Cortana 小冰
微軟語音辨識最吸睛的就是Cortana和小冰。Cortana是微軟在機器學習和人工智慧領域方面的嘗試,Cortana可以記錄用戶的行為和使用習慣,利用雲端運算、搜索引擎和「非結構化數據」分析,讀取和學習包括手機中的圖片、影像、電子郵件等數據,理解用戶的語義和語境,從而實現人機交互。
微軟小冰是微軟亞洲研究院2014年發佈的人工智慧機器人,微軟小冰除了智慧對話之外,還兼具群提醒、百科、天氣、星座、笑話、交通指南、餐飲點評等實用技能。
除了Cortana和微軟小冰,Skype Translator,可以為英語、西班牙語、漢語、義大利語用戶,提供實時翻譯服務。
亞馬遜
Amazon的語音技術,起步於2011年收購語音辨識公司Yap,Yap成立於2006年,主要提供語音轉換文本的服務。2012年Amazon又收購了語音技術公司Evi,繼續加強語音辨識在商品搜索方面的應用, Evi也曾經應用過Nuance的語音辨識技術。
2013年,Amazon繼續收購Ivona Software,Ivona是一家波蘭公司,主要做文本語音轉換,其技術已被應用在Kindle Fire的文本至語音轉換功能、語音命令和Explore by Touch應用之中,Amazon智慧音箱Echo也是利用了這項技術。
Facebook
Facebook在2013年,收購了創業型語音辨識公司Mobile Technologies,其產品Jibbigo允許用戶在25種語言中進行選擇,使用其中一種語言,進行語音片段錄製或文本輸入,然後將翻譯顯示在螢幕上,同時根據選擇的語言大聲朗讀出來。
這一技術使得 Jibbigo成為出國旅遊的常用工具,很好地代替了常用語手冊。
之後,Facebook繼續收購了語音交互解決方案服務商Wit.ai。Wit.ai的解決方案允許用戶,直接通過語音來控制行動應用程序、穿戴設備和機器人,以及幾乎任何智慧設備。
Facebook的希望將這種技術,應用到定向廣告之中,將技術和自己的商業模式緊密結合在一起。
傳統語音辨識行業貴族Nuance
除了以上介紹的大家熟知的科技巨頭的語音辨識發展情況,傳統語音辨識行業貴族Nuance也值得瞭解。
Nuance曾經在語音領域一統江湖,世界上有超過80%的語音辨識都用過Nuance辨識引擎技術,其語音產品可以支持超過50種語言,在全球擁有超過20億用戶,幾乎壟斷了金融和電信行業。
現在, Nuance依舊是全球最大的語音技術公司,掌握著全球最多的語音技術專利。蘋果語音助手Siri、三星語音助手S-Voice、各大航空公司和頂級銀行的自動呼叫中心,剛開始都是採用他們的語音辨識引擎技術。
不過由於Nuance有點過於自大,現在的Nuance已經不如當年了。
國際其他語音辨識公司
2013年英特爾收購了西班牙的語音辨識技術公司Indisys,同年雅虎收購了自然語言處理技術初創公司SkyPhrase。而美國最大的有線電視公司Comcast,也開始推出自己的語音辨識交互系統。Comcast希望利用語音辨識技術,讓用戶通過語音就可以更自由控制電視,並完成一些遙控器無法完成的事情。
對岸中國語音辨識廠商
科大訊飛
科大訊飛成立於1999年底,依靠中科大的語音處理技術,以及其國家的大力扶持,很快就走上了正軌。科大訊飛2008年掛牌上市,目前市值接近500億,根據2014年語音產業聯盟的數據調查顯示,科大訊飛佔據了超過60%的市場市佔率,絕對是語音技術的中國龍頭企業。
提到科大訊飛,大家可能想到的都是語音辨識,但其實它最大的收益來源是教育,特別是在2013年左右,收購了很多家語音評測公司,包括啓明科技等,對教育市場形成了壟斷,經過一系列的收購後,目前所有中國省份的口語評測用的,都是科大訊飛的引擎,由於其佔據了考試的制高點,所有的學校及家長都願意為其買單。
百度語音
百度語音很早就被確立為戰略方向,2010年與中科院聲學所合作研發語音辨識技術,但是市場發展相對緩慢。
直到2014年,百度重新梳理了戰略,請來了人工智慧領域的泰斗級大師吳恩達,正式組建了語音團隊,專門研究語音相關技術,由於有百度強大的資金支持,到目前為止收穫頗豐,斬獲了近13%的市場市佔率,其技術實力已經可以和擁有十多年技術與累積經驗的科大訊飛相提並論。
捷通和信利
捷通華聲憑借的是清華技術,成立初期力邀中科院聲學所的呂士楠老先生加入,奠定了語音合成的基礎。中科信利則完全依託於中科院聲學所,其成立初期技術實力極為雄厚,不僅為中國語音辨識行業培養了大量人才,而且也在行業領域,特別是軍工領域發揮著至關重要的作用。
中科院聲學所培養的這些人才,對於中國語音辨識行業的發展極為重要,姑且稱之為聲學系,但是相對於市場來說,這兩家公司已經落後了科大訊飛一大段距離。
中科信利由於還有行業市場背景,目前基本上不再參與市場運作,而捷通華聲最近也因為南大電子「嬌嬌」機器人的造假事件,被推上了風口浪尖,著實是一個非常負面的影響。
思必馳
2009年前後,DNN被用於語音辨識領域,語音辨識率得到大幅提升,辨識率突破90%,達到商用標準,這極大的推動了語音辨識領域的發展,這幾年內又先後成立許多語音辨識相關的創業公司。
思必馳2007年成立,創始人大部分來源於劍橋團隊,其技術有一定的國際基礎,當時公司主要側重於語音評測,也就是教育,但經過多年的發展,雖然佔有了一些市場,但在科大訊飛把持著考試制高點的情況下,也很難得到突破。
於是在2014年的時候,思必馳痛下決心將負責教育行業的部門剝離,以9000萬賣給了網龍,自己則把精力收縮專注智慧硬體和行動網路,最近更是集中精力聚焦車載語音助手,推出了「蘿蔔」,可市場反響非常一般。
雲知聲
借著2011年蘋果Siri的宣傳勢頭,2012年雲知聲成立。雲知聲團隊主要來源於盛大研究院,湊巧的是CEO和CTO也是中科大畢業,與科大訊飛可以說是師兄弟。
但語音辨識技術則更多的源於中科院自動化所,其語音辨識技術有一定的獨到之處,有一小段時期內,語音辨識率甚至超越科大訊飛。
因此也受到了資本的熱捧,B輪融資達到3億,主要瞄準智慧家居市場。但至今已經成立了3年多,聽到的更多是宣傳,市場發展較為緩慢,B2B市場始終不見起色,B2C市場也很少聽到實際應用,估計目前還處在燒錢階段。
出門問問
出門問問成立於2012年,其CEO曾經在谷歌工作,在拿到紅杉資本和真格基金的天使投資之後,從谷歌辭職創辦了上海羽扇智信息科技有限公司,並立志打造下一代行動語音搜索產品——「出門問問」。
出門問問的成功之處,便是蘋果APP的榜單排名,但是筆者不知道有那麼多內置地圖的情況下,為啥還要下載這個軟體,顯然有時候比直接查找地圖還要麻煩。
出門問問同樣也具有較強的融資能力,2015年拿到了Google的C輪融資,融資額累計已經7500萬美元。出門問問主要瞄準可穿戴市場,最近自己也推出了智慧手錶等產品,但也是雷聲大,雨點小,沒見得其智慧手錶的銷量如何。
中國其他的語音辨識公司
語音辨識的門檻並不高,因此中國各大公司也逐漸加入進來。搜狗開始採用的是雲知聲的語音辨識引擎,但很快就搭建起自己的語音辨識引擎,主要應用於搜狗輸入法,效果也還可以。
騰訊當然不會落後,微信也建立了自己語音辨識引擎,用於將語音轉換為文字,但這個做的還是有點差距。
阿里巴巴、愛奇藝、360、樂視等等也都在搭建自己的語音辨識引擎,但這些大公司更多的是自研自用,基本上技術上泛善可陳,業界也沒有什麼影響力。
當然,除了以上介紹的產業界的語音辨識公司,學術界Cambridge的HTK工具對學術界研究推動巨大,還有CMU、SRI、MIT、RWTH、ATR等同樣推動語音辨識技術的發展。
語音辨識技術原理是什麼?
對於語音辨識技術,相信大家或多或少都已經有了接觸和應用,上面我們也已經介紹了,國際與中國主要的語音辨識技術公司的情況。但你仍然可能想知道,語音辨識技術的原理是什麼?那麼接下來就為大家做介紹。
語音辨識技術
語音辨識技術就是讓機器通過辨識,和理解過程把語音訊號轉變為相應的文本,或命令的技術。語音辨識的目的就是讓機器賦予人的聽覺特性,聽懂人說什麼,並作出相應的動作。
目前大多數語音辨識技術,是基於統計模式的,從語音產生機理來看,語音辨識可以分為語音層和語言層兩部分。
語音辨識本質上是一種模式辨識的過程,未知語音的模式與已知語音的參考模式,逐一進行比較,最佳匹配的參考模式被作為辨識結果。
當今語音辨識技術的主流算法,主要有基於動態時間規整(DTW)算法、基於非參數模型的矢量量化(VQ)方法、基於參數模型的隱馬爾可夫模型(HMM)的方法、基於人工神經網路(ANN)和支持向量機等語音辨識方法。
語音辨識分類:
根據對說話人的依賴程度,分為:
(1)特定人語音辨識(SD):只能辨認特定使用者的語音,訓練→使用。
(2)非特定人語音辨識(SI):可辨認任何人的語音,無須訓練。
根據對說話方式的要求,分為:
(1)孤立詞辨識:每次只能辨識單個詞彙。
(2)連續語音辨識:用者以正常語速說話,即可辨識其中的語句。
語音辨識系統
語音辨識系統的模型,通常由聲學模型和語言模型兩部分組成,分別對應於語音到音節概率的計算,和音節到字概率的計算。
Sphinx是由美國卡內基梅隆大學開發的大詞彙量、非特定人、連續英語語音辨識系統。一個連續語音辨識系統大致可分為四個部分:特徵提取,聲學模型訓練,語言模型訓練和解碼器。
(1)預處理模組
對輸入的原始語音訊號進行處理,濾除掉其中的不重要的訊息以及背景噪聲,並進行語音訊號的端點檢測(找出語音訊號的始末)、語音分幀(近似認為在10-30ms內是語音訊號是短時平穩的,將語音訊號分割為一段一段進行分析)以及預加重(提升高頻部分)等處理。
(2)特徵提取
去除語音訊號中,對於語音辨識無用的冗餘訊息,保留能夠反映語音本質特徵的訊息,並用一定的形式表示出來。也就是提取出反映語音訊號特徵的關鍵特徵參數,形成特徵矢量序列,以便用於後續處理。
目前的較常用的提取特徵的方法還是比較多的,不過這些提取方法都是由頻譜衍生出來的。
(3)聲學模型訓練
根據訓練語音庫的特徵參數,訓練出聲學模型參數。在辨識時,可以將待辨識的語音的特徵參數,同聲學模型進行匹配,得到辨識結果。
目前的主流語音辨識系統,多採用隱馬爾可夫模型HMM,進行聲學模型建模。
(4)語言模型訓練
語言模型是用來計算一個句子,出現概率的概率模型。它主要用於決定哪個詞序列的可能性更大,或者在出現了幾個詞的情況下,預測下一個即將出現的詞語的內容。
換一個說法說,語言模型是用來約束單詞搜索的。它定義了哪些詞,能跟在上一個已經辨識的詞的後面(匹配是一個順序的處理過程),這樣就可以為匹配過程,排除一些不可能的單詞。
語言建模能夠有效的結合漢語語法和語義的知識,描述詞之間的內在關係,從而提高辨識率,減少搜索範圍。語言模型分為三個層次:字典知識,語法知識,句法知識。
對訓練文本數據庫進行語法、語義分析,經過基於統計模型訓練,得到語言模型。語言建模方法主要有,基於規則模型,和基於統計模型兩種方法。
(5)語音解碼和搜索算法
解碼器:即指語音技術中的辨識過程。針對輸入的語音訊號,根據己經訓練好的HMM聲學模型、語言模型及字典,建立一個辨識網路,根據搜索算法在該網路中,尋找最佳的一條路徑,這個路徑就是能夠以最大概率,輸出該語音訊號的詞串,這樣就確定這個語音樣本所包含的文字了。
所以解碼操作即指搜索算法:是指在解碼端通過搜索技術,尋找最優詞串的方法。
連續語音辨識中的搜索,就是尋找一個詞模型序列,以描述輸入語音訊號,從而得到詞解碼序列。搜索所依據的是對公式中的聲學模型打分,和語言模型打分。
在實際使用中,往往要依據經驗給語言模型加上一個高權重,並設置一個長詞懲罰分數。當今的主流解碼技術都是基於Viterbi搜索算法的,Sphinx也是。
學術工具部分
回覆刪除雖然HTK的確是先行者
但現在做語音辨識領域的
絕對不能不知道Kaldi