Facebook
Facebook在2013年,收購了創業型語音辨識公司Mobile Technologies,其產品Jibbigo允許用戶在25種語言中進行選擇,使用其中一種語言,進行語音片段錄製或文本輸入,然後將翻譯顯示在螢幕上,同時根據選擇的語言大聲朗讀出來。
這一技術使得 Jibbigo成為出國旅遊的常用工具,很好地代替了常用語手冊。
之後,Facebook繼續收購了語音交互解決方案服務商Wit.ai。Wit.ai的解決方案允許用戶,直接通過語音來控制行動應用程序、穿戴設備和機器人,以及幾乎任何智慧設備。
Facebook的希望將這種技術,應用到定向廣告之中,將技術和自己的商業模式緊密結合在一起。
傳統語音辨識行業貴族Nuance
除了以上介紹的大家熟知的科技巨頭的語音辨識發展情況,傳統語音辨識行業貴族Nuance也值得瞭解。
Nuance曾經在語音領域一統江湖,世界上有超過80%的語音辨識都用過Nuance辨識引擎技術,其語音產品可以支持超過50種語言,在全球擁有超過20億用戶,幾乎壟斷了金融和電信行業。
現在, Nuance依舊是全球最大的語音技術公司,掌握著全球最多的語音技術專利。蘋果語音助手Siri、三星語音助手S-Voice、各大航空公司和頂級銀行的自動呼叫中心,剛開始都是採用他們的語音辨識引擎技術。
不過由於Nuance有點過於自大,現在的Nuance已經不如當年了。
VIDEO
國際其他語音辨識公司
2013年英特爾收購了西班牙的語音辨識技術公司Indisys,同年雅虎收購了自然語言處理技術初創公司SkyPhrase。而美國最大的有線電視公司Comcast,也開始推出自己的語音辨識交互系統。Comcast希望利用語音辨識技術,讓用戶通過語音就可以更自由控制電視,並完成一些遙控器無法完成的事情。
對岸中國語音辨識廠商
科大訊飛
科大訊飛成立於1999年底,依靠中科大的語音處理技術,以及其國家的大力扶持,很快就走上了正軌。科大訊飛2008年掛牌上市,目前市值接近500億,根據2014年語音產業聯盟的數據調查顯示,科大訊飛佔據了超過60%的市場市佔率,絕對是語音技術的中國龍頭企業。
提到科大訊飛,大家可能想到的都是語音辨識,但其實它最大的收益來源是教育,特別是在2013年左右,收購了很多家語音評測公司,包括啓明科技等,對教育市場形成了壟斷,經過一系列的收購後,目前所有中國省份的口語評測用的,都是科大訊飛的引擎,由於其佔據了考試的制高點,所有的學校及家長都願意為其買單。
百度語音
百度語音很早就被確立為戰略方向,2010年與中科院聲學所合作研發語音辨識技術,但是市場發展相對緩慢。
直到2014年,百度重新梳理了戰略,請來了人工智慧領域的泰斗級大師吳恩達,正式組建了語音團隊,專門研究語音相關技術,由於有百度強大的資金支持,到目前為止收穫頗豐,斬獲了近13%的市場市佔率,其技術實力已經可以和擁有十多年技術與累積經驗的科大訊飛相提並論。
捷通和信利
捷通華聲憑借的是清華技術,成立初期力邀中科院聲學所的呂士楠老先生加入,奠定了語音合成的基礎。中科信利則完全依託於中科院聲學所,其成立初期技術實力極為雄厚,不僅為中國語音辨識行業培養了大量人才,而且也在行業領域,特別是軍工領域發揮著至關重要的作用。
中科院聲學所培養的這些人才,對於中國語音辨識行業的發展極為重要,姑且稱之為聲學系,但是相對於市場來說,這兩家公司已經落後了科大訊飛一大段距離。
中科信利由於還有行業市場背景,目前基本上不再參與市場運作,而捷通華聲最近也因為南大電子「嬌嬌」機器人的造假事件,被推上了風口浪尖,著實是一個非常負面的影響。
思必馳
2009年前後,DNN被用於語音辨識領域,語音辨識率得到大幅提升,辨識率突破90%,達到商用標準,這極大的推動了語音辨識領域的發展,這幾年內又先後成立許多語音辨識相關的創業公司。
思必馳2007年成立,創始人大部分來源於劍橋團隊,其技術有一定的國際基礎,當時公司主要側重於語音評測,也就是教育,但經過多年的發展,雖然佔有了一些市場,但在科大訊飛把持著考試制高點的情況下,也很難得到突破。
於是在2014年的時候,思必馳痛下決心將負責教育行業的部門剝離,以9000萬賣給了網龍,自己則把精力收縮專注智慧硬體和行動網路,最近更是集中精力聚焦車載語音助手,推出了「蘿蔔」,可市場反響非常一般。
雲知聲
借著2011年蘋果Siri的宣傳勢頭,2012年雲知聲成立。雲知聲團隊主要來源於盛大研究院,湊巧的是CEO和CTO也是中科大畢業,與科大訊飛可以說是師兄弟。
但語音辨識技術則更多的源於中科院自動化所,其語音辨識技術有一定的獨到之處,有一小段時期內,語音辨識率甚至超越科大訊飛。
因此也受到了資本的熱捧,B輪融資達到3億,主要瞄準智慧家居市場。但至今已經成立了3年多,聽到的更多是宣傳,市場發展較為緩慢,B2B市場始終不見起色,B2C市場也很少聽到實際應用,估計目前還處在燒錢階段。
出門問問
出門問問成立於2012年,其CEO曾經在谷歌工作,在拿到紅杉資本和真格基金的天使投資之後,從谷歌辭職創辦了上海羽扇智信息科技有限公司,並立志打造下一代行動語音搜索產品——「出門問問」。
出門問問的成功之處,便是蘋果APP的榜單排名,但是筆者不知道有那麼多內置地圖的情況下,為啥還要下載這個軟體,顯然有時候比直接查找地圖還要麻煩。
出門問問同樣也具有較強的融資能力,2015年拿到了Google的C輪融資,融資額累計已經7500萬美元。出門問問主要瞄準可穿戴市場,最近自己也推出了智慧手錶等產品,但也是雷聲大,雨點小,沒見得其智慧手錶的銷量如何。
中國其他的語音辨識公司
語音辨識的門檻並不高,因此中國各大公司也逐漸加入進來。搜狗開始採用的是雲知聲的語音辨識引擎,但很快就搭建起自己的語音辨識引擎,主要應用於搜狗輸入法,效果也還可以。
騰訊當然不會落後,微信也建立了自己語音辨識引擎,用於將語音轉換為文字,但這個做的還是有點差距。
阿里巴巴、愛奇藝、360、樂視等等也都在搭建自己的語音辨識引擎,但這些大公司更多的是自研自用,基本上技術上泛善可陳,業界也沒有什麼影響力。
當然,除了以上介紹的產業界的語音辨識公司,學術界Cambridge的HTK工具對學術界研究推動巨大,還有CMU、SRI、MIT、RWTH、ATR等同樣推動語音辨識技術的發展。
語音辨識技術原理是什麼?
對於語音辨識技術,相信大家或多或少都已經有了接觸和應用,上面我們也已經介紹了,國際與中國主要的語音辨識技術公司的情況。但你仍然可能想知道,語音辨識技術的原理是什麼?那麼接下來就為大家做介紹。
VIDEO
語音辨識技術
語音辨識技術就是讓機器通過辨識,和理解過程把語音訊號轉變為相應的文本,或命令的技術。語音辨識的目的就是讓機器賦予人的聽覺特性,聽懂人說什麼,並作出相應的動作。
目前大多數語音辨識技術,是基於統計模式的,從語音產生機理來看,語音辨識可以分為語音層和語言層兩部分。
語音辨識本質上是一種模式辨識的過程,未知語音的模式與已知語音的參考模式,逐一進行比較,最佳匹配的參考模式被作為辨識結果。
當今語音辨識技術的主流算法,主要有基於動態時間規整(DTW)算法、基於非參數模型的矢量量化(VQ)方法、基於參數模型的隱馬爾可夫模型(HMM)的方法、基於人工神經網路(ANN)和支持向量機等語音辨識方法。
語音辨識分類:
根據對說話人的依賴程度,分為:
(1)特定人語音辨識(SD):只能辨認特定使用者的語音,訓練→使用。
(2)非特定人語音辨識(SI):可辨認任何人的語音,無須訓練。
根據對說話方式的要求,分為:
(1)孤立詞辨識:每次只能辨識單個詞彙。
(2)連續語音辨識:用者以正常語速說話,即可辨識其中的語句。
VIDEO
語音辨識系統
語音辨識系統的模型,通常由聲學模型和語言模型兩部分組成,分別對應於語音到音節概率的計算,和音節到字概率的計算。
Sphinx是由美國卡內基梅隆大學開發的大詞彙量、非特定人、連續英語語音辨識系統。一個連續語音辨識系統大致可分為四個部分:特徵提取,聲學模型訓練,語言模型訓練和解碼器。
(1)預處理模組
對輸入的原始語音訊號進行處理,濾除掉其中的不重要的訊息以及背景噪聲,並進行語音訊號的端點檢測(找出語音訊號的始末)、語音分幀(近似認為在10-30ms內是語音訊號是短時平穩的,將語音訊號分割為一段一段進行分析)以及預加重(提升高頻部分)等處理。
(2)特徵提取
去除語音訊號中,對於語音辨識無用的冗餘訊息,保留能夠反映語音本質特徵的訊息,並用一定的形式表示出來。也就是提取出反映語音訊號特徵的關鍵特徵參數,形成特徵矢量序列,以便用於後續處理。
目前的較常用的提取特徵的方法還是比較多的,不過這些提取方法都是由頻譜衍生出來的。
(3)聲學模型訓練
根據訓練語音庫的特徵參數,訓練出聲學模型參數。在辨識時,可以將待辨識的語音的特徵參數,同聲學模型進行匹配,得到辨識結果。
目前的主流語音辨識系統,多採用隱馬爾可夫模型HMM,進行聲學模型建模。
(4)語言模型訓練
語言模型是用來計算一個句子,出現概率的概率模型。它主要用於決定哪個詞序列的可能性更大,或者在出現了幾個詞的情況下,預測下一個即將出現的詞語的內容。
換一個說法說,語言模型是用來約束單詞搜索的。它定義了哪些詞,能跟在上一個已經辨識的詞的後面(匹配是一個順序的處理過程),這樣就可以為匹配過程,排除一些不可能的單詞。
語言建模能夠有效的結合漢語語法和語義的知識,描述詞之間的內在關係,從而提高辨識率,減少搜索範圍。語言模型分為三個層次:字典知識,語法知識,句法知識。
對訓練文本數據庫進行語法、語義分析,經過基於統計模型訓練,得到語言模型。語言建模方法主要有,基於規則模型,和基於統計模型兩種方法。
(5)語音解碼和搜索算法
解碼器:即指語音技術中的辨識過程。針對輸入的語音訊號,根據己經訓練好的HMM聲學模型、語言模型及字典,建立一個辨識網路,根據搜索算法在該網路中,尋找最佳的一條路徑,這個路徑就是能夠以最大概率,輸出該語音訊號的詞串,這樣就確定這個語音樣本所包含的文字了。
所以解碼操作即指搜索算法:是指在解碼端通過搜索技術,尋找最優詞串的方法。
連續語音辨識中的搜索,就是尋找一個詞模型序列,以描述輸入語音訊號,從而得到詞解碼序列。搜索所依據的是對公式中的聲學模型打分,和語言模型打分。
在實際使用中,往往要依據經驗給語言模型加上一個高權重,並設置一個長詞懲罰分數。當今的主流解碼技術都是基於Viterbi搜索算法的,Sphinx也是。