MIT Builds Low-Power Artificial Intelligence Chip
For Smartphones
來源:智东西 作者:寓扬
隨著智慧音箱的火熱,以及背後語音互動生態的不斷走向成熟化,將會帶動越來越多的裝置語音化、智慧化,使語音真正成為人機互動的一個介面。
而在語音互動裝置中,語音晶片憑藉訂製化、低功耗、高能效、端智慧,以及成本優勢等地位越發重要,成為人與雲端「溝通」的橋樑。
在智慧語音市場,隨著亞馬遜、谷歌等網際網路巨頭公司的推動,僅僅是智慧音箱一個品類,今年的全球銷量預期有望達到3000萬台,並陸續湧現在各個國家,市場呈爆發之態。作為語音晶片市場最大的玩家聯發科以佔據了70%的市場佔有率,2017年語音晶片出貨量預計達到2000萬片以上。
小編透過調查梳理發現,對岸中國隨著語音互動的湧現,誕生了一個新的語音晶片行業,數十家公司參與其中,語音晶片的發展呈現初期通用組合晶片——語音晶片湧現——語音AI晶片蓄勢待發的趨勢。通過語音晶片發展的三階段以及數十家晶片公司的介紹,小編為你呈現語音晶片的崛起!
▲注以上為媒體針對中國不完全統計
綜述:語音晶片發展三階段
本文所講的語音晶片,側重於智慧語音裝置興起後,專門為語音互動場景打造的SoC晶片(晶片級系統,System on Chip),它兼具運算力和低功耗,支援多通道麥克風陣列介面,支援訊號處理演算法等。
在人機對話的語音互動中,語音辨識、語義理解、語音合成、任務執行等都是在雲端進行。而在終端側,語音晶片的作用是對智慧語音裝置,拾取的多通道聲音進行處理,並傳輸到雲端,並將回饋結果以語音的形式輸出。
如果說雲端是智慧語音裝置的大腦,那麼語音晶片就是連線人與「雲腦」的橋樑。
目前,智慧音箱的迅速發展,正成為語音晶片崛起的重要動力。結合產業鏈各方訊息,小編之前預測智慧音箱市場規模,在今年年底有望達到3000萬台。這意味著僅僅是智慧音箱的發展,就推動語音晶片市場達到3000萬量級,儘管與以億為計算單位的手機晶片無法相提並論,但作為一個新興品類,仍處於快速發展期。
在智慧音箱這個市場中,聯發科、德州儀器、科勝訊、全志科技、杭州國芯、晶晨科技、成都啟英泰倫等晶片廠商,都推出相關的語音晶片,且又以聯發科一家獨大,佔據智慧音箱約七成市場佔有率,粗略計算聯發科在2017年語音晶片銷量,將達2000萬片以上。
透過對目前市面上語音晶片的觀察,我們發現語音晶片有以下特點:
其一兼具運算能力和低功耗的考量,採用最適合做語音處理的CPU(中央處理器);
其二是具備高度整合性的語音SoC,支援多通道的麥克風陣列介面,整合Codec(多媒體數位訊號編解碼器)模組/DSP(數位訊號處理)模組,並且整合WiFi/藍芽模組等;
其三在語音演算法上支援回聲消除、噪聲抑制、聲源定位、語音增強等技術,或具備良好的音值調節功能;
其四端智慧化,整合神經網路單元,將部分雲端訓練好的智慧本地化工作。
透過小編近期對產業鏈的採訪以及梳理,根據語音互動的發展狀況,將語音晶片的發展歸納為三個階段,第一個階段為語音晶片過渡期,採用通用晶片組合方案;第二個階段為崛起期,語音晶片興起;第三個階段為語音晶片進化期,語音AI晶片湧現。
第一階段,大約2015年以前儘管智慧語音裝置,包括智慧音箱、遠場互動的智慧電視等都已出現,但在市場尚未起量的情況下,語音裝置採用的多是通用晶片+Codec晶片/DSP晶片等相結合的方式實現語音處理,如全志的R16晶片。
2015年到2017年之間,隨著智慧語音裝置市場規模進一步發展,專門用於智慧家庭或智慧音箱的語音晶片,開始陸續亮相,包括聯發科推出的MT8516晶片、科勝訊的CX20924/CX20921、Amlogic的A113、瑞芯微的RK3036/RK3229等。
此外,隨著智慧語音裝置的迅速發展,對於端智慧的需求也在顯現,語音AI晶片應運而生。端智慧是近兩年來AI領域大火的概念之一,指的是資料的採集、計算、決策都在前端裝置進行,優勢在於穩定、時延小、同時能夠保護使用者隱私等。如杭州國芯推出的GX8010和啟英泰倫推出的CI1006都屬於語音AI晶片。
前期:通用晶片組合搭配
在智慧語音裝置的市場早期階段,由於晶片研發漫長的週期(一般需要18~24個月),高昂的研發投入,因此在市場規模尚不大的情況下,市場並沒有專門的語音晶片,應用到智慧語音裝置中。
2010年6月微軟推出的Kinect體感周邊裝置、2012年三星推出的遠講語音電視、2014年秋亞馬遜推出的智慧音箱Echo,以及2015年京東&科大訊飛推出的叮咚音箱等,是智慧語音裝置的早期代表。
它們採用的多是通用晶片(AP晶片/平板晶片等)+Codec晶片/DSP晶片等組合的方式,由Codec晶片進行模擬訊號的數位訊號的抓換,DSP部分對數位訊號進行處理,包括回聲消除、噪聲抑制、語音降噪/增強等,使語音便於後端的語音辨識,再由通用晶片進行處理,傳輸到雲端提供語音處理的計算力支援。
以亞馬遜Echo為例,2014年秋天亞馬遜推出智慧音箱Echo,最初使用的是TI(德州儀器)的DM3725數位媒體處理器,該晶片之前主要應用在多媒體裝置、視訊機頂盒、遊戲終端等,在進行語音傳輸處理時,仍需要搭配Codec晶片。在早期的Ehco中,亞馬遜使用TI的DM3725(數位媒體處理器)+TI的ADC(類比數位轉換器)來實現。
▲德州儀器DM3725晶片
後來或許是處於成本以及其他考慮,亞馬遜的一些產品開始使用聯發科MT8563晶片,這款晶片同樣不是語音專用晶片。直到今年Q2,聯發科推出了MT8516才算真正意義上的語音晶片。
另外一個例子是中國早期智慧音箱的代表叮咚音箱,最初中國也沒有專用語音晶片,採用的是全志科技R16晶片+科勝訊Codec晶片的方式進行語音處理,而全志R16之前則是用於平板的晶片。
在語音互動場景的早期,智慧裝置並無太多銷量,即使看到了這一潛在機會,研發一款專用晶片的時間成本、投資成本都決定了在最初一段時間,智慧裝置需要使用通用晶片,或其他晶片作為過渡期。
中小語音晶片廠商湧現
隨著智慧語音裝置銷量不斷成長,典型的就是2016年以來,以亞馬遜Echo為代表的智慧音箱市場規模的不斷擴大,專用的語音晶片也開始出現,2016年又剛好是語音晶片興起最集中的一年。
其實早在2013年7月中國首顆專用語音晶片就誕生了,它由四川長虹和中科院聲學所付強(現為先聲互聯創始人)團隊共同研發。新研發出的長虹語音晶片的優勢,是在語音辨識的基礎上,融合了多方面的語音增強功能,包括語音降噪、回聲消除、波束形成等,支援低功耗喚醒,能夠實現遠場語音採集。可能因為四川長虹的一些原因,這款晶片在研發出後,並沒有投入生產,之後就不了了之。
2015年以後語音晶片就開始陸續興起,包括聯發科MT8516、科勝訊CX20924、晶晨半導體A113、瑞芯微RK3036、北京君正X1000等公司,如聯發科推出了MT8516應用在了阿里天貓精靈上,晶晨A113應用在了小米AI音箱上。
▲阿里天貓精靈主控板上使用的聯發科MT8516晶片
整體來說,這些語音晶片都是針對智慧音箱,以及智慧家庭場景打造的專用晶片,支援多通道麥克風陣列介面,採用適合做語音處理的CPU;在語音演算法上支援回聲消除、噪聲抑制、聲源定位、語音增強等技術,併兼具運算能力和低功耗的考量。
但有趣的是,除了聯發科外,都是一些中小晶片公司推出語音晶片,像高通、英特爾等巨頭晶片公司,並沒有推出語音晶片。考慮到聯發科過去做DVD的光碟機起家,多媒體一直是其核心技術,在語音晶片上跟進不足為奇。
而高通、英特爾等並未在語音晶片上跟進,一方面反應出相對於手機、電腦而言,語音晶片市場目前規模較小,並沒有引起巨頭玩家的重視;另一方面也反應出他們在語音晶片佈局上進展較慢,如高通在今年6月份還專門釋出了一個智慧語音平台,正是從另一方面彌補在語音晶片研發上的緩慢。
此外,小編還瞭解到,全志科技會在2018年初,推出一款專用的語音晶片,聯發科也會在明年推出更具競爭力的語音晶片。
語音AI晶片蓄勢待發
隨著華為麒麟970晶片,以及蘋果A11晶片的推出,AI晶片成為行業熱議的話題。所謂AI晶片也被稱為AI加速器或計算卡,即專門用於處理人工智慧應用中的,大量計算任務的模組(其他非計算任務仍由CPU負責),從而實現端側智慧。
目前無論是智慧音箱,還是其他智慧裝置,更多的智慧都是在雲端來實現,但雲端存在著語音互動「時延」的問題,對網路的需求限制了裝置的使用空間,以及由此帶來的資料與隱私危機。為了讓裝置使用場景不受侷限,使用者體驗更好,端側智慧以成為一種趨勢,語音AI晶片也隨之而來。
2016年以來,語音AI晶片也開始走進大家的視野。成都啟英泰倫在去年推出CI1006,杭州國芯在今年10月底推出GX8010,都是語音AI晶片。
▲杭州國芯GX8010晶片
對比語音晶片,語音AI晶片具備以下特點:首先語音AI晶片中整合了專用的AI處理器模組,用以對本地的機器學習演算法進行加速;
其二高度整合,語音AI晶片不但整合CPU、AI處理器,還會將DSP訊號處理、WiFi/藍芽等模組整合進去;
其三能夠實現端側智慧,將一些常用或者簡單的功能直接整合到本地,透過AI晶片進行本地計算,從而裝置可以在端側離線完成如聽音樂、日常問答及閒聊等任務,實現更快的互動能力。
再考慮到使用者體驗以及資料隱私等問題,更快的互動體驗,以及更多本地計算會是一種趨勢,隨著智慧語音場景的爆發, 語音AI晶片也會迅速發展。
但目前的AI晶片,更多的在於手機和視覺應用領域,一方面手機市場體量足夠龐大,另一方面視覺應用技術也相對成熟。而在語音領域,一方面語義理解技術短期內很難突破,另外智慧語音是一個新興市場,智慧音箱作為典型爆款產品,今年全球整體市場規模,也不過2500萬~3000萬台之間,而這些都導致了語音AI晶片進展相對緩慢。
聯發科副總經理暨家庭娛樂產品事業群總經理游人傑,曾對智慧語音的發展提出一個三階段論的觀點,他認為智慧語音的第一階段是智慧音箱的普及,第二階段是更多智慧語音裝置的出現,語音成為人機互動的介面,第三階段就是端側智慧,透過語音AI晶片,來實現更多本地計算,提供使用者更好的互動體驗。
不難看出,我們目前還處於第一階段,需要推動智慧音箱的普及,以及更多智慧裝置的出現,從而推動語音互動介面的到來。只有當語音成為一種互動介面,才意味著整個智慧語音市場的爆發,才會有更多的巨頭晶片廠商,以及中小晶片商湧入其中。
而針對當下智慧語音裝置所需的智慧化,游人傑談到,CPU本身可以做一些「輕」AI的功能,如果本地需要很強的AI能力,目前則會在語音晶片的基礎上,外接一個AI處理器來實現。此外游人傑也透露,聯發科語音AI晶片的推出尚需1~2年時間。
相比一款新型晶片研發的高昂成本,在對算力有很大需求的產品上,透過新增一個獨立的AI處理器模組,確實可以快速滿足產品端對AI能力的需求,並且緩解了晶片產品漫長的研發週期(一般18~24個月)。從時間來看,隨著智慧語音的興起,未來1~2年後可能將會是語音晶片爆發的高峰期。
語音晶片帶動新興行業
有分析認為,到2020年AI晶片市場規模將達到146.16億美元,約佔全球人工智慧市場規模12.18%。
隨著人工智慧的火熱,以GPU(圖形處理器) 、FPGA(現場可程式設計門陣列) 、ASIC(為專門目的而設計的積體電路)為代表的AI晶片類別,均將獲得快速發展,語音晶片/語音AI晶片,也會在這個過程中受益並爆發,在此過程中會誕生一個新興的語音晶片行業,以及一波語音晶片公司。
根據游人傑智慧語音發展的三階段論,目前我們還處於第一階段的智慧音箱普及期,先透過一款爆款產品,來引爆整個語音互動行業,並由此推動家庭場景、辦公場景等的語音智慧化,使語音成為人機互動的一個介面,才能真正推動語音晶片的爆發,以及演進到語音AI晶片。
僅僅是今年全球智慧音箱市場銷量,預計有望達到3000萬台,隨著語音互動進一步爆發,場景進一步開拓,智慧語音裝置將快速進入億級規模市場,可見無論是當下的語音晶片,還是即將到來的語音AI晶片,都將有廣闊的市場空間。
由於當下智慧語音市場規模相對較小,相比晶片研發的高成本投入,像高通、英偉達、英特爾等晶片巨頭,或是並不看好這塊市場,或是語音晶片研發進展緩慢,給予了更多中小晶片廠商發展的機會。
目前在對岸中國語音晶片行業,已湧現出數十家公司在這一領域「開疆擴土」,包括來自台灣的聯發科,以及中國本地的杭州國芯、全志科技、晶晨半導體、啟英泰倫等,既有晶片領域的大公司,針對智慧家庭、消費電子領域的中國晶片品牌,還有新興的創業公司。正是語音互動的興起,為他們在既有業務之外,提供了一個新的經濟成長點,並且隨著語音互動的爆發,這一領域甚至會誕生下一個巨頭晶片公司。
可以預見的是,2018年會有更多語音晶片的誕生,在未來1~2年,語音AI晶片也將進一步發展迎來爆發期。
結語:語音晶片的崛起
隨著語音互動裝置的誕生發展,晶片也經歷著從通用組合晶片,到語音晶片,再到語音AI晶片的演進。隨著語音互動的爆發,語音真正成為人機互動的介面,語音晶片也將成爆發之態。
0 comments:
張貼留言