MIT Builds Low-Power Artificial Intelligence Chip

For Smartphones

Home8 保全系統是一個很棒的基本保全系統，也很適合安裝在建築大樓裡的一個套房。安裝這個產品準沒錯!”

來源：智东西作者：寓扬

隨著智慧音箱的火熱，以及背後語音互動生態的不斷走向成熟化，將會帶動越來越多的裝置語音化、智慧化，使語音真正成為人機互動的一個介面。

而在語音互動裝置中，語音晶片憑藉訂製化、低功耗、高能效、端智慧，以及成本優勢等地位越發重要，成為人與雲端「溝通」的橋樑。

在智慧語音市場，隨著亞馬遜、谷歌等網際網路巨頭公司的推動，僅僅是智慧音箱一個品類，今年的全球銷量預期有望達到3000萬台，並陸續湧現在各個國家，市場呈爆發之態。作為語音晶片市場最大的玩家聯發科以佔據了70%的市場佔有率，2017年語音晶片出貨量預計達到2000萬片以上。

小編透過調查梳理發現，對岸中國隨著語音互動的湧現，誕生了一個新的語音晶片行業，數十家公司參與其中，語音晶片的發展呈現初期通用組合晶片——語音晶片湧現——語音AI晶片蓄勢待發的趨勢。通過語音晶片發展的三階段以及數十家晶片公司的介紹，小編為你呈現語音晶片的崛起!

　　▲注以上為媒體針對中國不完全統計

綜述：語音晶片發展三階段

本文所講的語音晶片，側重於智慧語音裝置興起後，專門為語音互動場景打造的SoC晶片(晶片級系統，System on Chip)，它兼具運算力和低功耗，支援多通道麥克風陣列介面，支援訊號處理演算法等。

在人機對話的語音互動中，語音辨識、語義理解、語音合成、任務執行等都是在雲端進行。而在終端側，語音晶片的作用是對智慧語音裝置，拾取的多通道聲音進行處理，並傳輸到雲端，並將回饋結果以語音的形式輸出。

如果說雲端是智慧語音裝置的大腦，那麼語音晶片就是連線人與「雲腦」的橋樑。

目前，智慧音箱的迅速發展，正成為語音晶片崛起的重要動力。結合產業鏈各方訊息，小編之前預測智慧音箱市場規模，在今年年底有望達到3000萬台。這意味著僅僅是智慧音箱的發展，就推動語音晶片市場達到3000萬量級，儘管與以億為計算單位的手機晶片無法相提並論，但作為一個新興品類，仍處於快速發展期。

在智慧音箱這個市場中，聯發科、德州儀器、科勝訊、全志科技、杭州國芯、晶晨科技、成都啟英泰倫等晶片廠商，都推出相關的語音晶片，且又以聯發科一家獨大，佔據智慧音箱約七成市場佔有率，粗略計算聯發科在2017年語音晶片銷量，將達2000萬片以上。

透過對目前市面上語音晶片的觀察，我們發現語音晶片有以下特點：

其一兼具運算能力和低功耗的考量，採用最適合做語音處理的CPU(中央處理器)；

其二是具備高度整合性的語音SoC，支援多通道的麥克風陣列介面，整合Codec(多媒體數位訊號編解碼器)模組/DSP(數位訊號處理)模組，並且整合WiFi/藍芽模組等；

其三在語音演算法上支援回聲消除、噪聲抑制、聲源定位、語音增強等技術，或具備良好的音值調節功能；

其四端智慧化，整合神經網路單元，將部分雲端訓練好的智慧本地化工作。

透過小編近期對產業鏈的採訪以及梳理，根據語音互動的發展狀況，將語音晶片的發展歸納為三個階段，第一個階段為語音晶片過渡期，採用通用晶片組合方案；第二個階段為崛起期，語音晶片興起；第三個階段為語音晶片進化期，語音AI晶片湧現。

第一階段，大約2015年以前儘管智慧語音裝置，包括智慧音箱、遠場互動的智慧電視等都已出現，但在市場尚未起量的情況下，語音裝置採用的多是通用晶片+Codec晶片/DSP晶片等相結合的方式實現語音處理，如全志的R16晶片。

2015年到2017年之間，隨著智慧語音裝置市場規模進一步發展，專門用於智慧家庭或智慧音箱的語音晶片，開始陸續亮相，包括聯發科推出的MT8516晶片、科勝訊的CX20924/CX20921、Amlogic的A113、瑞芯微的RK3036/RK3229等。

此外，隨著智慧語音裝置的迅速發展，對於端智慧的需求也在顯現，語音AI晶片應運而生。端智慧是近兩年來AI領域大火的概念之一，指的是資料的採集、計算、決策都在前端裝置進行，優勢在於穩定、時延小、同時能夠保護使用者隱私等。如杭州國芯推出的GX8010和啟英泰倫推出的CI1006都屬於語音AI晶片。

前期：通用晶片組合搭配

在智慧語音裝置的市場早期階段，由於晶片研發漫長的週期(一般需要18~24個月)，高昂的研發投入，因此在市場規模尚不大的情況下，市場並沒有專門的語音晶片，應用到智慧語音裝置中。

2010年6月微軟推出的Kinect體感周邊裝置、2012年三星推出的遠講語音電視、2014年秋亞馬遜推出的智慧音箱Echo，以及2015年京東&科大訊飛推出的叮咚音箱等，是智慧語音裝置的早期代表。

它們採用的多是通用晶片(AP晶片/平板晶片等)+Codec晶片/DSP晶片等組合的方式，由Codec晶片進行模擬訊號的數位訊號的抓換，DSP部分對數位訊號進行處理，包括回聲消除、噪聲抑制、語音降噪/增強等，使語音便於後端的語音辨識，再由通用晶片進行處理，傳輸到雲端提供語音處理的計算力支援。

以亞馬遜Echo為例，2014年秋天亞馬遜推出智慧音箱Echo，最初使用的是TI(德州儀器)的DM3725數位媒體處理器，該晶片之前主要應用在多媒體裝置、視訊機頂盒、遊戲終端等，在進行語音傳輸處理時，仍需要搭配Codec晶片。在早期的Ehco中，亞馬遜使用TI的DM3725(數位媒體處理器)+TI的ADC(類比數位轉換器)來實現。

▲德州儀器DM3725晶片

後來或許是處於成本以及其他考慮，亞馬遜的一些產品開始使用聯發科MT8563晶片，這款晶片同樣不是語音專用晶片。直到今年Q2，聯發科推出了MT8516才算真正意義上的語音晶片。

另外一個例子是中國早期智慧音箱的代表叮咚音箱，最初中國也沒有專用語音晶片，採用的是全志科技R16晶片+科勝訊Codec晶片的方式進行語音處理，而全志R16之前則是用於平板的晶片。

在語音互動場景的早期，智慧裝置並無太多銷量，即使看到了這一潛在機會，研發一款專用晶片的時間成本、投資成本都決定了在最初一段時間，智慧裝置需要使用通用晶片，或其他晶片作為過渡期。

中小語音晶片廠商湧現

隨著智慧語音裝置銷量不斷成長，典型的就是2016年以來，以亞馬遜Echo為代表的智慧音箱市場規模的不斷擴大，專用的語音晶片也開始出現，2016年又剛好是語音晶片興起最集中的一年。

其實早在2013年7月中國首顆專用語音晶片就誕生了，它由四川長虹和中科院聲學所付強(現為先聲互聯創始人)團隊共同研發。新研發出的長虹語音晶片的優勢，是在語音辨識的基礎上，融合了多方面的語音增強功能，包括語音降噪、回聲消除、波束形成等，支援低功耗喚醒，能夠實現遠場語音採集。可能因為四川長虹的一些原因，這款晶片在研發出後，並沒有投入生產，之後就不了了之。

2015年以後語音晶片就開始陸續興起，包括聯發科MT8516、科勝訊CX20924、晶晨半導體A113、瑞芯微RK3036、北京君正X1000等公司，如聯發科推出了MT8516應用在了阿里天貓精靈上，晶晨A113應用在了小米AI音箱上。

　　▲阿里天貓精靈主控板上使用的聯發科MT8516晶片

整體來說，這些語音晶片都是針對智慧音箱，以及智慧家庭場景打造的專用晶片，支援多通道麥克風陣列介面，採用適合做語音處理的CPU；在語音演算法上支援回聲消除、噪聲抑制、聲源定位、語音增強等技術，併兼具運算能力和低功耗的考量。

但有趣的是，除了聯發科外，都是一些中小晶片公司推出語音晶片，像高通、英特爾等巨頭晶片公司，並沒有推出語音晶片。考慮到聯發科過去做DVD的光碟機起家，多媒體一直是其核心技術，在語音晶片上跟進不足為奇。

而高通、英特爾等並未在語音晶片上跟進，一方面反應出相對於手機、電腦而言，語音晶片市場目前規模較小，並沒有引起巨頭玩家的重視；另一方面也反應出他們在語音晶片佈局上進展較慢，如高通在今年6月份還專門釋出了一個智慧語音平台，正是從另一方面彌補在語音晶片研發上的緩慢。

此外，小編還瞭解到，全志科技會在2018年初，推出一款專用的語音晶片，聯發科也會在明年推出更具競爭力的語音晶片。

語音AI晶片蓄勢待發

隨著華為麒麟970晶片，以及蘋果A11晶片的推出，AI晶片成為行業熱議的話題。所謂AI晶片也被稱為AI加速器或計算卡，即專門用於處理人工智慧應用中的，大量計算任務的模組(其他非計算任務仍由CPU負責)，從而實現端側智慧。

目前無論是智慧音箱，還是其他智慧裝置，更多的智慧都是在雲端來實現，但雲端存在著語音互動「時延」的問題，對網路的需求限制了裝置的使用空間，以及由此帶來的資料與隱私危機。為了讓裝置使用場景不受侷限，使用者體驗更好，端側智慧以成為一種趨勢，語音AI晶片也隨之而來。

2016年以來，語音AI晶片也開始走進大家的視野。成都啟英泰倫在去年推出CI1006，杭州國芯在今年10月底推出GX8010，都是語音AI晶片。

　　▲杭州國芯GX8010晶片

對比語音晶片，語音AI晶片具備以下特點：首先語音AI晶片中整合了專用的AI處理器模組，用以對本地的機器學習演算法進行加速；

其二高度整合，語音AI晶片不但整合CPU、AI處理器，還會將DSP訊號處理、WiFi/藍芽等模組整合進去；

其三能夠實現端側智慧，將一些常用或者簡單的功能直接整合到本地，透過AI晶片進行本地計算，從而裝置可以在端側離線完成如聽音樂、日常問答及閒聊等任務，實現更快的互動能力。

再考慮到使用者體驗以及資料隱私等問題，更快的互動體驗，以及更多本地計算會是一種趨勢，隨著智慧語音場景的爆發，語音AI晶片也會迅速發展。

但目前的AI晶片，更多的在於手機和視覺應用領域，一方面手機市場體量足夠龐大，另一方面視覺應用技術也相對成熟。而在語音領域，一方面語義理解技術短期內很難突破，另外智慧語音是一個新興市場，智慧音箱作為典型爆款產品，今年全球整體市場規模，也不過2500萬~3000萬台之間，而這些都導致了語音AI晶片進展相對緩慢。

聯發科副總經理暨家庭娛樂產品事業群總經理游人傑，曾對智慧語音的發展提出一個三階段論的觀點，他認為智慧語音的第一階段是智慧音箱的普及，第二階段是更多智慧語音裝置的出現，語音成為人機互動的介面，第三階段就是端側智慧，透過語音AI晶片，來實現更多本地計算，提供使用者更好的互動體驗。

不難看出，我們目前還處於第一階段，需要推動智慧音箱的普及，以及更多智慧裝置的出現，從而推動語音互動介面的到來。只有當語音成為一種互動介面，才意味著整個智慧語音市場的爆發，才會有更多的巨頭晶片廠商，以及中小晶片商湧入其中。

而針對當下智慧語音裝置所需的智慧化，游人傑談到，CPU本身可以做一些「輕」AI的功能，如果本地需要很強的AI能力，目前則會在語音晶片的基礎上，外接一個AI處理器來實現。此外游人傑也透露，聯發科語音AI晶片的推出尚需1~2年時間。

相比一款新型晶片研發的高昂成本，在對算力有很大需求的產品上，透過新增一個獨立的AI處理器模組，確實可以快速滿足產品端對AI能力的需求，並且緩解了晶片產品漫長的研發週期(一般18~24個月)。從時間來看，隨著智慧語音的興起，未來1~2年後可能將會是語音晶片爆發的高峰期。

語音晶片帶動新興行業

有分析認為，到2020年AI晶片市場規模將達到146.16億美元，約佔全球人工智慧市場規模12.18%。

隨著人工智慧的火熱，以GPU(圖形處理器) 、FPGA(現場可程式設計門陣列) 、ASIC(為專門目的而設計的積體電路)為代表的AI晶片類別，均將獲得快速發展，語音晶片/語音AI晶片，也會在這個過程中受益並爆發，在此過程中會誕生一個新興的語音晶片行業，以及一波語音晶片公司。

根據游人傑智慧語音發展的三階段論，目前我們還處於第一階段的智慧音箱普及期，先透過一款爆款產品，來引爆整個語音互動行業，並由此推動家庭場景、辦公場景等的語音智慧化，使語音成為人機互動的一個介面，才能真正推動語音晶片的爆發，以及演進到語音AI晶片。

僅僅是今年全球智慧音箱市場銷量，預計有望達到3000萬台，隨著語音互動進一步爆發，場景進一步開拓，智慧語音裝置將快速進入億級規模市場，可見無論是當下的語音晶片，還是即將到來的語音AI晶片，都將有廣闊的市場空間。

由於當下智慧語音市場規模相對較小，相比晶片研發的高成本投入，像高通、英偉達、英特爾等晶片巨頭，或是並不看好這塊市場，或是語音晶片研發進展緩慢，給予了更多中小晶片廠商發展的機會。

目前在對岸中國語音晶片行業，已湧現出數十家公司在這一領域「開疆擴土」，包括來自台灣的聯發科，以及中國本地的杭州國芯、全志科技、晶晨半導體、啟英泰倫等，既有晶片領域的大公司，針對智慧家庭、消費電子領域的中國晶片品牌，還有新興的創業公司。正是語音互動的興起，為他們在既有業務之外，提供了一個新的經濟成長點，並且隨著語音互動的爆發，這一領域甚至會誕生下一個巨頭晶片公司。

可以預見的是，2018年會有更多語音晶片的誕生，在未來1~2年，語音AI晶片也將進一步發展迎來爆發期。

結語：語音晶片的崛起

隨著語音互動裝置的誕生發展，晶片也經歷著從通用組合晶片，到語音晶片，再到語音AI晶片的演進。隨著語音互動的爆發，語音真正成為人機互動的介面，語音晶片也將成爆發之態。

但與此同時，語音與視覺也將會走向融合，畢竟多元的互動方式才更符合人性的體驗。在語音晶片崛起後，「語音+螢幕」相結合的互動方式，也是業界更加認可的一種趨勢。