Neural Network Learns to Generate Voice (RNN/LSTM)
來源「聲學在線」,作者茄子
亞馬遜的Echo大賣掀起了一股語音智慧的熱潮,語音交互技術成為炙手可熱的時代寵兒。在日新月異的科技領域,眼看則人工智慧將要引領一番新的革命,互聯網巨頭和科技創業公司都紛紛入場。
新時代的商業規則蘊含著新的機遇,對於雙方而言,這都是一次重新洗牌的最佳窗口期。
什麼是語音開放平台,及何為開放?
這一年來,幾乎語音行業內的大小公司都在做一件事,那就是試圖建立由自己主導的語音生態產業鏈。在這個產業鏈中,產品製造商,技術服務商,平台提供商和內容服務商組成整個產業鏈的生態。
可以說,誰的生態系統最完善,未來誰就將分得更大的市場佔有率。大勢當前,幾乎所有的語音技術公司,都開放了其智慧語音平台,給硬體開發者,應用技能開發者提供了語音交互能力,也招徠更多的玩家,進入到他們創建的生態系統之中。
各大語音平台比較
開放平台的主要功能,就是賦予硬體或技能應用獲得「能聽會說,更智體」的能力。目前,各大科技公司都紛紛開放語音能力,意欲吸引更多的玩家入場,下文筆者將詳細分析比較各大智體語音開放平台。
BAT巨頭
百度DuerOS開放平台
DuerOS是百度推出的對話式人工智慧操作系統,即智慧語音交互平台。DuerOS的技術架構包含「對話服務」和「技能框架」兩大基礎協議。兩大協議連通起來的對話核心系統、智慧設備開放平台和技能開放平台,構成了完整DuerOS的智慧生態系統。
圖為DuerOS 2.0系統構架
智慧設備開放平台面向傳統硬體廠商,和開發者輸出軟硬兼備的多層次解決方案,包括個人版、輕量版、標準版、參考設計等多樣化解決方案,能夠低成本、方便靈活地滿足各個類型廠商和開發者,不同層次的需求。
例如,軟硬一體化的智慧語音交互開發解決方案Sound Pi,整合全方向喚醒、聲源測向、定向拾音、噪聲抑制、混響消除、回聲抵消、遠場語音辨識、語義理解、語音播報等多項技術。
技能開放平台擁有豐富優質的AI內容資源,包括自有的10大類、100余種原生對話技能,支持接入第三方資源和內容,如音樂、有聲、新聞、娛樂等,顯著降低了開發成本。
DuerOS的核心層是對話系統,它之所以所以能夠有好的聽清、聽懂效果,主要歸功於三個方面:數據多、技術深、內容廣。所謂的數據指的是百度擁有龐大的知識圖譜、需求圖譜、網頁圖譜、地理資訊圖譜及用戶畫像,技術則指的是十餘年裡,百度所積累的自然語言處理、對話控制、對話管理、自然語言生成、搜索等技術,而內容指的是百度擁有的超過10000個資訊垂類內容。
阿里AliGenie語音開放平台
AliGenie語音開放平台是由阿里人工智慧實驗室(AI Labs)推出,主要包括精靈技能市場、硬體開放平台、行業解決方案三大部分,全面賦能智慧家庭、智慧製造、智慧零售、酒店、航空等服務場景。
圖為 AliGenie 語音開發者基本架構
面向硬體品牌商和方案商,例如比如音箱、電視、玩具、OTT盒子、投影機和汽車等,AliGenie開放平台將提供語音交互技術、自然語言處理能力、雲服務系統、開發工具包和一站式軟硬體及量化標準。
針對個人和行業應用開發者,將提供包括語音喚醒、語音辨識、聲紋辨識、語意理解、語音合成五大核心語音能力的開發者套件,內容提供者使用內容接入套件、即可快速創建語音技能;應用開發者使用自定義技能組件,可訂製各類技能。
阿里巴巴推出行業的語音解決方案,自然帶有阿里的零售服務業基因。對於線下零售、航空候機、酒店客房等應用場景,AliGenie開放平台推出了垂直行業解決方案,例如店鋪精靈,酒店精靈和航旅精靈等,這些個性化的語音助手將成為服務業的得力助手。
騰訊雲小微語音開放平台
騰訊雲小微於2017年騰訊「雲+未來」峰會上正式發佈,分為三個部分,Skill開放平台,硬體開放平台和小微客服機器人。
圖為騰訊雲小微基本架構
騰訊雲小微的Skill,是指它為各種各樣的設備,提供智慧語音對話的能力和內容;硬體開放平台是一個能將語音交互能力,輸出給第三方硬體廠商的平台,即雲小微將語音喚醒、語音辨識、語義分析、信令收發,以及眾多的內置資源及服務,如音樂、天氣、導航等核心能力提供給智慧音箱、智慧電視、智慧玩具、OTT盒子等傳統硬體領域的合作夥伴,實現用戶與設備、設備與服務之間的語音聯動能力;小微客戶機器人可以幫助用戶提高效率,降低人力成本。
用戶需要導入業務領域知識庫資訊,建立機器人知識資訊基礎,透過逐步調優,使得機器人機器人實現常見問題的自動應答。
作為網路社交的巨頭,騰訊不僅擁有海量的影像、音樂的內容資源,還擁有雲端億萬用戶的資源,騰訊雲小微從一開始就拿到一副好牌。如何在平台之爭中勝出,就且看鵝廠的戰略策略了。
傳統語音行業的科技公司
科大訊飛致力於智慧語音,及人工智慧核心研究和產業化十八年,是對岸中國最大的智慧語音上市公司。
訊飛開放平台,致力於為開發者打造一站式智慧人機交互解決方案。目前,開放平台以「雲+端」的形式,向開發者提供語音合成、語音辨識、語音喚醒、語義理解、人臉辨識、個性化彩鈴、行動應用分析等多項服務。
思必馳的DUI(Dialogue User Interface)開放平台是以D-對話為核心的一站式交互訂製平台,覆蓋多應用場景,和第三方內容資源,內置語音技能庫,為物聯網、行動網路和互聯網的開發者,提供單項技術服務,和一站式對話交互訂製解決方案。
作為一個全鏈路智慧對話開放平台,DUI提供的,不僅是基於思必馳智慧語音語言技術的對話功能,更包括開發者在訂製對話系統時,所需要的綜合服務,如GUI訂製、版本管理、私有雲佈署等,讓開發者可以完全依據需求,隨心所欲訂製對話交互系統。DUI開放平台擁有青囊系統、天機系統、紫微系統、玲瓏系統四大系統。
雲知聲的開放者平台以方案為入口,基於特定應用場景,打造智慧語音交互應用的模版。例如智慧電視方案、智慧汽車方案、音樂搜索方案等。為開發者提供一個智慧語音交互系統的完整,而便捷的開發環境。
這些方案類似於一個個開發模版,開發者創建應用時,可以為自己的應用選擇合適的方案,開發者的應用就獲得了該方案中,所配置的技術服務和內容服務。
雲知聲是一家專業的語音交互提供商,在行動網路、智慧家庭、可穿戴設備、車載導航、醫療、教育、呼叫中心等領域有豐富的經驗。
創業公司
出門問問推出的AI開放平台,其通用版本也是向開發者和硬體廠商免費開放的。非申請或邀請制,只需登陸平台網站註冊,就可立即下載集成SDK,擁有全棧式語音交互技術整合,平台工具操作簡單,適配多場景,且產品整合廠商,可根據自身產品需求,自主針對各自產品進行個性化的功能開發,出門問問通過產品獲得流量、數據,而產品則能獲得AI技術賦能。
Rokid的開放平台語音服務,包含Rokid技能開發工具,和Rokid語音接入。Rokid技能開發工具,幫助開發者為所有搭載Rokid開放服務的設備開發有趣的技能,實現用戶各式各樣的語音交互需求。
Rokid語音接入,能夠為配有麥克風和揚聲器的聯網硬體設備開啓Rokid開放服務所提供的智慧、可擴展的語音能力。並且,其100%的硬體技術和70%的代碼將全部開源。
技術賽道難分伯仲 投資研究構建生態
語音能力的技術指標是什麼?可以說語音辨識率的高低,是決定用戶體驗的最直觀的一項,而各平台的語音辨識率,都能達到90%以上,因此已經難以成為評判好壞的決定性因素。
在傳統的技術領域中,專業性具有不可替代的統治地位,但現在的語音辨識領域,已不是一枝獨秀的時代。
科大訊飛、雲知聲、思必馳是幾家專注於語音辨識技術的公司,依靠垂直語音技術領域,長期盤踞主流語音市場,擁有先發優勢。這些科技創業公司,在語音領域深耕多年,在業界有多年的人脈和資源的累積。
人工智慧時代,智慧語音作為AI最先落地的突破口,迅速成為全球互聯網巨頭關注的焦點和角逐的戰場,所以,科大訊飛、雲知聲、思必馳也紛紛轉為AI全棧公司。當然,也有類似聲智科技、三角獸等語音技術公司,堅持定位技術方案提供商。
隨著BAT進軍AI語音領域,轉為全棧的語音技術創業公司、傳統語音技術公司的不可替代性,也受到了不可忽視的打擊。作為互聯網公司的BAT雖然入場較晚,但是不缺少財力的投入,並且憑借著互聯網行業的大數據等資源發展自家的人工智慧技術,迅速搶佔智慧語音市場。
其中百度最早佈局,以「All in AI」的戰略思維,集中火力發展AI產業,今年全資收購KITT.AI,把KITT.AI的語音能力和自然語言處理能力,融入到百度平台中;阿里也不甘落後,照搬亞馬遜模式,先推出天貓精靈,接著開放AliGenie開發者平台;騰訊坐擁內容與社交用戶資源,一直以後後之勢切人市場,騰訊雲小微平台的底層技術,來自於擁有龐大數據的微信。
在語音產業的技術賽道上,目前,很難說哪一家擁有壓倒性的技術優勢。從這個角度說,讓更多的開發者進入到自己的生態系統之中,也是開放平台的一個重要預期。除了構建平台,各大公司也將投資研究作為戰略佈局的一項重要內容。
比如說,百度發佈普羅米修斯計劃,將開放超大規模對話式AI數據集、鼓勵跨學科合作,並透過100萬美元的基金,用於鼓勵和培養對話式AI領域的優秀項目和人才;阿里投資達摩院佈局科研市場;思必馳也表示將撥出2億基金,用以扶持平台上優秀的開發者、優秀應用案例和創業項目。
結語:在智慧語音領域,評價的指標已經變得非常多元,實力的劃分也廣受爭議。在智慧領域內的第一梯隊,究竟是具有先發優勢科技公司?還是佔據著雄厚資本和資源的商業巨頭?也許只有時間才能給我們答案。
沒有留言:
張貼留言