.2019 年,這 8 款自動語音辨識方案你應該瞭解!

Far Field Speech Recognition: Adopted with ASR such as Amazon Alexa




來源:infoq.cn 作者:Derrick Mwiti



2019年,这8款自动语音识别方案你应该了解!

基於電腦的人類語音辨識與處理能力,被統稱為語音辨識。目前,這項技術被廣泛用於驗證系統中的某些用戶,以及面向谷歌智慧助手、Siri 或者 Cortana 等智慧設備下達指令。
從本質上講,我們透過儲存人聲與訓練自動語音辨識系統,以發現語音當中的詞彙與表達模式。在本文中,我們將一同瞭解幾篇旨在利用機器學習與深度學習技術,解決這一難題的重要論文。

Deep Speech 1: 實現端到端語音辨識的向上擴展
本文作者來自百度研究所的矽谷人工智慧實驗室。Deep Speech 1 不需要音素字典,而是使用經過優化的 RNN 訓練系統,旨在利用多個 GPU 實現性能提升。該模型在 Switchboard 2000 Hub5 數據集上,實現 16% 的錯誤率。之所以使用 GPU,是因為其需要投入數千小時進行模型數據訓練。此外,該模型還能夠有效對嘈雜的語音採集環境。

Deep Speech: Scaling up end-to-end speech recognition

Deep Speech 的主要構建單元,是一套遞歸神經網路,其已經完成訓練,能夠攝取語音頻譜圖,並生成英文文本轉錄結果。RNN 的目的在於將輸入序列,轉換為轉錄後的字符概率序列。

RNN 擁有五層隱藏單元層,前三層為非遞歸性質。在各個時間步中,這些非遞歸層分別處理獨立數據。第四層為具有兩組隱藏單元的雙向遞歸層。其中一組進行正向遞歸,另一組則為反向遞歸。在預測完成之後,模型會計算 connectionist temporal classification(CTC)損失函數以衡量預測誤差。訓練則利用 Nesterov 的加速梯度法完成。


2019年,这8款自动语音识别方案你应该了解!

為了減少訓練期間的方差,作者們在前饋層當中,添加了 5% 到 10% 的棄用率。然而,這並不會影響到遞歸隱藏激活函數。此外,作者還在系統當中,整合了一套 N-gram 語言醋,這是因為 N-gram 模型,能夠輕鬆利用大規模,未標記文本語料庫進行訓練。下圖所示為 RNN 轉錄示例:

2019年,这8款自动语音识别方案你应该了解!

下圖為本模型與其它模型的性能比較結果:

2019年,这8款自动语音识别方案你应该了解!

Deep Speech 2英語與國語的端到端語音辨識
在 Deep Speech 的第二次更新換代當中,作者利用端到端深度學習方法,辨識國語與英語語音。

此次提出的模型能夠處理不同的語言,以及其中的重音,且繼續保持對嘈雜環境的適應能力。作者利用高性能計算(HPC)技術實現了 7 倍於上代模型的速度增量。在他們的數據中心內,作者們利用 GPU 實現 Batch Dispatch。

Deep Speech 2: End-to-End Speech Recognition in English and Mandarin

其英語語音系統,利用 11940 個小時的語音音頻訓練而成,而國語系統則使用 9400 小時的語音音頻訓練而成。在訓練過程中,作者們利用數據合成,來進一步增加數據量。

這套模型中使用的架構多達 11 層,由雙向遞歸層與卷積層組成。該模型的計算能力,比 Deep Speech 1 快 8 倍。作者利用 Batch Normalization 進行優化。

在激活函數方面,作者們使用了限幅整流線性(ReLU)函數。從本質上講,這種架構與 Deep Speech 1 類似。該架構是一套經過訓練的遞歸神經網路,用於攝取語音音頻譜圖與輸出文本轉錄。此外,他們還利用 CTC 損失函數進行模型訓練。


2019年,这8款自动语音识别方案你应该了解!

下圖所示,為各種卷積層排列情況下的單詞錯誤率比較結果。

2019年,这8款自动语音识别方案你应该了解!

下圖所示為 Deep Speech 1 與 Deep Speech 2 的,單詞錯誤率比較結果。Deep Speech 2 的單詞錯誤率明顯更低。

2019年,这8款自动语音识别方案你应该了解!

作者們使用《華爾街日報》新聞文章,組成的兩套測試數據集,對系統進行了基準測試。該模型在四分之三的情況下,實現了優於人類的單詞錯誤率。此外,系統中還使用到 LibriSpeech 語料庫。

利用雙向遞歸 DNN 實現首過大詞彙量連續語音辨識
本篇論文的作者來自史丹佛大學。在本文中,他們提出一種利用主意模型,與神經網路執行首過大詞彙量語音辨識的技術。

First-Pass Large Vocabulary Continuous Speech Recognition using Bi-Directional Recurrent DNNs

利用 connectionist temporal classification(CTC)損失函數訓練神經網路。CTC 使得作者們得以訓練出一套神經網路,並在預測《華爾街日報》LVCSR 語料庫中的語言字符序列時,獲得低於 10% 的字符錯誤率(CER)。

他們將 N-gram 語言模型,與 CTC 訓練而成的神經網路相結合。該模型的架構,為反應擴散神經網路(RDNN)。利用整流器非線性的一套修改版本,新系統修剪了大型激活函數,以防止其在網路訓練期間發生發散。以下為 RDNN 得出的字符錯誤率結果。

2019年,这8款自动语音识别方案你应该了解!

人與機器間英語會話電話語音辨識
來自 IBM 研究院的作者們,希望驗證目前的語音辨識技術,是否已經能夠與人類相媲美。他們還在論文中提出了一套聲學與語言建模技術。

聲學側涉及三大模型:其一為具有多個特徵輸入的 LSTM,其二為利用說話者,對抗性多任務學習,訓練而成的 LSTM,其三則為具有 25 個卷積層的殘差網路。

該語言模型利用字符 LSTM ,與卷積 WaveNet 式語言模型。作者們的英語會話電話 LVCSR 系統,在 Switchboard/CallHome 子集(SWB/CH)上,分別獲得了 5.5%/10.3% 的單詞錯誤率。

English Conversational Telephone Speech Recognition by Humans and Machines

本文使用的架構,包括 4 到 6 個雙向層,每層 1024 個單;外加一個線性瓶頸層,包含 256 個單元;一個輸出層,包含 32000 個單元。訓練則涵蓋 14 次交叉熵,而後使用強化 MMI(最大互資訊)標準,進行 1 輪隨機梯度下降(SGD)序列訓練。

作者們透過添加交叉熵損失函數的擴展梯度,來實現平滑效果。LSTM 利用 Torch 配合 CuDNN 5.0 版本後端實現。各模型的交叉熵訓練,則在單一英偉達 K80 GPU 設備上完成,且每輪 700 M 樣本訓練週期約為兩周。

2019年,这8款自动语音识别方案你应该了解!

對於卷積網路聲學建模,作者們訓練了一套殘差網路。下表所示為幾種 ResNet 架構,及其在測試數據上的實際性能。

2019年,这8款自动语音识别方案你应该了解!

下圖所示為殘差網路,如何適應聲學建模。該網路包含 12 個殘差單元,30 個權重層,以及 6710 萬個參數,利用 Nesterov 加速梯度進行訓練,學習率為 0.03,動量為 0.99。

CNN 同樣採用 Torch ,配合 cuDNN 5.0 版本後端。交叉熵訓練週期為 80 天,涉及 15 億個樣本,採用一塊英偉達 K80 GPU,每 GPU 64 個批次。

2019年,这8款自动语音识别方案你应该了解!

透過下圖,可以看到 LSTM 與 ResNets 的錯誤率:

2019年,这8款自动语音识别方案你应该了解!
2019年,这8款自动语音识别方案你应该了解!

作者們還嘗試了四種 LSTM 語言模型,分別為 WordLSTM、Char-LSTM、Word-LSTM-MTL 以及 Char-LSTM-MTL。下圖所示為這四種模型的架構。

其中 Word-LSTM 擁有一個字嵌入層,兩個 LSTM 層,一個全連接層,以及一個 softmax 層。Char-LSTM 則擁有一個用於透過字符序列,估算嵌入的 LSTM 層。Word-LSTM 與 Char-LSTM 都使用交叉熵損失函數,來預測下一個單詞。顧名思義,Word-LSTM-MTL 與 Char-LSTM-MTL 當中,引入了多任務學習(MTL)機制。


WordDCC 由一個單詞嵌入層、多個具有擴張的因果卷積層、卷積層、完全連接層、softmax 層,以及殘差連接共同組成。

2019年,这8款自动语音识别方案你应该了解!

Wav2Letter++: 最快的開源語音辨識系統
來自 Facebook AI Research 的作者們,提出一套開源深度學習語音辨識框架——Wav2Letter。該框架由 C++ 編寫,並使用 ArraFire 張量庫。

wav2letter++: The Fastest Open-source Speech Recognition System

之所以使用 ArrayFire 張量庫,是因為它能夠在多個後端上執行,包括 CUDA GPU 後端與 CPU 後端,從而顯著提升執行速度。與其它 C++ 張量庫相比,在 ArrayFire 中建構及使用數組,也相對更容易。圖左所示為如何建構及訓練,具有二進制交叉熵損失函數的單層 MLP(多層感知器)。


2019年,这8款自动语音识别方案你应该了解!

該模型利用《華爾街日報》(WSJ)數據集進行了測試,共使用兩種類型的神經網路架構,進行訓練時間評估:遞歸,包含 3000 萬個參數;純卷積,包含 1 億個參數。下圖所示為該模型,在 LibreSpeech 上的單詞錯誤率。

2019年,这8款自动语音识别方案你应该了解!

SpecAugment: 一種用於自動語音辨識的簡單數據增強方法
Google Brain 的作者們,預設了一種簡單的語音辨識數據增強方法,並將其命名為 SpecAugment。該方法能夠對輸入音頻的對數譜圖進行操作。

在 LibreSpeech test-other 集中,作者們在無需語言模型的前提下,實現了 6.85% 的 WER(單詞錯誤率),而使用語言模型後, WER 進一步改善至 5.8%。對於 Switchboard,該方法在 Switchboard/CallHome 上,分別得到 7.2%/14.6% 的單詞錯誤率。

SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition


利用這種方法,作者們得以訓練出一套,名為 https://arxiv.org/abs/1508.01211 \t _blank">Listen, Attend and Spell (LAS) 的端到端 ASR(自動語音辨識)網路。其中使用到的數據增強策略包括  time warping https://journals.sagepub.com/doi/10.1177/1084713808326455 \t_blank">frequencymasking以及https://journals.sagepub.com/doi/10.1177/1084713808326455 \t _blank">time masking 等等。


2019年,这8款自动语音识别方案你应该了解!


在這套 LAS 網路當中,輸入對數譜圖被傳遞至一個雙層卷積神經網路(CNN)當中,且步長為 2。該 CNN 的輸出,則進一步透過具有 d 個堆疊的雙向 LSTM 編碼器 —— 其中單元大小為 w,用以生成一系列 attention 向量。

各 attention 向量被饋送至一個單元維度,為 w 的雙層 RNN 解碼器中,並由其輸出轉錄標記。作者們利用一套 16 k 的 Word Piece Model ,對 LibriSpeech 語料庫,以前主一套 1 k 的 Word Piece Model 對 Switchboard 進行文本標記化。最終轉錄結果由集束搜索獲取,集束大小為 8。


下圖所示為 LAS + SpecAugment 得出的單詞錯誤率性能。

2019年,这8款自动语音识别方案你应该了解!

Wav2Vec: 用於語音辨識的無監督預訓練方法
來自 Facebook AI Research 的作者們,透過學習原始音頻的表達,來探索如何以無監督方式,實現語音辨識的預訓練。由此產生的結果就是 Wav2Vec,一套在大規模未標記音頻數據集上,訓練得出的模型。

由此獲得的表示將用於改進聲學模型訓練。透過噪聲對比二進制分類任務,對一套簡單的多層卷積神經網路,進行預訓練及優化,得出的 Wav2Vec 成功在 nov92 測試數據集上,達到 2.43% 的 WER。

wav2vec: Unsupervised Pre-training for Speech Recognition

預訓練中使用的方法,是優化該模型以實現利用單一上下文,進行未來樣本預測。該模型將原始音頻信號作為輸入,而後應用編碼器網路與上下文網路。

編碼器首先將音頻信號嵌入潛在空間中,且上下文網路負責組合該編碼器的多個時間步,從而得出完成上下文化的表示。接下來,從兩套網路當中計算出目標函數。


2019年,这8款自动语音识别方案你应该了解!

編碼器與上下文網路中的各層,包括具有 512 個信道的因果卷積層,一個組歸一化層,以及一項 ReLU 非線性激活函數。在訓練期間,由上下文網路生成的表示被饋送,至聲學模型當中。聲學模型的訓練與評估利用 wav2letter++ 工具包完成。

在解碼方面,作者們使用由 WSJ 語言建模數據集上,訓練得出的字典與單獨的語言模型實現。

下圖所示,為此模型與其它語音辨識模型的,單詞錯誤率比較結果。

2019年,这8款自动语音识别方案你应该了解!

用於 ASR 的可擴展多語料庫神經語言模型
在本文當中,Amazon Alexa 的作者們,為使用大規模 ASR 系統的神經語言模型時,出現的一些挑戰帶來解決方案。

Scalable Multi Corpora Neural Language Models for ASR

作者們試圖解決的挑戰包括:
  • 在多個異構語料庫上訓練 NLM
  • 通過將首過模型中的聯繫人名稱等類傳遞給 NLM,以建立個性化神經語言模型(NLM)
  • 將 NLM 納入 ASR 系統,同時控制延遲影響
對於立足異構語料庫實現學習這項任務,作者們利用隨機梯度下降的變種,估計神經網路的參數。這種方法要取得成功,要求各小批次必須為學習數據集的獨立且相同(iid)樣本。

透過以相關性為基礎,從各個語料庫中,抽取樣本以隨機建構小批次數據子集,這套系統得以為各個數據源,建構 N-gram 模型,並在開發集上,對用於相關性加權的線性,插值加權進行優化。

透過從 NLM 上採樣大文本語料庫,並利用該語料庫估算 N-gram 模型,這套系統得以建構起 NLM 的 N-gram 近似模式,從而為首過 LM 生成合成數據。

另外,作者們利用一套子單詞 NLM 生成合成數據,從而確保由此獲得的語料庫,不受限於當前 ASR 系統版本中的詞彙儲備。模型中使用的書面文本語料庫,總計包含超過 500 億個單詞。NLM 架構由兩個長 - 短期記憶投射遞歸神經網路(LSTMP)層組成,每個層包含 1024 個隱藏單元,投向至 512 維度。各層之間存在殘差連接。

下圖所示為該模型給出的一部分結果。其透過從 NLM 生成的合成數據,獲得了我 1.6% 的相對 WER。


2019年,这8款自动语音识别方案你应该了解!

總結
到這裡,我們已經回顧了最近一段時間,常見於各類環境中的自動語音辨識技術。

以上提到的論文/摘要當中,也包含其代碼實現鏈接,期待大家發佈您自己的實際測試結果。
原文鏈接:

.智慧家庭ABC — 十分鐘了解智慧音箱的發展歷史,以及在日常生活中的各種應用


Smart home of the future




智慧家庭實驗室 林祐祺




智慧音箱+智慧家庭 (https://medium.com/@deepak/telstra-googlehome-compatibility-2ea6a7ff9dca)

各位讀者大家好,之前連載完的「智慧家庭深入探討 (一)~(八) 系列」,跟大家比較嚴肅的聊了智慧家庭產業面一些發展中的問題瓶頸與市場機會,而接下來開始連載的「智慧家庭ABC」,將與讀者聊聊智慧家庭服務與各類產品的使用情境與平易近人的生活應用,包括了消費端與商業端的應用。
首先,就是已經進入台灣市場兩年多了,但是終端銷量始終不慍不火的智慧音箱,最為一個通道型的產品(把其他產品跟服務帶進家門的通道),在台灣市場由於整個智慧生活大環境發展緩慢,導致在國外藉由智慧音箱帶動智慧家庭發展的狀況並沒有出現,但是情況會隨著科技進入生活逐漸改善,比如突然在今年爆發的美食外送服務,誰敢說一年後不會滿街都是講著中文的智慧音箱在各行各業做服務?








智慧家庭從1997年比爾蓋茲的第一個智慧豪宅開始,服務範疇從過去的家庭自動化系統開始,一直到現在包山包海的五大智慧家庭應用為止,包括了家庭安全 (Home Security)、智慧家電與能源管理 (HEMS)、健康照護 (Elderly Care)、生活服務 (食衣住行育樂)、最後是家庭娛樂包括數位影音等串流服務等等。一路以來都是不溫不火的發展,一直到智慧音箱的問世,才把智慧家庭又拱上風頭浪尖,成為未來最有可能改變人們日常生活的一種科技。
下圖是中國一家研究機構對「未來哪項技術最有可能改變人們的生活」進行了消費者市場調研,在全球七個國家(巴西、德、日、英、中、美、韓國)採取線上訪談、問卷等方式,對該7大市場的7000+消費者進行招募及採訪。其中,在中國市場75%的中國消費者認為“智慧家庭“技術「最有可能對未來的生活產生影響。







source: GfK 中国智能音箱市场分析

智慧家庭是人工智慧在家庭消費端最可能也最重要的落地場景。而智慧音箱又是智慧家庭在人工智慧現階段的最佳實現。
智慧家庭緣起於家庭系統的整合,比如整合了網路系統、家居照明控制、安全監控、對講、家庭劇院與多媒體、家庭環境控制、能源管理等,早期微軟也一直有讓 PC 成為智慧家庭中心的夢想,但一直到亞馬遜的第一台 Echo 智慧音箱發佈於 2014年11月
從那開始,定位在「能說話的 Wi-Fi 音箱」打敗了當時的王者 Sonos,定義了智慧音箱的 Category,亞馬遜就一直領導著智慧音箱產品的發展,也間接地重新定義了智慧家庭產業在消費者端的位置,很多家庭的智慧家庭系統是由智慧音箱入手的那一刻開始,陸續的添購了各式各樣智慧家庭產品與服務。








晚了將近兩年的時間,谷歌於2016年10月,推出了 Google Home 智慧音箱,不得不進入的原因,在於亞馬遜的 Echo 智慧音箱已經逐漸開始與手機搶食人類上網的時間與方式,聲控人機互動的易學性與方便性,讓手機大廠備感威脅。
在2019的出貨量已經逐漸追上亞馬遜的智慧音箱,主要有兩大原因,就是谷歌在人工智慧的領導地位,以及谷歌過去在全球在地化的優勢,都讓谷歌的智慧音箱快速在世界各地與電信商結合快速發展,另外谷歌原本在安卓體系的手機生態系夥伴,也會逐步地加入自帶谷歌語音助手的智慧音箱與智慧電視的生產製造販售,加速谷歌在全球智慧家庭市場的發展進程。








而在手機行業相當強勢的蘋果呢?其實蘋果早在2014年就發佈了 HomeKit 智慧家庭平台,2015年首批支持 HomeKit 平台的智慧家庭設備上市銷售,在2016年6月的蘋果開發者大會上,蘋果宣佈了與建商開始合作銷售 HomeKit 系統內置的新成屋,而在2018年2月時,蘋果的 HomePod 智慧音箱終於上市。與亞馬遜與谷歌在發展智慧家庭上採用開放平台的不同,蘋果嚴格的控制智慧家庭裝置申請加入 HomeKit 平台的流程,以及相當重視用戶體驗設計的一致性與端到端的安全性,因此在支持 HomeKit 平台的產品數量與異質性一直遠遠落後亞馬訓與谷歌,但是不可諱言,蘋果重視用戶體驗與安全性對於用戶而言是比較有使用保障的,智慧家庭碎片化與安全性一直是侷限產業發展的重要因素,蘋果一步一腳印的發展型態是否能在最後與快速發展的另外雙強抗衡呢?或許是有機會的。








另外在我們鄰近的亞洲國家,日本、韓國、中國也正快速的發展著,中國的百度、阿里巴巴、小米也是三強鼎立,百度甚至在 2019Q2 的全球出貨量超越了谷歌成為世界第二,而三強也佔據了中國智慧音箱市場接近 9 成的市佔率,也同時帶動了中國市場智慧家庭的蓬勃發展,而與台灣生活方式類似的韓國與日本,也正由電信商領頭快速地發展其智慧家庭生態產業,其發展方式可以做為台灣產業與電信商的借鏡。







https://www.sktsmarthome.com/

市場應用案例說明

在進入市場應用之前,先看看一個典型的泛用型音箱,其所串接的產品與服務有很多種類,比如智慧家庭類產品、智慧家電、電商、串流音樂與有聲書等數位內容、生活資訊、新聞、生活小工具、O2O 生活服務等等。









智慧音箱生態系 = 智慧家庭/家電 + 數位內容 + O2O服務 + 語音購物 + 語音廣告

由這張智慧音箱生態圈示意圖可以看得出來,智慧音箱必須串接硬體、內容、服務三種要素,才能讓使用者透過智慧音箱得到更多的加值服務,常見的如下:
  • 硬體 (智慧家庭裝置、智慧家電、穿戴式裝置、醫療器材等)
智慧家庭裝置最常見的,就是攝影機與一些安全防盜裝置的搭配,比如攝影機搭配門磁,就可以抓拍小孩放學回家並通知父母親,或者透過智慧音箱呼叫兒童或者敬老房的即時影像,播放在電視之上(如下),又或者近年來開始流行的智慧門鎖,也是一個可以省去忘記帶鑰匙或者想要臨時幫親友開門的便利方式。







Swann Security Now Works with the Google Assistant

而老人家常常忘記關瓦斯爐、忘記帶鑰匙、晚上夜起等情境,也都是智慧裝置可以協助生活更順利的部分。而在家庭自動化的三大管理項目 — 燈控、電控、影音設備管理,相當可以讓生活更加的懶惰:p
在智慧家電方面,吸引人的情境一直無法串聯,家電廠推聯網化的動力往往只是販售更多的家電,並沒有如小米生態圈一樣有野心有策略地逐步吸引用戶持續購買,即使 TaiSEIA 協議已經通過 CNS 國家標準,但是並沒有大幅帶動智慧家電的銷量,缺乏使用場景的鴻溝還是頗為巨大。







台灣智慧能源產業協會 http://www.taiseia.org.tw/

而在健康照護方面,用戶對於在亞健康或者慢性病時期的「量測型儀器+雲數據」的銷售方式目前並沒有相當大的興趣,看來必較強的需求還是來自長照配套服務與在宅終老,但這方面各方都還在鴨子划水,出色的方案並不多見,但日後聲控的交互模式勢必是照顧幼兒與長輩的利器。
  • 內容 (影視、音樂、有聲書、睡前故事、新聞、廣播、播客等)
目前除了線上音樂之外,似乎在其他內容比較難有營利模式,下圖是國外預載 Spotify 的智慧音箱,當真是 Spotify Everywhere~
但個人對於不論在帶螢幕或不帶螢幕的智慧音箱上,幼兒教育、互動式廣播劇、VTuber、老人家愛聽的唱歌與賣藥等內容還是寄與厚望。







https://spotify-everywhere.com/collections/smart-speakers

  • O2O生活服務 (食衣住行育樂的App轉語音控制服務)
相較於中國與北美這類大陸型市場,台灣人對於在線上叫服務的需求不高,在都市區便利商店林立,裡面可以解決吃喝問題、可以訂票繳費取貨、買一杯飲料可以坐一下午吹冷氣當K書中心,現在可能還會有健身房,智慧音箱要跟超商搶用戶服務渠道,難度很高。





熊貓外送排爆滷味攤 (https://udn.com/news/story/8864/3999464)

但是有鑒於最近餐飲外送平台興起的驚人氣勢,讓我逐漸相信人類的懶惰終究還是會戰勝一切,智慧音箱所搭載的聲控呼叫生活服務勢必會越來越受歡迎。
  • 購物與廣告 (主要在語音重複與精準廣告購物)
語音購物的關鍵技術瓶頸有二,在於多輪對話/多種語境的對話決策還不到位,以及聲紋辨識技術還只能用在個人化服務,並無法如臉辯已經能用在門禁與付款上,雖然國內外電商應該都會在下半年推動語音購物的促銷活動,但對於語音購物進入主流應用都還有努力的空間。
但是,語音購物與廣告的龐大商機,終究是亞馬遜與谷歌拼戰語音助手跟智慧音箱的根本原因,而在台灣雖然發展較為緩慢,但是「OMO+語音購物+精準廣告+智慧家庭感測聯網平台」終究會成為數位匯流的最後一塊大餅,也是各家電信運營商會爭相投入人才與資源的戰場。

感覺起來智慧家庭與智慧音箱的戰場,不是家大業大就沒有投入的空間?
其實不然,各式各樣的加值服務都是一個個的垂直市場,這些都是世界級大廠不會介入的利基市場。不論在方言的部分,比如閩南語、客家語的ASR/TTS,或者針對老人或者小孩應用場景的語庫建立,比如健康照護或者幼兒教育等等,都是台灣智慧音箱廠商可以著力的部分。
而在AI人工智慧語音的發展載具上,從手機一直到目前風行的智慧音箱,而接下來的桌上型、陪伴型、迎賓型的各類AI服務機器人,也勢必在幾年內會成為市場主流,最後則是進入人形機器人的時代。






在日常生活食衣住行育樂等服務,也已經正在使用智慧音箱做服務喔,比如:

銀行/鐵路服務

在韓國,SKT的智慧音箱 NUGU 與銀行以及券商合作,用戶可以在家裡就查詢匯率,詢問分行機構的辦公時間,得知分行接待客戶的數量,並通過語音抽號碼牌與得知目前叫號情況,等到號碼差不多的時候再出門辦理。且智慧音箱可作金融商品推薦,包括儲蓄與貸款等商品廣告。





SKT NUGU 與三星證券合作 (https://www.nugu.co.kr/static/service/service01-06-02.html)

中國鐵道也與智慧音箱品牌合作推出鐵道智慧音箱,民眾可以在家中對智慧音箱做車次查詢與語音訂票等服務。

餐飲/訂餐

餐飲業開始有利用螢幕型智慧音箱點菜的應用,與排隊時迎賓的應用,餐廳可以事先把相關FAQ寫入智慧音箱後台,消費者就可以在排隊等候時詢問用餐的相關問題。顧客也可以透過智慧音箱啟用「呼叫店員」、「推薦菜單」、「結帳」等各式各樣的功能。





另外在美國,亞馬遜智慧音箱讓採用Amazon Pay for Alexa Skills的TGI Fridays美式連鎖餐廳,允許消費者者利用該功能訂餐或訂位,鮮花訂購網站1800 Flowers也讓消費者能用語音完成訂花流程。

連鎖便利超商

韓國SK Telecom與CU便利商店合作,讓智慧音箱進駐便利商店,由於便利商店有幾個問題存在,比如輪班頻繁交代事項沒有落實、新人剛上工的時候會有很多執行細節要提醒、貨運補充生鮮商品的運輸狀況,都可以透過隨時更新數據庫的智慧音箱做營運協助。




www.sktinsight.com

智慧旅店

阿里巴巴天貓精靈進駐數個智慧旅店,協助旅店提升服務效率,降低人員使用度,包括了:
  • 語音控制:透過語音的方式打開房間的窗簾、燈、電視。
  • 客房服務:取代傳統電話功能,用語音查詢早餐時間、飯店訊息,或是點餐等。
  • 聊天陪伴:房客可以和天貓精靈有更多互動,例如請天貓精靈講笑話、詢問天氣等等。






健康照護

對於殘疾人士或者銀髮長者而言,語音聲控可以帶來生活很大的方便性,包括了對電視、空調、電燈、電源這四大生活基本控制之外,智慧音箱的音樂、廣播、衛教、提醒用藥與辨識藥品(結合影像分析)、呼叫生活服務(叫外送、打掃、居服員等)、緊急事件求救等等,都是智慧音箱可以協助生活的應用。





Pillo Health Robot

幼兒教育

阿里巴巴天貓精靈火眼系列,與大陸上千家兒童讀物出版社合作,天貓精靈火眼的影像識別可以辨識繪本與識字卡,播放音頻內容給學齡前兒童邊看書邊聽故事。
在韓國,智慧音箱被當成科技教具,學生可以跟智慧音箱做英語會話的練習,搭配VR眼鏡,就可以在不同的場景跟AI人工智慧老師練習日常生活會話。

宗教

宗教的應用顯而易見,在信仰的過程會有無數的問題與誦經過程,宗教團體也必須與教眾建立聯繫關係,只要建立經文資料庫與建立好對話語境,智慧音箱都可以在家中扮演傳播宗教的任務。




法鼓山「寬大」智慧音箱

車聯網應用

車上是典型的沒有手的環境,因此語音助手可以協助駕駛於無手狀態聲控尋求地圖服務、播放音樂、詢問車況、遙控家中空調開啟等動作,延伸智慧家庭到車上情境。




天貓精靈車載版 (TmallGenie Auto)







以上是目前市場上對於智慧音箱的廣泛應用,不論從B2C或B2B2C都有很多商業模式的存在,然而每個應用都必須深入挖掘用戶需求,提供更到位的垂直服務,這都是台灣廠商可以努力的方向。
智慧家庭實驗室 林祐祺