Price Monitoring Using Interactive Voice Response Technology, by Fawad Raza

只要有 AVi 影像播放格式，任何影像都可以做出各式智慧辨識分析

zuomoshi（琢磨事）作者：李智勇

按：本文作者李智勇，聲智科技聯合創始人，十年棧道程序員，有一個好玩的公號：zuomoshi（琢磨事）。

關於遠場語音交互，聲智科技 CEO 陳孝良告訴記者：「語音是最簡單、最自然的人機交互方式，同時也是技術難度最大的交互方式，特別是語音交互，從近場走向遠場，落地到真實場景，必須考慮噪聲、混響、回聲等聲學問題，以及數據差異引入的機器學習模型問題，這些都是保證自由人機交互的核心技術。」

但是網路上橫跨聲學和電腦學科的教育資源太少，李智勇老師的這篇文章，不僅揭示了遠場語音交互的核心技術，還對商業化落地的路徑，進行了深入的解讀，無論是語音交互的技術人員，還是產品經理，都值得一讀。

手機之後，國際各大巨頭非常罕見的步調一致的，在做同一件事情：智慧音箱。而這一切最初的驅動力，來自於Amazon Echo，但有意思的事情是Amazon Echo這產品，根本沒做任何的功能上的創新，聽歌、看新聞、設鬧鐘、說笑話、控制家電等所有東西，都可以在手機上找到替代品，它唯一的變化，只是把語音交互的方式，從近場升級為遠場，並把精度和速度打磨到非常優秀的程度。

只是這麼一點點變化，似乎就要創造一個無比巨大的行業，那遠場語音交互，為什麼有這麼大的威力？

語音交互等價於遠場語音交互

極端的講法，是世界上並不存在一種方式，叫近場語音交互，語音交互基本等價於遠場語音交互。

事實證明過去很多年裡，各種近場語音交互的嘗試（比如Siri）並沒獲得很好的進展，甚至簡單實用的語音輸入法，也沒能成為主流。

從應用場景來看遠場和近場的核心差別，是拉開和語音設備的距離後，雙手再也沒用了。這樣和觸控螢幕就可以徹底的差異化，可以徹底的發揮語音的快捷優勢。想相下面的場景：

在微信裡，給一個人打視訊電話，如果用手機那是下面這樣的過程

如果變成遠場語音，那核心步驟會變成兩個

顯然在這兩種場景下，便利程度是完全不一樣的，這種便利理論上講，在近場的情形下同樣存在，但核心點在於近場時，就需要挑戰用戶<根深蒂固的觸控螢幕習慣，這很難。

觸控螢幕雖然大流行，但顯然並沒能在筆電上，挑戰鍵盤滑鼠的既有地位。這不單是偏好問題，也與各種應用，與特定交互方式的綁定有關。

觸控螢幕雖然好用，但並不能完全在Office上用起來，所以如果Office根深蒂固，那麼鍵盤滑鼠就根深蒂固。所以我們說，語音交互基本等價於遠場語音交互，一旦它真的成為主流交互方式，培養了用戶習慣，那反過來才可能在近場的場景（比如近場的Siri）下佔有一席之地。

遠場語音交互的核心技術

遠場語音交互如果變的無處不在，那Amazon Alexa（以及同類產品）會變成新一代的Android，那個時候整個生態會像下面這樣：

這個時候Alexa這樣的系統，同時覆蓋了傳統上Android和應用商店的角色，在其上面則會有新的今日頭條、新的O2O等。而如果要把Alexa所依託的技術，進行細分的話，那麼基本上是三層：

‧ 前端的聲學部分（算法+陣列）

‧ 辨識

‧ NLU

這樣一來遠場語音交互，就正好面臨一大一小兩個瓶頸：

‧第一個瓶頸是眼下就要解決的問題，即在語義仍然有限制的條件下，打造偏命令控制的產品，這個時候產品的ID很難擬人化（想想Echo，Airpods這些產品），一旦擬人用戶的潛在期望，就會無限拔高，你也就不可能做出，非常滿足用戶體驗的產品。

‧第二個瓶頸則具有一定的不確定性，具有探索性質，我們仍然還不知道，什麼時候自然語言理解中，可以體現出真的智慧，但確實只有這點做了突破，並且同電腦視覺進行融合，才能真的做好擬人的機器人。

而為瞭解決第一個瓶頸，事實上需要做好的事情有兩個：

‧ 一個是前端聲學算法軟硬體的持續優化

‧ 一個是通過獲取的數據重新訓練雲端的ASR

這個過程可以用下圖橙色的部分來概括。

上述這個看著並不太長的鏈條，其實複雜度非常高，它即跨越不同的學科（聲學部分屬於經典物理，辨識部分則屬於CS），也需要打穿軟硬體。

在算法層面，只是前端就需要處理大量經典問題，比如降噪、去混響、回聲抵消、Beamforming等。加不加這些算法的音頻信號差異極大，如：

（具體效果試聽可以參照http://soundai.com/demo.html）

而我們經常說的麥克風陣列，即使拋開算法不論，單只在硬體層次上，也遠不是標準品：

上圖是一款強調通用性的麥克風陣列，透過USB連接可以隨便連接到筆電、平板、手機上進行使用。同樣的陣列還可以做成線性、L型、球形，最終的目的都是匹配特定的場景，讓最終遠場交互的精度最優。

如果進一步下探，那就會出現更為底層的選擇，比如是用駐極體麥克風，還是用MEMS的，是用數位的，還是用類比的。

再進一步挖掘，麥克風從特性上還可以進一步細分，比如：

所有上面這些點如果不能一一理順，那就沒法給用戶輸出一種綜合性的體驗，單點最優在遠場語音交互，這裡價值很小，相當於必要不充分條件。只有能夠綜合，並且能夠優化單點，才真的能夠解決，當前產品落地中的實際問題。

技術和商業上的正反饋

幾乎所有大公司都感受到了，遠場語音交互背後的價值，所以紛紛試水：繼亞馬遜、Google之後，微軟宣佈了自己的智慧音箱產品，預計蘋果也會宣佈自己的相似產品。

但是遠場語音交互的落地，卻可能比大家期望的要慢。核心點就在於技術-商業上的正反饋，需要一定的啓動週期。

顯然的技術不好用，產品體驗就不好；而反過來產品沒銷量技術就缺乏打磨的場景，內容配套也就不會跟上。

這種互鎖狀態，就會形成一個冷啓動週期，在這個週期裡，做技術的公司打磨自己的技術，在沒那麼大量的產品上落地，產品公司則接受技術現實，打磨自己的產品。這樣一來整個遠場語音交互，很可能會跑下面的曲線：

這個過程是可以和過去很多商業現實驗證的，比如2007年iPhone發佈，小米手機則要遲到2011年，這期間的4年可以看成是智慧手機的啓動期，一旦這個市場啓動後，則進入一個高速增長期，小米手機的銷量迅速從2012的700多萬台，增加到2014年的6000多萬台。

遠場語音交互的這個技術——商業正反饋當前，還處在非常初期的階段，亞馬遜的Echo（各種型號）如果2017年的銷量真的逼近2000萬台，那基本上可以認為在美國，技術-商業的正反饋第一回合完成。

而在對岸中國，同品類產品銷量都還處在幾萬、十幾萬量級的水平，這個技術-商業的正反饋遠未完成。

當然這並非壞事，在格局已定的市場上，後來者是沒有機會的；只有在這種充滿未知的領域上，創業者才真的有顛覆性的機會。如果回退到20年前，聯想、門戶，相對於現在的BAT，都是巨無霸型公司，要資源有資源，要通路有通路，要人有人，但很有意思的事情是，BAT最終崛起了。（BAT：中國把百度、阿里巴巴、騰訊和稱為BAT）

小結

手機的觸控螢幕，把很多人塑造成了低頭族，遠場語音交互估計會塑造出，許多和機器說話的人。那時候語言不再只是人和人的交互手段。