．「人機自然交互技術」的趨勢與挑戰

Future Interfaces Group: The next phase of computer-human interaction

全世界最小的 PoE 模組

https://tw.mitscomponent.com/news_detail_211.htm

來源：AI锐见

最近 AI 寒冬論再起，從圖像到語音，再到自動駕駛，這三個人工智慧賽道輪番被詬病，特別是語音賽道，如今更是備受美元資本市場冷落。為什麼會出現這個情況呢？

科寶電子官網 www.cop-security.com

我想主要還是大家，當前的認知和信心問題，因為從實際商業化進程來看，圖像和語音是人工智慧領域，早就規模商業化的領域，圖像主要是針對安控等行業的專業應用，而語音主要是以智慧音箱為代表的，面向消費電子的個人應用，其他比如金融、醫療、零售、客服等AI應用，相對規模還是小一些，而自動駕駛更是需要時間，短期內商業普及的可能性微乎其微。

從最近五年的融資事例來看，人工智慧的融資總額還在上升，但是已經越來越集中於 A 輪以後的企業，也就是說資本更加看較為成熟的 AI 公司。

事實上，商業化進程更快的技術，率先遇到信心低谷，也是正常現象，畢竟技術和市場，都存在一定的交叉週期，過早落地就意味著，暴露出更多實際應用的問題，這就需要資本低谷，來消化技術爆發早期的泡沫，這總比一些技術或者產品的「見光死」要好很多。

早期網路和行動網路，也都經歷了類似的階段，智慧手機的孕育期，也超過了十年，並且更替了一波巨頭，才實現爆發前夜的累積，似乎有點符合股票市場的艾略特波浪理論。

不過語音相對更加淒慘一些，基礎技術的研究差不多有 60 多年的歷史，直到最近幾年，才有像樣一點的產業落地，而且語音相對圖像，天生就沒有奪目的本領，語音賽道的低調，讓人覺得沒有圖像賽道，那樣炫目多彩。

這一點其實就很不符合美元基金的審美邏輯，美元基金強調的是故事的性感，而且更加希望公司能夠登陸美股市場。當然，換個角度來看，語音賽道並非一個燒錢的賽道，事實上燒錢的業務本身也有問題，技術的優勢在於先發優勢，只有唯快不破才能立於不敗之地，而資本只是幫助建構壁壘的工具。

http://www.arcran.com/tw/

這個世界有太多事情，並不是燒錢就能獲得的，正確往往就是不容易。比如人工智慧和區塊鏈，雖然區塊鏈的技術理念很好，但是太過於炒作，並且只為牟利不顧道德，所以從全球關注趨勢來看，可以借用一句俗語「We know more than we can tell」來總結。

進一步的說，聲音雖然承載了人類的思想和情感，但是圖像卻承載了人類的表像和直覺，顯然人類的第一印象，內涵豐富遠遠比不上外表艷麗，這是人類基於生殖繁衍的本性追求，也是無可厚非。

更讓人惱火的是，聲音天然還不具有群體示範效應，比如在人數眾多的會場，演示圖像總是容易引起觀眾的驚嘆，而若是演示語音，則一般都會是災難，對觀眾（所以不叫聽眾）來說，「看」總比「聽」更容易 High 起來。

何況我們人類，也沒很好解決聚眾場所的「雞尾酒會效應」問題，這種場合下的智慧語音體驗，絕對是一塌糊塗。即便相對簡單的家居環境，做好遠場技術也是難度極大的挑戰。

到現在為止，我們也沒有很好解決遠場通話，和遠場辨識問題，這點大家可以從全球銷量累積，已經過億台的智慧音箱產品中得到驗證，可以肯定的是，智慧音箱已經應用了最為先進的技術，但是仍然遠遠達不到，很多 AI 廠商所給大家描繪，或者演示的體驗預期，事實上，短期內也不可能達到。（？）

上面提到了「遠場」這一概念，這是借鑒的學術名詞，一般我們定義為 1 尺以上的距離，1 尺大概是 1KHZ 單頻聲波的一個波長，也是一個手臂自由操控的距離。

為什麼要定義這一概念？主要是為了讓行業對新技術有一個新的認知，遠場語音交互技術，主要是解決真實場景下，舒適距離內，人機任務對話和服務的問題，舒適距離的意思，就是不要太遠，也不要太近，太遠就會讓人不自覺，提高說話聲音，這增加了能耗容易讓人疲勞，太近了則會觸發人類的安全意識，天天趴在耳朵上說話也受不了。

為了更加準確定義場景，我們一般取 5 米作為標尺，事實上 3 米之內才是最好的距離。所以，遠場這個概念，就是希望加強人們對於語音，可以釋放雙手這一最大魅力特性的認知，遠場就是語音新技術，最為顯著的標籤。

但是，即便以遠場語音，交互技術為核心的智慧音箱全球爆發，對岸中國更是在推出後一年時間，就達到了 2200 萬台的銷量，仍然還是面臨了很多質疑和批評。

這些質疑主要集中在兩點：一是語音賽道的商業趨勢問題，二是應對巨頭競爭的策略問題。實際上這兩個問題有些相悖，第二個問題，已經例證了第一個問題的尷尬，就是因為這個賽道太重要了，所以全球巨頭都在其中競爭，包括了這個時代最有錢的所有網路巨頭：亞馬遜、谷歌、微軟、蘋果、臉書、三星，對岸中國的百度、阿里、騰訊、華為、小米等等。

即便如此，第一個問題我們還要闡述清晰，因為這不僅有市場趨勢問題，還有商業路徑問題。我們首先看下面一張圖片，我們知道全球最大的圖書館，是美國國會圖書館，大概有 3000 多萬本藏書，若每本書按照 100 萬字來統計，總共也就 30 TB 左右的數字容量，實際上人類每年產生的文字資料，總共也就160 TB。

相比之下，僅 Facebook 一家產生的數據就有 300 x 365 TB，全球的數據可能超過了 2000 PB，而且這個總量還在快速增加。那麼面對這些海量的數據，我們人類怎麼才能獲取知識？我們一生也不可能讀完美國國會圖書館的藏書，就更沒有可能遍歷當今的機器數據。

當然我們知道這其中，很多都是重複數據，但是篩選重複資訊本身，也是人類學習的過程。顯然，我們人類無法記住 1 億人的面孔，也無法辨識 1 億人的聲音。

人類知識和機器知識，實際上已經開始各成體系，機器顯然具有比人類更強的知識去重、篩選、複製和迭代的能力，而我們人類知識想要獲得更快的發展，也必須依賴機器知識的支撐，這就必須要解決人類知識，和機器知識的交互相通問題，怎麼才能簡單的，把機器所理解的知識，複製粘貼到人類世界？

以前文本時代我們有搜索引擎，那以語音圖像為主的人工智慧時代呢？所以，我們必須要有人機自然交互系統，只有這樣才能高效的獲取，更有價值的機器知識，才能解決未來數據爆炸時代的知識獲取問題。

至於商業化路徑，其實搜索引擎已經做了很好的示範，人機交互系統，肯定會催生更多的商業變現路徑。

至於第二點對於巨頭加入競爭的擔憂，其實任何一個賽道，只要未來市場空間足夠大，就必然會產生這種結果。巨頭為了支撐不斷攀升的市值，就必須佈局未來天花板足夠高的產業，即便這個產業的商業模式，當前還比較模糊，除非這個行業沒有足夠的商業空間，或者戰略價值。

我們一定要相信這個世界的聰明人很多，即便倒下了很多巨頭，也從來沒有哪個巨頭，純粹是因為策略方向問題倒下的，更多的原因，反而是巨頭在執行方面，出現了巨大的問題，策略其實也是一個執行問題。

但是我們也要承認語音行業的不足，語音行業還比較缺乏，對於商業落地的認知，若比較圖像、語音和自動駕駛這三個賽道，語音特別喜歡使用晦澀的術語，比如自動語音辨識、自然語言理解等等，來給技術貼標籤，而不像人臉辨識、車牌辨識、自動駕駛這樣直接對應場景應用。

AKD 寰楚專業級全系列監控設備

而更為麻煩的是，晦澀的術語，不僅增加了商務對於場景的解釋難度，也拔高了客戶對於技術的應用預期。這其實都非常不利於新技術，在商業的規模化應用。

舉個例子，「人機自然交互技術」，就倒霉在這個術語上，這估計是人類追求的終極夢想，可以作為學術術語，但是落地到產業，這個名詞就過於抬高預期，非常不友好。

坦誠的來說，我們現在能做好人機任務對話，特別是遠場系統就相當厲害了，至於能否挑戰人類智慧，現在還是看不到任何苗頭。即便作為學術名稱，卻也感覺有點單薄，不如學學通信領域用「G」來定義。

這完全可以類比，因為通信解決的是人和人交互的問題，人機自然交互解決的，是人和機器交互的問題。隨著機器的數量越來越多，而且越來越智慧，人和機器的交互，將是未來世界的主要問題。若採用「G」來劃分人機交互技術，則大概可以劃分成如下 5 代，和行動通信類似，當前也就在第 4 代階段，距離 5G 還有一定的週期。

即便參照「G」的分類方法，也有很多種。若以商業普及，作為重要的參考因素，個人覺得可以按照如下的方式來劃分：

第 1 代人機交互技術：以旋鈕和鍵盤為代表，以類比信號和字符為主要交互手段，可交互資訊複雜度較高，效率很低，只能實現相對簡單的任務，但是可靠性也最強。

康橋科技 —— 白光攝影機專業廠商！

這個階段的產品主要是包括打字機、電視、照相機、早期電腦、功能手機等各種電子設備，一般都是小巧簡單的操作系統，或者不用操作系統。

第 2 代人機交互技術：以滑鼠為代表，以複雜圖形為主要交互手段，可交互資訊複雜度較低，效率得到提升，易用性增強，學習成本降低。這個階段的產品，主要就是個人電腦， Windows 和 Linux 是代表性的操作系統。

第 3 代人機交互技術：以觸控螢幕為代表，以簡單圖形為主要交互手段，可交互資訊複雜度更低，易用性提升，學習成本急劇降低。這個階段的產品，主要就是以觸控螢幕為核心的智慧手機，IOS 和 Android 是代表性的操作系統。

第 4 代人機交互技術：以語音為代表，以遠場語音為主要交互手段，從這個階段開始，人機交互的作用半徑變得更遠，真正釋放了雙手，而且人機交互變得更加簡單，同時人機交互和內容服務耦合更強，交互具備了知識學習和傳遞的屬性，但是由於存在更多模糊空間，遠場語音交互的可靠性相對下降。Amazon Alexa、Baidu DuerOS、iFlytek iFly OS，和 Sound AI Azero 是代表性的交互系統。

第 5 代人機交互技術：以多感測融合為主要交互手段，可交互資訊的理解度和可靠性更高，融合交互將成為人和機器，互相學習的關鍵路徑，並且這個階段人機交互的，智慧程度和主動程度，都會得到大幅提升，機器可以感知人類的情感，並且與人發起主動交互。

再總結探討一下，第 5 代人機交互（5G or 5I 5I means the fifth generationhuman－ robot interaction technology）的技術趨勢，可以暫時歸結為下面4個方向：

第 1 個方向就是遠場化，雖然第 4 代人機交互，就主打遠場語音交互，但是我們要坦誠地面對現實的殘酷，當前的技術遠沒有那麼好，我們在遠場可靠性方面，還有很多難點沒有突破，比如多輪交互、多人噪雜等場景，還有待突破，還有需求較為迫切的人聲分離等技術。

第 5 代技術應該徹底解決這些問題，讓機器聽覺遠超人類的感知能力。這不能僅僅只是算法的進步，需要整個產業鏈的共同技術升級，包括更為先進的感測器，和算力更強的晶片。更為重要的則是基礎理論技術的進步，特別是聲學的基礎理論突破，我們已經等待太久了。

當然這也很難，比如生理聲學就受制於當前實驗條件，和人類倫理的約束比較難於突破，所以腦機接口，當前來看就更加困難，直接挑戰人類智慧的技術路線，當前來看都不太靠譜。

第 2 個方向就是融合化，「聲光電熱力磁」這些物理感測手段，必然都要融合在一起，只有這樣機器才能感知世界的真實資訊，這是機器能夠學習人類知識的前提條件。

而且，機器必然要超越人類的五官，能夠看到人類看不到的世界，聽到人類聽不到的世界。

科寶電子官網 www.cop-security.com

機器的感知能力，必須要超越人類，事實上眾多儀器，也已經達到了這個目標，只不過，我們要把這些先進的感測手段，做的更加小巧、更加便宜、更加可靠，這是高端技術能夠走進尋常百姓家的關鍵所在。

從當前的技術進展來看，聲音和圖像的融合更為成熟，關鍵就在遠場化。圖像辨識若應用到消費場景，也必須遠場化才行，比如說：抬眼一撇，從此便記住了她的容貌，而不是尷尬的站在攝影機面前不知所措，這種交互體驗，非常不友好、更不吸引人。

第 3 個方向就是智慧化，這也是最難實現的，因為智慧本身的定義就是模糊的，這個智慧化也不是類人智慧，而是人類知識和機器知識，互相傳遞的泛化，也就是讓機器可以理解人類的模糊知識，這並不是自然語義處理，所能解決的事情。

比如「像魚忘掉海的味道」，當前再好的 NLP 引擎，也無法釋義，同樣機器也無法準確理解「小橋流水人家」，這就是意境。人也是這樣，高學歷也並不意味著有文化，比如我們 AI 公司，學歷都很高，但是有時就比較缺文化。

機器要智慧就要有文化，那怎麼來實現呢？人類怎麼做的呢？比如大學入學考的時候，語文和英文考試，想拿高分閱讀量，就是一個硬指標，所以機器也要這樣，先不用管什麼方法什麼模型的，記憶的足夠多，就會有顯著效果。數據足夠多的公司，未來必然也會比較聰明。

IoT Edge 的第一道保護—— 加密晶片

https://tw.mitscomponent.com/news_detail_210.htm

第 4 個方向就是主動化，主動化要在智慧化的基礎上實現，讓機器嘗試理解，人類情感表達。這才是人工智慧最大的商業價值所在，因為人和人之間的交互過程中，特別是在有商業價值的地方，主動交互佔據相當大的比例。

想想其中的奧妙，當前網路最為火熱的三大領域：搜索、電商和社交，歸根結底，到底是在做什麼呢？搜索的商業變現為什麼最終落在廣告業務呢？社交的商業變現，為什麼最終落在遊戲業務呢？若想挖掘人機交互的商業價值，主動交互就是關鍵的技術。

只需要部分理解人類思想和情感，就能稍稍影響人類的決策，這就是巨大的商業空間。況且，機器沒有人類的那麼多情感負擔，比如說機器怎麼說甜言蜜語，都不會覺得噁心，我們人類肯定不會把機器，看成我們的上下級關係，也不會把人類的框框強加於機器，當然另外一個可能也是極為可怕，機器可能也無底線的無恥，其目的就是為了推銷一款商品。

Context-Aware Computing | The Encyclopedia of Human-Computer ...

任何技術其實都有兩面性，但是掌握技術的是人類，是每一家的企業，所以一家的企業價值觀，決定了技術是服務人類；還是敗壞世界規則。歸根結底，還是人的問題，人的問題，也都是教育的問題。要讓機器不斷學習更好的造福人類，人類也應該不斷學習適應機器才是。

這點還要稍微展開一下，人世間最難的，莫過於重塑一個人的思想，以遠場語音為核心的人機交互技術，逐漸影響人類的決策，想想這就是令人激動的偉大事業。

顯然，機器以海量的數據、強大的算力，和優異的算法為基礎，永不疲憊的進化迭代，遲早是能夠大概理解一下人類的，這就足以影響一個人簡單的決策了，我們人類其實也蠻懶的，日常小的決策，非常依賴於周邊人群的建議，這就是一種趨同性，而機器恰恰擅長參與，並引導這種趨同性。

當然，若將這種能力用錯了地方，對人類的傷害也很大，所以搜索引擎的谷歌，才會有「不作惡」這個價值觀，若沒有這個風險，誰會閒來無事提這個價值觀呢。

另外一點就是人機自然交互，可能會改變人類學習知識的過程，我們已經習慣了在學校裡，集中學習知識的系統過程，但是隨著智慧手機的普及，現在碎片化學習的傾向，已經愈發明顯了。而遠場語音交互，把這個傾向還擴展到了老人和兒童群體，特別是在對岸中國，老人和兒童是文字知識儲備最少的兩個群體，他們對於遠場智慧交互的需求更為迫切，這也是智慧音箱能在對岸中國，快速爆發的重要原因之一。

智慧音箱甚至讓剛學會說話的兒，童都開始了碎片化學習，大量的兒童故事和科學故事，讓現在的小孩很早，就懂得了比我們當初更為豐富的知識。

隨著他們長大，以及我們當前的知識獲取習慣，長期集中系統的學習，是否需要變革？或許長期集中在一起的學習，更為重要的是要滿足人類社交的需求，而不是更好的學習知識。

所以，當我們總是批評人不好好看書的時候，也需要小小反思一下，知識的載體，並非只有書籍一種，而書籍的知識更新速度確實太慢了，無法解決我們對於知識爆炸的焦慮。

所以，什麼樣的學習方式才是最好的呢？學習方式本身是不是也應該進化呢？至少，我們知道，當前人類學習知識的方式，已經比一百年前迭代進化很多了，下一步是不是機器應該參與到這種人類進化過程呢？

這樣來看這個故事很性感，但是同樣挑戰也是極大。任何一件事情都會有兩面性，我們需要從不同角度來審視。人機交互的核心是語言，其最大的挑戰其實也是語言。

語言是洞悉人類天性的窗口，天然承載了人類的思想和情感，那麼怎麼才能讓機器，來承擔這種能力呢？這還在探索，至少從現在來看，深度學習好像很難解決這個問題，當前的實踐，只是證明了深度學習，更適合模式辨識這個領域，對於語言理解的效果不是那麼顯著，而腦機接口更是挑戰了人類極限，短期內也很難看到實質性成效。

語言更令研究者頭疼的是個體的差異性，族群的差異性還好，至少還有一定的規律，但是個體的自由語言，卻能讓其他個體理解，人類甚至還可以「只可意會不可言傳」。

但是機器不行，機器只能基於數據分析尋找規律，其特殊能力在於能夠從海量數據中，發現人類難以理解的數據關聯，但是人類的能力更強大，只用簡單的小樣本，就可以邏輯推理，這是當前機器學習嚴重缺失的能力，當前機器學習領域火熱的對抗網路、遷移學習等無法解決這個問題。

所以，當前還只是人機自然交互的萌芽狀態，即便第 4 代交互也還任重而道遠，幸運的是這項技術，已經規模商業化落地，至少突破了可用的及格門檻。

若要讓這項技術，能夠持續推進並做好商業化，最為重要的還是基礎教育問題，我們從百度指數的分析來看，年輕人對於 AI 的關注，顯然還不如 30 歲以上的人群，所以我們還需要加強這個領域的教育普及，吸引更多的年輕人投身聲學語音，和語言理解這個行業，也期待更多學術機構能夠聯合起來，打破學科之間的壁壘，攜手培養更多跨學科的年輕人。