2019年7月17日 星期三

.「人機自然交互技術」的趨勢與挑戰

Future Interfaces Group: The next phase of computer-human interaction







來源:AI锐见

最近 AI 寒冬論再起,從圖像到語音,再到自動駕駛,這三個人工智慧賽道輪番被詬病,特別是語音賽道,如今更是備受美元資本市場冷落。為什麼會出現這個情況呢?

科寶電子官網 www.cop-security.com

我想主要還是大家,當前的認知和信心問題,因為從實際商業化進程來看,圖像和語音是人工智慧領域,早就規模商業化的領域,圖像主要是針對安控等行業的專業應用,而語音主要是以智慧音箱為代表的,面向消費電子的個人應用,其他比如金融、醫療、零售、客服等AI應用,相對規模還是小一些,而自動駕駛更是需要時間,短期內商業普及的可能性微乎其微。

從最近五年的融資事例來看,人工智慧的融資總額還在上升,但是已經越來越集中於 A 輪以後的企業,也就是說資本更加看較為成熟的 AI 公司

“人机自然交互技术”的趋势与挑战

事實上,商業化進程更快的技術,率先遇到信心低谷,也是正常現象,畢竟技術和市場,都存在一定的交叉週期,過早落地就意味著,暴露出更多實際應用的問題,這就需要資本低谷,來消化技術爆發早期的泡沫,這總比一些技術或者產品的「見光死」要好很多。

早期網路和行動網路,也都經歷了類似的階段,智慧手機的孕育期,也超過了十年,並且更替了一波巨頭,才實現爆發前夜的累積,似乎有點符合股票市場的艾略特波浪理論。

不過語音相對更加淒慘一些,基礎技術的研究差不多有 60 多年的歷史,直到最近幾年,才有像樣一點的產業落地,而且語音相對圖像,天生就沒有奪目的本領,語音賽道的低調,讓人覺得沒有圖像賽道,那樣炫目多彩

這一點其實就很不符合美元基金的審美邏輯,美元基金強調的是故事的性感,而且更加希望公司能夠登陸美股市場。當然,換個角度來看,語音賽道並非一個燒錢的賽道,事實上燒錢的業務本身也有問題,技術的優勢在於先發優勢,只有唯快不破才能立於不敗之地,而資本只是幫助建構壁壘的工具。



http://www.arcran.com/tw/

這個世界有太多事情,並不是燒錢就能獲得的,正確往往就是不容易。比如人工智慧和區塊鏈,雖然區塊鏈的技術理念很好,但是太過於炒作,並且只為牟利不顧道德,所以從全球關注趨勢來看,可以借用一句俗語「We know more than we can tell」來總結。

“人机自然交互技术”的趋势与挑战

進一步的說,聲音雖然承載了人類的思想和情感,但是圖像卻承載了人類的表像和直覺,顯然人類的第一印象,內涵豐富遠遠比不上外表艷麗,這是人類基於生殖繁衍的本性追求,也是無可厚非。

更讓人惱火的是,聲音天然還不具有群體示範效應,比如在人數眾多的會場,演示圖像總是容易引起觀眾的驚嘆,而若是演示語音,則一般都會是災難,對觀眾(所以不叫聽眾)來說,「看」總比「聽」更容易 High 起來。

何況我們人類,也沒很好解決聚眾場所的「雞尾酒會效應」問題,這種場合下的智慧語音體驗,絕對是一塌糊塗。即便相對簡單的家居環境,做好遠場技術也是難度極大的挑戰。

到現在為止,我們也沒有很好解決遠場通話,和遠場辨識問題,這點大家可以從全球銷量累積,已經過億台的智慧音箱產品中得到驗證,可以肯定的是,智慧音箱已經應用了最為先進的技術,但是仍然遠遠達不到,很多 AI 廠商所給大家描繪,或者演示的體驗預期,事實上,短期內也不可能達到。(?)

上面提到了「遠場」這一概念,這是借鑒的學術名詞,一般我們定義為 1 尺以上的距離,1 尺大概是 1KHZ 單頻聲波的一個波長,也是一個手臂自由操控的距離。

為什麼要定義這一概念?主要是為了讓行業對新技術有一個新的認知,遠場語音交互技術,主要是解決真實場景下,舒適距離內,人機任務對話和服務的問題,舒適距離的意思,就是不要太遠,也不要太近,太遠就會讓人不自覺,提高說話聲音,這增加了能耗容易讓人疲勞,太近了則會觸發人類的安全意識,天天趴在耳朵上說話也受不了。

為了更加準確定義場景,我們一般取 5 米作為標尺,事實上 3 米之內才是最好的距離。所以,遠場這個概念,就是希望加強人們對於語音,可以釋放雙手這一最大魅力特性的認知,遠場就是語音新技術,最為顯著的標籤

“人机自然交互技术”的趋势与挑战

但是,即便以遠場語音,交互技術為核心的智慧音箱全球爆發,對岸中國更是在推出後一年時間,就達到了 2200 萬台的銷量,仍然還是面臨了很多質疑和批評。

這些質疑主要集中在兩點:一是語音賽道的商業趨勢問題,二是應對巨頭競爭的策略問題。實際上這兩個問題有些相悖,第二個問題,已經例證了第一個問題的尷尬,就是因為這個賽道太重要了,所以全球巨頭都在其中競爭,包括了這個時代最有錢的所有網路巨頭:亞馬遜、谷歌、微軟、蘋果、臉書、三星,對岸中國的百度、阿里、騰訊、華為、小米等等。

即便如此,第一個問題我們還要闡述清晰,因為這不僅有市場趨勢問題,還有商業路徑問題。我們首先看下面一張圖片,我們知道全球最大的圖書館,是美國國會圖書館,大概有 3000 多萬本藏書,若每本書按照 100 萬字來統計,總共也就 30 TB 左右的數字容量,實際上人類每年產生的文字資料,總共也就160 TB。

相比之下,僅 Facebook 一家產生的數據就有 300 x 365 TB,全球的數據可能超過了 2000 PB,而且這個總量還在快速增加。那麼面對這些海量的數據,我們人類怎麼才能獲取知識?我們一生也不可能讀完美國國會圖書館的藏書,就更沒有可能遍歷當今的機器數據。

當然我們知道這其中,很多都是重複數據,但是篩選重複資訊本身,也是人類學習的過程。顯然,我們人類無法記住 1 億人的面孔,也無法辨識 1 億人的聲音。

人類知識和機器知識,實際上已經開始各成體系,機器顯然具有比人類更強的知識去重、篩選、複製和迭代的能力,而我們人類知識想要獲得更快的發展,也必須依賴機器知識的支撐,這就必須要解決人類知識,和機器知識的交互相通問題,怎麼才能簡單的,把機器所理解的知識,複製粘貼到人類世界?

以前文本時代我們有搜索引擎,那以語音圖像為主的人工智慧時代呢?所以,我們必須要有人機自然交互系統,只有這樣才能高效的獲取,更有價值的機器知識,才能解決未來數據爆炸時代的知識獲取問題。

至於商業化路徑,其實搜索引擎已經做了很好的示範,人機交互系統,肯定會催生更多的商業變現路徑。

“人机自然交互技术”的趋势与挑战

至於第二點對於巨頭加入競爭的擔憂,其實任何一個賽道,只要未來市場空間足夠大,就必然會產生這種結果。巨頭為了支撐不斷攀升的市值,就必須佈局未來天花板足夠高的產業,即便這個產業的商業模式,當前還比較模糊,除非這個行業沒有足夠的商業空間,或者戰略價值。

我們一定要相信這個世界的聰明人很多,即便倒下了很多巨頭,也從來沒有哪個巨頭,純粹是因為策略方向問題倒下的,更多的原因,反而是巨頭在執行方面,出現了巨大的問題,策略其實也是一個執行問題。

但是我們也要承認語音行業的不足,語音行業還比較缺乏,對於商業落地的認知,若比較圖像、語音和自動駕駛這三個賽道,語音特別喜歡使用晦澀的術語,比如自動語音辨識、自然語言理解等等,來給技術貼標籤,而不像人臉辨識、車牌辨識、自動駕駛這樣直接對應場景應用。




而更為麻煩的是,晦澀的術語,不僅增加了商務對於場景的解釋難度,也拔高了客戶對於技術的應用預期。這其實都非常不利於新技術,在商業的規模化應用。

舉個例子,「人機自然交互技術」,就倒霉在這個術語上,這估計是人類追求的終極夢想,可以作為學術術語,但是落地到產業,這個名詞就過於抬高預期,非常不友好。

坦誠的來說,我們現在能做好人機任務對話,特別是遠場系統就相當厲害了,至於能否挑戰人類智慧,現在還是看不到任何苗頭。即便作為學術名稱,卻也感覺有點單薄,不如學學通信領域用「G」來定義。

這完全可以類比,因為通信解決的是人和人交互的問題,人機自然交互解決的,是人和機器交互的問題。隨著機器的數量越來越多,而且越來越智慧,人和機器的交互,將是未來世界的主要問題。若採用「G」來劃分人機交互技術,則大概可以劃分成如下 5 代,和行動通信類似,當前也就在第 4 代階段,距離 5G 還有一定的週期。

即便參照「G」的分類方法,也有很多種。若以商業普及,作為重要的參考因素,個人覺得可以按照如下的方式來劃分:
第 1 代人機交互技術:以旋鈕和鍵盤為代表,以類比信號和字符為主要交互手段,可交互資訊複雜度較高,效率很低,只能實現相對簡單的任務,但是可靠性也最強。





這個階段的產品主要是包括打字機、電視、照相機、早期電腦、功能手機等各種電子設備,一般都是小巧簡單的操作系統,或者不用操作系統。

第 2 代人機交互技術:以滑鼠為代表,以複雜圖形為主要交互手段,可交互資訊複雜度較低,效率得到提升,易用性增強,學習成本降低。這個階段的產品,主要就是個人電腦, Windows 和 Linux 是代表性的操作系統。

第 3 代人機交互技術:以觸控螢幕為代表,以簡單圖形為主要交互手段,可交互資訊複雜度更低,易用性提升,學習成本急劇降低。這個階段的產品,主要就是以觸控螢幕為核心的智慧手機,IOS 和 Android 是代表性的操作系統。

第 4 代人機交互技術:以語音為代表,以遠場語音為主要交互手段,從這個階段開始,人機交互的作用半徑變得更遠,真正釋放了雙手,而且人機交互變得更加簡單,同時人機交互和內容服務耦合更強,交互具備了知識學習和傳遞的屬性,但是由於存在更多模糊空間,遠場語音交互的可靠性相對下降。Amazon Alexa、Baidu DuerOS、iFlytek iFly OS,和 Sound AI Azero 是代表性的交互系統。

第 5 代人機交互技術:以多感測融合為主要交互手段,可交互資訊的理解度和可靠性更高,融合交互將成為人和機器,互相學習的關鍵路徑,並且這個階段人機交互的,智慧程度和主動程度,都會得到大幅提升,機器可以感知人類的情感,並且與人發起主動交互。



再總結探討一下,第 5 代人機交互(5G or 5I 5I means the fifth generationhuman- robot interaction technology)的技術趨勢,可以暫時歸結為下面4個方向:

第 1 個方向就是遠場化,雖然第 4 代人機交互,就主打遠場語音交互,但是我們要坦誠地面對現實的殘酷,當前的技術遠沒有那麼好,我們在遠場可靠性方面,還有很多難點沒有突破,比如多輪交互、多人噪雜等場景,還有待突破,還有需求較為迫切的人聲分離等技術。

第 5 代技術應該徹底解決這些問題,讓機器聽覺遠超人類的感知能力。這不能僅僅只是算法的進步,需要整個產業鏈的共同技術升級,包括更為先進的感測器,和算力更強的晶片。更為重要的則是基礎理論技術的進步,特別是聲學的基礎理論突破,我們已經等待太久了。

當然這也很難,比如生理聲學就受制於當前實驗條件,和人類倫理的約束比較難於突破,所以腦機接口,當前來看就更加困難,直接挑戰人類智慧的技術路線,當前來看都不太靠譜。

第 2 個方向就是融合化,「聲光電熱力磁」這些物理感測手段,必然都要融合在一起,只有這樣機器才能感知世界的真實資訊,這是機器能夠學習人類知識的前提條件。

而且,機器必然要超越人類的五官,能夠看到人類看不到的世界,聽到人類聽不到的世界。



科寶電子官網 www.cop-security.com

機器的感知能力,必須要超越人類,事實上眾多儀器,也已經達到了這個目標,只不過,我們要把這些先進的感測手段,做的更加小巧、更加便宜、更加可靠,這是高端技術能夠走進尋常百姓家的關鍵所在。

從當前的技術進展來看,聲音和圖像的融合更為成熟,關鍵就在遠場化。圖像辨識若應用到消費場景,也必須遠場化才行,比如說:抬眼一撇,從此便記住了她的容貌,而不是尷尬的站在攝影機面前不知所措,這種交互體驗,非常不友好、更不吸引人。

第 3 個方向就是智慧化,這也是最難實現的,因為智慧本身的定義就是模糊的,這個智慧化也不是類人智慧,而是人類知識和機器知識,互相傳遞的泛化,也就是讓機器可以理解人類的模糊知識,這並不是自然語義處理,所能解決的事情。

比如「像魚忘掉海的味道」,當前再好的 NLP 引擎,也無法釋義,同樣機器也無法準確理解「小橋流水人家」,這就是意境。人也是這樣,高學歷也並不意味著有文化,比如我們 AI 公司,學歷都很高,但是有時就比較缺文化。

機器要智慧就要有文化,那怎麼來實現呢?人類怎麼做的呢?比如大學入學考的時候,語文和英文考試,想拿高分閱讀量,就是一個硬指標,所以機器也要這樣,先不用管什麼方法什麼模型的,記憶的足夠多,就會有顯著效果。數據足夠多的公司,未來必然也會比較聰明。
第 4 個方向就是主動化,主動化要在智慧化的基礎上實現,讓機器嘗試理解,人類情感表達。這才是人工智慧最大的商業價值所在,因為人和人之間的交互過程中,特別是在有商業價值的地方,主動交互佔據相當大的比例。

想想其中的奧妙,當前網路最為火熱的三大領域:搜索、電商和社交,歸根結底,到底是在做什麼呢?搜索的商業變現為什麼最終落在廣告業務呢?社交的商業變現,為什麼最終落在遊戲業務呢?若想挖掘人機交互的商業價值,主動交互就是關鍵的技術。

只需要部分理解人類思想和情感,就能稍稍影響人類的決策,這就是巨大的商業空間。況且,機器沒有人類的那麼多情感負擔,比如說機器怎麼說甜言蜜語,都不會覺得噁心,我們人類肯定不會把機器,看成我們的上下級關係,也不會把人類的框框強加於機器,當然另外一個可能也是極為可怕,機器可能也無底線的無恥,其目的就是為了推銷一款商品。

Context-Aware Computing | The Encyclopedia of Human-Computer ...


任何技術其實都有兩面性,但是掌握技術的是人類,是每一家的企業,所以一家的企業價值觀,決定了技術是服務人類;還是敗壞世界規則。歸根結底,還是人的問題,人的問題,也都是教育的問題。要讓機器不斷學習更好的造福人類,人類也應該不斷學習適應機器才是

這點還要稍微展開一下,人世間最難的,莫過於重塑一個人的思想,以遠場語音為核心的人機交互技術,逐漸影響人類的決策,想想這就是令人激動的偉大事業

顯然,機器以海量的數據、強大的算力,和優異的算法為基礎,永不疲憊的進化迭代,遲早是能夠大概理解一下人類的,這就足以影響一個人簡單的決策了,我們人類其實也蠻懶的,日常小的決策,非常依賴於周邊人群的建議,這就是一種趨同性,而機器恰恰擅長參與,並引導這種趨同性。

當然,若將這種能力用錯了地方,對人類的傷害也很大,所以搜索引擎的谷歌,才會有「不作惡」這個價值觀,若沒有這個風險,誰會閒來無事提這個價值觀呢。

另外一點就是人機自然交互,可能會改變人類學習知識的過程,我們已經習慣了在學校裡,集中學習知識的系統過程,但是隨著智慧手機的普及,現在碎片化學習的傾向,已經愈發明顯了。而遠場語音交互,把這個傾向還擴展到了老人和兒童群體,特別是在對岸中國,老人和兒童是文字知識儲備最少的兩個群體,他們對於遠場智慧交互的需求更為迫切,這也是智慧音箱能在對岸中國,快速爆發的重要原因之一。



智慧音箱甚至讓剛學會說話的兒,童都開始了碎片化學習,大量的兒童故事和科學故事,讓現在的小孩很早,就懂得了比我們當初更為豐富的知識。

隨著他們長大,以及我們當前的知識獲取習慣,長期集中系統的學習,是否需要變革?或許長期集中在一起的學習,更為重要的是要滿足人類社交的需求,而不是更好的學習知識。

所以,當我們總是批評人不好好看書的時候,也需要小小反思一下,知識的載體,並非只有書籍一種,而書籍的知識更新速度確實太慢了,無法解決我們對於知識爆炸的焦慮。

所以,什麼樣的學習方式才是最好的呢?學習方式本身是不是也應該進化呢?至少,我們知道,當前人類學習知識的方式,已經比一百年前迭代進化很多了,下一步是不是機器應該參與到這種人類進化過程呢?

這樣來看這個故事很性感,但是同樣挑戰也是極大。任何一件事情都會有兩面性,我們需要從不同角度來審視。人機交互的核心是語言,其最大的挑戰其實也是語言。

語言是洞悉人類天性的窗口,天然承載了人類的思想和情感,那麼怎麼才能讓機器,來承擔這種能力呢?這還在探索,至少從現在來看,深度學習好像很難解決這個問題,當前的實踐,只是證明了深度學習,更適合模式辨識這個領域,對於語言理解的效果不是那麼顯著,而腦機接口更是挑戰了人類極限,短期內也很難看到實質性成效。

“人机自然交互技术”的趋势与挑战

語言更令研究者頭疼的是個體的差異性,族群的差異性還好,至少還有一定的規律,但是個體的自由語言,卻能讓其他個體理解,人類甚至還可以「只可意會不可言傳」。

但是機器不行,機器只能基於數據分析尋找規律,其特殊能力在於能夠從海量數據中,發現人類難以理解的數據關聯,但是人類的能力更強大,只用簡單的小樣本,就可以邏輯推理,這是當前機器學習嚴重缺失的能力,當前機器學習領域火熱的對抗網路、遷移學習等無法解決這個問題。

“人机自然交互技术”的趋势与挑战

所以,當前還只是人機自然交互的萌芽狀態,即便第 4 代交互也還任重而道遠,幸運的是這項技術,已經規模商業化落地,至少突破了可用的及格門檻。

若要讓這項技術,能夠持續推進並做好商業化,最為重要的還是基礎教育問題,我們從百度指數的分析來看,年輕人對於 AI 的關注,顯然還不如 30 歲以上的人群,所以我們還需要加強這個領域的教育普及,吸引更多的年輕人投身聲學語音,和語言理解這個行業,也期待更多學術機構能夠聯合起來,打破學科之間的壁壘,攜手培養更多跨學科的年輕人。



任何顏色車牌——都拍攝的清清楚楚!

沒有留言:

張貼留言