cookieOptions = {...}; .解剖語音交互背後的層級 - 3S Market「全球智慧科技應用」市場資訊網

3S MARKET

3S MARKET
2018年12月28日 星期五

Behind the Mic: The Science of Talking with Computers




來源:琢磨事,作者李智勇

本文闡述了語音交互的4個階段,現在語音交互還處在L1階段,能以極高的準確率,在典型的環境下響應用戶的語音輸入,這一階段的目的,是透過便利性樹立語音交互的習慣。

L3階段基本就能實現電影《黑鏡》、《Her》中所展示的語音助手。語音交互從L1到L4,比自動駕駛從L1-L5還難,而在當前,每個人對語音交互的預期都比L4還高。原文如下:

解剖语音交互背后的层级
電影《Her》劇照

自動駕駛有所謂的L1~L4,所以不管車企,還是技術提供商,都按著這台階逐步爬坡,幾乎每個人都理解,終極的自動駕駛,是不太可能一蹴而就,在短期實現的。

語音交互領域的情形則正相反,雖然短期也就能達到類似自動駕駛L2的水平,但每個人的潛在預期都比L4還高。

語音交互的終極目標
語音交互的便利程度,正好與人工智慧的發展程度成正比,智慧程度越高語音交互的等級也就越高,所以其終極形態與人工智慧的終極形態類似。
如果拋棄特別誇張的想像來說,那語音交互要能達成《她》或者《黑鏡》裡描述的樣子:

1. 當你輸入數據給它後,它能夠根據輸入數據,表現出不同的個性。

2. 在數據的處理上它近乎是全能的,只受個人權限的限制。

3. 如果真的賦予實體,那它可以感知周圍環境,並作出與人類似但很多方面,會更優秀的反應。

今天的智慧音箱,和未來相對終極的語音交互方式,以及設備相比,其差距要遠大於286電腦和今天的Pad的差距。

一旦發展成上面這樣的程度,那語音交互就會徹底的打開邊界,而不只是我們使用數據的一種方式。甚至會成為生活的必須品。我們不會對iPhone產生依戀,但語音交互則會。


回顧下《黑鏡》裡描述的場景,可以對此有更好的理解:
女主人公的丈夫去世,過於思念自己丈夫的女主人,透過公開的自己丈夫的數據,創建了一個有性格的,屬於自己的語音交互機器人。這個機器人在絕大多數方面表現,和女主丈夫一致。女主使用一段時間後,就升級了這服務,為這語音交互機器人,賦予了和自己丈夫一樣的形體。

這看著非常科幻,但實際上一旦語音交互達到上述程度,那這類事情幾乎一定發生。既然我們能接受很宅的躲在家裡,那就一定能接受這樣一種非真實,但更完美的電子助手,進入心靈的世界。《她》這部電影雖然沒拍,但如果有為個性化語音交互系統,塑形的服務,主人公也是一定會接受。

在這裡網路反倒是限制了我們的想像力,因為網路更多的體現的只是工具的屬性,但實際上語音交互系統,所要涵蓋的範圍,要比網路大的多。當前之所以它能做的還不多,主要是層級還不夠。


語音交互的L1,L2,L3
我們可以這樣定義語音交互的L1階段:
能以極高的準確率,在典型的環境下,響應使用者的語音輸入。極高的準確率最低應該在90%+。這時承載語音交互的設備,主要負責功能性的提示與反饋(燈與螢幕等)。

當前所有與語音相關的公司,事實上都是在達成L1的路上。L1的出口為語音交互習慣徹底樹立,人們面對每款設備的時候,會首先想到用語音操作,而不是遙控器或者螢幕。

在L1階段語音交互,更像是自動化程度、精準程度更高的搜索,但搜索的範圍擴大了。不單是局限於已有的數位內容,也擴展到家電、視訊通話等,正常搜索不會覆蓋的領域。


我們可以這樣定義L2階段:
能以極高的準確率辨識出,交互的當事人和環境,然後進行個性化的交互。這時承載語音交互的設備,透過攝影機等感測器,能夠即時進行感知,可以進行適當移動,初步擬人。

L2階段體現的是個性化,不再是千人一面。如果L2得以達成,那《她》所描述的場景,是可以實現的。語音交互可以訂製出性格,而這種性格很可能確實滿足某個人的心理期待。

在L2階段,語音交互會打破工具的邊界,嘗試走入過去重來沒被搜索等介入的領域,比如排遣寂寞。現在的各種App是按照領域來切分的,而在L2階段,那所有App的邊界會被打破,資訊的輸出,是按照人來切分的。也就是說不再有電信業者的頭條、美團等等,而只是有張三的語音交互助理,李四的語音交互助理。
我們可以這樣定義L3階段:
只要有數據,那語音交互系統的能力,是可以無邊界擴展的(包括個性和能力)。交互設備可以進行擬人化輸出。

L3階段體現的是,後端內容擴展的無邊界特性,不再是有多少智慧就有多少人工。以及擬人化輸出,擬人化輸出包括移動,說話的語調,風格,姿態等。

如果L3階段得以實現,那《黑鏡》描述的場景,是可以實現的。只要有一個人充分的數據描述,那就可以立刻模擬這個人出來,然後給他賦予一個真實的身體。

在L3階段,語音交互及其載體會是社會生活,甚至家庭的一部分。

本質上從L1到L3體現的是數位化程度的不斷加深,智慧程度不斷加深,同時數位和智慧又按照自己的理想形態,進行物化的過程。
未來三年必然會達成的成績
現在與語音交互相關的公司,核心在做的就是L1階段的事。這個時候雖然在人工智慧的大趨勢裡面,但本質上智慧並沒那麼關鍵,關鍵的是便利,以及能輸出的內容。這兩者會推動樹立語音交互這種習慣。

如果要在數量級上進行判斷的話,那三年後可以達成的目標是:

  1. 每年有10億台支持語音交互的設備售出。至少故事機、電視機、電視盒子、汽車前後裝、白色家電、燈、鬧鐘等會加入這種特性。手機、Pad、電腦這些大品類上,語音交互的能力則會變成標配,但使用頻次,估計需要更長的時間進行提升,在最初交互頻次會很差(這點在前面的文章裡提到過,語音交互本身並非一種獨立的交互方式,而是同其背後的內容深度綁定的,我們很多的應用,實際上是針對手機和鍵盤滑鼠標操作優化過的)。

  2. 凡是電子設備都可以用語音來進行交互。語音交互不會挑設備,同之前的交互相比,它可以更加低廉,理論上只要麥克風,並且能連網就足夠了。這和為設備加入鍵盤鼠標或者屏幕相比,代價要低很多。這點上做出表率的仍然是亞馬遜,亞馬遜不停的推出新的設備如微波爐、車載設備等。當然不同設備上語音交互的層次是不同的,有些設備比如白色家電上面,語音交互會限制在一到三輪以內。
在更高一級的視角下面,所有當前的努力其實本質作用就一個:透過便利性樹立語音交互的習慣。習慣背後跟隨的是使用者時間。這兩者會為下面的進一步發展提供試驗田。只有達成了這一目標,從技術到產品再到使用者,這一循環才算真正完成了第一次迭代。 

小結
語音交互看著太簡單了,不過是說話而已,所以很容易被誤解為像說話一樣的交互,就是現在語音交互設備,所應該能幹的事。其實不是的,語音交互的從L1到L3,有可能比自動駕駛從L1到L5還要漫長。





雲端時代!! 你還親自跑到現場重開網路設備?NETGEAR 雲端交換器讓你無須奔波!!!

0 comments: