Google, Amazon bet big on voice technology
來源:财富 作者:译指禅编译
亞馬遜在短短的四年之前,還只是一個線上零售商,和公司線上網路托管的主要供應商,它還銷售自己的電子消費產品系列,其中包括Kindle電子閱讀器,這在當時是一個大膽的嘗試。
如今,由於無處不在的亞馬遜 Echo智慧音箱,及其Alexa語音辨識引擎,亞馬遜激發了自賈伯斯推出蘋果手機以來,個人電腦和通信領域的最大轉變。
起初這一切似乎都是很新奇的。亞馬遜在2014年11月首次推出了Echo智慧音箱,一種使用人工智慧接收人類詢問的高科技精靈,它可以在互聯網數據庫中,掃描數百萬字,並提供各種各樣的答案。
目前,亞馬遜在總共賣出約4700萬套Echo設備後,Echo同時服務著80個國家的消費者,平均每天處理1.3億個問題。Alexa是以古埃及圖書館Alexandria命名的,它可以接受音樂請求,提供天氣預報和體育比分資訊,並遠端調節用戶的恆溫器等。它還可以講笑話:回答瑣碎問題,甚至是一些幼稚的小伎倆。
語音辨識技術並不是亞馬遜發明的,這種技術已經存在了幾十年。亞馬遜也不是第一個提供主流語音應用的科技巨頭。早在Alexa之前,蘋果公司的Siri智慧語音助手,和Google Assistant谷歌語音助手,早已經出現。
在亞馬遜推出Alexa的同時,微軟也推出了Cortana(微軟小娜)人工智慧助理。但隨著Echo智慧音箱的廣泛成功,亞馬遜潛移默化地引發了一場,「智慧」家用設備市場的激烈競爭,這場競爭可以使語音辨識產品,像個人電腦或智慧手機,對人類一樣發揮非常重要的作用。
就像谷歌的搜索算法,徹底改變了資訊消費,並顛覆了廣告業一樣,人工智慧驅動的語音計算,使得類似轉變成為可能。亞馬遜Alexa首席科學家Rohit Prasad說,「我們希望消除與客戶的摩擦,最自然的方式就是透過聲音。它不僅僅是一個能提供一堆結果的搜索引擎,它還會告訴你答案。」
人工智慧與全新語音驅動的用戶體驗的強大組合,使得這場戰爭已不僅僅是聖誕節期間,搶佔最熱門玩具的競爭。谷歌、蘋果、Facebook、微軟,以及其他公司都在向競爭產品注入資金。
事實上,投資公司Loup Ventures的Gene Munster估計,科技巨頭們將會花費年度研發預算的10%,用於語音辨識,總計超過50億美元。他稱語音技術的出現,是電腦運作的「巨大變化」,並預測語音命令正迅速成為「我們與網路互動的最常見方式,而不是透過鍵盤或手機螢幕。」
賭注如此之高,競爭激烈也不足為奇。 根據研究公司Canalys的數據顯示,亞馬遜最早進入市場並處於領先,在全球連接音箱市場佔據42%的市佔率。
谷歌也毫不遜色,與Echo外觀相似、由谷歌智慧助理提供支持的家庭設備系列佔有34%的市佔率,並且谷歌最近也反超亞馬遜。蘋果HomePod智慧音箱因為價格昂貴,和最後進入市場而位於第三。
Facebook在10月份,也推出了Portal音訊和視訊設備系列,可以完成主要競爭對手的部分語音辨識任務,尤其是Alexa。
目前連接音箱和類似設備的市場規模龐大,並且不斷成長 - 但對於技術巨頭來說,這不一定是最戲劇性成長的機會。研究公司全球市場洞察(Global Market Insights)將2017年全球智慧音箱銷售額定為45億美元,預計到2024年這一數字,將成長至300億美元。
然而硬體收入,並沒有計算在內。例如,亞馬遜對Echo智慧音箱的定價標準,是盈虧平衡甚至更低的價格。去年假日期間,亞馬遜推出的簡易版智慧音箱Echo Dot售價為29美元,ABI Research認為這個價格,比設備部件的成本還要低。
相反,每個主要參與者都採取了一種策略,即在某種程度上,將客戶鎖定到其他商品和服務上的更大目標。
例如,亞馬遜使用Echo系列,來增加其Prime會員訂閱服務的價值。谷歌希望語音搜索,能夠豐富已經相當龐大的數據庫,最終為其廣告業務提供支持。蘋果通過Siri,將手機、電腦、電視控制器聯繫在一起,甚至將汽車製造商和車載系統軟體捆綁在一起。
正如所有投資和快速發展的革新一樣,現在預測誰將獲勝,還為時過早。但可以肯定地說,該行業已經圍繞這樣一種觀念進行了合作,即依賴於人工智慧的語音技術,將會是未來的用戶介面。
它必將是一個會對普通人生活,產生深遠影響的技術。負責監管谷歌智慧助理產品設計的副總裁Nick Fox說,「透過語音可以做各種各樣的事情,識字能力較差的人能操作該系統。正在駕駛的人也能操作該系統。人們在烹飪時,透過該系統可以找到食譜。每隔一段時間,技術就會發生一次構造性的轉變,我們認為語音技術就是轉變之一。」
儘管如此,語音辨識仍處於起步階段。與研究人員的期望相比,語音技術的應用,還處在滿足基本需求的階段,並且有很大的上升空間。
關於科技公司竊聽客戶資訊,以及如何合法使用收集的使用者數據等問題,擔憂依然存在。「用人工智慧辨識語音,我們已經從雙翼飛機時代,進入噴氣式飛機時代」。華盛頓大學電氣工程教授、語言技術,世界頂尖科學家之一的Mari Ostendorf指出,電腦已經善於回答直截了當的問題,但在實際對話方面仍有欠缺。
「人工智慧技術,在語音辨識單詞和理解命令方面,就數量而言已經令人印象深刻。但我們還沒有進入火箭時代。」
數十年來,語音辨識已成為下一個殺手級應用。在20世紀50年代,貝爾實驗室創建了一個名為Audrey的人工智慧系統,可以語音辨識從1到9的數字。
在20世紀90年代,PC用戶安裝的Dragon Naturally Speaking語音辨識軟體,已經可以處理簡單的語音辨識,不需要說話者在每個單詞後停頓。但直到2010年蘋果公司,在蘋果手機上發佈了Siri,消費者才意識到,與大規模計算能力相關的語音辨識引擎能夠實現什麼。
大約在同一時間,亞馬遜,在首席執行官Jeff Bezos,一個真正的星際迷航狂熱愛好者的領導下 - 開始夢想複製星艦進取號上的,可以與人對話的電腦。
曾發表過100多篇人工智慧對話文章、亞馬遜現任員工Prasad說道:「我們設想的未來是,你可以透過語音,與任何服務進行互動,」 Alexa實現了這一點,使消費者與亞馬遜溝通變得更為簡便。
語音辨識技術的進步,伴隨著計算能力的進步,即計算能力更快、更便宜、更普遍,因此更主流 - 亞馬遜、谷歌、蘋果和其他公司,可以更輕鬆地構建一個無縫網路,透過語音將智慧家庭設備,與其他系統連接起來。
例如,蘋果CarPlay車載使用者,可以透過Siri將最新一集「權力的遊戲」,在蘋果電視上作為「下一個」播放,並且命令HomePod智慧音箱在使用者到家後播放。
兩年前,谷歌發佈了支持語音的Home智慧家庭設備,它將音樂產品,YouTube與最新的Pixel手機,和平板電腦聯繫在一起。換句話說,每個科技巨頭都將語音技術,視為它們創造更多數位產品的敲門磚。
科技巨頭各自獲利頗豐,因此能夠為研究和行銷提供充足的資金,從而實現更多新產品。例如,蘋果和谷歌,分別擁有兩大主流行動操作系統iOS和安卓。
這意味著Siri和谷歌智慧助理,幾乎可以預裝在所有的新手機上。相比之下,亞馬遜則需要消費者,將Alexa應用程式安裝在手機上,然後才能在他們的蘋果或安卓設備上打開。
前華爾街電腦公司分析師、現任Loup公司的Munster說,「這個額外的步驟,使得亞馬遜處於明顯的劣勢。」相比之下,啟動Siri和谷歌智慧助理只需說出它們的名字。」
也就是說,iOS和安卓對所有第三方開發者開放,而亞馬遜就是第三方開發者其中之一 – 這也意味著所有開發人員,都可以在這兩個平台上編寫Alexa程式。
Bezos在今年早些時候,發佈的一份財報中表示,「超過150個國家/地區的數萬名開發人員」正在構建Alexa應用,並將其整合到非亞馬遜的設備中。實際上,合作是語音應用的關鍵。
亞馬遜將Alexa內置於搜諾思(Sonos)的「回音壁」、捷波朗(Jabra)的耳機,以及寶馬、福特和豐田汽車中。谷歌加強與音頻設備製造商索尼,和Bang&Olufsen的合作,並且聯合智慧系統August智慧鎖,和飛利浦LED照明系統進行合作。
Apple允許其HomePod智慧音箱,與First Alert安全系統,以及霍尼韋爾(Honeywell)智慧恆溫器配合使用。谷歌的Fox說,「這些合作的好處在於,我們可以將語音連接到整個智慧家電的生態系統中。我無需打開手機找到應用程式,直接對設備說,'告訴我誰在我的門前',攝影機的影像就會彈出來。因為統一,所以簡單。」
長期以來,人工智慧一直是反烏托邦流行文化的主要內容,尤其以「終結者」和「駭客帝國」為代表的電影,其中邪惡且聰明的機器人的崛起,對人類構成威脅。值得慶幸的是,這還不是我們的現實。但隨著人工智慧的進步,和計算成本的降低,這樣令人印象深刻,並且未來感十足的應用,已經成為現實。
語音辨識程式透過網路,可以連接到數據中心,這些複雜的數學模型,是經過公司花費數年時間編製,並透過辨識不同語音模式,而篩選出的大量數據。語音辨識程式可以透過分析,呼叫中心人員與客戶交談的記錄,或透過與數位助理的交互,來辨識詞彙、區域口音、口語和語境。
語音辨識系統同樣依賴於物理學和電算科學。語音在空中產生振動,語音引擎將其視為模擬聲波,然後轉換為數位格式。 然後,電腦可以分析該數位數據的含義。人工智慧首先透過檢測,客戶選擇的「喚醒詞」(例如「Alexa」)來確定聲音,是否指向其系統來增強流程。
然後,他們從之前數百萬其他客戶那裡,所累積的模型對接收到的問題,做出高度準確的猜測。「語音辨識系統,首先是辨識聲音,然後透過上下文進行解讀,」谷歌智慧助理項目副總裁Johan Schalkwyk解釋道。
「比如我說,'在......天氣怎麼樣,',人工智慧就會知道下一個詞,會是國家或城市。我們的數據庫中有500萬個英語單詞,在沒有上下文的情況下,辨識500萬單詞中的一個單詞,是非常困難的。但如果人工智慧知道你是在問一個城市,然後就變成在3萬個英語單詞中檢索的任務,這樣準確率更高。」
計算能力使系統,有多種學習機會。為了讓Alexa開啓微波爐 – 這是一個真實的例子 - 語音引擎首先需要瞭解命令,這意味著它要有學習破解各種各樣的口音的能力,比如濃重的台灣狗蟻,兒童的高音,非母語人士的發音等等,還要能同時過濾背景噪音,比如在收音機上播放的歌詞。
然後,語音引擎還必須瞭解,人們可能要求使用微波爐的各種方式:「加熱我的食物」,「打開我的微波爐」,「將食物加熱兩分鐘。」Alexa和其他語音助手將類似命令,在數據庫中進行比對,從而「學習」「加熱我的食物」,是特定用戶將來可能會詢問的方式。
語音辨識技術,能夠迅速發展的部分原因,是因為它已經非常精通如何將人類命令轉化為行動。 谷歌的Schalkwyk表示,他們公司的語音引擎,現在的響應率已達到了95%,幾乎與人類聽力準確度相同,而在2013年此響應率只有80%。
最近在該領域取得的最大成就之一,就是過濾掉背景噪音,這對最敏銳的人耳來說也是難題。然而,只有回答像例如「碟中諜什麼時候上映?」這種簡單問題時,系統才能達到這個水準。而如果向谷歌智慧助理或Alexa詢問意見,或嘗試進行對話的時候,設備很有可能會給出,一個預先編寫的滑稽答案,或簡單地說:「嗯,我不知道答案。」
對於消費者而言,語音驅動設備是非常有用的。它們在與數據中心的電腦連接之後,體積雖小但卻是極其高效的數據收集器。
據消費者情報研究合作夥伴稱,大約60%的亞馬遜Echo和谷歌Home用戶至少有一個家用設備,如恆溫器、安全系統或設備。語音家用設備可以記錄使用者,日常生活的各個方面。
無論是透過其他設備,訂閱服務還是代表其他商家做廣告,亞馬遜、谷歌和蘋果累積的數據越多,從而可以更好地為消費者提供服務。
商業機會其實很簡單。將Echo智慧音箱,連接到恆溫器的消費者,可能會接受購買智慧照明系統的建議。 儘管這可能會讓隱私權倡導者,聽起來令人毛骨悚然,但科技巨頭們正站在個人數據的寶庫之上,更好地向消費者推銷產品。
與他們的總體策略一樣,科技巨頭採取不同的方式,進行數據收集。亞馬遜表示,使用Alexa收集的數據,可以使軟體更智慧,從而對客戶更有用。
Alexa做得越好,客戶就越能看到其產品和服務的價值,包括Prime會員計劃。雖然亞馬遜正在大力推廣廣告 - 研究公司eMarketer預計,該公司將在2018年,從數位廣告中獲得46.1億美元 – 一位發言人稱,亞馬遜目前尚未使用Alexa數據,來銷售廣告。谷歌公司,考慮到其巨大的廣告業務,也沒有將語音定位為廣告機會。蘋果公司之前的大肆宣揚,不願意利用客戶數據來獲取商業利益,以HomePods的問世而終結。
儘管亞馬遜早期賣點之一是銷售產品,人們並不會要求他們的設備,實現輔助購物功能。亞馬遜不會公佈有多少Echo使用者,利用該設備購物,但最近由Codex Group咨詢公司,對購買書籍消費者的調查顯示,輔助購物功能仍處於早期階段。
數據顯示只有8%的人使用Echo購買書籍,而13%的人用它來聽有聲讀物。「人們是習慣性的動物,」研究公司Canalys的技術分析師Vincent Thielke說,當你想買一個咖啡杯時,很難對智慧音箱描述清楚你的想法。」
亞馬遜表示,確實沒有過度關注將Echo作為輔助購物工具,特別是考慮到如何將該設備,與其透過Prime訂閱提供的其他服務聯繫起來。
儘管如此,亞馬遜仍然希望日益優化的電腦技術,能夠提升其零售業務。亞馬遜的自然語言處理科學家Prasad說,「如果你想購買雙A電池,你不需要看到它們,你也不需要記住參數。參考購物歷史即可。如果您以前從未購買過電池,我們當然也會推薦亞馬遜品牌的電池。」
促進購物遠不止替代電池的銷售,特別是許多商家希望與科技巨頭合作,並利用其相關的平台。研究公司OC&C Strategy Consultants預測,到2022年,Echo、Google Home及其同類產品的語音購物銷售額,將從目前的20億美元增加到400億美元。音箱的重要演變有助於解釋這一現象。
亞馬遜和谷歌,現在都提供帶螢幕的智慧家庭設備,更像是小型電腦和電視機的結合,因此更適合在線上購物。亞馬遜在2017年春季推出了售價230美元的Echo Show觸控螢幕智慧音箱。
與其他Echo設備一樣,Echo Show也預裝了Alexa,但同時用戶能夠看到圖像。 這意味著購物者可以看到他們訂購的產品,以及他們的購物清單、電視節目、音樂歌詞、安全攝影機的圖像,甚至度假的照片,所有這些都無需按任何按鈕,或操作電腦滑鼠。
就零組件而言,谷歌已經在與四家消費電子製造商合作,其中一些製造商,最近開始銷售谷歌智慧助理的整合智慧螢幕。另外,聯想智慧顯示器,與的Facebook Portal外觀類似。
而Facebook Portal的零售價為250美元,與JBL Link View智慧顯示器的價格相同。LG計劃推出ThinQ View觸控螢幕智慧冰箱。谷歌在今年10月以149美元的價格,開始銷售配備7英吋螢幕的Home Hub智慧家庭控制。
從長遠來看,谷歌認為增加螢幕,可以讓語音購物變得更容易。與亞馬遜直接銷售產品不同的是,谷歌的購物網站,將零售商與谷歌搜索引擎連接在一起。它已經將Google Home智慧家庭設備作為購物工具。
例如,谷歌與星巴克合作,用戶只需告訴谷歌智慧助理訂購「我經常訂購的飲品」,訂單在用戶到達時就已經準備好了。
去年,谷歌鞏固了與全球最大零售商沃爾瑪的合作夥伴關係。購物者只需將他們現有的沃爾瑪線上帳戶,連接到谷歌的購物網站,即可在Google Home智慧家庭設備,瀏覽喜歡的跑鞋是否有貨,預定當天提貨的平板電視,或者找到最近的沃爾瑪商店。
視覺辨識技術的加入,會使在這些設備上的購物體驗更加便捷。視覺辨識技術目前已經長期用於在人群中,比對罪犯面孔。今年9月,亞馬遜宣佈正在與Snapchat一起,測試應用程式,該應用程式可讓購物者用Snapchat的相機,拍攝產品或條碼,然後在螢幕上看到亞馬遜網上商店的產品頁面。
不難想像,下一步的購物體驗,將會是使用嵌入在Echo Show的相機,拍攝用戶想要購買產品的照片,然後在螢幕上,就可以看到相同或類似的產品資訊、價格、評價,是否可以使用Prime兩天免費送貨。
語音技術雖然令人振奮,但這種技術可能會讓非技術愛好者,花一點時間習慣,如何才能與機器對話。科技巨頭目前還不是最受信賴的公司,他們需要說服消費者,設備不會被惡意竊聽。智慧音箱只有在檢測到「喚醒詞」時,才會進入聆聽模式,例如「Alexa」或「Hey, Google」。
今年5月,亞馬遜將波特蘭一位高管與妻子,關於硬木地板的對話錯誤地發給了他的員工。亞馬遜為此公開道歉,稱設備「誤解」了這次談話。
語音輸入產生的錯誤,可能遠遠超過打字輸入產生的錯誤 ,這可能還會對商業經濟造成影響。
去年,達拉斯的一位6歲女孩,在和Alexa談論餅乾和娃娃屋的幾天之後,她家收到了4磅餅乾和170美元的娃娃屋。亞馬遜表示,Alexa的家長控制功能如果使用得當的話,可以防止類似事件的發生。
語音技術,隨著社會的發展會越來越普及。目前已經有超過1億台語音設備,成功安裝並處於聆聽模式,語音成為人與機器進行交流的主導方式,只是時間問題 - 即使談話只是一些雜亂的聲音而已。
沒有留言:
張貼留言