cookieOptions = {...}; .人工智慧時代,語音技術怎麼賺錢? - 3S Market「全球智慧科技應用」市場資訊網

3S Market

3S Market 過去的的報導,變成現在發生的事


2018年6月20日 星期三

Top 5 reasons not to buy a smart speaker






leiphone 作者:Deeperblue


半個月前的錘子手機發佈會讓對岸中國人民(包括我媽)知道了一家叫科大訊飛的公司,以及語音智慧這件事。

我沒有在現場。據說老羅向觀眾們介紹了錘子的主要合作夥伴科大訊飛的一款產品——訊飛輸入法。老羅用很快的語速說出一大段長文字,訊飛做到了無時差翻出文字版本,並且辨識結果幾乎沒有任何偏差,堪稱完美,現場一片歡呼。

訊飛輸入法支持 19 種方言輸入,相比蘋果的 Siri,以及微軟的 Cortana,訊飛輸入法顯然在本土化上佔盡優勢。

訊飛輸入法背後的公司叫科大訊飛,是目前大陸最大的智慧語音技術提供商。第二天,科大訊飛的股價在開盤點迎來了新高。鑒於從 2008 年科大訊飛上市開始股價表現平平,不少人表示終於熬到了可以套現的時刻。

除了訊飛,在中國他們國內在近幾年內崛起了一連串致力於智慧語音的創新公司,典型代表有思必馳、聲智科技,以及雲知聲。

人工智慧時代來臨,語音技術公司的春天又來了。圍繞 AI 的創業團隊如雨後春筍,智慧語音技術的應用成為它們打開市場的首要選擇,幾乎每個月都會有數款語音交互機器人發佈。除了硬體,語音服務平台也迅速被建立。鍵盤作為輸入系統即將被停留在上個時代,人類將用語言和機器進行交互。智慧家庭和車載,成為語音產業最集中的領地,也即將誕生出爆發市場。

然而,高新技術怎麼賺錢、做什麼賺錢,是一個永恆的話題。事實上,熱炒的訊飛輸入法、訊飛語點,以及訊飛語音雲,僅佔訊飛的總營收 3% 左右,收入不足千萬。道聽塗說的還有一件事,科大訊飛每年 20 多億的收入,其中絕大多數來源於鋪網線和做教育工程的集成,並非是高精尖的智慧語音技術。

上個月,在深圳舉辦的一場小型內部智慧語音研討會上,思必馳副總裁、聲智科技創始人,以及來自峰瑞資本、祥峰投資的兩位關注人工智慧的早期投資人進行了關於「語音技術如何賺錢」的話題討論。恰好我在現場,覺得說得非常不錯,有些段落簡直堪稱精彩。於是要來了錄音記錄和版權,分享給大家。這裡也許有你想要聽的實話、真話。

以上內容來自DeeperBlue季星。

人工智能时代,语音技术怎么赚钱?
參與研討的嘉賓


FREES 朱禕舟:前沿科技類的東西其實是沒賺到錢的
2012 年智慧手機出現後,短短幾年內,大陸就湧現了一大批語音相關的公司,像雲知聲、思必馳、科大訊飛,發展都非常迅速,很快進入了公眾的視野。這也得益於手機這個智慧終端的發展,使得語音成為手機上的一個重要應用。

而在 2015 年,我們依然認為語音是一個非常好的投資機會。原因有以下兩點:首先,雖然在過去的兩到三年裡,人工智慧的發展使得語音技術,取得了很大進步,但我們發現實際準確率仍然不夠高——雖然大家根據實驗數據進行宣傳,說準確率達到了 95% 以上或者更高,但實際情況是,在實際使用時並沒有那麼高。

拋開算法和技術方面不談,前端的很多問題我們還沒有解決。我打個最簡單的比方:過去我們討論的語音辨識技術,有點像人類的大腦——在聽到聲音之後,我們如何進行翻譯,或是怎樣把它變成大腦可以理解的資訊。

但實際上,關於耳朵的問題我們還沒有解決——如何排除噪聲干擾?如何在多人講話的時候,會聽清想聽的內容?如何在距離較遠時分別聲音的方位?前端的語音/聲學交互的很多問題如果得不到解決,整體的體驗始終不夠好。

第二點,從數據上看,蘋果上語音搜索的使用率,其實並沒有那麼高,原因在於,手機雖然不是鍵盤的,但觸控螢幕的體驗還是很好的。發展的前景在於智慧硬體:在手機之後,大量智慧終端的爆發,包括家居、車載、可穿戴設備機器人等,這些智慧終端上的鍵盤——或者說手指就變得更加不重要,以及不友好,而語音則變得更加友好和重要。


人工智能时代,语音技术怎么赚钱?
思必馳語音後視鏡,駕駛員在跟機器交流的時候,可以隨時打斷機器的說話,讓他去執行其他任務,讓機器做你臨時想做的事情。可以解放雙手,讓駕駛更安全。

基於以上兩點,我們認為,語音技術還會有更多發展和進步。

關於語音技術,大家其實一直都面臨一個問題,就是怎麼賺錢?科大訊飛 20 多億的收入,其中絕大多數是鋪網線和做撰工程,先進科技類的東西,其實是沒有賺到錢的。

在線上,我們本來可以提供 API 賺錢,但後來百度免費了,那其他人也只能免費了。做 APP 去對接服務,大家會覺得手機上的用戶習慣、行為習慣還沒建立起來。所以我想問就這個很實際的問題,聽聽大家怎麼看。

思必馳副總裁雷雄國:我們現在在考慮怎樣把錢燒掉
這個問題很好,也很難回答。對思必馳來說,我們現在是在考慮怎樣把錢燒掉,並沒有考慮怎麼賺錢這件事,這件事情確實是比較難。

現在其實大家能夠看到,從 PC 和互聯網到行動網路、再到其他,語音很可能是一個方向。語音作為一個便捷的交互方式之一,隨著智慧硬體設備的迭代更新,它有可能會成為替代觸控螢幕的交互模式。這也是為什麼資本和技術,都聚焦在這一塊,使得人工智慧的一個小春天在寒冬中誕生。

賺錢這件事情,目前我們確實看不清。

但是圍繞著這個方向,我們可以看到一些大方向:一個是核心技術以及產品體驗的提升,這是必須要做的。第二個則是,我相信大部分公司,在未來肯定會有一筆,相對不多也不少的技術授權費之類,雖然這部分不足以滿足資本需求。

然而我仍舊相信,未來無論是 2C 也好、2B 也好,在這個環節上大家都在探索。這條路徑是曲折的,但方向一定是正確的。

祥峰投資朱嘉:賺錢最主要的是找到需求
我先簡單介紹一下祥峰投資,我們是新加坡淡馬錫旗下的 VC,主要關注消費和技術領域的中早期投資,在人工智慧方向投資了地平線、Maxent 等。下面我從投資方的角度簡單談一些看法。

要看怎麼賺錢,最主要的是找到需求在哪。在看了這麼多創業項目後,我們會思考在消費生態下,那些賺錢的公司是怎麼來的?其實核心是抓住用戶的真正的需求點,從需求點出發,考慮怎麼樣去做產品,然後追溯到你的上游,再到頂層甚至是晶片,找到哪裡有機會。

首先,在手機端,語音作為輸入方式是有需求的,但剛才大家都說,現在如今只是在手機上做一個語音辨識的技術,提供一個輸入的方式,希望透過輸入法建立 APP 來收費,顯然這在今天已經是不太可能的事情了——現在,沒有一個類似百度輸入法這樣鍵盤輸入的 APP 還是收費的。

即便語音是不一樣的輸入方式,但想要收費還是很困難的,特別是當大佬們都已經在做的時候了。這個時候,就要找到一個需求場景,並且上面沒有其他方案可以和你競爭——一個語音可以扮演重要角色的場景。

比如智慧家庭中的音箱,就是一個很好的例子:你不可能在音箱上去觸控,也很難用其他鍵盤去輸入。因此,如果你找到一個和音箱產生交互的方式,那麼顯而易見你就是最好的,因為沒有其他強有力的替代者。

再說汽車。其實汽車裡面,多年來大家使用的旋鈕、按鍵,本身是一個非常好的人機交互方式——它未必比語音輸入的效率低,反而效果很好,因為你可以做到盲操作。

設想一下,在車裡面我要換電台的時候,我不用看中控,就可以摸到旋鈕去操作,或者在方向牌上有一個旋轉的輪子,可以讓我調整音量之類,這已經是最好的人機交互方式了,而透過語音增大音量或是切換頻率,則未必能更加直接和準確。

但是,在車中還有很多旋鈕無法解決的其他需求。比如。後排的一客人需要和車發生交互——現在很多車都有後排獨立的空調系統,當乘客覺得後排的溫度太低了,希望空調調高一點的時候,現在的情況是只能讓駕駛者,把後排的空調調一調,或者後排有自己調整的方式,但它未必是自動的方式。

如果能夠做到,透過一個很好的語音辨識的陣列工具,很好的分辨出不同乘客的方位,到底是在主駕、副駕,還是後排的左邊或右邊,根據他們發出的語音指令滿足不同人的需求,就能產生一種新的交互方式。除了空調,還有的需求比如切換一個電台、換一首歌,等等。

那麼從產業鏈上游來看,這麼多年,晶片一直都是一個可以賺錢的事情。在語音辨識這一塊,做語音的處理晶片,比如 iPhone 使用的 Cirrus Logic,在語音處理這一塊的算法做得非常好,它解決了語音降噪、方位辨識上的關鍵問題。有了晶片作為載體,就可以基於傳統晶片的商業模式去掙錢。

人工智能时代,语音技术怎么赚钱?


Cirrus Logic 推出的 CS44130 ,可以為整個音頻信號鏈提供晶片包括類比或、數位輸入和揚聲器喇叭輸出之間的各個部分。它精小的設計可以大大簡化產品的設計。

往下走,在晶片的下游,模組也有賺錢的機會,就像今天聲智科技在做的事情一樣。如今的產業鏈分工是非常細的,很難再有像過去的飛利浦、西門子這樣的大公司,核心的組件、全器件的研發,一直到最終的產品都是由一家公司來做。

在分工很細的情況下,晶片公司不可能再去做一個產品,也很難再去做一個模組,中間其實需要的是一個做陣列的公司:把產品以一個模組的形式提供,同時不僅僅做一個 PCB 板把晶片放上去,而是把算法結合在裡面,體現出附加值。

最後,生產用戶真正使用的一些產品也有賺錢的機會。比如類似於 Echo 這樣的終端產品,中國的京東和訊飛也在做,之前也有一些創業公司在做。不過,真正有機會的創業公司,是能夠去開拓一個新的市場領域的。

就音箱來說,這是一個長期存在的行業和產品,那麼,可不可以創造出一個新的產品形態?在這方面,創業公司往往擁有更大的機會,比如大疆在無人機領域能做到今天的體量,是因為它完全開創了一個新的產品品類。

人工智能时代,语音技术怎么赚钱?
圖為 Echo Dot 它的場景就不是用來聽歌的,而是一個語音助理。

比如說機器人,雖然現在大家還沒有普遍使用機器人,但是它一定是一個趨勢性、未來性的東西。在家庭場景中,使用最為廣泛的,其實是掃地機器人。

很多人買了一段時間就未必再用掃地機器人了,其中有各種各樣的原因,可能掃得不夠乾淨,也有它不夠智慧的原因——它是在完全沒有規劃路徑地在亂掃。

如果現在我們能夠加入更多智慧的東西,包括語音的交互,它就有可能成一個真正的智慧機器人。你可以呼喚它:「掃地機器人,到我這裡來,把這個房間打掃一下。」  而不是拿一個搖控器操作,或者走過去把它提過來。

你的聲音傳遞給他,他就知道你的方位,就會自動朝你的方向走,這也是一個可以提升用戶體驗的方向。

聲智科技陳孝良:不賺錢是因為一開始沒搭建好商業模式
為什麼會說語音技術賺不到錢?其實是一開始沒搭建好商業模式。剛開始提供雲辨識,是 to VC 的模式,強調的是公司的品牌影響力。那一旦開了免費的口子,之後就無法再收費了。

我們現在希望能先把 「餅做大了」,之後怎麼分餅大家再商量。

但現在整個市場還沒有起來,所有做語音技術的都在燒錢。

聲智科技的起步有點特殊:它一開始就做硬體,大家看到很多的展示的產品,有我們授權的,也有我們自己的,都可以讓我們從硬中直接得到收入,相對來說,我們最初的商業模式是非常簡單的。

人工智能时代,语音技术怎么赚钱?
圖為聲智科技的主要產品方向


但就像剛才我說過的一樣,這個是有問題的。光看硬體,是不足以吸引公司對我們的定義產生理解的,我們很難再做一個大規模的公司,這個時候,我們對硬體加軟體後端的理解,就和訊飛產生了一些差異,我們並不把語音交互只看作一個輸入法,也就是說,我們把它定義為類似於其他的操作方式的升級。

我們把它看作搜索的升級,也就是讓語音交互,可能成為下一代的搜索。而我們現在做的是現代搜索的一個入口,有點像以前的瀏覽器和後面的百度、谷歌之類。可能我說得比較大一點,就是將我們原先的交互方式升級。

我們回想一下,在 PC 端時代,我們用得比較多的是谷歌和百度。那個時候,我們要打開瀏覽器、輸入內容,再去查找網頁,但是到了行動互聯時代,用手機時我們會發現,在手機上,我們很少去打開一個瀏覽器,打開百度、谷歌,再去搜索內容,至少頻次明顯比原先在 PC 上的頻率小很多。

現在,我們已經更習慣打開 APP ——實際上,透過 APP 的形式,搜索已經被折疊化了。

我們現在知道,谷歌和亞馬遜對智慧音箱很感興趣。提到智慧音箱,我們又會發現,當我們面對沒有螢幕的音響是,你就不會去輸入或者打開 APP 了——也就是把搜索進一步折疊了,折疊的結果是,你去直接問它,這個效率明顯比前兩個的效率更高。實際上,這些都是由人性決定的——人的本性就是,喜歡向著簡單、高效去發展。

這個時候我們會發現,語音會改變未來搜索的狀態:現在的小朋友如果適應了智慧音箱的交互方式,很多時候他就會直接提問,而不是打開 APP,或者像 PC 時代一樣,輸入很多需要查找的資訊。

人工智能时代,语音技术怎么赚钱?
電影《 Her 》的海報,電影中的主角愛上了他的智慧設備——一個來自語音辨識系統中的聲音。電影預言:在未來,人們都離不開基於語音辨識技術的智慧系統。


我們現在有一些微薄的收入,但是以後我們在裡面怎樣能夠產生更好的方式,對我們來說,就是硬體+晶片,這在以後會產生更好的營收。行動端有很多 AP、很多的巨頭,但是這到底能產生一種什麼樣的新的商業模式,可能還都是在探討和摸索中。

現在很多巨頭,不用考慮營收,所以它們會盡量去做。對我們來說,只能先有硬體,然後下一步加輕量的方式,維持公司正常的商業運轉,然後下一步,看看會不會像我們預想的一樣,語音能夠下一代的搜索入口、甚至發生入口大戰,然後形成新的商業模式,能夠改變我們很多的行為習慣。這就需要各方面去探討和摸索,甚至還會掉進很多坑。

我相信第一波會有很多家公司做進去,因為大家經常說,第二波公司會做得很好,每個時代的發展都經常出現這樣的情況。關於定位,我們也不敢說什麼,只是先給大家提供完整的解決方案,不管是機器人、智慧音箱、車載,我們都更希望,大家共同開拓這個市場。同時,我們本身也是非常開放合作的。

注:本文来自微信公号深蓝deeperbule(ID:depperbluetech),转载可联系深小蓝(ID:miniDeeperBule)。


0 意見: