近來跑出去參加了兩次會議,很有意思的是兩次會上都有關於人工智慧的話題,前者是餘凱等的一個論壇,後者則是微軟研究院洪小文做了關於小冰的演講。C+峰會的走廊上還有一個接入了圖靈系統的NAO機器人,可惜的是我去捅它的時候,它正充電,完全不搭理我。
但各種文章、書籍、對話和演講聽下來,看下來我發現還很少人對人工智慧整體做過歸納,這篇文章正是這樣一種嘗試。嘗試把各種五花八門的產品和技術梳理出一點脈絡。
重新啟動的自動化
在1946年,美國福特公司的機械工程師D.S.哈德就提出了“自動化”一詞,此後各種提高自動化程度的技術層出不窮。但就和傳統軟體一樣,過去的自動化更多的是處理能清楚定義邊界的工作的自動化,對於邊界不清晰,環境特別複雜的情形則有點力不從心。
拿掃地機器人來做例子最容易說清這兩類情形:
如果就限定是很大的、固定是長方形的、沒什麼障礙物的屋子的清掃,那就很容易設計一種掃地機器人來完成確定的清掃方案,但這在居家的掃地機器人身上就行不通,因為不同人的屋子總是會有差別,這意味著這種居家掃地機器人必須處理預先沒被定義的各種情形。這是條紅線,沒有人工智慧的發展,自動化的程度就會限定在這條紅線下面。
這反過來也就意味著,如果人工智慧可以賦給機器更多的智力,那原本那些自動化方案沒法搞定的領域,現在也可以開始自動化了。這種領域很多,散佈在種種不同的行業中,如果按照潛在的影響力來做大致的排行的話,那麼是:
一、自動駕駛
自動駕駛所能帶來的變化肯定會大於電動這種單純的能源變換所帶來的變化,因為一旦自動駕駛真的實現,車在人們心目中的意義,很可能會發生巨大變化,並使車上的共用經濟真的得以實現。想像下在龐大且複雜的調度演算法的支援下,每個人的出行需要都可以按需滿足,那人們為什麼需要一輛自己的車。
自動駕駛的發展有兩種路線:一種是Google式的,特點是一下子實現終極目標,中間沒有過渡;一種則是以各大車廠為代表的漸進式自動駕駛實現路線。
要想判斷那種更容易先成功,那麼需要考慮到由現有狀態,到自動駕駛的更迭不只是車的更迭,而是整個系統的更迭。所謂整個系統的更迭至少有兩方面的含義:
一個是自動駕駛所需要的支撐系統必須是完整實現的。
一般來講加油/充電、事故維修、保養是汽車運轉必須的幾項支撐。但這點對自動駕駛路線影響並不大,兩條路線應該都是可以嵌入到現有系統裡來。
另一點則是車所需要面對的環境是一體的,逐個場景來實現自動駕駛理論上似乎是個誤區,因為現實裡很難清晰劃定場景的邊界。
我們可以講突然躥出人這種場景在高速路上就絕對不會出現,不需要處理,在一般街道上就需要處理嗎?而要想徹底解決自動駕駛裡的問題,其根本並不在車本身,而在於資料(道路的資料、雷達等感知到的資料等)以及資料的處理。
所以從這個角度看,車本身是已經被征服的技術點,Google這樣的公司去搞車雖然難,但有舊例可循,但與此相比車廠去處理資料則更難。
這兩種路徑看著是後一種更穩妥,但實際上很可能是Google那種路線最終會勝出。因為從場景的角度看要麼你完全搞定了自動駕駛,要麼沒搞定,似乎沒有給中間狀態留太多的空間。
現在的估計是自動駕駛會在5~10年內變成一種大眾化的技術,其中5年估的就是那種漸進式的路線,如果按照上述邏輯進行修正,那麼這事離我們大概還有10年遠。
二、服務機器人
服務機器人裡面最典型的就是掃地機器人,其它如酒店服務機器人、安保機器人等也都可以劃入這個類別。也許還會湧現出其它產品,但這些產品本質差不多,所要依賴的基礎技術會有共通的地方,主要是需要強化的點會不太一樣。
這種機器人通常需要知道自己的位置,並對環境(公路、家裡、酒店、園區等)進行感知,再接下來根據感知到的東西採取行動。
如果需要交互那麼還需自然語言處理(NLP)做支援。這裡面即時知道自己的位置、對現實進行感知並行動是重度依賴於人工智慧的點,沒人工智慧上的突破這幾項不太可能做好。終極狀態就是四處能跑的和真人一樣的機器人,但現在限於技術水準,只可能在特定環境下進行優化。
沒地圖走路這點其實比較難,經常提到的SLAM(即時定位與地圖構建)指的就是這個,據說地球上能這個上搞出像樣結果的人一共也沒幾個。
服務機器人因為是限定場景,所以雖然有難度但離我們其實不遠,現實裡已經部分的走到我們生活裡來了,比如iRobot的掃地機器人。
上述的自動駕駛汽車和服務機器人,本質上都可以看成是對自動化的延續,但加入了感知、機器學習等來面對複雜不可以預先預知的環境(想像下現在在火星上跑的那車)。這裡面比較濫竽充數的是工廠裡的機械手,這類產品大多時候也還只是原本定義的自動化,只不過從形態上很容易被歸到機器人這一類別下面。
實際上它們並沒有太多機器人的內涵。Baxter等公司也在嘗試做出能學習的用於生產製造的機器人,但這個也還處在在路上的狀態。
資料分析和挖掘
同屬於於人工智慧,但又與上面所說的自動化升級差異非常大的領域,是資料的分析和挖掘。
我們這個世界的資料化程度必然因為網際網路、智慧硬體的發展而逐步加深,這就會導致海量的資料產生,而傳統的方法是不足以應付這麼大的資料量的,因此就有大數據相關的各個領域出來,但之前常提到的各種大數據技術比如Hadoop、Spark更像是大數據的處理的基礎設施,在基礎設施完備之後就需要有一定方法來從這些資料中挖掘出價值。
人是不可能玩成這工作的,必須某種機器智慧來做才行,因為大數據的價值密度一定會非常稀疏,人是不可能直接利用這些資料的。其實這也道出了現在所謂人工智慧的一種主流驅動方式—資料驅動。
這個方向上在可見範圍兩個典型的應用是IBM的沃森和Palantir:
一、沃森
沃森的標誌性事件是在美國的一檔知名問答節目裡擊敗人類選手,獲得冠軍和100萬獎金。這實在是科技界最厲害的公關事件,通過一次比賽把自己記進了人工智慧的發展史,只要還有人在提人工智慧那就繞不開沃森。
如果拋開商業這一面不論我們可以發現沃森與上面所說的自動化升級有著非常大的差異。沃森背後倒沒聯網,但需要有15T的資料做支撐,它不太需要感知環境,但需要對語音語義有較好的理解,否則沒法搶答並回答問題。
二、行業應用
行業應用就更現實一點,體現的是人+人工智慧的優勢。金融公司總是要從海量資料中分析出那種行為更像是金融欺詐,廣告公司要分析轉化率,電商公司則要根據使用者行為分析如何提升銷售額等。這類工作的基本模式正如上面所說一般是有一大堆資料需要處理,資料分析師需要從這堆資料裡提煉些東西出來。
這時候把資料完全交給演算法是很困難的,因為現在的人工智慧演算法不太可能理解很複雜的目的性,於是就需要人與人工智慧的結合,人設定方向,利用某種機器智慧的演算法來獲得結果,和目標進行匹配。有可能沒法一次到位,於是這一過程可能需要反覆運算多次,才能達到最終目的。
上面這類人工智慧系統的兩個核心部分,是海量資料的分析能力以及一個與人交互的介面。
與人交互的介面因為不同場景會有變化,沃森那類系統需要的介面比較高級,因為需要面對完全沒有人工智慧知識的人員,行業應用的介面則需要比較低級,甚至需要暴漏底層演算法,來給資料分析師做選擇。這種系統更可能在專業領域展開,比如律師對過往案例的查詢、醫生對X光片的分析,一旦這種系統在在一般使用者級別的展開,那體現形式就是Siri、小娜。
解決情感問題
上述兩者的大綜合,再加上擬人情感的部分,才可能是斯皮爾伯格電影裡演繹的那種人工智慧,這種人工智慧從自動化方向繼承的是感知、學習和反應,從大資料繼承的是海量資料處理,額外再加上良好的人機交互、對人類情感上的理解,最終就會形成一種夥伴型的機器人,這會是非常綜合的一種產品。
有意思的是正因為這種綜合你不太好定位它到底適合幹什麼,不適合幹什麼。從功能上看這會是人類完整的複製品,你能幹的它都能幹,包括寫作、照看他人、幫你收拾屋子等等。
現實裡人們一邊隱約感受到這方向的價值,一邊又不確切的知道具體可以用這東西來幹什麼,所以很多人都是在摸索前行,但技術的不成熟和剛需的不明朗確實註定了這個方向上的產品命運必然坎坷,比如JIBO、Pepper、Rokid。
Pepper一發佈我就感覺路數不對,專門發了條微博調侃:
近來又看到有人報導老孫頭帶頭推的Pepper,這東西暫時肯定沒戲應該是明顯的,為啥會做這個呢,不理解。
時隔半年之後,我專門到YouTube上看了下產品的現場感受以及評論,結果發現回饋裡惡評如潮,現場的人們更多的是在感歎:難しい。這詞咋一看是困難,但在那個語境裡翻譯成“差点意思”更合適。視頻下方的評論中有一條最有意思:這產品充分的說明了孫正義和賈伯斯的差距啊。
小結
這篇文章寫了人工智慧的各種落地方向,沒覆蓋的是虛擬實境。虛擬實境的演化方向與上述所說的完全不同,會更傾向於建立一個,像駭客帝國電影裡描述的那種虛擬空間,但要想非常真實的創建那樣一個世界,只是蒙住眼睛顯然是不夠的,在虛擬世界的完善過程中,一樣會用到人工智慧的技術,大致如此。
0 comments:
張貼留言