‧ 人工智慧怎麼理解問題？比如，它知道可以用 iPad 壓住一碗泡麵

【編者按】本文作者沐陽浸月，中共中科院自動化所複雜系統國家重點實驗室研究生，主攻水下機器人。

“假設在你面前站著一個黑衣人，他渾身都裹著一層布，所以你並不知道他是真正的人還是什麼東西。就在這時你問了他一個問題：什麼事情iPad能做，但是iPhone卻不能做？他思考片刻回答道：燜住速食麵桶。說完，默默地拿起iPad就把你剛剛泡上的速食麵用iPad蓋上了。”

11月23日，世界機器人大會在中共國家會議中心盛大開幕,規模可謂盛況空前。中國習近平主席發來賀電，李克強總理進行批示，李源潮副主席親自到會並發表重要講話等，各個國家頂級的機器人專家，悉數進行了精彩絕倫的演講，比如這個：超限機器人是什麼樣的，比如說奈米機器人？ | 2015 世界機器人大會。

這裡就不贅述了，我也到場看了，有所感悟，主要的目的是想借此機會給讀者們來提供一些關於人工智慧的基礎理解。

什麼是智慧？

通過此次盛會，機器人以及人工智慧的概念，又一次被推上了風口浪尖。因為機器人能看到實體，所以大家並不陌生。但是人工智慧對於大眾來講卻一直是一個很玄幻的概念，而且針對人工智慧，很多謬誤也遍地開花。

所以，我就從一個基礎的角度講講人工智慧到底是什麼，把它從一個看似遙不可及的概念拉回到一個我們人人都能理解的層次。

“智人”，生物學分類中人屬的一個“種”，地球上現今全體人類的一個共有名稱，說的也就是我們自己。我們用“智慧”作為和其他生物劃清界限的一個重要指標。

那到底什麼是智慧？

智慧是我們所具有的基於神經器官一種高級的綜合能力，它包含有感知、知識、記憶、理解、聯想、情感、邏輯、分析、判斷、決定等多種能力，它是一種可以使我們做出導致成功的決策的能力。

所以從字面上理解，人工智慧自然就是由人工製造出來的系統，所表現出來的一種智慧。但是，真實的人工智慧並不像我們字面上看到的這麼簡單。因為我們在研究人工智慧的過程中，並不只是單單想製造出來一種機器，或者一段程式，他的表現“看起來”像人一樣，因為我們自身也並非一種完美的存在，我們也有自己的不足和缺陷，所以我們要追求的人工智慧，需要從以下四個維度去定義。

先把圖放上：

在上圖的四種定義中，頂部的定義關注思維過程與推理，底部定義強調行為；左側的定義根據與人類表現的逼真度來權衡，右側的定義依靠合理性的理想的表現量來衡量。

而合理的定義就是，如果一個系統可以基於已知條件，做正確的事情，那麼它就是合理的。

下面我們對這四種定義進行詳細敘述。

1、像人一樣思考

如果我們說某個程式能像人一樣思考，那麼我們必須找一個辦法來確定人是如何思考的，但是十分遺憾地說，目前並沒有一個十分有效的辦法，來找出我們人類的思維方式。所以我們到底是如何思考的，至今仍然是一個待解的謎題。雖然是個難題，但是我們也在試圖通過我們可以想到的辦法來解決它，一個是通過對人類思維行為的觀察和實驗，一個是對我們的大腦進行觀察與試驗，而對大腦解密也是聞名世界的人類大腦計畫（Human Brain Project, HBP）想要解決的一個子問題。

在第一種辦法中，我們可以通過兩項任務來完成：

一個是通過內省，也就是我們通過對自己思維過程的捕捉、回顧和思考來獲得我們自身的思維過程；

另一個便是通過心理實驗，也就是觀察工作和進行思維活動的人，我們通過對被觀察人的行為以及行為所表現出的特徵，通過心理學等學科的方法，來逆向推測人類的思維活動。

但是我們很容易發現，這種方法中的兩項任務都具有很大的主觀性。

我們的自省，不同人有不同的生活閱歷以及三觀，這就導致不同的人對自己的認知以及對自己思維的反省都不可能客觀，而且人類的思維過程也有十分大的缺陷，即使是一個具有高度自省能力的人也很容易落入窠臼。

這個缺陷中的一種，就是我們總是相信我們願意相信的東西，即我們無法意識到的認知偏向性，將導致我們對於預期中和預期外的後果，有著不均等的注意，所以我們的內省自然也經常會帶有或多或少的認知偏向性。

而通過觀察被觀察人，來逆向得出思維過程則更充滿主觀，這個主觀既來自被觀察人，也來自觀察人，被觀察人的真實思維不一定會有外在表現，而外在表現也並不一定是真實思維活動，這也正如成語“口是心非”所描繪的場景。

而觀察人對行為-思維的判斷，則在本身的主觀性上又加了一層。由於觀察人的經驗、學識以及認知的不同，自然對同一個行為也會產生不一樣的判斷，所以這種辦法雖然可行，但是結果的客觀性的衡量仍然有待考證。

所以這種方法遇到困難後，人們就自然想繞過“心理”這個層面，直接對我們的大腦進行研究，所以我們的目標又投向了神經生理學以及神經資訊學。

只有具備了人腦足夠精確的理論，我們才能把這樣的理論表示成電腦程式。人類大腦計畫的目標，是利用現代化資訊工具，將大量、不同層次的有關腦的研究資料分析、處理、整合與建模，建立神經資訊學資料庫，和有關神經系統所有資料的全球知識管理系統，以便從分子水準到整體系統水準研究、認識、保護、開發大腦。

大腦如何思維一直是困擾人類的一個問題。人類的“智慧”正是來自人類極其複雜的大腦。在過去的六億年中，生物體通過進化產生出由大量神經元相互聯結而形成的神經網路，解決了在不斷變化的複雜環境中，人腦如何處理各種複雜資訊的問題。尤其是人的高級認知功能的高度發展，使得人類成為萬物之首，具備了主宰世界的能力。

由於人腦的結構和功能極其複雜，所以我們需要從分子、細胞、系統、全腦和行為等不同層次進行研究和整合，才有可能揭示其奧秘。這裡補充一句，人類大腦計畫雖然是個十分偉大的計畫，但是遺憾的是，它現在也正在陷入一場危機，有興趣的朋友可以移步《人類大腦計畫陷入困境》，這裡不再贅述。

2、像人一樣行動

如果說像人一樣思考說的是把模仿人的內部智慧思維程序定義為人工智慧，那麼像人一樣行動則說的是把模仿人類智慧外在表現稱為了人工智慧。

值得注意的是，這種模仿並不是一種物理類比，例如我造了一個人形機器人，如果他除了外表長得像人一樣，而其他什麼也不會做的話，我們並不能將其稱之為有智慧。

但是我們想一想，如果他可以交流，你問他問題他也不會答非所問，他能看見你並且和你擁抱，他感受到冷了會自己加衣，那麼情況就完全不一樣了，這時候我們就可以說這樣的機器人他“可能”擁有了智慧。

通過上面這個例子，我們似乎對什麼是“像人一樣行動” 有了一個初步概念。

如果嚴格地說，要想讓一個機器能在“像人一樣行動”這個維度具有智慧，他需要的能力包括：自然語言處理，知識表示，自動推理，機器學習，電腦視覺以及機器人學。

自然語言處理說的是對語言處理的能力，基本能力便是能成功的用英語進行交流；

知識表示是指存儲它知道的或者聽到的資訊的能力；

自動推理說的是運用存儲的資訊來回答問題並作出推出新結論的能力；

機器學習則指的是獲取新的知識或技能，重新組織已有的知識結構使之不斷改善自身的能力；

電腦視覺和機器人學是指感知物體和操作移動物件的能力。

說了這麼多理論的東西，我們來舉一個具體的例子。

我們先設定一種情況：

假設在你面前站著一個黑衣人，他渾身都裹著一層布，所以你並不知道他是真正的人還是什麼東西。就在這時你問了他一個問題：什麼事情iPad能做，但是iPhone卻不能做？他思考片刻回答道：燜住速食麵桶。說完，默默地拿起iPad就把你剛剛泡上的速食麵用iPad蓋上了。

這個時候再問你，你覺得他是一個真實的人類還是一種機器？

於是你陷入了沉思，這貨不論是從問題回答的正確性以及行為動作而言根本看不出有什麼漏洞，而且竟然還會機智地說段子，然後你承認你無法判斷。

例子講完了，其實剛才那個過程就是所謂的圖靈測試的生動版。

（阿蘭·圖靈像）

由圖靈提出的圖靈測試正是旨在為智慧提供一個令人滿意的可操作的定義，而且在這個概念提出的60多年後這個設計仍然適合對智慧的判斷，這一點十分令人稱讚。

圖靈測試的測試內容，即是一個人（代號C）使用測試物件皆理解的語言去詢問兩個他不能看見的物件任意一串問題，物件為：一個是正常思維的人（代號B）、一個是機器（代號A），如果經過若干詢問以後，C不能得出實質的區別來分辨A與B的不同，則此機器A通過圖靈測試。

但是圖靈測試也並不是最佳的測試方法，因為這種測試方法只關注外在表現，並沒有把真正的關注點放在產生這種思維的原理上，所以即使是通過了圖靈測試的機器也許並不是真正的具有了智慧，蒙混過關的情況也很有可能發生。

你一定還有印象，2014年俄羅斯團隊宣稱開發出了一台首次通過圖靈測試人工智慧的機器人，這台名為Eugene Goostman的電腦被描述為“把自己偽裝成十三歲的男孩，騙過了超過 30% 的測試人員”。其實想讓電腦蒙混過關並不複雜，這裡還有10個伎倆，有興趣的話可以看看。後來英國皇家學會將圖靈的標準具體化：在一系列時長為 5 分鐘的鍵盤對話中，只要電腦被誤認為是人類的比例超過30%，那麼這台電腦就被認為通過了圖靈測試。

一年一度的Loebner Prize比賽便以此標準，這個大賽也早就出現了“通過測試”的機器人，比如2011年的 Cleverbot 程式達到59%的通過率。但是，這個名為Eugene Goostman機器人就是單純地為了通過這個 5 分鐘測試而設計的，編寫者還頗有心機地把它設定成一個 13 歲的非英語母語的小孩，以便在很多問題無法回答或者出現錯誤的時候，讓裁判誤以為這是因為他年齡小而產生的語無倫次。

也就是說，Goostman既不是“第一個通過測試”的程式，也不是一台人工智慧機器人。

另一個經常出現的謬誤是我們經常聽“這個機器人的智力已經接近多少歲的兒童”這樣的報導。

百度李彥宏曾說“百度內部有個‘百度大腦’的項目，用技術模擬人腦思維，現在大約已經相當於2 - 3歲孩子的智力水準。未來十幾二十年，這樣的大腦或許比人腦還要聰明。”而微軟小冰被定義為“一個 17 歲的萌妹子”。

瑞典的科學家在 2012 年開發了一個據稱智商達到150的人工智慧程式。但是遺憾的是，這些話大多數只是這些科技公司為了行銷而說的一些話。人類的大腦能學習幾乎所有東西，比如兩三歲的孩子已經能夠掌握至少一門的語言、能從極其複雜的環境中一眼認出父母，不管他們的站姿和表情。但這與人工智慧相距甚遠，更不用說搞清楚“智力”這種玄乎的東西了。

3、合理地思考

雖然我們人類的智慧是偉大的，但是儘管如此，我們仍然需要面對一個十分嚴酷的結論，我們人類並不是完美的。而在追求完美的路上，我們遇到了人工智慧，所以我們是將人工智慧向人的方向發展還是向更加完美、在一定程度上已經脫離了人這個本體的方向來發展，這也是我們如何定義人工智慧的一個重要議題。

所以在討論了“像人一樣”的話題後，我們要開始談論“合理地”這個話題了。

上面已經對什麼是合理進行了說明，即如果一個系統可以基於已知條件做正確的事情那麼它就是合理的。

希臘的哲學家亞里斯多德是首先識圖嚴格定義“正確思考”的人之一，他將其定義為不可反駁的推理過程。他提出的三段論為在給定正確前提時總產生正確結論的論證結構提出了模式，這就是三段論推理模式。三段論推理說的是這樣一種簡單判斷推理，它包含兩個直言命題構成的前提，和一個直言命題構成的結論。一個正確的三段論有且僅有三個詞項，其中聯繫大小前提的詞項叫中項，在前提中出現兩次；出現在大前提中，又在結論中做謂項的詞項叫大項；出現在小前提中，又在結論中做主項的詞項叫小項。

概念有點複雜，我們舉一個例子：牛有四條腿，奶牛是牛，所以奶牛有四條腿，這便是三段論。

這些先賢認為這些思維法則正是支配頭腦運行的基本法則，並且開創了被稱為邏輯學的領域，而且19世紀的邏輯學家門為了世上各種物件以及物件之間關係的陳述制訂了一種精確的標記法。

從表面上看這種標記法似乎距離我們所說的人工智慧又近了一步，但是遺憾的是，這種方法卻存在著很大的兩處缺陷：

一個就是由於這種標記法為了精確表達各種物件之間的關係所以必須做到事無巨細，但是這就導致了，有些稍微複雜的問題，他們之間的邏輯表示可能要幾百上千條，但是電腦的運行資源是有限的，可能在求解一個只有幾百條事實的問題就已經耗盡任何電腦的資源。

其實人工智慧自1947年圖靈在倫敦數學學會真正提出來之後的將近70年的時間裡，人工智慧經歷了很長一段的瓶頸期，直到現在才又重新蓬勃發展起來，邏輯學的這種思路正是一個重要原因。

也就是，人們總是希望創造或者用規則複現出一種合理推理的“規則”，然後讓電腦照著這種規則來運行，但是問題就在這裡，一方面這種規則的制定並不是一件容易的事情，他需要的人力以及智力都遠遠超乎想像，況且世界上那麼多需要“列舉”的規則，能列舉的完嗎。另一方面即使列舉出了這些規則，但是要想將這些規則描述為電腦程式，龐大的計算量也並不是電腦所能承載的，更況且是幾十年前的電腦，所以這也是一大缺陷。

另一個大的缺陷就是，在我們這個世界上，並不是所有的關係都是確定的，而且真正的事實是，大部分的關係都不能真正用邏輯來表示。

拋一枚硬幣，結果是正面朝上還是反面朝上；收到一封郵件是不是垃圾郵件；今天會下雪嗎。凡此種種，我們都不能用一個“百分之百”的知識來表示，這也是人工智慧瓶頸期的重要制約因素，這也是為什麼隨著機器學習等優秀的處理概率事件的方法上市後人工智慧得到飛速發展的一個重要原因。

4、合理地行動

為了說明行動這個具有行為要素的概念，我們需要引入一個叫Agent的概念，它是一種能夠行動的東西。我們平時所說的機器人只是Agent的一種表現形式，會寫新聞稿的那段程式也是Agent的一種表現形式。所以合理Agent是一個為了實現最佳結果，或者當存在不確定性時，為了實現最佳期望結果而行動的Agent。所以總體來看，“合理的行動”相對於“像人一樣”避免了人類思維和行動上的缺陷，也避免了“合理地思考”的局限性，故合理Agent可以看做是對人工智慧最好的一種逼近。

在實現人工智慧“思維法則”的途徑中，一個很重要的部分就是正確地推理，而且做出正確的推理也是合理Agent的重要組成部分——

因為合理行動的一種方法就是邏輯地推理出給定行動將實現其目標的結論，然後遵照這個結論進行行動。

但是在這裡需要注意的一點是，正確的推理只能是合理性的一部分，因為有些事情是合理的，但是它並不需要推理，正確推理是合理性的充分不必要條件。

例如手被火苗燙了一下，縮手就是一種反射行為，並且這也是一種合理行動，但是我們不能說這裡面涉及了推理，而且這種行為比仔細考慮後採取的較慢的行為更成功。

那我們再用這種思路看一下圖靈測試，我們可以發現，圖靈測試中那個“黑衣人”所需要的所有技能也同樣屬於一個Agent合理地行動範疇，所以這個維度與圖靈測試並不矛盾。

合理Agent這個維度的定義與以上三種維度定義主要有兩大優點：

第一點是合理地行動比合理地思考具有更加普遍的適用性。

因為它允許“可能性”這種機制的存在，當我們遇到一個沒有 “百分之百”的決策的時候，我們可以通過先驗概率和後驗概率，得出一個實現最佳期望結果的決策。這樣，我們世界中基本上所有的事情就都可以通過這種方法而使Agent有所行動了。

第二點就是這種途徑比“像人一樣”，即基於人類行為或者人類思維的途徑更經得起科學發展的檢驗。

合理性的標準在數學上定義十分明確而且完全通用，所以這種情況就完全避免了人的主觀性，這種合理性是可以通過科學方法驗證能夠實現的，“能被客觀證明”這種特質也是“合理地行動”這個維度定義的一大優點。