．為什麼這些照片連最強大的視覺 AI 也無法準確辨識？

10 Mind Blowing Optical Illusions

來源：科技行者

目前，研究人員們正在探索和研究，為什麼電腦無法解析某些特定圖像。

▲ 桌子上面的到底是井蓋還是蜻蜓？（圖片提供：Dan Hendrycks）

對人類而言，這些答案顯而易見。然而，世界上最強大的圖像辨識人工智慧，卻還無法解決上述難題。

之所以會這樣，是因為每一張照片都經過精心挑選，專門用來「欺騙」圖像辨識技術。這些照片來自一套專門的數據集，其中的 7000 張照片由加州大學伯克萊分校、華盛頓大學，以及芝加哥大學的研究人員們，共同整理完成。

加州大學伯克萊分校電腦科學博士生、論文作者 Dan Hendrycks 表示：「目前的（機器學習）模型還不夠完善。雖然已經有不少研究，嘗試利用人工數據提升模型的能力，但我們發現，這些模型在面對某些真實數據（來自真實照片）時，往往會出現嚴重且高度一致的錯誤判斷。

為瞭解釋這個問題的重要意義，我們首先對圖像辨識技術的發展做一下回顧。

▲ 照片中的是一隻綠鬣蜥，還是一隻松鼠？（圖片提供：Dan Hendrycks）

過去幾年以來，圖像辨識工具已經變得越來越好，辨識速度也越來越快。這在很大程度上要歸功於史丹佛大學創建的，並且其規模仍在持續拓展的開放數據集 ImageNet。該數據集目前已經包含超過 1400 萬張照片，每張照片都配有「樹」、「天空」之類的標記。

這個龐大的數據庫，成為人工智慧重要的訓練素材集合，也可以作為新 AI 系統的參考基準，用於訓練系統進行圖像辨識。打個比方，它就像是一本專供幼兒學習，新單詞的看圖學話繪本。目前，利用 ImageNet 訓練出的人工智慧，擁有極高的準確率，其物體辨識精度可達95％，這一水準已經優於人類的圖像內容分辨效果。

然而，解決這最後 5％的準確度缺口，是個巨大的挑戰。自 2017 年以來，電腦在辨識圖像的準確度方面，一直比較羸弱。正因為如此，研究人員們才嘗試探索其中的原因——即電腦為什麼無法解析某些特定圖像。

透過這套新的圖像集合，研究人員們以手工方式搜索 Flickr（雅虎旗下的圖片分享網站），尋找可能會令 AI 軟體陷入混亂的照片。然後，他們利用由 ImageNet 數據集，訓練而成的 AI 模型進行測試，如果模型確實無法辨識照片內容，則將其添加到這套名為 ImageNet－A 的新數據集內（很明顯，這個名稱代表的就是反 ImageNet 之意）。

在辨識這 7000 張照片時，AI 的準確度從 90％迅速降低至 2％。是的，您沒有看錯，世界上最先進的視覺 AI 模型，確實無法正確辨識其中 98％的照片。

至於 AI 系統為什麼無法理解這些圖像，則是個相當複雜的問題。

▲這是獨輪車，還是一隻穿越馬路的鰐魚？（圖片提供：Dan Hendrycks）

目前的 AI 訓練，基本上就是把大量數據投入「黑盒子」當中 —— 換句話說，我們只能根據最終結果，來判斷其準確性。比如，如果「黑盒子」見過足夠多樣的樹木圖像，它就會開始在新照片中，認出樹木對象，而我們就認為訓練獲得成功（這類重復任務被稱為機器學習）。

但問題是，我們並不知道 AI 是依靠哪些指標辨識樹木的 —— 是形狀？顏色？背景？質地？還是說樹木具有某種，人類從未意識到的統一核心幾何樣式？對於這個問題，目前科學家們也回答不了。

總而言之，AI 能力的判斷由結果實現，而非透過推理過程實現。這意味著我們可能會從 AI 當中，發現種種令人意想不到的偏見，而這又進一步影響到 AI 系統，在無人駕駛汽車或者刑事司法領域的實際應用。除此之外，這也意味著圖像辨識系統，並不算是真正實現的智慧化，而更像是一種強大的比對工具。

建構 ImageNet－A 數據集，正是為了「欺騙」AI，從而總結為什麼這些圖像，會讓系統找不到正確答案。舉例來說，當 AI 錯把一張松鼠的圖片，誤認為是海獅時，其缺少深層智慧與推理能力的問題，就會被直接暴露出來。

該系統可能僅依賴於這些動物的紋理 —— 而非對象的相對大小或形狀 —— 進行辨識。Hendrycks 表示：「那些需要根據物體形狀，才能做出正確判斷的照片，似乎最有可能騙過 AI 模型。」

Deep neural networks are easily fooled: High confidence predictions ...

利用 ImageNet－A，研究人員們成功從視覺 AI 當中，找到 7000 個盲點。但是，這是否意味著，可以將這些圖像建構成新的訓練集，從而修復 AI 模型的這個大毛病？答案恐怕是否定的。

Hendrycks 指出，「由於現實世界中，存在著大量多樣性與複雜性因素，因此利用這些圖像進行訓練，可能無法教會模型，如何真正可靠地，管理全方位的視覺輸入資訊。比方說，也許收集並標記 1 萬億張圖像，足以解決一部分模型盲點，但當出現新的場景，或者環境發生變化時，以往修復的各個盲點，可能會再次暴露出來。」

換言之，簡單將更多照片，添加到機器學習數據集當中，無法解決 AI 模型在邏輯層面的核心缺陷，畢竟總會出現電腦之前，從未見過的圖像。