2019年8月7日 星期三

.為什麼這些照片連最強大的視覺 AI 也無法準確辨識?

10 Mind Blowing Optical Illusions




來源:科技行者

目前,研究人員們正在探索和研究,為什麼電腦無法解析某些特定圖像。

为什么这些照片连最强大的视觉AI也无法准确识别?
▲ 桌子上面的到底是井蓋還是蜻蜓?(圖片提供:Dan Hendrycks)

對人類而言,這些答案顯而易見。然而,世界上最強大的圖像辨識人工智慧卻還無法解決上述難題。

之所以會這樣,是因為每一張照片都經過精心挑選,專門用來「欺騙」圖像辨識技術。這些照片來自一套專門的數據集,其中的 7000 張照片由加州大學伯克萊分校、華盛頓大學,以及芝加哥大學的研究人員們,共同整理完成。

加州大學伯克萊分校電腦科學博士生、論文作者 Dan Hendrycks 表示:「目前的(機器學習)模型還不夠完善。雖然已經有不少研究,嘗試利用人工數據提升模型的能力,但我們發現,這些模型在面對某些真實數據(來自真實照片)時,往往會出現嚴重且高度一致的錯誤判斷。

為瞭解釋這個問題的重要意義,我們首先對圖像辨識技術的發展做一下回顧。


为什么这些照片连最强大的视觉AI也无法准确识别?
▲ 照片中的是一隻綠鬣蜥,還是一隻松鼠?(圖片提供:Dan Hendrycks)

過去幾年以來,圖像辨識工具已經變得越來越好,辨識速度也越來越快。這在很大程度上要歸功於史丹佛大學創建的,並且其規模仍在持續拓展的開放數據集 ImageNet。該數據集目前已經包含超過 1400 萬張照片,每張照片都配有「樹」、「天空」之類的標記。

這個龐大的數據庫,成為人工智慧重要的訓練素材集合,也可以作為新 AI 系統的參考基準,用於訓練系統進行圖像辨識。打個比方,它就像是一本專供幼兒學習,新單詞的看圖學話繪本。目前,利用 ImageNet 訓練出的人工智慧,擁有極高的準確率,其物體辨識精度可達95%,這一水準已經優於人類的圖像內容分辨效果。

然而,解決這最後 5% 的準確度缺口,是個巨大的挑戰。自 2017 年以來,電腦在辨識圖像的準確度方面,一直比較羸弱。正因為如此,研究人員們才嘗試探索其中的原因——即電腦為什麼無法解析某些特定圖像。

透過這套新的圖像集合,研究人員們以手工方式搜索 Flickr(雅虎旗下的圖片分享網站),尋找可能會令 AI 軟體陷入混亂的照片。然後,他們利用由 ImageNet 數據集,訓練而成的 AI 模型進行測試,如果模型確實無法辨識照片內容,則將其添加到這套名為 ImageNet-A 的新數據集內(很明顯,這個名稱代表的就是反 ImageNet 之意)。

在辨識這 7000 張照片時,AI 的準確度從 90% 迅速降低至 2%。是的,您沒有看錯,世界上最先進的視覺 AI 模型,確實無法正確辨識其中 98% 的照片。

至於 AI 系統為什麼無法理解這些圖像,則是個相當複雜的問題。


为什么这些照片连最强大的视觉AI也无法准确识别?
這是獨輪車,還是一隻穿越馬路的鰐魚?(圖片提供:Dan Hendrycks)

目前的 AI 訓練,基本上就是把大量數據投入「黑盒子」當中 —— 換句話說,我們只能根據最終結果,來判斷其準確性。比如,如果「黑盒子」見過足夠多樣的樹木圖像,它就會開始在新照片中,認出樹木對象,而我們就認為訓練獲得成功(這類重復任務被稱為機器學習)。

但問題是,我們並不知道 AI 是依靠哪些指標辨識樹木的 —— 是形狀?顏色?背景?質地?還是說樹木具有某種,人類從未意識到的統一核心幾何樣式?對於這個問題,目前科學家們也回答不了。


總而言之,AI 能力的判斷由結果實現,而非透過推理過程實現。這意味著我們可能會從 AI 當中,發現種種令人意想不到的偏見,而這又進一步影響到 AI 系統,在無人駕駛汽車或者刑事司法領域的實際應用。除此之外,這也意味著圖像辨識系統,並不算是真正實現的智慧化,而更像是一種強大的比對工具

建構 ImageNet-A 數據集,正是為了「欺騙」AI,從而總結為什麼這些圖像,會讓系統找不到正確答案。舉例來說,當 AI 錯把一張松鼠的圖片,認為是海獅時,其缺少深層智慧與推理能力的問題,就會被直接暴露出來。

該系統可能僅依賴於這些動物的紋理 —— 而非對象的相對大小或形狀 —— 進行辨識。Hendrycks 表示:「那些需要根據物體形狀,才能做出正確判斷的照片,似乎最有可能騙過 AI 模型。」
利用 ImageNet-A,研究人員們成功從視覺 AI 當中,找到 7000 個盲點。但是,這是否意味著,可以將這些圖像建構成新的訓練集,從而修復 AI 模型的這個大毛病?答案恐怕是否定的。

Hendrycks 指出,「由於現實世界中,存在著大量多樣性與複雜性因素,因此利用這些圖像進行訓練,可能無法教會模型,如何真正可靠地,管理全方位的視覺輸入資訊。比方說,也許收集並標記 1 萬億張圖像,足以解決一部分模型盲點,但當出現新的場景,或者環境發生變化時,以往修復的各個盲點,可能會再次暴露出來。」

換言之,簡單將更多照片,添加到機器學習數據集當中,無法解決 AI 模型在邏輯層面的核心缺陷,畢竟總會出現電腦之前,從未見過的圖像。


那麼,研究人員們該如何解決,這最後 5% 的準確性空白?Hendrycks 解釋稱,他們需要在現代機器學習範圍之外,開發出新的方法,從而創建起更加複雜的 AI 系統。

而在他們實現這一目標之前,人類仍然可以繼續保持,一點小小的優越感 —— 截至當下,AI 在某些方面,仍無法與人類相匹敵。


沒有留言:

張貼留言