僅僅一個月前百度才宣佈刷新了ImageNet圖像分類辨識測試的機器成績,最近幾天微軟亞洲研究院的最新論文就將這一紀錄又帶到了新的高度。這一次的突破還有里程碑的意義:在測試中,電腦系統的圖像辨識錯誤率不到5%,低於人類的5.1%水準,這是電腦首次在該測試中表現超越人類。
當然,此次突破並不意味著我們的電腦可以輕易分辨出照片上的笨狗與懶貓;很多領域中人類仍然對電腦擁有很大優勢,例如區別不同種類的物件。但在相同種類、整體相似細節有差異的物件辨識任務中,電腦可能會有更佳表現。此外,隨著研究深入、運算速度提升,將來有一天電腦會有能力做到全面接近,乃至超越人類的圖像辨識速度及準確度。
百度曾為自己的手機詞典上線了一個功能,就是拍攝任意照片,用戶可以勾選照片中的物體,讓機器自動辨識物體名稱。功能上線後因為準確率極低,迅速被網友當成惡搞工具:什麼把礦泉水認成伏特加,把手指當作腳趾,模型說成小動物……由於技術不成熟,這項功能現在並沒有什麼實用性。但當電腦的圖像辨識能力達到人類水準後,圖像辨識能大顯身手的場合,將遠不止於這類娛樂化的應用。
crcv.ucf.edu |
最直接受益於圖像辨識技術進步的應用是搜尋引擎。網路上存在難以計數的龐大圖像資源,而幾乎所有圖片都沒有合適的標籤注釋。使用者想要搜索諸如“包含藍天白雲的照片”、“桌椅的照片”時,搜尋引擎只能根據輸入的關鍵字與圖片來源的注釋比對,結果只能找到數量較少的資源。
而圖像辨識技術完善後,引擎就能夠自動辨識出每張圖片中的物體,並為其加注標籤,用戶搜索時的精度、自由度就會成倍提升:未來我們甚至可以輸入指令要求系統找出“有一隻吉娃娃狗和一輛寶馬汽車”的圖片來,完全不受圖片上傳者自己添加的標籤約束。這種進步會大大方便廣告、電視、傳媒行業,及科研領域的相關工作。
另一大將受益於圖像辨識技術的產業,是無人駕駛交通工具,包括無人機和無人駕駛汽車。現有的自動駕駛技術對周圍環境的辨識僅限於物體輪廓,難以對不同種類的物件做準確分類。例如無人駕駛汽車就很難區別前方的騎車人,究竟騎的是自行車還是摩托車,或者旁邊道路上的白色物體,是一個包裝袋還是一隻小貓。
人類駕駛員會根據周圍環境中,不同的事物的行為特徵來評估潛在的風險,並決定究竟是該小心前進,還是一腳油門絕塵而去。如果電腦也能分辨出環境中的物件種類,就能像人類一樣輕鬆應對複雜的情況:發現前方有只小狗在過馬路,汽車當然要減速讓行;可如果是一張報紙,被風刮到路中間,就毫無避讓的理由了。
Mono-Camera based Road Marking and Lane Detection
即使對必需由人遙控的無人機來說,圖像辨識技術也是非常重要的:地面上的操縱者不容易迅速觀察無人機周圍的所有角度,死角的部分就需要電腦輔助監視。後方有物體飄近時,系統要判斷那是懂得自己回避的鳥類,還是容易纏住旋翼的塑膠垃圾,據此決定是否採取規避動作。當無人機需要執行監控、尋物等任務時,電腦更是要負起重任。
更加激動人心的未來,則是先進圖像辨識技術與虛擬實境系統的結合:用戶戴著類似HoloLens這樣的眼鏡觀察四周,眼鏡能夠自動將視野內的物體一一分類,並自動根據使用者與周圍環境的互動來判斷其意圖。
en.wikipedia.org |
拿起一顆螺母,眼鏡自動辨識出螺母尺寸,然後在旁邊的一堆散落的螺絲中,標注出尺寸合適的;坐在沙發上拿起遊戲手柄,系統就立刻命令遊戲機和電視準備就緒;從冰箱取出一盒牛奶,語音助手就發出建議說現在天氣寒冷,牛奶應該熱過再喝……
包括智慧家電也會受益於圖像辨識:洗衣機會在你扔進去一大團衣物時發出提醒,建議你把毛衫和牛仔褲分開洗滌;微波爐會注意到你使用的容器不適合加熱,應該更換;淋浴蓮蓬頭會記住男女主人習慣的水溫並自動調節,等等。電腦能夠像人類一樣辨別周圍環境時,離“人工智慧”就近了一大步,也會讓我們的生活得到許多便利。
圖像辨識將是未來科技領域幾大關鍵產業的核心技術之一。微軟、谷歌、Facebook、亞馬遜、百度、騰訊等巨頭,都在傾注大量資源推動這項功能進步。最近的突破證實電腦完全有潛力,在圖像辨識領域追上乃至超越人類,也讓從業者的信心更加充實。
隨著時間推移,我們會發現自己身邊的計算設備越來越“聰明”,而“智慧設備”這個詞彙也將真正名副其實。
沒有留言:
張貼留言