機器學習峰會
Nx 雲端影像平台解決方案 |
leiphone 作者:奕欣
AI 科技評論消息,1 月 8 日,全球權威機器視覺算法排行榜 KITTI,阿里巴巴 iDST奪得行人檢測單項冠軍。與此同時,在知名的行人再辨識數據集 Market1501 中,iDST 的首位命中率也提升至 96.17%,位居世界第一。
iDST获得KITTI行人检测项目冠军
iDST在KITTI行人检测项目的数据图示
KITTI 算法評測平台由德國卡爾斯魯厄理工學院,和芝加哥豐田技術研究所聯合建立,是目前國際上最大的自動駕駛場景下,電腦視覺算法評測數據集,用於評測目標(機動車、非機動車、行人等)檢測、目標跟蹤、路面分割等電腦視覺技術在車載環境下的性能。
Market1501 數據集的圖像在清華大學的一個超市門口進行採集,由 5 個高清攝影機,與 1 個低像素攝影機進行拍攝。目前該數據集包括 1501 個個體,涵蓋 19732 張 gallery 圖片,和 12936 張訓練圖像組成。所有的標注框由 DPM 檢測器生成。
實際上在今年 5 月,阿里 iDST 就已經將車輛檢測的準確率提升至 90.46%,長踞榜單第一名。而在同一難度級別的最新數據,阿里 iDST 如今已經刷新至 90.55%。
據AI 科技評論瞭解,車輛檢測背後的技術,基於區域融合決策和上下文相關的多任務深度神經網路,用於複雜場景下的車輛檢測任務,重點解決其中多視角、多姿態,以及車輛遮擋等問題。
而在網路結構設計上,利用反卷積操作提高了小目標的召回率,同時拼接了多層特徵,以融合低層的局部訊息,和高層的語義訊息,提高了邊框定位的準確率。
在訓練過程中,還借鑒了 GAN(生成對抗網路)中的對抗訓練模式。團隊在電腦視覺國際頂級期刊和會議 TIP、ACM MM 等已發表多篇論文,分享了他們的研究成果。
行人檢測技術示意
行人再辨識技術示意
行人的辨識與檢測與車輛檢測,雖然同為電腦視覺的研究內容,但兩者各自的難點與挑戰,又有些不同。行人檢測要求機器,能夠從圖像或者影像中,判斷是否有行人,行人在哪裡;行人再辨識則要求機器,能夠辨識出特定人員,在不同攝影機下,出現的所有圖像。
阿里巴巴 iDST 副院長、IEEE Fellow 華先勝表示,目前大部分攝像頭所拍攝的圖像看不清人臉,需要透過行人的整體和局部特徵進行辨識。但在實際情況中,包括遮擋、光照、拍攝角度、拍攝距離、人物姿態等因素的干擾,還有攝影機設備的不同,都會給行人的辨識與檢測帶來困難。
據介紹,阿里巴巴 iDST 團隊在行人檢測技術方面,提出了基於目標尺寸分級的級聯網路,並充分發揮感興趣區域的上下文信息,提升網路特徵提取的能力,以解決行人檢測問題中存在的目標尺寸浮動大、遮擋、形變且定位不准等問題;與此同時,在目標定位方面,採用交叉熵正,則約束來優化邊框定位準確度。
而在行人再辨識方面,團隊不僅利用最新的深度學習技術,提取行人的全局特徵,還提出了超分辨率模組,和深度注意力網路,來獲得頭部、軀幹、四肢、攜帶物等局部細節特徵,並提出了融合粗粒度全局特徵,和細粒度局部特徵的新方法,進一步提高了跨攝影機場景下,行人表徵的一致性和行人再辨識的準確性。
行人檢測與行人辨識,這兩項技術有著豐富的應用場景,包括景區商場的人流預測、人群個性化分析、行人交通安全、無人駕駛、尋找丟失老人兒童等應用等等。目前上述技術已經全部整合到阿里雲 ET 城市大腦當中,並已落地。
華先勝表示,「正如 60 年代的登月計劃帶來了通訊技術、生物工程技術大爆發一樣,城市大腦已經成為世界頂尖的科技創新的平台,前所未有的難題倒逼科學家們,創造前所未有的技術」。
據 AI 科技評論瞭解,阿里雲 ET 城市大腦已經在杭州、蘇州、衢州、烏鎮等地落地。借助機器視覺算法,杭州城市大腦可以做到準確偵測、發現交通事故,日均事件報警 500 次以上,準確率達 92%。
沒有留言:
張貼留言