Facial Recognition Technology: How Does it Work?
台灣區電信工程工業同業公會 |
人臉辨識可以說是人工智慧領域中成熟較早、落地較廣的技術之一,從機場、火車站的安檢閘機,到平常用戶手機中的「刷臉」支付,人臉辨識技術已經深入到我們的生活當中。
Photo from Cognitec website |
為了讓各位讀者深入淺出地,全面瞭解人臉辨識技術,小編與苏宁科技人工智慧實驗室進行了獨家約稿,本文就是「人臉辨識系列」文章的開篇——《人臉辨識發展脈絡》。
本文將全面講述,人臉辨識發展的幾個重要階段,並整理出了人臉辨識領域的一些重要的技術標準、公開測試以及知名廠商,如果你需要深入瞭解人臉辨識技術,可以從本篇文章開始。
1 人臉辨識發展概述
人臉辨識問題可以描述為,給定某一場景下的靜態圖像或者動態序列,根據預先儲存的人臉數據庫辨識,或者認證場景中,一個或者多個人的身份。
早期的人臉辨識多採用傳統機器學習算法,經典的算法如特徵臉結合線性判別分析。而且研究關注的焦點,更多集中在如何提取更有鑒別力的特徵上,以及如何更有效的對齊人臉。
隨著研究的深入,傳統機器學習算法人臉辨識,在二維圖像上的性能提升逐漸到達瓶頸,於是大多數人開始轉而研究,影像中的人臉辨識問題,或者結合三維模型的方法,去進一步提升人臉辨識的性能,少數學者開始研究三維人臉的辨識問題。
隨著研究的深入,傳統機器學習算法人臉辨識,在二維圖像上的性能提升逐漸到達瓶頸,於是大多數人開始轉而研究,影像中的人臉辨識問題,或者結合三維模型的方法,去進一步提升人臉辨識的性能,少數學者開始研究三維人臉的辨識問題。
在 2013 年、2014 年左右,隨著深度學習的方法,在手寫字符辨識上的性能,超越了傳統機器學習算法,以及 GPU 並行計算的大規模普及,開始有學者研究,基於深度學習的人臉辨識算法。很快,在最出名的 LFW 公開庫上,深度學習算法一舉突破了,傳統機器學習算法,在二維圖像上人臉辨識性能的瓶頸,首次將識別率提升到了 97% 以上,一下子引起世人轟動。
但是隨著研究的進一步深入,業內形成了一個普遍的共識,就是大量的數據,是深度學習模型提升性能的關鍵。所以深度學習發展到現在,走回了傳統機器學習算法的路子,就是大家開始轉而研究影像中的人臉辨識,或者追求在辨識精度不變的情況下,用更小的模型,更快的速度去辨識人臉,甚至重新開始結合三維模型的一些方法,或者轉而研究三維人臉的辨識問題。
玉山銀行採用 NEC人臉辨識 |
2 傳統機器學習算法
圖 1 是傳統機器學習算法下,從原始特徵的角度,看到的人臉辨識經歷的幾個主要的發展階段,分別歷經從幾何特徵,到表象特徵,到紋理特徵的發展過程。
早期的研究是基於高層特徵的幾何參數,包括臉部器官的幾何特性,如雙眼間距、頭寬、鼻高,和臉部關鍵特徵點的相對幾何關係,如兩眼角和鼻尖的距離比等,代表性的作品,是 Bledsoe 於 1964 年構建的半自動人臉辨識系統。
但是人臉關鍵點(特徵點)的精確定位,本身就是一個比較困難的問題,容易受到姿態和表情等變化的影響,從而導致特徵很不穩定;直到現在,人臉特徵點定位,仍然是人臉算法最重要的一個研究方向。
同時提取到的幾何特徵過於簡單,丟失了大量的圖像鑒別資訊,降低了不同人之間的可分性。所以基於幾何特徵的算法魯棒性(Robust,台灣有人譯成強韌性)很差,總體辨識準確率不高,不可能建構有實際應用價值的人臉辨識系統。
20 世紀 80 年代以後,主流人臉辨識的特徵提取方法,進入了基於二維人臉表像的階段,並一直持續到深度學習出現之前。
這類方法提取的,不再是具有一定語義資訊的特徵,而是從圖像中抽取底層物理特徵,典型的底層特徵包括圖像灰度特徵、圖像變換系數,或濾波系數(如離散餘弦變換、小波變換、Gabor 變換)、局部紋理描述 (如 LBP、HGPP、LGBP、HOG)等。
表像原始特徵的空間維數很高,不利於訓練和辨識;並且提取的原始特徵,大多是從精細描述的角度出發,保留了對辨識不利的噪聲干擾。因此需要進行進一步的特徵降維,使鑒別資訊得以集中。
在基於表像特徵的人臉辨識發展階段中,基於神經網路的方法,也曾興起過一陣子,但是當時受限於軟硬體的條件,只能採用淺層的線性神經網路,所以效果並不突出。
除了神經網路的方法,基於子空間分析的方法,也在人臉辨識的研究中,逐漸佔據了主流。子空間分析主要研究的,是特徵分析與分類算法,企圖在提取到的人臉特徵中,透過特徵降維、變換等多種手段,提升特徵的鑒別能力。
從實際角度而言,後期基於傳統機器學習算法的人臉辨識,通常會將基於表像特徵,和子空間分析的方法結合起來,共同提升人臉辨識的性能。
在子空間分析的方法中,對表像特徵進行壓縮處理,成為了主流的方案。特徵壓縮不僅是降低維數的需要,也是提取鑒別資訊的需要。在心理學研究和電腦視覺研究的促進下,人們開始認識到,人臉類別本身僅僅佔據,原始特徵高維空間的一個低維子空間 ,這是由人臉拓撲結構的高度統一性,和人臉圖像的像素之間的高度相關性所決定的。
人臉認知的問題之一,就是尋找這一低維子空間,在認知研究中,研究者大量採用主成分分析 (Principal Component Analysis, PCA) 來重構人臉。相應的子空間方法,也成為人臉辨識的主流方法之一。
Turk 和 Pentlend 在 1991 年,首先將 PCA 應用於人臉辨識,提出了具有里程碑意義的本徵臉算法 (Eigenface)。受此啓發,研究者將統計分析、信號處理、機器學習等,多個領域的成果用於人臉辨識,又演繹出了鑒別主成分分析(Discriminant Karhunen Loéve)、線性鑒別分析 (Linear Discriminant Analysis, LDA)、局部特徵分析(Local Feature Analysis, LFA)、獨立主成分分析(Independent ComponentAnalysis, ICA)、核主成分分析 / 線性鑒別分析 (Kernel PCA/LDA)、非負矩陣分解(Non-negative Matrix Factorization, NMF)、局部線性嵌入 (Locally Linear Embedding, LLE)、局部保持映射(Locality Preserving Projection, LPP)等子空間分析法。
Pros and Cons of Facial Recognition Technology For Your Business |
根據在構建子空間時,是否使用類別資訊,這些方法可以分為監督和非監督兩大類。它們描述了人臉樣本的統計變化,試圖將對表示或對辨識最關鍵的資訊,保留在降維後的低維空間中,同時也可以緩解維數危機。
隨著傳統算法的性能趨於飽和,研究者們開始從資訊源的角度,將人臉辨識從二維靜止圖像,向三維人臉和影像人臉拓展。前面提到的方法,都是在二維圖像上提取特徵。90 年代中期以後,由於三維採集技術的發展,基於三維的人臉辨識算法逐漸出現。
有一類算法直接基於三維掃描器,獲得的三維數據進行辨識,其中三維數據的表示格式,主要有三維點集、曲面網格、深度圖和 EGI (Extended Gaussian Image) 幾種,比對的方法大致可以分為空域直接比對、局部特徵比對、整體特徵比對,此外還出現了將 2D 和 3D 融合的人臉辨識算法。
Symmetry | Free Full-Text | Face Recognition with Symmetrical Face ... |
由於三維數據採集仍然比較困難,而且耗時較長,三維數據的處理也較為複雜,因此這類方法還無法投入實際應用。
另外一類可以稱為三維輔助的二維方法。算法借助三維模型的輔助,從二維圖像學習其在不同姿態、光照條件下的表像變化,以達到算法對姿態、光照強韌目的。這類方法兼具二維方法的速度優勢,和三維方法的性能優勢,成為一個新興的研究方向。
這類研究認為,對人臉進行精細分析時,還需要利用人臉不同器官的資訊,而僅基於人臉表像的方法,雖然得到人臉的整體資訊,但對細節資訊的描述存在不足,因此從 20 世紀 90 年代起,研究者提出了一些對人臉的形狀和紋理聯合建模方法。
第一類是基於圖模型來描述人臉形狀,彈性束圖比對(Elastic Bunch Graph Matching, EBGM)方法是在此期間出現的典型算法。這種方法將人臉描述為一個屬性拓撲圖,拓撲圖本身可以進行一定的彈性形變,圖中每個節點的屬性,是透過統計學習得到的局部表像特性。在比對時,人臉形狀的形變以節點的比對程度為指導,以達到整個人臉和圖模型的最佳比對。
另一類是參數化模型方法,這類方法對人臉形狀的描述,不是採用彈性模板,而是利用大量樣本訓練得到的點分布模型(Point Distribution Model, PDM)。
If your image is online, it might be training facial-recognition AI ... |
這類方法在人臉的檢測定位和辨識中,得到了廣泛應用,典型算法如柔性表像模型(Flexible Appearance Mode, FAM)、主動形狀模型(Active Shape Model, ASM)和主動表像模型(Active Appearance Model, AAM)等。
隨著影像監控技術在安全等領域的廣泛應用,2000 年以後開始,興起了對影像中人臉辨識的研究。相對靜止圖像而言,視訊圖像序列包含了更為豐富的表像資訊,而影像中的時空資訊,比如身份的連續性,人臉姿態、表情變化的連續性,在整個圖像區域空間上的連續性,也可以用以提高辨識的準確性。這就使得人臉辨識的研究進入了一個,利用多模態資訊,和多生物特徵融合的新的發展階段。
這些研究可以根據應用的目標集和查詢集的不同,粗略分為三類:圖像(多幅圖像)對影像、影像對圖像(多幅圖像)和影像對影像的算法。一般對影像序列要利用其時空狀態資訊,有選擇性地學習建立樣本分布的類別模型,採用某些融合策略融合多幀辨識結果。
綜上所述,人臉辨識的研究在原始特徵層次,從早期幾何特徵,逐漸發展為主流的表像特徵;在資訊源層次,從基於二維靜止圖像的人臉辨識,在向三維人臉辨識,和影像人臉辨識的方向擴展;在特徵壓縮層次逐漸發展為子空間為主流;基於人臉三維形狀和紋理聯合建模方法,為人臉辨識和分析提供了另一種思路。
Face Recognition CNN Architecture | Download Scientific Diagram |
3 基於深度學習算法
自從進入深度學習的時代以來,各家的人臉辨識算法就逐漸趨於一致,基本上沒有什麼特別的亮點,不像傳統機器學習時代,呈現出百花齊放的色彩。
普遍的思路就是利用 CNN 網路建立的高維模型,直接從輸入的人臉圖像上,提取有效的鑒別特徵,直接計算餘弦距離,來進行人臉辨識,算法結構趨同。不過,從大體上來說,基於深度學習的人臉辨識發展,仍然可以分為三個階段。
第一個階段為深度學習在人臉辨識研究中,應用的早期階段,從最開始的 VGG 網路,到 Inception 網路,再到 Resnet 網路,網路模型總體上呈現出更深、更寬的趨勢。
在一些學術上的公開數據集如 LFW、MegaFace 上面,只要進行針對性的結構設計,以及參數調整,適當擴大數據集合,或者進行數據增強,都能取得差不多很好的效果。但是從實際應用的角度來說,普遍泛化性能不好,不具有實際應用的價值。
全球最貴AI獨角獸,商湯完成6億美元C輪融資|數位時代 |
第二階段發展就是以曠視、商湯為代表的,在學術公開競賽中,取得好成績的這些廠商,開始發展實際業務為起點,透過不斷擴大他們的實際數據集合,算法性能也在逐漸的提升。
到 2016 年左右,基於深度學習的算法,無論在學術測試集合上,還是在實際應用上,表現都遠遠超越了基於傳統機器學習的算法。人臉辨識算法到此,完成了深度學習算法的大一統。
到了第三階段,除了進一步增加數據量,以提升算法性能以外,與第一階段相反,大家開始在不降低辨識性能的基礎上,研究網路的輕量化。輕量化的主要目的有兩個,一個是提升算法的速度,甚至能夠部署到移動端;另外一個就是便於硬體實現,從而將人臉辨識算法,直接做成一個硬體模組。
同時,與傳統機器學習算法類似,各家也開始研究影像中的人臉辨識(監控場景),同時開始結合一些三維資訊,去進一步提升辨識性能。
未來,人臉辨識的發展,應當仍然分成上述兩個方向,一個方向從有效挖掘海量人臉數據的角度出發,進一步提升模型性能;另外一個方向則是將人臉辨識模型輕量化,以便實現移動端部署,或者做成一個晶片模組。
我個人認為未來的人臉辨識算法,一定是嵌入到硬體中,成為一個標準化的生物特徵認證模組。
Facial Recognition Technology |
4 人臉辨識領域的標準制定的情況
4.1 國際標準制訂
目前,國際上與人臉辨識,以及本平台有關的標準主要有:
- ISO/IEC 2382-37:2012 資訊技術 術語 第 37 部分:生物特徵辨識
- ISO/IEC 19784 系列,資訊技術 生物特徵辨識應用程序接口
- ISO/IEC 19785 系列,資訊技術 公用生物特徵辨識交換格式框架
- ISO/IEC 19794-1:2006 和 ISO/IEC 19794-1:2011 資訊技術 生物特徵辨識數據交換格式 第 1 部分 框架(06 版和 11 版)
- ISO/IEC 19794-5:2005 和 ISO/IEC 19794-5:2011 資訊技術 生物特徵辨識數據交換格式 第 5 部分 人臉圖像數據(05 版和 11 版,對岸國標對應 11 版)
- ISO/IEC 19795 系列,資訊技術 生物特徵辨識性能測試和報告,該系列對應國家標準 GB/T 29268 系列
- ISO/IEC 24708:2008 資訊技術 生物特徵辨識 BioAPI 互通協議
- ISO/IEC 24709 系列,資訊技術 生物特徵辨識應用程序接口(BioAPI)的符合性測試
- ISO/IEC 29109-1:2009 資訊技術 ISO/IEC 19794 中定義的生物特徵,數據交換格式的符合性測試方法 第 1 部分:通用符合性測試方法
- ISO/IEC 29109-5:2014 資訊技術 ISO/IEC 19794 中,定義的生物特徵數據交換格式的符合性測試方法 第 5 部分:人臉圖像數據(該標準對應 ISO/IEC 19794-5:2005,ISO/IEC 19794-5:2011 的符合性測試方法在該標準的附錄中)
- ISO/IEC 29794-1:2016 資訊技術 生物特徵樣本品質 第 1 部分:框架
- ISO/IEC TR 29794-5:2010 資訊技術 生物特徵樣本品質 第 5 部分:人臉圖像數據
- ISO/IEC 30107-1:2016 資訊技術 生物特徵辨識呈現攻擊檢測 第 1 部分:框架
Face Recognition: Issues, Methods and Alternative Applications ... |
4.2 對岸中國標準制訂
‧ GA/T1126—2013 近紅外線人臉辨識設備技術要求
‧ GA/T922.2—2011 安控人臉辨識應用系統 第 2 部分: 人臉圖像數據
‧ GA/T394—2002 出入口控制系統技術要求
正在制訂中的對岸中國公安行業標準與其國家標準
‧ 安控生物特徵活體檢測技術要求
‧ 安控人臉辨識應用系統 第 5 部分:設備接口技術要求
‧ GB/T 31488-2015 安全防範系統 影像監控人臉辨識系統技術要求
‧ 人臉辨識資訊交換規範
‧ 人臉辨識系統術語
‧ 人臉特徵規範
‧ 文字數據項規範和格式
‧ 人臉辨識系統功能
‧ 人臉辨識系統性能指標
‧ 人臉辨識系統代碼
‧ 人臉辨識系統測試標準
5 人臉辨識領域的知名廠商
在原來基於傳統機器學習算法,進行人臉辨識的廠商中,對岸中國比較有名的公司,主要有北京海鑫、上海銀晨、中科奧森、漢王科技;對岸國內有名的研究者,主要有中科院李子青老師,以及清華的丁曉青和蘇光大兩位老師。
近幾年由於人臉辨識算法的提升,湧進許多新鮮血液的網路模式公司。這些公司無論從算法性能,還是算法換代更新的速度上,都遠遠超越前面提到的那些傳統廠商。在這眾多的公司當中,排在第一集團的,應當是上海依圖、曠視科技、商湯科技和雲從科技這四家公司。
Vocord - Home | Facebook |
傳統機器學習算法年代,國際上比較有名的公司主要有 NEC,而到了深度學習的時代,可以說國際廠商的人臉辨識性能普遍不如對岸中國公司,主要原因就是他們沒有那麼多的人臉數據以供訓練,市場也不如中國大。目前比較有名的公司如俄羅斯的 Vocord 公司,這家公司在 NIST 測試中,獲得了比較好的名次,目前該測試應該是上海依圖排名第一。而類似谷歌、Facebook 等企業,都不是專業的人臉辨識企業。
對各個廠家做個簡要說明如表 1.
當然,苏宁在人臉辨識領域,也展開的許多卓有成效的工作。只是過去苏宁在人臉辨識領域,所展開的研究,主要服務於自身的業務場景,並沒有對外進行過多的宣傳,所以很多人並不知道在苏宁還有一個非常精幹,且有能力的人臉辨識研發團隊。
2018 年 3 月,苏宁的人臉辨識在 LFW 上的精度,達到了 99.83%,排名第一, Mega Face 的 Challenge 1 中的 Face Scrub 測試集上,也拿到了第三名,超越全球眾多知名公司。我們會在系列二中,詳細介紹苏宁的人臉辨識及最新進展。
Previous Results: NEC's World-renowned Face Recognition Technology | NEC |
6 人臉辨識領域的公開測試
6.1 國際測試
國際上多以美國國家標準技術研究所(National Institute of Standards and Technology,簡稱 NIST)組織的測試為準。NIST 測試對大學、研究機構和商業公司開放,提供了指紋、人臉、虹膜等多生物特徵方面的測試。參加者提供算法 SDK 給 NIST 以參加測試,人臉辨識方面主要有兩個:
1)NIST-FRVT 靜態人臉辨識測試
2)NIST-FIVE 影像人臉辨識測試
NIST 測試的主要目標,既可以為行業提供標準,並為技術發展提供導向,又可以為用戶提供一個選擇的依據。
NIST 測試的流程大概如下:
- 提交申請並郵件手寫簽名申請表。
- 按當年 NIST 要求封裝 SDK,在公開驗證庫上,生成特徵比對,將特徵、比對結果加密方式發到指定工作人,進行初步測試評估。
- 初測要求,環境是 Linux 的系統下,不允許多線程調用,官方對系統、庫的版本、命名、接口等進行符合性驗證。
- 透過初測後,將封裝好的 SDK 發過去做詳細測試,測試數據集不公開。
- 等待測試結果報告,報告網站公開發佈,參測廠商以代號形式出現在報告中。
NEC's World-renowned Face Recognition Technology: Featured ... |
6.2 中國測試
中國有一些測試是參考國標 (安控) 和企標來執行,多是委託性測試。以海鑫參加過的人臉辨識系統,企業標準測試的情況為例,說明大概流程如下:
- 意向單位,撰寫產品企標,及企標測試方法。
- 提交申請至相關部門進行審核及評估(企標和測試方法)。
- 產品包進行打包送檢驗證(名稱、版本號、系統運行平台等)資訊驗證。
- 現場搭建調試運行及按撰寫企標詳細測試。
- 等待測試結果報告。一般以軟體測試紙質報告形式,提供給受測單位。
6.3 學術測試
LFW、MegaFace 等,這些由大學等研究機構組織,測試樣本集可公開下載,測試流程不嚴格,測試結果權威性不高。
- 測試數據集合公開下載。
- 在測試集合上測試完畢,將結果提交學術機構,並在網上公佈,無需提供 SDK。
IDEMIA Facial Recognition Algorithm Outperforms other U.S. ... |
7 總結
作為本系列文章的第一篇,我們主要從人臉辨識的發展歷史入手,給大家稍微整理了一下,人臉辨識技術的發展、全世界的主要廠商,以及一些比較有名的測試。在後續的文章中,我們會進一步給大家詳細介紹,現在人臉辨識的主流算法及相關技術細節、業內應用人臉辨識算法的主要方式,以及苏宁在人臉辨識方向,做出了哪些有益的探索。
作者簡介
苏宁科技人工智慧實驗室 圖像技術專家何智翔
畢業於清華大學 THOCR 實驗室,師從中國著名人工智慧專家 IEEE fellow 丁曉青教授,十餘年來一直從事人臉相關算法的研究。現任苏宁科技人工智慧實驗室圖像技術專家,主要研究方向為人臉屬性的辨識、商品的檢測和辨識。
http://www.arcran.com/tw/ |
0 comments:
張貼留言