．一文看懂人臉辨識技術發展脈絡

Facial Recognition Technology: How Does it Work?

台灣區電信工程工業同業公會

來源：info Q 何智翔

人臉辨識可以說是人工智慧領域中成熟較早、落地較廣的技術之一，從機場、火車站的安檢閘機，到平常用戶手機中的「刷臉」支付，人臉辨識技術已經深入到我們的生活當中。

Photo from Cognitec website

為了讓各位讀者深入淺出地，全面瞭解人臉辨識技術，小編與苏宁科技人工智慧實驗室進行了獨家約稿，本文就是「人臉辨識系列」文章的開篇——《人臉辨識發展脈絡》。

本文將全面講述，人臉辨識發展的幾個重要階段，並整理出了人臉辨識領域的一些重要的技術標準、公開測試以及知名廠商，如果你需要深入瞭解人臉辨識技術，可以從本篇文章開始。

1 人臉辨識發展概述

人臉辨識問題可以描述為，給定某一場景下的靜態圖像或者動態序列，根據預先儲存的人臉數據庫辨識，或者認證場景中，一個或者多個人的身份。

早期的人臉辨識多採用傳統機器學習算法，經典的算法如特徵臉結合線性判別分析。而且研究關注的焦點，更多集中在如何提取更有鑒別力的特徵上，以及如何更有效的對齊人臉。

隨著研究的深入，傳統機器學習算法人臉辨識，在二維圖像上的性能提升逐漸到達瓶頸，於是大多數人開始轉而研究，影像中的人臉辨識問題，或者結合三維模型的方法，去進一步提升人臉辨識的性能，少數學者開始研究三維人臉的辨識問題。

圖 1 傳統人臉辨識算法發展階段

在 2013 年、2014 年左右，隨著深度學習的方法，在手寫字符辨識上的性能，超越了傳統機器學習算法，以及 GPU 並行計算的大規模普及，開始有學者研究，基於深度學習的人臉辨識算法。很快，在最出名的 LFW 公開庫上，深度學習算法一舉突破了，傳統機器學習算法，在二維圖像上人臉辨識性能的瓶頸，首次將識別率提升到了 97% 以上，一下子引起世人轟動。

但是隨著研究的進一步深入，業內形成了一個普遍的共識，就是大量的數據，是深度學習模型提升性能的關鍵。所以深度學習發展到現在，走回了傳統機器學習算法的路子，就是大家開始轉而研究影像中的人臉辨識，或者追求在辨識精度不變的情況下，用更小的模型，更快的速度去辨識人臉，甚至重新開始結合三維模型的一些方法，或者轉而研究三維人臉的辨識問題。

玉山銀行採用 NEC人臉辨識

2 傳統機器學習算法

圖 1 是傳統機器學習算法下，從原始特徵的角度，看到的人臉辨識經歷的幾個主要的發展階段，分別歷經從幾何特徵，到表象特徵，到紋理特徵的發展過程。

早期的研究是基於高層特徵的幾何參數，包括臉部器官的幾何特性，如雙眼間距、頭寬、鼻高，和臉部關鍵特徵點的相對幾何關係，如兩眼角和鼻尖的距離比等，代表性的作品，是 Bledsoe 於 1964 年構建的半自動人臉辨識系統。

但是人臉關鍵點（特徵點）的精確定位，本身就是一個比較困難的問題，容易受到姿態和表情等變化的影響，從而導致特徵很不穩定；直到現在，人臉特徵點定位，仍然是人臉算法最重要的一個研究方向。

同時提取到的幾何特徵過於簡單，丟失了大量的圖像鑒別資訊，降低了不同人之間的可分性。所以基於幾何特徵的算法魯棒性（Robust，台灣有人譯成強韌性）很差，總體辨識準確率不高，不可能建構有實際應用價值的人臉辨識系統。

圖 2 一種基於表象特徵和子空間分析的人臉辨識算法

20 世紀 80 年代以後，主流人臉辨識的特徵提取方法，進入了基於二維人臉表像的階段，並一直持續到深度學習出現之前。

這類方法提取的，不再是具有一定語義資訊的特徵，而是從圖像中抽取底層物理特徵，典型的底層特徵包括圖像灰度特徵、圖像變換系數，或濾波系數（如離散餘弦變換、小波變換、Gabor 變換）、局部紋理描述（如 LBP、HGPP、LGBP、HOG）等。

表像原始特徵的空間維數很高，不利於訓練和辨識；並且提取的原始特徵，大多是從精細描述的角度出發，保留了對辨識不利的噪聲干擾。因此需要進行進一步的特徵降維，使鑒別資訊得以集中。

在基於表像特徵的人臉辨識發展階段中，基於神經網路的方法，也曾興起過一陣子，但是當時受限於軟硬體的條件，只能採用淺層的線性神經網路，所以效果並不突出。

除了神經網路的方法，基於子空間分析的方法，也在人臉辨識的研究中，逐漸佔據了主流。子空間分析主要研究的，是特徵分析與分類算法，企圖在提取到的人臉特徵中，透過特徵降維、變換等多種手段，提升特徵的鑒別能力。

從實際角度而言，後期基於傳統機器學習算法的人臉辨識，通常會將基於表像特徵，和子空間分析的方法結合起來，共同提升人臉辨識的性能。

圖 3 人臉的表像特徵

在子空間分析的方法中，對表像特徵進行壓縮處理，成為了主流的方案。特徵壓縮不僅是降低維數的需要，也是提取鑒別資訊的需要。在心理學研究和電腦視覺研究的促進下，人們開始認識到，人臉類別本身僅僅佔據，原始特徵高維空間的一個低維子空間，這是由人臉拓撲結構的高度統一性，和人臉圖像的像素之間的高度相關性所決定的。

人臉認知的問題之一，就是尋找這一低維子空間，在認知研究中，研究者大量採用主成分分析 (Principal Component Analysis, PCA) 來重構人臉。相應的子空間方法，也成為人臉辨識的主流方法之一。

Turk 和 Pentlend 在 1991 年，首先將 PCA 應用於人臉辨識，提出了具有里程碑意義的本徵臉算法 (Eigenface)。受此啓發，研究者將統計分析、信號處理、機器學習等，多個領域的成果用於人臉辨識，又演繹出了鑒別主成分分析（Discriminant Karhunen Loéve）、線性鑒別分析 (Linear Discriminant Analysis, LDA)、局部特徵分析（Local Feature Analysis, LFA）、獨立主成分分析（Independent ComponentAnalysis, ICA）、核主成分分析 / 線性鑒別分析 (Kernel PCA/LDA)、非負矩陣分解（Non-negative Matrix Factorization, NMF）、局部線性嵌入（Locally Linear Embedding, LLE）、局部保持映射（Locality Preserving Projection, LPP）等子空間分析法。

Pros and Cons of Facial Recognition Technology For Your Business

根據在構建子空間時，是否使用類別資訊，這些方法可以分為監督和非監督兩大類。它們描述了人臉樣本的統計變化，試圖將對表示或對辨識最關鍵的資訊，保留在降維後的低維空間中，同時也可以緩解維數危機。

隨著傳統算法的性能趨於飽和，研究者們開始從資訊源的角度，將人臉辨識從二維靜止圖像，向三維人臉和影像人臉拓展。前面提到的方法，都是在二維圖像上提取特徵。90 年代中期以後，由於三維採集技術的發展，基於三維的人臉辨識算法逐漸出現。

有一類算法直接基於三維掃描器，獲得的三維數據進行辨識，其中三維數據的表示格式，主要有三維點集、曲面網格、深度圖和 EGI (Extended Gaussian Image) 幾種，比對的方法大致可以分為空域直接比對、局部特徵比對、整體特徵比對，此外還出現了將 2D 和 3D 融合的人臉辨識算法。

Symmetry | Free Full-Text | Face Recognition with Symmetrical Face ...

由於三維數據採集仍然比較困難，而且耗時較長，三維數據的處理也較為複雜，因此這類方法還無法投入實際應用。

另外一類可以稱為三維輔助的二維方法。算法借助三維模型的輔助，從二維圖像學習其在不同姿態、光照條件下的表像變化，以達到算法對姿態、光照強韌目的。這類方法兼具二維方法的速度優勢，和三維方法的性能優勢，成為一個新興的研究方向。

這類研究認為，對人臉進行精細分析時，還需要利用人臉不同器官的資訊，而僅基於人臉表像的方法，雖然得到人臉的整體資訊，但對細節資訊的描述存在不足，因此從 20 世紀 90 年代起，研究者提出了一些對人臉的形狀和紋理聯合建模方法。

第一類是基於圖模型來描述人臉形狀，彈性束圖比對（Elastic Bunch Graph Matching, EBGM）方法是在此期間出現的典型算法。這種方法將人臉描述為一個屬性拓撲圖，拓撲圖本身可以進行一定的彈性形變，圖中每個節點的屬性，是透過統計學習得到的局部表像特性。在比對時，人臉形狀的形變以節點的比對程度為指導，以達到整個人臉和圖模型的最佳比對。

另一類是參數化模型方法，這類方法對人臉形狀的描述，不是採用彈性模板，而是利用大量樣本訓練得到的點分布模型（Point Distribution Model, PDM）。

If your image is online, it might be training facial-recognition AI ...

這類方法在人臉的檢測定位和辨識中，得到了廣泛應用，典型算法如柔性表像模型（Flexible Appearance Mode, FAM）、主動形狀模型（Active Shape Model, ASM）和主動表像模型（Active Appearance Model, AAM）等。

隨著影像監控技術在安全等領域的廣泛應用，2000 年以後開始，興起了對影像中人臉辨識的研究。相對靜止圖像而言，視訊圖像序列包含了更為豐富的表像資訊，而影像中的時空資訊，比如身份的連續性，人臉姿態、表情變化的連續性，在整個圖像區域空間上的連續性，也可以用以提高辨識的準確性。這就使得人臉辨識的研究進入了一個，利用多模態資訊，和多生物特徵融合的新的發展階段。

這些研究可以根據應用的目標集和查詢集的不同，粗略分為三類：圖像（多幅圖像）對影像、影像對圖像（多幅圖像）和影像對影像的算法。一般對影像序列要利用其時空狀態資訊，有選擇性地學習建立樣本分布的類別模型，採用某些融合策略融合多幀辨識結果。

綜上所述，人臉辨識的研究在原始特徵層次，從早期幾何特徵，逐漸發展為主流的表像特徵；在資訊源層次，從基於二維靜止圖像的人臉辨識，在向三維人臉辨識，和影像人臉辨識的方向擴展；在特徵壓縮層次逐漸發展為子空間為主流；基於人臉三維形狀和紋理聯合建模方法，為人臉辨識和分析提供了另一種思路。

Face Recognition CNN Architecture | Download Scientific Diagram

3 基於深度學習算法

自從進入深度學習的時代以來，各家的人臉辨識算法就逐漸趨於一致，基本上沒有什麼特別的亮點，不像傳統機器學習時代，呈現出百花齊放的色彩。

普遍的思路就是利用 CNN 網路建立的高維模型，直接從輸入的人臉圖像上，提取有效的鑒別特徵，直接計算餘弦距離，來進行人臉辨識，算法結構趨同。不過，從大體上來說，基於深度學習的人臉辨識發展，仍然可以分為三個階段。

第一個階段為深度學習在人臉辨識研究中，應用的早期階段，從最開始的 VGG 網路，到 Inception 網路，再到 Resnet 網路，網路模型總體上呈現出更深、更寬的趨勢。

在一些學術上的公開數據集如 LFW、MegaFace 上面，只要進行針對性的結構設計，以及參數調整，適當擴大數據集合，或者進行數據增強，都能取得差不多很好的效果。但是從實際應用的角度來說，普遍泛化性能不好，不具有實際應用的價值。

全球最貴AI獨角獸，商湯完成6億美元C輪融資｜數位時代

第二階段發展就是以曠視、商湯為代表的，在學術公開競賽中，取得好成績的這些廠商，開始發展實際業務為起點，透過不斷擴大他們的實際數據集合，算法性能也在逐漸的提升。

到 2016 年左右，基於深度學習的算法，無論在學術測試集合上，還是在實際應用上，表現都遠遠超越了基於傳統機器學習的算法。人臉辨識算法到此，完成了深度學習算法的大一統。

到了第三階段，除了進一步增加數據量，以提升算法性能以外，與第一階段相反，大家開始在不降低辨識性能的基礎上，研究網路的輕量化。輕量化的主要目的有兩個，一個是提升算法的速度，甚至能夠部署到移動端；另外一個就是便於硬體實現，從而將人臉辨識算法，直接做成一個硬體模組。

同時，與傳統機器學習算法類似，各家也開始研究影像中的人臉辨識（監控場景），同時開始結合一些三維資訊，去進一步提升辨識性能。

未來，人臉辨識的發展，應當仍然分成上述兩個方向，一個方向從有效挖掘海量人臉數據的角度出發，進一步提升模型性能；另外一個方向則是將人臉辨識模型輕量化，以便實現移動端部署，或者做成一個晶片模組。

我個人認為未來的人臉辨識算法，一定是嵌入到硬體中，成為一個標準化的生物特徵認證模組。

Facial Recognition Technology

4 人臉辨識領域的標準制定的情況

4.1 國際標準制訂

目前，國際上與人臉辨識，以及本平台有關的標準主要有：

ISO/IEC 2382-37:2012 資訊技術術語第 37 部分：生物特徵辨識
ISO/IEC 19784 系列，資訊技術生物特徵辨識應用程序接口
ISO/IEC 19785 系列，資訊技術公用生物特徵辨識交換格式框架
ISO/IEC 19794-1:2006 和 ISO/IEC 19794-1:2011 資訊技術生物特徵辨識數據交換格式第 1 部分框架（06 版和 11 版）
ISO/IEC 19794-5:2005 和 ISO/IEC 19794-5:2011 資訊技術生物特徵辨識數據交換格式第 5 部分人臉圖像數據（05 版和 11 版，對岸國標對應 11 版）
ISO/IEC 19795 系列，資訊技術生物特徵辨識性能測試和報告，該系列對應國家標準 GB/T 29268 系列
ISO/IEC 24708:2008 資訊技術生物特徵辨識 BioAPI 互通協議
ISO/IEC 24709 系列，資訊技術生物特徵辨識應用程序接口（BioAPI）的符合性測試
ISO/IEC 29109-1:2009 資訊技術 ISO/IEC 19794 中定義的生物特徵，數據交換格式的符合性測試方法第 1 部分：通用符合性測試方法
ISO/IEC 29109-5:2014 資訊技術 ISO/IEC 19794 中,定義的生物特徵數據交換格式的符合性測試方法第 5 部分:人臉圖像數據(該標準對應 ISO/IEC 19794-5:2005，ISO/IEC 19794-5:2011 的符合性測試方法在該標準的附錄中)
ISO/IEC 29794-1:2016 資訊技術生物特徵樣本品質第 1 部分：框架
ISO/IEC TR 29794-5:2010 資訊技術生物特徵樣本品質第 5 部分：人臉圖像數據
ISO/IEC 30107-1:2016 資訊技術生物特徵辨識呈現攻擊檢測第 1 部分：框架

Face Recognition: Issues, Methods and Alternative Applications ...

4.2 對岸中國標準制訂

‧ GA/T1126—2013 近紅外線人臉辨識設備技術要求

‧ GA/T922.2—2011 安控人臉辨識應用系統第 2 部分: 人臉圖像數據

‧ GA/T394—2002 出入口控制系統技術要求

正在制訂中的對岸中國公安行業標準與其國家標準

‧ 安控生物特徵活體檢測技術要求

‧ 安控人臉辨識應用系統第 5 部分：設備接口技術要求

‧ GB/T 31488-2015 安全防範系統影像監控人臉辨識系統技術要求

‧ 人臉辨識資訊交換規範

‧ 人臉辨識系統術語

‧ 人臉特徵規範

‧ 文字數據項規範和格式

‧ 人臉辨識系統功能

‧ 人臉辨識系統性能指標

‧ 人臉辨識系統代碼

‧ 人臉辨識系統測試標準

5 人臉辨識領域的知名廠商

在原來基於傳統機器學習算法，進行人臉辨識的廠商中，對岸中國比較有名的公司，主要有北京海鑫、上海銀晨、中科奧森、漢王科技；對岸國內有名的研究者，主要有中科院李子青老師，以及清華的丁曉青和蘇光大兩位老師。

近幾年由於人臉辨識算法的提升，湧進許多新鮮血液的網路模式公司。這些公司無論從算法性能，還是算法換代更新的速度上，都遠遠超越前面提到的那些傳統廠商。在這眾多的公司當中，排在第一集團的，應當是上海依圖、曠視科技、商湯科技和雲從科技這四家公司。

Vocord - Home | Facebook

傳統機器學習算法年代，國際上比較有名的公司主要有 NEC，而到了深度學習的時代，可以說國際廠商的人臉辨識性能普遍不如對岸中國公司，主要原因就是他們沒有那麼多的人臉數據以供訓練，市場也不如中國大。目前比較有名的公司如俄羅斯的 Vocord 公司，這家公司在 NIST 測試中，獲得了比較好的名次，目前該測試應該是上海依圖排名第一。而類似谷歌、Facebook 等企業，都不是專業的人臉辨識企業。

對各個廠家做個簡要說明如表 1.

當然，苏宁在人臉辨識領域，也展開的許多卓有成效的工作。只是過去苏宁在人臉辨識領域，所展開的研究，主要服務於自身的業務場景，並沒有對外進行過多的宣傳，所以很多人並不知道在苏宁還有一個非常精幹，且有能力的人臉辨識研發團隊。

2018 年 3 月，苏宁的人臉辨識在 LFW 上的精度，達到了 99.83%，排名第一， Mega Face 的 Challenge 1 中的 Face Scrub 測試集上，也拿到了第三名，超越全球眾多知名公司。我們會在系列二中，詳細介紹苏宁的人臉辨識及最新進展。

Previous Results: NEC's World-renowned Face Recognition Technology | NEC

6 人臉辨識領域的公開測試

6.1 國際測試

國際上多以美國國家標準技術研究所（National Institute of Standards and Technology，簡稱 NIST）組織的測試為準。NIST 測試對大學、研究機構和商業公司開放，提供了指紋、人臉、虹膜等多生物特徵方面的測試。參加者提供算法 SDK 給 NIST 以參加測試，人臉辨識方面主要有兩個：

1）NIST-FRVT 靜態人臉辨識測試

2）NIST-FIVE 影像人臉辨識測試

NIST 測試的主要目標，既可以為行業提供標準，並為技術發展提供導向，又可以為用戶提供一個選擇的依據。

NIST 測試的流程大概如下：

提交申請並郵件手寫簽名申請表。
按當年 NIST 要求封裝 SDK，在公開驗證庫上，生成特徵比對，將特徵、比對結果加密方式發到指定工作人，進行初步測試評估。
初測要求，環境是 Linux 的系統下，不允許多線程調用，官方對系統、庫的版本、命名、接口等進行符合性驗證。
透過初測後，將封裝好的 SDK 發過去做詳細測試，測試數據集不公開。
等待測試結果報告，報告網站公開發佈，參測廠商以代號形式出現在報告中。

NEC's World-renowned Face Recognition Technology: Featured ...

6.2 中國測試

中國有一些測試是參考國標 (安控) 和企標來執行，多是委託性測試。以海鑫參加過的人臉辨識系統，企業標準測試的情況為例，說明大概流程如下：

意向單位，撰寫產品企標，及企標測試方法。
提交申請至相關部門進行審核及評估（企標和測試方法）。
產品包進行打包送檢驗證（名稱、版本號、系統運行平台等）資訊驗證。
現場搭建調試運行及按撰寫企標詳細測試。
等待測試結果報告。一般以軟體測試紙質報告形式，提供給受測單位。

6.3 學術測試

LFW、MegaFace 等，這些由大學等研究機構組織，測試樣本集可公開下載，測試流程不嚴格，測試結果權威性不高。

測試數據集合公開下載。
在測試集合上測試完畢，將結果提交學術機構，並在網上公佈，無需提供 SDK。

IDEMIA Facial Recognition Algorithm Outperforms other U.S. ...

7 總結

作為本系列文章的第一篇，我們主要從人臉辨識的發展歷史入手，給大家稍微整理了一下，人臉辨識技術的發展、全世界的主要廠商，以及一些比較有名的測試。在後續的文章中，我們會進一步給大家詳細介紹，現在人臉辨識的主流算法及相關技術細節、業內應用人臉辨識算法的主要方式，以及苏宁在人臉辨識方向，做出了哪些有益的探索。

作者簡介

苏宁科技人工智慧實驗室圖像技術專家何智翔

畢業於清華大學 THOCR 實驗室，師從中國著名人工智慧專家 IEEE fellow 丁曉青教授，十餘年來一直從事人臉相關算法的研究。現任苏宁科技人工智慧實驗室圖像技術專家，主要研究方向為人臉屬性的辨識、商品的檢測和辨識。