How does facial recognition work?
臉部辨識是如何工作的?
文/蝌蚪五線譜
精選優質自媒體文章,文中所述為作者獨立觀點,不代表媒體立場。
人臉辨識技術經歷了近四十年的發展,在近年來逐步湧現出了一批可以投入實際應用的成果。如谷歌眼鏡中的身份辨識、智慧手機上的人臉解鎖等功能正漸漸影響著我們的生活,而指定人臉辨識等應用,更是早早地進入了安控領域的最前線。那麼,電腦到底是怎麼辨識人臉的呢?
在這項技術的發展過程中曾經出現過大量的辨識演算法。這些演算法的涉及面非常廣泛,包括模式辨識、影像處理、電腦視覺、人工智慧、統計學習、神經網路、小波分析、子空間理論和流形學習等眾多學科。但歸根結底,很多演算法都是以「特徵臉方法」為基礎展開的。
這個方法主要是利用主分量分析,對人臉進行降維和提取特徵。它實際上相當於把所有的人臉向量化,數位化,然後從參考用的那些人臉資料(稱為訓練集)中找出與當前要辨識的人臉資料對應的幾個特徵值,構成一組特徵向量基,以達到表徵原資料的目的。因為由主分量分析提取出來的特徵向量在返回成圖像時,看上去仍像人臉,所以這些特徵向量也被稱為「特徵臉」。
從上圖中我們可以看到,任何一幅人臉圖像減去平均人臉後都可投影到該子空間,得到一組權值向量。該方法實際上是計算了此向量和訓練集中每個人的權值向量之間的歐式距離,取最小距離所對應的人臉圖像的身份作為測試人臉圖像的身份。打個比方,這就像是警察局裡指認嫌疑人時所用的「拼臉」方法,它以一個基礎臉型為底,將合適的眼睛、眉毛等五官放上去,最終組成一個與嫌疑人最像的人臉圖。電腦所做的事情也大致如此,只是它的「眼睛」、「眉毛」等五官更加抽象。
在此的基礎上,又開發出了「彈性圖匹配」的方法。它把所有人臉圖像看做具有相似的拓撲結構,不注重角度,長度等量化的性質,而側重於變換後圖形的不變性質。所以它還有一個很形象的名稱,叫「橡皮泥幾何」。在這種方法中,所有的人臉可以表示成類似的拓撲圖,圖中的節點是一些基準點(如眼睛,鼻尖等),圖中的邊則是這些基準點之間的連線。
為了辨識一張新的人臉,需要從該人臉中找到基準點,提取出一個人臉圖,令這幅圖和現有的人臉束圖之間的相似度最大。經過彈性圖匹配後,新的人臉束圖將被提取出來,用它作為特徵進行辨識,並計算測試人臉和現有人臉束圖之間的所有相似度,相似度最大的人臉的身份即為測試人臉的身份。
這個方法在彈性匹配的過程中,網格的形狀會隨著特徵點的搜索而不斷變化,因此對姿態的變化也具有一定的自我調整性。但它在搜索過程中以代價函數優化的計算量巨大,識別速度較慢。
以上都是靜態圖像的情況。在影像監控、資訊安全和出入控制等應用中,基於視頻的人臉辨識是一個非常重要的問題,也是目前人臉辨識的熱點和難點。一個典型的基於視訊靜態圖像的人臉辨識系統一般都是自動檢測人臉區域,從視頻中提取特徵,最後,如果人臉存在則辨識出人臉的身份。
現在,在上述方法的基礎上加入了人臉跟蹤方法。在這類系統中,通過利用姿態和從視頻中估計到的深度資訊合成一個虛擬的正面人臉。這個階段的另外一個能提高辨識率的方法是利用影像中充裕的幀圖像,對每一幀圖像進行辨識。這等於是把大量的靜態辨識結果堆疊起來,然後使用「投票」機制選出最受支持的結果。
近兩年,影像人臉辨識技術有了進一步的發展,這個階段的特點是同時採用空間資訊(在每幀中)和時間資訊(比如人臉特徵的運動軌跡),做出更準確的判斷。和前述的“投票”的不同之處在於,此類方法可以在時間和空間的聯合空間中描述人臉和辨識人臉,因此更加精準。
可以想像,在不遠的未來,人臉辨識技術會悄無聲息地融入我們的生活。比如參加宴會時,我們要它幫助辨識陌生人,以更好地展開交際。
整理資料時,它又可以幫助我們用最快的速度,將影像檔按人歸檔。將這些細小的變化累加起來,將讓我們的生活更加便捷。
沒有留言:
張貼留言