.台灣科技業競爭力的今昔與未來

艾歐資訊 企劃經理 Bella@智慧城市展解説



3S MARKET 施正偉


技術在變、產品在變、產業在變,當然市場也在變。

二十多年前,賣一支攝影機至少賺十支以上的利潤;現在賣二十支 AHD 攝影機,不知道是否能與二十年前,賣一支攝影機的利潤相比?
這二十多年來,監控業確實歷經了數位化、網路化、系統整合化,現在更進到垂直產業應用整合化(對岸稱之為行業化)與智慧化。每一個技術的變化,像骨牌效應一樣,會帶來產品的變化、產業的變化,以及市場的變化。差別只在速度的快慢而已。

二十多年前,很多人都說監控業不可能會數位化,如今連智慧化都出來了。當然,很多人仍在冷言冷語的說,什麼 IoT、Ai ,這些都是不切實際的噱頭。

然而,過去台灣監控業完全看不在眼裡的對岸安防業,今天全世界都對他們是又愛又恨。不要說安控業,台灣資訊業的兩大 A,因為就是忽略了技術與市場的轉變,品牌亮度急速褪色。(當然 hp 也放棄了 PC,不過 DELL 依然強悍!)

類比技術,是自有電以來的基本架構。然而數位化卻是至少五、六十年前就ㄧ路不斷在發展。電路板的出現取代了真空管,而積體電路微處理器,從幾位元到現在的奈米級,而現在又已開始喊出了量子,技術永遠在前進。

但人大多會活在過去成功的經驗,以及為反對而反對的舒適圈。因為通常新的技術出現,都會影響到舊有的既得利益者。

然而以美國為首的西方經濟型態的陣營,三十年來看到(或說貪圖)中國的人口與低薪紅利,終究把老虎養大了。主要的品牌幾乎都在歐美,台灣、韓國相對溫和,因為中小企業想經營品牌,必須要擁有足夠的通路,特別過去在做全球的外銷,誰有能力去經營通路?

因此能接到這些國際大廠的 OEM\ODM,大家也都甘之如飴,雖然很多老闆都有品牌夢。但台灣很多品牌,充其量只是那些國外進出口商能熟悉而已,真正應用市場能被指名的,大概只有 Double A 與 HTC 少數幾家而已。

速體健長大的中國廠商,一方面得天獨厚,擁有幾乎已經變成,樣樣全球第一的內需消費市場。而螞蟻雄兵(深圳)與猛虎出柙(華為),讓有連任壓力的川哥,也不得不保面子顧裡子。



中國改革開放之後,只要是新的,不僅照單全收,而且激盡全力炒作。只要炒作成功,十億人民幣放口袋,就可擠身馬雲之輩。十幾億人口,想要出人頭地,也只有這樣的捷徑。那是很多從農村到大城市,中國年輕人的憧憬。

所以 IoT炒、Ai 炒,炒出了曠世、商湯、依圖,近百上千的獨角獸,就算把國際市場拿來比,這三十年來恐怕大家只能念出亞馬遜、谷歌。而台灣就更鬱卒了,Double A、HTC之後,我們仍老是拿台積電的台灣老人之光貼臉。


所以,每每 3S MARKET 分享這些新科技應用資訊時,都會招來不少提點,實際上我們也都習以為常了。但事實證明,比例很高的反駁者,似乎真的眼睛有業障!

當然,大家都看到中國把很多技術炒的太過度了,甚至沒熟就端上了桌。像他們一堆的無人經濟,確實也變成了無人消費。然而台灣也在這樣的氛圍下,不斷被邊緣化,這才是我們必須深刻去面對的競爭壓力。

如果台灣的科技業,與中國最大的差異,是在精實與踏實,我們更應該有很雄厚的實力,炒出這些 IoT、Ai 的盤盤好菜,為何需逢 AIoT 必咀咒?


最近與很多監控業廠商朋友們交換意見,從中發現大家也都在找 IoT、Ai ,因為這些大多不是監控廠商擅長的技術。很多人也問我對岸有誰有?誰誰的是不是從對岸來的?事實上這些技術與產品,台灣都有,只是曾幾何時,大家都捨自己人不用,寧願去對岸撿一些,不一定真正能用的東西?

這些朋友也回覆了一個不是答案的答案,「我們跟台灣這群 IT 的人不熟啊!」、「我們公司沒人懂 Ai 啊!」難道中國的 IoT、Ai 就可以比較熟?就很好談?

「東風夜放花千樹,更吹落星如雨。 寶馬雕車香滿路,鳳簫聲動,玉壺光轉,一夜魚龍舞。 蛾兒雪柳黃金縷,笑語盈盈暗香去。 眾裏尋他千百度,驀然回首那人卻在,燈火闌珊處。」


用自己人的才會有競爭力,找對岸只像是在隔空抓藥。大家歷經這二十年來的電子資訊慘業,如果還沒覺醒,台灣的競爭力沒有辦法再提升!觀點分享,還盼不吝指正。

台灣區電信工程工業同業公會


.校園監控安控系統解決方案

University to increase surveillance cameras around campus




來源:ofweek Radow

一、校園安控產生背景:
學校的學生高密度集中,校區開放程度和後勤服務社會化程度越來越高。如何處理各校區安全保全工作和突發性、群體性事件,減少校園暴力,對學校進行有效的安全防護,必須是政府應該加強重視的重點。
3S MARKET過去校園重大安全事件,大都是沒有危機意識、輕忽,而一旦發生,卻又造成很大不可收拾的悲劇。這與我們都會認為學校環境單純,不太可能有什麼大問題會發生。但前幾年,美國連續發生校園槍擊事件,都造成不可收拾的憾事。

到底校園安全應該做到什麼樣的防護等級?台灣目前各級學校的安全設備防護,到底合不合格?整個從經費規畫、經費運用方式、設備選擇、安裝到維護,整個過程是否經過很嚴謹的作業,市值得各界重視的議題。不要等到憾事,才在檢討再檢討,終究都無法彌補損失!

以下是來自對岸中國的報導,不見得合用於我國,但僅供參考……

  
一直以來,學校不斷在人防和物防方面加大投入,如增加校衛,由學生組織校衛隊,加高圍牆,在學生宿舍的窗戶上安裝鋼筋護欄等。這些措施產生了一定的效果,但也存在一些弊端,如校衛隊帶來持續的支出,宿舍安裝鋼筋護欄不符合消防要求。

其實在技術上,建立技術防範監控系統,在各校區的重點部位、人群集中聚集場所安裝監控點,實行人防、技防、物防結合的防控體系,可以增強安全系數,減少日常投入,把治安案件控制在最低限度。
  

二、校園安控的特點:
學校的安控系統與普通安控有共通之處,但也有很多自己的特點和要求:
  
1. 監控點多:學校人員密集,要求監控到校區每一個角落。因此需要在學校內每棟宿舍的走廊、樓廳、天花板處都裝有攝影機,但監視範圍不包括宿舍內部,避免侵犯學生的隱私。
  
2. 監控面積大:學校的校園面積一般較大,監控點多。要求系統支持多種佈線方式,最好可利用現成線路,或充許多個子系統相對獨立,方便施工及維護。
  
3.要求遠端報警:當學生及教職工離校後,可啓動遠端行動報警,各監控點發生人員侵入,可透過網路,將警情上傳至網路監控中心,並將圖像自動切換到現場,並自動錄影,便於即時採取措施。
  
4.可防止校園暴力:當校園暴力事件發生或可能發生時,各級人員均可觸動緊急按鈕,向 110 報警中心報警,預防或制止校園暴力事件。
  
5.可意外傷害取證:對學生在校期間,要能對所有監控點進行錄像,方便發生意外傷害時,主動舉證。
  
6.可作其它應用:安控系統要與學校日常工作相結合,最大限度的發揮作用。
  
科寶電子官網 www.cop-security.com

三、校園安控系統的應用及功能:
完整的校園安控系統由矩陣、NVR\DVR、網路或類比監控攝影機、智慧終端、逆向解碼、報警、IC卡及廣播八個部分組成。各部分可靈活搭配,充分適應校園安控的需要。

  
校園安系統,以校園網為核心,可充分利用已有線路,或根據布線的難易,在學校內同時採用不同的設備,設立多個子系統。目前影像監控系統,從以錄影設備如以 NVR\DVR 為核心的結構,向以分佈式、網路化、智慧化、分散的,以每個影像點為基礎的轉變過程中。

警報系統正在從一個單獨的系統,或影像系統輔助部分,向和影像系統一起作為安系統中,兩個重要的組成部分,並融合為一個統一整體的方向發展,並且逐漸成為安系統新的設計標準。

目前,校園安控系統可分為兩大部分:
  
單獨的監控系統和單獨的警報系統,這一般是早期的校園安控系統模式。那時因為影像壓縮技術達不到網路傳輸的要求,警報系統傳輸協議不支援數位傳輸系統,並且每個廠商的協議不相容,所以不被當時大多數工程商採用。

隨著新的影像壓縮格式 MPGE4 ,及後來 H.264 的出現,支持乙太網傳輸的報警系統的出現,但又由於目前,同時擁有警報系統,和監控系統軟體開發能力的廠家數量有限,大多數的警報系統,和監控系統協議並不相容,所以在建構如校園安控系統,這樣的大型安控系統的時候,很多工程商也只能繼續採用兩個中心軟體,分別對警報系統和監控系統進行集中控制。
  
校園安控系統,能夠將警報系統和監控系統融合為完美的整體。能提供這種系統的廠家,必須同時擁有強大的開發大型警報系統軟體、協議和開發大型監控系統軟體的能力,特別是擁有自己的核心通訊控制協議,才能實現這種強大的功能。

能同時控制校園內,多個防區的佈撤防報警防區,又能和影像系統任意的聯動,同時能自由的切換任意影像,並控制輸出到電視牆上的顯示模式,支援多級電子地圖報警顯示、警報聲音提示、報警影像群組顯示功能等。

它提供了一個重要的接入平台,將各種影像從類比信號,轉變成 H.264 格式,適合於網路傳輸的接入平台,一個以區域 NVR\DVR 或區域主機,組成的進行簡單警報資訊,和影像資訊預處理,和儲存的平台和中心以數位矩陣為基礎的,用網路集群控制軟體,集中控制的中央管理系統。

提供這樣一個平台,使我們的校園安控系統真正的滿足校園面積大,監控點分散,需防範的重點部位多(各實驗室、微機室、檔案室、鍋爐房、餐廳,及各重要辦公室,及所有的學生宿舍等),滿足傳輸多路警報防區和大量影像傳輸的要求。

提供網路遠端警報\報警校園安控系統,除了本地警報,還提供網路遠端報警,並可全校設立多個報警按鈕,當有校園暴力或其它突發事件發生時,可按下報警按鈕,立即啓動監控錄像,並可與當地的110報警中心實現聯動。

  
人性化的擴展功能:
校園安控系統代表目前校園安控系統的發展方向,系統有一定的前瞻性。與校園網可以緊密融合,成為校園網不可或缺的組成部分,同時具備多種擴展功能。
  
1、增加電子考場功能
透過安控系統強大的視訊、音訊處理能力,電子考場可無縫接入到安控系統中,成為安控系統的有機組成部分。
  
2、有效的保證師生的安全,並有效的幫助遇到困難的師生獲得求助
如:校門口發生爭執、在宿舍有人突發疾病等,只需輕輕一按求助按鈕,並能得到安控中心的幫助。所以說安控系統中,無處不在的報警按鈕和求助按鈕,能充分發揮安控系統人性化的功能。
  

3、與消防系統和廣播系統聯動
在萬一發生意外或恐怖事件時,透過監控系統查看現場情況,及時指揮師生疏散。
  
4、簡化考試程序
可透過對區域主機軟體升級、在中心建立相應的比對數據庫,學生進入考場時就不用出示身份證、准考證等證件了。




.既要高精度也要高性能,人臉辨識主流算法大合集

DeepFace - 
Facial Recognition Algorithm - Facebook





上一篇文章中,我們回顧了人臉辨識算法的發展歷程,介紹了人臉辨識算法,從傳統機器學習算法,到現在的深度學習算法的演進歷程。接下來,我們將詳細介紹一下人臉辨識常見的應用方式,以及現在主流的人臉辨識算法。

1. 人臉辨識的主要應用方式
為了講清楚人臉辨識算法的設計思路,有必要首先介紹人臉辨識在實際場景中的,主要的三種不同的應用方式。這三種方式我們會習慣的稱之為:「1:1」、「1:N」,「1:n」。

1.1 驗證場景
在驗證場景下,人臉辨識算法主要用於回答「這是否為某人」。

用於回答「這是否為某人」時,該人的身份是確定,人臉辨識需要做的工作,是確認當前的照片,是否與該人的身份一致。此時會將給定的人臉圖像與電腦中,儲存的某人的圖像比較,回答給定的圖像是否為該人的。

通常,一個人在電腦中會儲存一幅正面,或多幅不同角度的圖像,我們稱之為註冊照。而給定的人臉圖像我們一般稱之為驗證照。

這種應用模式適用於門禁、出入境通關、網路實名制、辦證機構等應用場所,透過證件資訊獲取某人身份,然後根據證件使用者的照片,保證他與證件所有者是同一個人,即實名認證下的人證合一。

因為驗證場景下,通常是直接比較兩幅人臉圖像,提取出來的兩個特徵的相似度,所以我們常稱之為 1:1。

1 驗證流程

1.2 辨認場景
在辨認場景下,人臉辨識算法主要回答「這是誰」。

在這種場景下,人員的身份資訊是未知的。我們需要將給定的人臉圖像,與電腦中儲存的 N 個人的圖像逐個比對,輸出 M 幅圖像,這些圖像的相似度按從大到小排列,再由人來確定這是誰。當然,因為現在人臉辨識算法的精度非常高,所以在一些不太嚴謹的場合,可以直接用相似度最大的那張圖像,來自動判定這是誰。

通常,一個人在電腦中,會儲存一幅正面,或多幅不同角度的圖像。為了提高辨認的速度,註冊照往往會預先提取特徵,並將之儲存在電腦中。而給定的人臉圖像,我們稱之為查詢照。

這種應用模式,適用於人員身份的查詢和核查,比對目標庫通常是常住人口庫、逃犯庫等覆蓋面非常廣泛,容量非常龐大的人臉數據庫,庫容量 N 通常能夠達到上千萬、甚至上億級別。

因為辨認場景下,通常需要將給定的一副人臉圖像,與電腦中儲存的 N 個人的圖像比較,所以我們常稱之為 1:N。


2 辨認流程

1.3 監控場景
監控場景從名字上來看就知道,人臉辨識是用於監控 (watch list) 系統(目標人篩查)。而監控場景同時具有辨認和驗證的特點,人臉辨識算法需要回答「這是否為要找的人」。

在這種情況下,人員的身份資訊同樣是未知的。我們需要將給定的人的圖像,與監控目標人員進行比較,確定該人是否在監控列表中,同時確定該人身份。

為什麼說它同時具有辨認和驗證的特點呢?是因為它需要搜索整個監控列表,這與辨認場景是類似的;同時他需要確定該人是否在監控列表中,如果將監控列表看作 1:1 中的 1 的話,這又類似於驗證場景。

但是它又完全不同於辨認或者驗證。驗證場景與它的差異很明顯,我們就不說了。而它與辨認場景的差異主要在於以下幾點:

(1)在辨認場景下,給定的人雖然身份信息未知,但是他肯定存在一張(或多張)註冊照存儲在計算機中;

(2)辨認場景下可以有人工進行參與;

(3)監控列表的容量,通常遠遠小於辨認場景下的人臉數據庫的容量。

這種應用模式適用於視頻監控,比對目標一般是逃犯、管控人員或者恐怖分子、重點關注人員等佈控人員,也可是白名單和紅名單等目標人員,庫容量一般為幾千人,甚至萬人級別。

因為監控場景下,庫容量相對辨認場景要小,所以我們稱之為 1:n。


3 監控流程

2. 人臉辨識的主流算法
從人臉辨識的三種主要應用方式可以看到,比較兩張人臉的圖像,是否為同一個人,是所有應用的基礎。從這個角度來說,所有的人臉辨識應用其實都是驗證場景,而人臉辨識算法的驗證性能,是衡量該算法精度高低的最直接的指標。在數據庫已知的情況下,根據驗證性能可以推算出,該算法在三種不同場景下的精度性能。

而比較兩張人臉圖像是否為同一人,主要依靠從這兩張圖像中,分別提取到的兩個特徵的相似度高低,來進行衡量。因此人臉辨識算法的關鍵,就是透過訓練一個特徵提取模型,從人臉圖像中,得到一個具有鑒別能力的特徵,而相似度的計算,則一般採用餘弦距離。

如何更加有效的訓練出,一個能夠提取具有鑒別力特徵的模型呢?一種思路通過蒐集更多的數據去提升模型的性能(從數據上挖掘),另外一種思路透過更加有效的利用數據,去提升模型的性能(從模型上挖掘)。當然,實際情況往往是兩種思路同時採用。

2.1 從數據上提高辨識性能
深度學習相比傳統機器學習,一個最重大的優勢,就是對海量數據的利用能力。雖然對於深度學習來說,不一定總是數據越多,效果越好,但是在人臉辨識領域,絕大多數情況是數據越多,效果越好。如果讓我選擇,我肯定會選擇要更多的數據。

在吳恩達的深度學習課程中,他曾經給出一個經典的數據,與深度學習模型性能的關係曲線。


 4 數據與深度學習

因此在人臉辨識行業內,大家往往會透過獲取,或者製造海量的人臉數據,去充分訓練人臉辨識模型,來獲得更好的結果。

以商湯為例,早在 2017 年的時候,他們就已經使用了多達 30 台電腦,240 個 GPU 對 10 億個標注樣本(包含 1 億個不同的人)並行訓練,總訓練時間為 1 個月左右。而現在他們的數據量的累積,到達了一個什麼程度,可想而知。

雖然數據規模,已經到達這樣一個恐怖的地步,但是人臉辨識中的數據紅利,還遠遠沒有殆盡,如何進一步從數據中,挖掘性能紅利,依然是當下人臉辨識研究的熱點之一。

因為人臉辨識應用場景的特殊性,它往往要求極低錯誤接受率下的正確辨識率,這就更是對模型的性能提出了極高的挑戰。所以可以針對不同的應用場景,如商場監控、移動辦公打卡、網路身份認證等等,採集不同場景下的大量數據,進行針對性的微調。採用這樣的方法,我們依然能夠非常有效的提升,模型在特定場景下的辨識性能。

除了獲取數據以外,業內往往還採用增加噪聲、顏色變化、隨機裁剪,或者縮放、局部區域組合、隨機遮擋等等,種種圖像變換手段,進一步產生更多的數據,以增強模型的泛化能力,防止過擬合。

2.2 從模型上提高辨識性能
數據是有限的,在有限數據的情況下,如何更加有效的利用數據,從而獲得比別人更好的性能,這就要求我們從模型上,充分挖掘已有數據的潛力,獲得更好的性能。

一般來講,業內通常有兩種做法,一種是使用更好的骨幹網路,一種是利用測度學習的手段,對提取的特徵進行優化。

2.2.1 骨幹網設計上提高性能
1)殘差結構
在 2016 年以前,大家的主要研究方向,集中在如何設計更高效的網路去辨識人臉。在這段期間出現了如 VGG、Inception 等一系列從骨幹網路入手,去提升模型性能的算法。但是到了 2016 年,殘差網路的問世,幾乎可以說是終結了,各種千奇百怪的骨幹網路設計,順便從事實上終結了 image net 比賽。

後續幾乎所有的深度網路,都離不開殘差結構的身影,相比較之前的幾層,幾十層的深度網路,在殘差網路面前都不值一提,殘差結構可以很輕鬆的構建幾百層,一千多層的網路而不用擔心梯度消失過快的問題,原因就在於殘差結構的捷徑(shortcut)部分。

5 殘差結

在殘差結構出現以前,影響深度學習,特別是深層神經網路訓練的,一個最主要的因素,是由於反向傳播算法的鏈式法則,導致的梯度消失和梯度爆炸,其中往往是梯度消失出現的更多一些。

透過加權正則化或梯度剪切,可以在一定程度上解決梯度爆炸的問題。

而殘差結構利用捷徑,這樣一個跨層連接的機制,無損地傳播梯度,解決了深層網路訓練中的梯度消失的問題。從此,深度學習的網路,可以輕鬆到達上百乃至上千層,而不用擔心難以訓練的問題。

2)BN 層
另外一個具有重要影響力的網路結構設計,就是 BN 層的提出。現在添加 BN 層,在幾乎所有的深度學習骨幹網路設計中,都已經成為了一個標準操作,它具有加速網路收斂速度,提升訓練穩定性的效果。

BN 全名是 Batch Normalization 即批次規範化,透過規範化操作,將輸出信號規範化,保證網路的穩定性。具體的 BN 原理非常複雜,在這裡不做詳細展開。

我們需要知道的是,它透過對每一層的輸出,規範為均值和方差一致的方法,消除了網路加權參數,帶來的放大縮小的影響,進而解決梯度消失和爆炸的問題,或者可以理解為 BN 層將輸出,從飽和區拉倒了非飽和區。它帶來的優點主要有:

(1)可以放心的使用大學習率,而不用小心的調參了,較大的學習率極大的提高了學習速度;

(2)BN 本身上也是一種正則化的方式,能夠增加模型的泛化能力;

(3)BN 降低了數據之間的絕對差異,有一個去相關的性質,更多的考慮相對差異性,因此在分類任務上具有更好的效果。

3)Dropout 層
此外,在網路特徵輸出層的後面,分類器前面添加一個 Dropout 層,也是訓練人臉辨識網路的一個常規操作。

Dropout 層是 Hinton 在 2014 年,提出來的一個神器,專門用於應對神經網路的過擬合問題。它的操作非常簡單,靈感來自於繁殖中的遺傳和突變,相當於是每次訓練,每個神經元只有概率 p 來參與單次神經網路的訓練,等效於最後的輸出層,乘以一個 Mask 矩陣,該矩陣有百分比為 p 的元素被置 0,其餘為 1。有無 Dropout,最後的分類準確率,會有明顯的差異。

6 Dropout 對分類性能的

它唯一的缺點,就是會明顯增加訓練時間,因為引入 Dropout 之後,相當於每次只是訓練的原先網路的一個子網絡,為了達到同樣的精度,需要的訓練次數會增多。

2.2.2 測度學習
1)Deep ID
最早用測度學習的方式,來提升模型性能的嘗試,我認為應該是 Deep ID 的工作。它為了使模型提取出來的特徵更具有區分性,在訓練網路的結構設計上,採用了類似 Contrastive Loss(對比損失)這樣的思路。

7 DeepID 結構

8 DeepID2+

透過在 Softmaxloss 的基礎上,添加驗證信號,並與辨識信號加權,有效的提升了特徵的鑒別能力,在一定程度上縮小了類內差異,增大了類間差異。

然而 Deep ID 訓練的時候需要大量的數據,而且對比損失本身也不是很好訓練,需要小心調參才能獲得很好的結果。

2)三元組損失

9 三元組損

伴隨著 Deep ID 的嘗試,接下來就是谷歌的 Triplet Loss(三元組損失)。三元組損失在物理意義上,就是透過學習,使得同類樣本的 Positive 樣本,更靠近 Anchor,而不同類的樣本 Negative 則遠離 Anchor。

它在數學表達上也直觀簡單,損失函數定義為:同類樣本的距離,減去不同類樣本的距離。縮小該損失函數,就意味著縮小同類樣本的距離,或者增大不同類樣本的距離。它的實際使用效果也非常的好,特別是用在遷移學習上面。

早期三元組損失,使用歐氏距離,但是因為人臉辨識中,常用餘弦距離,衡量特徵之間的相似程度,所以後面很快就有人使用餘弦距離,對三元組損失進行了改造。

3)Insight Face
接下來測度學習的應用,集中在對訓練過程中的分類器的改造上面。因為分類器採用的全連接形式,等效於計算餘弦距離,而餘弦距離衡量的,是不同特徵之間的夾角,但是在這種形式下, Softmax 函數並沒有直接作用在角度上面,對決策邊界的影響很小,所以導致優化 Softmax 函數,並不能保證真正縮小類內差異。

10 分類器的計

11 SoftmaxLoss

在這種情況下,就有人提出,能不能透過改造最後的分類器,使得 Softmax 函數,直接作用到角度上,從而在優化的同時,能夠保證縮小類內距離,增加類間距離。

12 InsightFace 損失函數

Insight Face 就在這種思想下應運而生,它的損失函數如圖 12 所示,直接作用在了角度距離上,能夠更加有效的從角度,來優化最後的決策邊界,使得同一類樣本提取到的特徵更加聚合。參數 m 則保證了不同類樣本之間的特徵,存在一定的間隔。

2.2.3 其他改進
除了上述的一些流行的改進以外,業內為了提高人臉辨識特徵,提取的精度和速度,也做了一些其它的改進。

比如最近的改進,是商湯利用深度學習,增加從側臉到正臉的映射,來提高模型的精度,即 Deep Residual EquivAriant Mapping (DREAM) 的模組。

此外還有將語音語義上,常用的注意力機制,引入到人臉辨識中的一些改進等等。

為了提高特徵提取速度,業內提出了 Mobile Face Net、Shufflenet 等輕量級網路,利用知識蒸餾的手段,去壓縮網路模型結構等。

上述這些改進也都取得了非常好的效果。

3. 人臉辨識性能的評價標準
那麼,如何評價一個人臉辨識模型性能的好壞呢?這裡介紹一下人臉辨識性能常用的評價標準。

前面介紹過,評價一個人臉辨識模型性能好壞,最直接的就是它驗證性能的好壞。評價模型的驗證性能的主要指標,包括註冊失敗率,基本等同於模板提取失敗率,驗證的 ROC 曲線及等誤率值。


13 驗證性能的等誤率和 ROC 曲

具體指標的計算如下:
(1)註冊失敗率
註冊失敗率 = 特徵提取失敗次數 / 特徵提取總次數 × 100%;

(2)錯誤拒絕率
相似度值範圍內等分為若干檔,得到若干個不同的閾值 S,計算不同閾值 S 的 FRR 如下:
FRR(S) = 同人比對相似度中低於閾值 S 的數量 / 同一人比對總數 × 100%;

(3)錯誤接受率
相似度值範圍內,等分為若干檔,得到若干個不同的閾值 S,計算不同閾值 S 的 FAR 如下:
FAR(S) = 非同人比對相似度中,不低於閾值 S 的數量 / 非同人比對總數 ×100%;

(4)等誤率
計算不同閾值時的錯誤接受率,和錯誤拒絕率。相似度閾值為橫座標,錯誤接受率和錯誤拒絕率為縱座標,用不同閾值的錯誤接受率,和錯誤拒絕率數據繪製曲線,如圖 13 所示,錯誤接受率等於錯誤拒絕率點的縱座標值,為等錯誤率。

4. 蘇寧在人臉辨識上的探索
4.1 蘇寧人臉辨識的主要用用場景
人臉辨識在蘇寧的各種應用場景下,都得到了廣泛的應用。最典型的應用,如員工打卡和蘇寧園區內部的監控,相對來說人臉數據庫的規模比較小,場景比較受控,而且人員的配合度比較高。我們的算法在這上面,都取得了非常高的辨識精度,千萬分之一 FAR 下的 FRR 在 5% 以內。

但是,對人臉辨識來說,最具有挑戰性的場景還是大規模的 1:N 的人臉應用。N 的規模通常在千萬級別或者億級別,直接從絕對數字上,放大了人臉辨識的產生的各種錯誤。這種場景通常會出現在,警政公安系統的安控場景下(這是以中國這種集權國家而言,民主世界許多國家都不允許使用人臉辨識於警政應用上),其他情況下的具體應用,還幾乎沒有。但是其實在智慧零售中也需要大規模 1:N 的人臉辨識能力。

蘇寧線下門市店人臉辨識應用的難度,又進一步增加:首先這是一個非用戶配合的場景;其次蘇寧有幾億會員,這個 N 是很恐怖的;再次,從業務上希望能夠對用戶進行分組,能夠去除店員的資訊,辨識出 VIP 會員,還要能對新用戶進行挖掘,同時要能做到黑名單的安全佈控;除此之外,有幾千家門市店的數據推流,系統的流量也是很大的。要設計這樣的解決方案,是非常恐怖的。

14 蘇寧北斗系統的演

早期蘇寧的人臉辨識系統還不完善,這樣的龐大工作量幾乎完全由人工處理。但是隨著蘇寧人臉辨識算法的日益成熟,現在 AI 已經取代人,實現了完全自動化的客流分析統計、VIP 客戶辨識等功能,並應用在了蘇寧線下門市店中。

15 蘇寧北斗

這裡我們不再過多討論,系統架構的複雜,而是接著介紹一下,蘇寧在人臉辨識上的一些實戰經驗。

4.2 數據上的探索
對於蘇寧來說,如何獲取更多更豐富的人臉數據,並進行有效清洗,也始終是工作的重點之一。有了豐富的圖像來源還不夠,因為採集到的人臉圖像,往往有很嚴重的噪聲;雖然算法模型,對一定的人臉噪聲足夠增強,但我們研究發現,更加高品質的數據集,的確可以提高算法模型性能,所以仍需要透過清洗標注,來去除這些噪聲數據。

為此,蘇寧專門成立了數據處理部門,用於獲取、清洗和標注數據。除了已知常見的那些公開數據集,如 MS_celeb_1M、VggFace2、CASIA_WebFace 等。我們也利用蘇寧多樣化的內部場景,構建了豐富的針對不同場景的人臉數據庫資源,這樣訓練出的模型,在實際場景中有更好的區分能力。

此外,我們也利用多種圖像處理手段,以及利用對抗式生成網路,生成了豐富多彩的人臉樣本,進一步提高了模型精度。

4.3 模型上的探索
蘇寧在人臉辨識算法上,尤其是模型上也做出了許多的探索。美國普渡大學生物工程學教授 Eugenio Culurciello ,在他的神經網路設計史中,給出了一張有關不同的骨幹網路,在 ImageNet 上的表現的分析圖。我們在它的基礎上,重點測試了 Resnet、Mobilenet 等幾種骨幹網路,根據速度和精度,選出了最適合我們應用場景的模型。

16 ImageNet 上不同骨幹網路的

而在損失函數上,我們選擇了使用 InsightFace 進行預訓練,使用三元組損失針對不同的應用場景進行微調。

17 常用微調方法

微調過程中,會首先固定所有層的參數,只微調最後一層特徵,在調整到一定程度之後,才會放開所有的參數,微調整個模型。

18 SCA-CNN結構

此外,我們還添加了一些注意力機制,如 SCA-CNN 中提出的空間和通道注意力機制等,使得我們的模型更多的關注有鑒別力的區域,能夠更加有效的去辨識不同身份的人臉,針對化妝、眼鏡、髮型等干擾因素,也能有很好的效果。

5. 總結
至此,我們介紹了人臉辨識在業內主要的三種應用方式,以及目前主流的算法。同時我們還介紹了蘇寧的人臉辨識在智慧零售中的主要應用,以及我們對於人臉辨識算法的一些有益探索。

但是一個完整的人臉辨識系統,並不是只有人臉辨識算法,就能夠正常的工作運行的,它還需要諸如人臉檢測、關鍵點定位等諸多算法的配合。

19 人臉辨識系統的一般流程

在下一篇文章,我們將拓展介紹一下這些相關的算法,以及它們在行業內的主流方法,及相關應用。

作者簡介
蘇寧科技人工智慧實驗室 圖像技術專家何智翔

畢業於對岸中國清華大學 THOCR 實驗室,師從對岸中國著名人工智慧專家 IEEE fellow 丁曉青教授,十餘年來一直從事人臉相關算法的研究。現任蘇寧科技人工智慧實驗室圖像技術專家,主要研究方向為人臉屬性的辨識、商品的檢測和辨識。