．情緒變識如何拯救你的生命？（智慧影像辨識應用）

leiphone 宗仁

嘉賓介紹: 趙京雷，閱面科技 ReadSense CEO。上海交通大學人工智慧博士，前WiseNut研究中心演算法負責人，前阿裡北京演算法研究中心負責人、高級演算法專家。閱面科技專注於深度學習和電腦視覺，為消費級智慧型機器提供最前沿的視覺演算法和解決方案。其技術應用領域包括服務機器人、智慧家電、智慧手機、無人機和其他消費電子產品行業。

隨著最近ADAS的火熱，不少人開始注意到人臉辨識在實際應用中有了更細分的場景——情緒辨識，它可以在檢測到駕駛員的憤怒情緒後，命令駕駛員勒緊安全帶，提高制動器的反應響應性，也可以通過方向盤振動及警告聲，將情緒狀態告知駕駛員。

從而讓我們遠離80%由駕駛員精神不集中，及憤怒情緒所導致的交通事故。（據美國國家公路交通安全管理局NHTSA介紹，美國的交通事故有80%是由駕駛員精神不集中，及憤怒情緒所導致的。）

那這個關乎生命的檢測過程是如何實現的呢？本期硬創公開課邀請了人工智能算法專家趙京雷從人臉辨識和情緒識別區別開始，循序漸進到情緒辨識原理，情緒辨識的應用場景，最後為我們揭秘這個過程是如何實現的。

人臉辨識和情緒辨識不一樣

首先我先說下情緒辨識這個叫法。情緒辨識廣義上可以通過表情、語音語調或者腦電捕捉等進行。目前技術上最成熟、得到廣泛應用的是表情辨識技術，也就是基於計算機視覺算法，辨識人臉的表情動作，和推斷喜怒哀樂等基本情緒。

接下來，我們講的「情緒辨識」技術，都是指的狹義上的「表情辨識」技術。人臉辨識大家都比較熟悉，表情辨識可能接觸較少，兩者之間有很多的聯繫，又有很大的差別。

首先，我們看兩者的不同。

第一，「人臉辨識」是個去表情的過程。人臉辨識中，對同一個人無論他做出什麼表情，都要想辦法辨識為同一個人；相反，「表情辨識」是一個強調表情變化的過程，對於同一個人，要把其不同的表情和情緒變化辨識出來。

第二，人臉辨識偏靜態，表情辨識偏動態。人臉辨識的最典型問題是人臉驗證 face verification問題，即任給兩張照片中的人臉，判定是不是同一個人，是個靜態的判定問題。表情辨識的基本問題，是給一個人臉連續動作幀，判斷這個時間段該人臉的基本表情變化，是個動態的判定問題。

上面說的是不同，當然，另一方面，兩者都是對臉部進行視覺處理，又有很強的聯繫。兩者的聯繫有以下方面。

上面說的是不同，當然，另一方面，兩者都是對臉部進行視覺處理，又有很強的聯繫。兩者的聯繫有以下方面。

如圖，人臉特徵點檢測指的是，把人臉的一些預先定義的特徵點辨識和標注出來。所以一些人臉方面的基礎技術，是兩者的共同基礎。

第二，人臉辨識和表情辨識，在辨識的精度上，都會受光照、人臉姿態和遮擋的影響。這方面，人類好像感覺沒啥問題。但這些客觀條件對電腦辨識算法影響很大，比如極端的側臉和仰頭等姿態，會嚴重影響人臉檢測的精度，而如果在照片中沒有辦法檢測到人臉，就不能做人臉辨識和表情辨識了。

另外，從總體的業界發展來看，從辨識的難度上來講，相對於人臉辨識，表情辨識在技術難度的挑戰要更大一些，這和數據以及動態不確定性等因素有關。

能不能辨識虛假表情

目前表情辨識主要辨識的是人類的基本情緒。根據心理學的基本情緒理論，人類的基本情緒包括：喜悅、悲傷、憤怒、討厭、害怕、驚奇和中性。

著名心理學家 Paul Ekman 教授（美劇 lie to me 的角色原型）提出了一套臉部動作編碼理論（FACS），把人類的表情分解為多個臉部動作單元 (Action Units)。這些臉部單元單獨並不能夠代表任何的情感，但是它們的組合，理論上可以表達人類的任何臉部表情。

這一理論在心理學多年的研究中得到了驗證，並在過去成功應用於動畫角色的表情建模中。比如阿凡達之類電影中的動畫角色建模時。動畫師不是對每一個動畫幀的表情都進行單獨刻畫，而是首先對一些代表局部表情動作的Blend Shape進行建模。

比如代表眉毛升起或者嘴角上揚的 Blend Shape。這些 Blend Shape 就是某種意義上的臉部表情單元。在這基礎上，每一幅動畫幀的豐富表情變化，都可以通過這些基本幀加權來得到。

近些年，隨著機器學習的發展，表情單元的編碼系統也被成功的應用於表情辨識。這個自動表情辨識過程是這樣的。首先，機器學習算法會從很多的表情照片中，習得特定的表情單元是否出現。不同的表情單元組合代表了不同的表情。

比如表情單元12代表嘴角上揚，表情單元6代表面頰上升，兩者的結合在一頂程度上表示了人類喜悅的情緒。

基於表情單元進行表情辨識，理論上就可以捕捉人類上千種的不同的情緒。進一步可以做到表情映射和遷移，即把人的表情變化實時遷移另外一個人物模型上面去。比如這種

上面是對表情辨識原理的基本解釋，下面回答「假笑」是否可以辨識。

我們看美劇《Lie to me》，經常看到 Ekman 教授通過辨識人的表情，來判斷一個人是不是在說謊。在心理學理論上，真笑和假笑在一定程度上，可以通過動作所涉及到動作單元的強度，和動態過程來區分。

比如上面講的，如果只是出現了動作單元12，沒有出現動作單元6，再加上持續時間，那麼是有可能判斷是否為假笑的。

但關於這方面，我們將其稱為微表情研究領域。

雖然學術屆有些研究，但在應用中，目前這種「微表情」的辨識，還沒有較成熟的商用系統，實用性不強。所以，電腦領域的「表情辨識」主要還是指對人類基本情緒的辨識，而不是微表情辨識。

讓電腦或者人工智能技術通過表情辨識去做《Lie to me》中的微表情測謊，目前是不太現實的，這可能會讓大家失望哈。

主要的原因，不是因為現在的電腦技術達不到，而是因為這方面的心理學理，論還缺乏對「微表情」的清晰定義，從而構建相關數據，來指導電腦認知就非常困難。

情緒辨識會在哪些場景爆發

（目前情緒辨識的應用場景，主要在哪幾個領域呢？你認為哪幾個領域市場化的速度，會比較快？）

嗯，這個是人工智能領域的從業者比較關心的問題。情緒辨識的應用場景，典型的有廣告效果評估、產品評測、影像分析、醫療康復、安全駕駛和情感機器人等。

個人認為「情緒辨識」在人機交互領域會發展的比較快。包括安全駕駛、情感機器人。讓機器更好的理解人、更加智能和人性化的為人類服務，是近期人工智能革命的根本。機器慢慢的習得足夠的情感認知能力以後，就可以在人機交互中對用戶體驗進行一系列的升級。

終於到了拯救生命這茬

（最近將情緒辨識技術應用於ADAS的概念很火，從技術角度來說，這個過程具體是如何實現的呢？）

Don't Lie To Me - How to read Facial Expressions like in Lie To Me - Micro Expressions Training

關於ADAS的應用。比較典型的場景有疲勞駕駛和路怒駕駛的檢測和預警。發現駕駛員有疲勞駕駛和路怒駕駛的狀況後，可以觸發干預。從技術角度，比如疲勞駕駛可以通過若干動作單元以及臉部特徵的組合來辨識。比如閉眼超時、眉頭下垂、睜眼被動等。

這個裡面，比較大的技術挑戰在於，要考慮對人臉的捕捉角度，以及計算效率。

這種情況下，雲端服務不是好的選擇。需要讓電腦視覺的辨識算法能夠高精度、高效率的運算在本地的 ADAS 嵌入式系統上。

（熱心觀眾：想問一下本地做辨識往往受到數據庫和算法的限制，為什麼說雲端服務不是一個很好的選擇的？）

主要看應用場景，在應用於諸如機器人和 ADAS 等系統中，系統需要實時計算，並且不能受到網絡連接的影響，這個時候從產品用戶體驗和安全等考慮，雲服務是不太現實的。需要本地的潛入sdk或者硬件乃至芯片方案。

（熱心觀眾：它對本地 ADAS 的系統有什麼樣的要求？需要什麼樣的硬件配置？）

目前，舉例來講，閱面科技這邊，基於深度學習的表情辨識，已經可以做到在小米3之類的手機上，1.6GCPU,不依賴於 GPU, 每秒鐘 40 幀以上。所以理論上，本地 ADAS 如果具有類似於一個普通智能手機的運算能力都可以跑。在一般的實際情況中，ADAS 系統還會結合行人檢測等算法，所以一般配置會高些。當然，如果有 GPU，也可以進一步提速。

目前我們閱面科技在這方面也做了很多的工作。讓深度學習在嵌入式系統中高精度和高效的運轉，會是接下來一些年電腦視覺的一個主題之一。

號外：

(如果情緒辨識普及，不可避免地會觸犯到每個人的隱私。如何在隱私保護和商業應用之間找到平衡？