cookieOptions = {...}; .人臉表情辨識研究 - 3S Market「全球智慧科技應用」市場資訊網

3S MARKET

3S MARKET
2019年9月23日 星期一

MICRO EXPRESSIONS in 4K - LIE TO ME Style Analysis - Micro Expressions Training like in Lie To Me


來源:infoq.cn 作者: 言有三李振东


人脸表情识别研究

隨著機器學習和深度神經網路,兩個領域的迅速發展,以及智慧設備的普及,人臉辨識技術正在經歷前所未有的發展,關於人臉辨識技術討論從未停歇。目前,人臉辨識精度已經超過人眼,同時大規模普及的軟硬體基礎條件也已具備,應用市場和領域需求很大,基於這項技術的市場發展和具體應用,正呈現蓬勃發展態勢。

人臉表情辨識 (facial expression recognition, FER) 作為人臉辨識技術中的一個重要組成部分,近年來在人機交互、安全、機器人製造、自動化、醫療、通信和駕駛領域,得到了廣泛的關注,成為學術界和工業界的研究熱點。本文將對人臉辨識中的表情辨識的相關內容,做一個較為詳細的綜述。

1 表情相關概述
1.1 表情定義與分類
「表情」是我們日常生活中,提到很多的一個詞語,在人際溝通中,人們透過控制自己的臉部表情,可以加強溝通效果。人臉表情是傳播人類情感資訊,與協調人際關係的重要方式,據心理學家 A.Mehrabia 的研究顯示,在人類的日常交流中,透過語言傳遞的資訊,僅佔資訊總量的 7%,而透過人臉表情傳遞的資訊,卻達到資訊總量的 55%,可以這麼說,我們每天都在對外展示自己的表情,也在接收別人的表情,那麼表情是什麼呢?

臉部表情,是臉部肌肉的一個或多個動作或狀態的結果。這些運動表達了個體對觀察者的情緒狀態。臉部表情是非語言交際的一種形式。它是表達人類之間的,社會資訊的主要手段,不過也發生在大多數其他哺乳動物,和其他一些動物物種中。

人類的臉部表情至少有 21 種,除了常見的高興、吃驚、悲傷、憤怒、厭惡和恐懼 6 種,還有驚喜(高興+吃驚)、悲憤(悲傷+憤怒)等 15 種可被區分的復合表情。

表情是人類及其他動物,從身體外觀投射出的情緒指標,多數指臉部肌肉,及五官形成的狀態,如笑容、怒目等。也包括身體整體表達出的身體語言。一些表情可以準確解釋,甚至在不同物種成員之間,憤怒和極端滿足是主要的例子。

然而,一些表情則難以解釋,甚至在熟悉的個體之間,厭惡和恐懼是主要的例子。一般來說,臉部各個器官是一個有機整體,協調一致地表達出同一種情感。

臉部表情是人體(形體)語言的一部分,是一種生理及心理的反應,通常用於傳遞情感。

1.2 表情的研究
臉部表情的研究始於 19 世紀,1872 年,達爾文在他著名的論著《人類和動物的表情(The Expression of the Emotions in Animals and Man,1872)》中,就闡述了人的臉部表情,和動物的臉部表情之間的聯繫和區別。

1971 年,Ekman 和 Friesen 對現代人臉表情辨識,做了開創性的工作,他們研究了人類的 6 種基本表情(即高興、悲傷、驚訝、恐懼、憤怒、厭惡),確定辨識對象的類別,並系統地建立了有上千幅,不同表情的人臉表情圖像數據庫,細緻的描述了每一種表情,所對應的臉部變化,包括眉毛、眼睛、眼瞼、嘴唇等等是如何變化的。

1978 年,Suwa 等人對一段人臉影像動畫,進行了人臉表情辨識的最初嘗試,提出了在圖像序列中,進行臉部表情自動分析。

20 世紀 90 年代開始,由 K.Mase 和 A.Pentland 使用光流,來判斷肌肉運動的主要方向,使用提出的光流法,進行臉部表情辨識之後,自動臉部表情辨識,進入了新的時期。

1.3 微表情
隨著對表情研究的深入,學者們將目光聚焦到,一種更加細微的表情的研究,即微表情的研究,那麼什麼是微表情呢?

微表情是心理學名詞,是一種人類在試圖隱藏某種情感時,無意識做出的、短暫的臉部表情。他們對應著七種世界通用的情感:厭惡、憤怒、恐懼、悲傷、快樂、驚訝和輕蔑。微表情的持續時間,僅為 1/25 秒至 1/5 秒,表達的是一個人試圖壓抑與隱藏的真正情感。雖然一個下意識的表情,可能只持續一瞬間,但有時表達相反的情緒。

微表情具有巨大的商業價值和社會意義。

在美國,針對微表情的研究,已經應用到國家安全、司法系統、醫學臨床和政治選舉等領域。在國家安全領域,有些訓練有素的恐怖分子等危險人物,可能輕易就透過測謊機的檢測,但是透過微表情,一般就可以發現他們,虛假表面下的真實表情,並且因為微表情的這種特點,它在司法系統和醫學臨床上,也有著較好的應用。

電影製片人導演或者廣告製作人等,也可以透過人群抽樣採集的方法,對他們觀看宣傳片,或者廣告時候的微表情,來預測宣傳片或者廣告的收益如何。

總之,隨著科技的進步和心理學的不斷發展,對臉部表情的研究,將會越來越深入,內容也會越來越豐富,應用也將越來越廣泛。

2 表情辨識的應用
2.1 線上 API(Application Programming Interface《應用程式介面》
(1) Microsoft Azure
該 API 包括人臉驗證、臉部檢測、以及表情辨識等幾部分。對於人臉 API 已整合的表情辨識功能,可針對圖像上所有臉部的一系列表情(如氣憤、蔑視、厭惡、恐懼、高興、沒有情緒、悲傷和驚訝)返回置信度,透過 JSON 返回辨識結果。可以認為這些情感,跨越了文化界限,通常由特定的臉部表情傳達。

2.1 為人臉 API 辨識結果:

人脸表情识别研究
 2.1 Microsoft Azure 人臉 API 表情辨識實際操作示意圖

(2) Baidu AI 開放平台(配備微信小程式)
該 API 可以檢測圖中的人臉,並為人臉標記出邊框。檢測出人臉後,可對人臉進行分析,獲得眼、口、鼻輪廓等 72 個關鍵點定位,準確辨識多種人臉屬性,如性別,年齡,表情等資訊。該技術可適應大角度側臉,遮擋,模糊,表情變化等各種實際環境。

鏈接: https://ai.baidu.com/tech/face/detect 

2.2 為該 API 的功能演示。

人脸表情识别研究人脸表情识别研究
2.2 Baidu AI 開放平台人臉 API 功能演示

(3) 騰訊優圖 AI 開放平台(配備微信小程式)
該 API 對於任意一幅給定的圖像,採用智慧策略對其進行搜索,以確定其中是否含有人臉,如果是,則返回人臉的位置、大小和屬性分析結果。當前支持的人臉屬性有:性別、表情(中性、微笑、大笑)、年齡(誤差估計小於 5 歲)、是否佩戴眼鏡(普通眼鏡、墨鏡)、是否佩戴帽子、是否佩戴口罩。

目前優圖人臉檢測和分析,不僅成熟應用於圖片內的人臉顏值分析,檢測到人臉時啓動相機等娛樂場景,還可透過對圖像或影像中的人臉,進行檢測和計數,能夠輕鬆瞭解區域內的人流量,並且可以透過對廣告受眾群體的人臉檢測和分析,瞭解人群的性別、年齡等屬性和分布,據此進行更精準對應的廣告投放。


2.3 為該 API 的功能演示。

人脸表情识别研究人脸表情识别研究
2.3 騰訊優圖 AI 開放平台人臉 API 的功能演示

2.2 APP
(1) Polygram
Line、微信等社群工具,已經成為了我們生活中,必不可少的一部分,社交、轉賬、支付、購物。在中國,微信已成為一個載體,刷微信、刷朋友圈、發段子、鬥圖,成為了中國人民空閒時間的日常,各種微信表情包成為一大主流。

Polygram 與以往的社交軟體的方式不同,是一款基於人臉辨識的表情包,為主要特色的社交軟體,加持人臉辨識與神經網路技術,它可以使用者的臉部表情,來生成一個 emoji。在這裡,用戶可以透過人臉辨識技術,搜索發送相應表情。

Polygram 是一個人工智慧動力社會網路,可以理解人臉表情。它以基於人臉辨識的表情包為主要特色,即能夠利用人臉辨識技術,對面部的真實表情進行檢測,從而搜索到相應的表情,併發送該表情。

當使用者在 Polygram 上發佈圖片或影片時,它非常聰明的是可以使用臉部辨識技術和手機攝影機,自動捕獲使用者在社交平台上,瀏覽朋友分享的照片、文字、影片等資訊時,臉部出現的真實表情,您將瞭解您的好友對他們的感受。

這是透過模仿臉部表情的,現場表情符號來完成的,並允許用戶對自己的臉部做出反應。


人脸表情识别研究
2.4 用戶在使用 Polygram

(2) 落網 emo
emo,是一款可以辨識情緒的音樂 APP,我們總是在掏出手機,打開音樂播放器之後,不停的在播放列表中找歌,卻難以在存了幾百首歌的播放列表中,找到此刻想聽的,這並非出於執念,只是因為心情。快樂的時候,想聽跳躍的歌;悲傷的時候,要放低沈的曲兒;激動的時候,需要激昂的調……每個人都有心情不同的時候,每個人都需要不同的音樂解藥。emo 因此而生,解決聽歌煩惱,在最適合的時候播放最適合的歌。

在 emo 面前的你,會是最誠實的你,不必掩藏你的心情,愉快便是愉快,悲傷即是悲傷。emo 會通過前置攝影機掃描你的臉,推算出你當下的心情狀態,你會驚訝於它的準確度之高,而且,不僅是愉快悲傷,它還能「看」出來其它心情如:平靜、困惑、驚訝、憤怒等等。

推算心情不是唯一讓人驚嘆的地方,在推算出你的心情狀態之後,emo 還會貼心地為你推送音樂。emo 擁有龐大優質的音樂後台曲庫,推送的每一首歌,都由人工打上心情標籤,每一首歌都是我們為你精心挑選的,符合你現時心情的。

簡單來說 emo 是一個音樂播放器,而臉部辨識技術的嵌入,讓這個播放器又沒那麼簡單 —— emo 可以透過掃描使用者的臉部表情,判斷使用者的情緒,推薦給使用者相應的音樂。產品的立意是希望使用者在每一刻,都能聽到想聽的符合心情的歌曲。總體而言,該 App 也跳出了一般意義上的播放器,是一款十分有意思的產品,期待優化的更好一些。其他三大主流音樂播放器,或許未來也可以借鑒一下。

2.3 分析總結
目前,各家大廠的 API 都已經非常成熟,同時由於微信小程式的興起,很多 APP 的功能,都可以遷移至小程式完成,透過廣泛的調研,可以發現目前做人臉辨識的產品較多,而聚焦於表情辨識的並不多,或者僅僅是簡單的給出,是否微笑等簡單的表情提示,大部分並沒有將其與產品進行一個有機的結合。在調研過程中,個人覺得 emo 是一個很好的點子,不過很可惜並沒有得到很好的推廣。

目前,僅針對人臉辨識的技術相對成熟,表情辨識還有很大的市場,接下來需要做的是將表情辨識運用到實際場景中,將其與現實需求進行良好結合。例如在遊戲的製作上面,可以根據人類情感做出即時反映,增強玩家沈浸感;

在遠端教育方面,可以根據學生表情調整授課進度、授課方法等;在安全駕駛方面,可以根據司機表情,判斷司機駕駛狀態,避免事故發生。

在公共安全監控方面,可以根據表情,判斷是否有異常情緒,預防犯罪;在製作廣告片的時候,製作者往往都會頭疼一個問題:該在什麼時候插入商標 logo、該在什麼時候跳出產品圖片,才能讓觀眾對這個品牌、這個產品有更深的印象?

表情辨識就可以幫助廣告製作者,解決這一令人頭疼的問題。製作者只需要在廣告片完成後,邀請一部分人來試看這個廣告片,並在試看過程中,使用表情辨識系統測試,觀看者的情緒變化,找到他們情緒波動最大的段落,這就是最佳的 logo 插入段落。

與其類似的,可以幫助廣告製作者,找出最佳的 logo 植入點,還可以幫助電影製作方,尋找出一部電影中,最吸引人的部分來製作電影的預告片,以確保預告片足夠吸引人,保證有更多的人在看完預告片後,願意走進電影院觀看「正片」。

表情辨識是一個很有發展前景的方向,將其與日常所需緊密聯繫,是這類產品需要考量的重要因素,而不單單只是給一個檢測結果而已,或許這個未來的發展方向之一。

3 表情常用開源數據庫
(1) KDEF 與 AKDEF(karolinska directed emotional faces) 數據集

這個數據集最初是被開發,用於心理和醫學研究目的。它主要用於知覺、注意、情緒、記憶等實驗。在創建數據集的過程中,特意使用比較均勻,柔和的光照,被採集者身穿統一的 T 恤顏色。這個數據集,包含 70 個人,35 個男性,35 個女性,年齡在 20 至 30 歲之間。

沒有鬍鬚,耳環或眼鏡,且沒有明顯的化妝。7 種不同的表情,每個表情有 5 個角度。總共 4900 張彩色圖。尺寸為 562 * 762 像素。圖 3.1 是該數據集中一個微笑的示例。

人脸表情识别研究
3.1 KDEF AKDEF Dataset 中微笑示例

(2) RaFD 數據集


該數據集是 Radboud 大學 Nijmegen 行為科學研究所整理的,這是一個高品質的臉部數據庫,總共包含 67 個模特兒:20 名白人男性成年人,19 名白人女性成年人,4 個白人男孩,6 個白人女孩,18 名摩洛哥男性成年人。

總共 8040 張圖,包含 8 種表情,即憤怒、厭惡、恐懼、快樂、悲傷、驚奇、蔑視和中立。每一個表情,包含 3 個不同的注視方向,且使用 5 個相機從不同的角度同時拍攝的,圖 3.2 是該數據集中 5 個方向的一個示例,圖 3.3 是該數據集中一個表情的示例。

人脸表情识别研究
3.2 RaFD Dataset 5 個方向的一個示例
人脸表情识别研究
3.3 RaFD Dataset 中一個表情示例

(3) Fer2013 數據集
該數據集,包含共 26190 張 48*48 灰度圖,圖片的解析度比較低,共 6 種表情。分別為 0 anger 生氣、1 disgust 厭惡、2 fear 恐懼、3 happy 開心、4 sad 傷心、5 surprised 驚訝、6 normal 中性。圖 3.4 為 Fer2013 數據集的部分數據。


人脸表情识别研究
3.4 Fer2013 Database 的部分數據

(4) CelebFaces Attributes Dataset (CelebA) 數據集

CelebA 是商湯科技的,一個用於研究人臉屬性的數據集,一個包含超過 200K 名人圖像的大型人臉屬性數據集,每個數據集都有 40 個屬性注釋。

該數據集中的圖像涵蓋了大型姿態變化和複雜背景。CelebA 的多樣非常好,有約 10 萬張帶微笑屬性的數據,圖 3.5 是該數據集中一些微笑的示例。

人脸表情识别研究
3.5 CelebA Dataset 一些微笑示例

(5) Surveillance Cameras Face Database(SCface)

鏈接 http://www.scface.org/ 


SCface 是人臉靜態圖像的數據庫。圖像是在不受控制的室內環境中,使用五種不同品質的影像監控攝影機拍攝的。數據庫包含 130 個主題的 4160 靜態圖像(在可見和紅外線光譜中)。圖 3.6 是該數據集中不同姿勢的一些示例。

人脸表情识别研究
3.6 SCface Database 中不同姿勢的一些示例

(6) Japanese Female Facial Expression (JAFFE) Database
該數據庫包含由 10 名日本女性模特兒,組成的 7 幅臉部表情(6 個基本臉部表情 +1 個中性)的 213 幅圖像。每個圖像被 60 個日語科目評為 6 個情感形容詞。圖 3.7 是該數據集中的部分數據。


人脸表情识别研究
3.7 JAFFE 中的部分數據

除上述介紹到的開源數據集外,還有許多關於表情的開源數據集,總之需要多去搜索總結,使用這些開源數據集,我們可以省去很多構造數據的時間,也便於我們訓練出一個強健性(Robustness)比較好的模型。

4 人臉表情辨識研究方法
4.1 表情辨識系統
人臉表情辨識系統如圖 4.1 所示,主要由人臉圖像的獲取、人臉檢測、特徵提取、特徵分類四部分組成。

人脸表情识别研究
4.1 人臉表情辨識系統

由於開源表情數據庫目前已經比較多,圖像獲取難度不大,人臉檢測算法也比較成熟,已經發展成為一個獨立的研究方向,因此人臉表情辨識的研究,主要體現在系統的後面兩個步驟:特徵提取和特徵分類上,下面將從傳統研究方法,和深度學習研究方法,對以上兩個步驟進行闡述。

4.2 傳統研究方法
4.2.1 特徵提取
表情特徵提取主要採用數學方法,依靠電腦技術對人臉表情的數位圖像,進行數據的組織和處理,提取表情特徵,去除非表情噪聲的方法。在某些情況下,特徵提取算法提取了圖像的主要特徵,客觀上降低了圖像的維數,因此這些特徵提取算法,也具有降維的作用。

人臉表情的產生是一個很複雜的過程,如果不考慮心理和環境因素,呈現在觀察者面前的,就是單純的肌肉運動,以及由此帶來的臉部形體和紋理的變化。靜態圖像呈現的,是表情發生時單幅圖像的表情狀態;動態圖像呈現的,是表情在多幅圖像之間的運動過程。

因此根據表情發生時的狀態,和處理對象來區分,表情特徵提取算法,大體分為基於靜態圖像的特徵提取方法,和基於動態圖像的特徵提取方法。

其中基於靜態圖像的特徵提取算法,可分為整體法和局部法,基於動態圖像的特徵提取算法,又分為光流法、模型法和幾何法。

基於靜態圖像的特徵提取方法:
(1)整體法
人臉表情依靠肌肉的運動來體現。人臉表情靜態圖像直接地顯示了,表情發生時人臉肌肉運動,所產生的臉部形體和紋理的變化。從整體上看,這種變化造成了臉部器官的明顯形變,會對人臉圖像的全局資訊帶來影響,因此出現了從整體角度,考慮表情特徵的人臉表情辨識算法。

整體法中的經典算法,包括主元分析法(PCA)、獨立分量分析法(ICA)和線性判別分析法(LDA)。研究者針對於此也做了大量的工作,採用 Fast ICA 算法提取表情特徵,該方法不但繼承了 ICA 算法,能夠提取像素間隱藏資訊的特點,而且可以透過更新,快速地完成對表情特徵的分離。

支持向量鑒別分析(SVDA)算法,該算法以 Fisher 線性判別分析,和支援向量機基礎,能夠在小樣本數據情況下,使表情數據具有最大的類間分離性,而且不需要構建 SVM 算法所需要的決策函數。實驗證明瞭該算法的辨識率,高於 PCA 和 LDA。

依靠 2D 離散餘弦變換,透過頻域空間對人臉圖像進行映射,結合神經網路,實現對表情特徵的分類。

(2)局部法
靜態圖像上的人臉表情,不僅有整體的變化,也存在局部的變化。臉部肌肉的紋理、皺摺等局部形變所蘊含的資訊,有助於精確地判斷表情的屬性。局部法的經典方法是 Gabor 小波法和 LBP 算子法。

以 Gabor 小波等多種特徵提取算法為手段,結合新的分類器對靜態圖像展開實驗。

首先人工標記了 34 個人臉特徵點,然後將特徵點的 Gabor 小波系數,表示成標記圖向量,最後計算標記圖向量,和表情語義向量之間的 KCCA 系數,以此實現對表情的分類。

CBP 算子法,透過比較環形鄰域的近鄰點對,降低了直方圖的維數。針對符號函數的修改,又增強了算法的抗噪性,使 CBP 算子法取得了較高的辨識率。

基於動態圖像的特徵提取方法:
動態圖像與靜態圖像的不同之處在於:動態圖像反映了人臉表情發生的過程。因此動態圖像的表情特徵,主要表現在人臉的持續形變,和臉部不同區域的肌肉運動上。

目前基於動態圖像的特徵提取方法,主要分為光流法、模型法和幾何法。

(1)光流法
光流法是反映動態圖像中,不同幀之間相應物體灰度變化的方法。早期的人臉表情辨識算法多採用光流法,提取動態圖像的表情特徵,這主要在於光流法,具有突出人臉形變、反映人臉運動趨勢的優點。因此該算法依舊是傳統方法中,來研究動態圖像表情辨識的重要方法。

首先採用連續幀之間的光流場和梯度場,分別表示圖像的時空變化,實現每幀人臉圖像的表情區域跟蹤;然後透過特徵區域運動方向的變化,表示人臉肌肉的運動,進而對應不同的表情。

(2)模型法
人臉表情辨識中的模型法,是指對動態圖像的表情資訊,進行參數化描述的統計方法。常用算法主要包括主動形狀模型法(ASM)和主動外觀模型法(AAM),兩種算法都可分為形狀模型和主觀模型兩部分。

就表觀模型而言,ASM 反映的是圖像的局部紋理資訊,而 AAM 反映的是圖像的全局紋理資訊。提出了基於 ASM 的 3D 人臉特徵跟蹤方法,該方法對人臉 81 個特徵點,進行跟蹤建模,實現了對部分複合動作單元的辨識。

借助圖像的地形特徵模型,來辨識人臉動作和表情;利用 AAM 和人工標記的方法,跟蹤人臉特徵點,並按照特徵點取得人臉表情區域;透過計算人臉表情區域的地形直方圖,來獲得地形特徵,從而實現表情辨識。

基於 2D 表觀特徵和 3D 形狀特徵的 AAM 算法,在人臉位置發生偏移的環境下,實現了對表情特徵的提取。

(3)幾何法
在表情特徵提取方法中,研究者考慮到表情的產生與表達,在很大程度上,是依靠臉部器官的變化來反映的。人臉的主要器官及其褶皺部分,都會成為表情特徵集中的區域。

因此在臉部器官區域標記特徵點,計算特徵點之間的距離,和特徵點所在曲線的曲率,就成為了採用幾何形式提取人臉表情的方法。

使用形變網格對不同表情的人臉進行網格化表示,將第一幀與該序列表情,最大幀之間的網格節點,坐標變化作為幾何特徵,實現對表情的辨識。

4.2.2 特徵分類
特徵分類的目的,是判斷特徵所對應的表情類別。在人臉表情辨識中,表情的類別分為兩部分:基本表情和動作單元。前者一般適用於所有的處理對象,後者主要適用於動態圖像,可以將主要的特徵分類方法,分為基於貝葉斯網路的分類方法,和基於距離度量的分類方法。

(1)基於貝葉斯網路的分類方法
貝葉斯網路是以貝葉斯公式為基礎、基於概率推理的圖形化網路。從人臉表情辨識的角度出發,概率推理的作用,就是從已知表情資訊中,推斷出未知表情的機率資訊的過程。基於貝葉斯網路的方法,包括各種貝葉斯網路分類算法,和隱馬爾科夫模型(HMM)算法。

研究者分別採用了樸素貝葉斯(NB)分類器、樹增強器(TAN)和 HMM 實現表情特徵分類。

(2)基於距離度量的分類方法
基於距離度量的分類方法,是透過計算樣本之間的距離,來實現表情分類的。代表算法有近鄰法和 SVM 算法。近鄰法是比較未知樣本 x ,與所有已知類別的樣本之間的歐式距離,透過距離的遠近,來決策 x 與已知樣本是否同類;SVM 算法則是透過優化目標函數,尋找到使不同類別樣本之間,距離最大的分類超平面。

採用了最近鄰法對表情特徵進行分類,並指出最近鄰法的不足之處,在於分類正確率的大小,依賴於待分類樣本的數量。分別從各自角度提出了對 SVM 的改進,前者將 k 近鄰法與 SVM 結合起來,把近鄰資訊整合到 SVM 的構建中,提出了局部 SVM 分類器;後者提出的 CSVMT 模型,將 SVM 和樹型模組結合起來,以較低的算法複雜度,解決了分類子問題。

4.3 深度學習方法
上述均為傳統研究方法的一些介紹,下文主要講述,如何將深度學習應用到表情辨識裡,並將以幾篇文章為例,來詳細介紹一下,現在深度學習方法的研究方法和思路。

與傳統方法特徵提取不同,之所以採用深度學習的方法,是因為深度學習中的網路(尤其是 CNN)對圖像具有較好的提取特徵的能力,從而避免了人工提取特徵的繁瑣,人臉的人工特徵,包括常用的 68 個 Facial landmarks 等其他的特徵,而深度學習除了預測外,往往還扮演著特徵工程的角色,從而省去了人工提取特徵的步驟。

下文首先介紹深度學習中,常用的網路類型,然後介紹透過預訓練的網路,對圖像進行特徵提取,以及對預訓練的網路,採用自己的數據進行微調的 Fine-Tunning。

如果將深度學習中,常用的網路層 CNN、RNN、Fully-Connect 等層組合成網路,將會產生多種選擇,然而這些網路性能的好與壞,需要更多地探討,經過很多研究者的一系列實踐,很多網路模型已經具備很多的性能,如 ImgeNet 比賽中提出模型: AlexNet、GoogleNet(Inception)、 VGG、ResNet 等。這些網路已經經過了 ImageNet 這個強大數據集的考驗,因此在圖像分類問題中也常被採用。

對於網路的結構,往往是先透過若干層 CNN,進行圖像特徵的提取,然後透過全連接層,進行非線性分類,這時的全連接層就類似與 MLP,只是還加入了 Dropout 等機制防止過擬合等,最後一層有幾個分類,就連接幾個神經元,並且透過 Softmax 變換得到,樣本屬於各個分類的機率分布。

關於人臉表情辨識的討論一直在繼續,很多學者團隊都聚焦於此。

用於注釋自然情緒臉部表情的,一百萬個圖像的大型數據庫(即,從因特網下載的臉部圖像)。首先,證明這個新提出的算法,可以跨數據庫可靠地辨識 AU 及其強度。根據調研,這是第一個在多個數據庫中,辨識 AU 及其強度的高精度結果的已發佈算法。

算法可以即時運行(> 30 張圖像 / 秒),允許它處理大量圖像和影像序列。其次,使用 WordNet 從網路下載 1,000,000 張臉部表情圖像,以及相關的情感關鍵詞。

然後透過我們的算法用 AU、AU 強度,和情感類別自動注釋這些圖像。可以得到一個非常有用的數據庫,可以使用語義描述,輕鬆查詢電腦視覺、情感計算、社會和認知心理學,和神經科學中的應用程式。

人脸表情识别研究
還有一種深度神經體系結構,它透過在初始階段,結合學習的局部和全局特徵,來解決這兩個問題,並在類之間複製消息傳遞算法,類似於後期階段的圖形模型推理方法。

結果顯示,透過增加對端到端訓練模型的監督,在現有水準的基礎上,我們分別在 BP4D 和 DISFA 數據集上,提高了 5.3%和 8.2%的技術水準。

人脸表情识别研究

5 總結
FER 目前的關注點,轉移到具有挑戰性的真實場景條件下,利用深度學習技術,來解決如光照變化、遮擋、非正面頭部姿勢等問題。

需要考慮的另一個主要問題是,儘管目前表情辨識技術,已經被廣泛研究,但是我們所定義的表情,只涵蓋了特定種類的一小部分,主要是臉部表情,而實際上人類還有很多其他的表情。

表情的研究相對於顏值年齡等要難得多,應用也要廣泛的多,相信這幾年會不斷出現有意思的應用。


0 comments: