2019年9月23日星期一

‧ 2019\09\23\3S MARKET Daily 智慧產業新資訊

3S Market 傳遞智慧應用與價值的商業資訊

A.I. Is Monitoring You Right Now and Here’s How It's Using Your Data

今日主題智慧安控\雲端\物聯網\行業應用

智慧安控應用

．4K/8K 影像主力 H.265 編碼技術解析！

．人臉表情辨識研究

．駭客可利用植入式醫療器械「遙控殺人」？防範須多管齊下

康橋科技 —— 白光攝影機專業廠商！

雲端\物聯網\傳輸應用

．隨著物聯網架構的發展，物聯網 Gateway 有什麼變化？

．詳解電腦視覺五大技術

．大數據不在「大」，而在於「有用」！大數據究竟是什麼？

科寶電子官網 www.cop-security.com

行業應用解決方案

．亞馬遜測試人手支付，全程僅 0.3 秒

．農業物聯網如何應用？RFID 助力農產品安全溯源

‧ 大學替課在大陸已成產業化人臉辨識可預防蹺課

AKD 寰楚專業級全系列監控設備

按此回今日3S Market新聞首頁

．4K/8K 影像主力 H.265 編碼技術解析！

H.265+ Compression Technology

康橋白光車牌攝影機，

任何顏色車牌——都拍攝的清清楚楚！

4K知識百科

有句古話叫做「事半功倍」，意為只用一半的功夫就能收到加倍的功效。近年來，科技領域就有一項「事半功倍」的好事 —— H.265 影像編碼技術，這項技術得到蘋果 iPhone 6/Plus公開支援，前景甚好。

今天，我們不僅會探究 H.265 影像編碼技術，同時也會透過大量 H.265 片源進行畫質對比，為讀者們交上一份完整的測試報導。

H.265/HEVC 編碼技術及畫質對比

H.265 影像編碼技術號稱「僅需原先的一半頻寬，即可播放相同品質的影像」，這是 iPhone 6/Plus 支持 H.265 影像編碼的重要原因，透過蜂窩數據進行 H.265 FaceTime 視訊通話，降低頻寬需求的同時，大幅提升體驗，還能為使用者節省一半的流量費用。

再者，網路視訊已經崛起，目前10M 頻寬也未必能夠流暢觀看1080P 線上影片，一旦網路視訊透過 H.265 進行編碼壓縮，觀看不暢的問題立刻迎刃而解。

三星 HU9800 曲面 UHD 電視支援 HEVC (H.265)編碼技術

透過最實際的兩個例子，就能知道 H.265 影像編碼的巨大好處，結局往往是營運商和使用者取得雙贏，因此 H.265 編碼技術也得到了行業內的支持。幾年前三星發佈的曲面 UHD 旗艦 —— HU9800，就已經支援 H.265 編碼技術，隨後對岸中國小米電視2、樂視TV超級電視新品亦宣佈支援。透過努力，評測工程師手中掌握有不少基於 H.265 影像編碼的影像內容，並準備好同一片源的 H.264 影像內容，以便真刀真槍的進行對比實測體驗

● H.265（HEVC）編碼技術解析

具體的對比測試之前，我們需要明白什麼是 H.265 影像編碼技術。H.265 編碼技術由對岸中國華為公司主導，華為擁有 H.265 編碼最多的核心專利技術，2012 年 8 月愛立信推出首款 H.265 編碼器，2013 年 2 月國際電信聯盟（ITU）規範透過 H.265 標準審核，將其命名為High Efficiency Video Coding（高效影像編碼），因此，嚴格來說 HEVC 是 H.265 編碼的正式命名。

High Efficiency Video Coding（高效影像編碼）

HEVC 編碼技術整合成 CU、PU、TU 三個編碼單元

HEVC 編碼技術承襲現有的 H.264 編碼技術，包含幀內預測（intra prediction）、幀間預測（inter prediction）、轉換（transform）、量化（quantization）、去區塊濾波器（deblocking filter）、熵編碼（entropy coding）等模塊，全新 HEVC 編碼技術為提升壓縮率，將這些模塊整合成 3 個單元，解析度是編碼單元（coding unit，CU）、預測單位（predict unit，PU）和轉換單位（transform unit，TU）。

H.264 編碼技術的編碼單位，每個宏塊固定為 16×16 像素，而 HEVC 編碼技術的編碼單位較為靈活，最小可以實現 8×8 像素編碼，最大可以實現 64×64 像素編碼。

H.264 幀內預測模式，支援 8 種方向調節，而 HEVC 幀內預測模式支持多達 33 種方向調節，且提供比 H.264 編碼技術，更好的矢量預測計算方法，和動態補償處理效果。

HEVC 編碼技術大幅提升壓縮比

HEVC 全新的編碼方式，有效提升了影像壓縮率，僅需原先的一半頻寬，即可播放相同品質的影像。眾所皆知，影像編碼的碼率是可以靈活控制的，以相同的影像品質為基準，HEVC 編碼技術相比 H.264 編碼技術，能夠在影像容量減少大約 39～74%，並且還能獲得比 H.264 影像更好的信噪比（PSNR）效果。如此驚艷的表現，勢必巔峰整個顯示產業。

● 藍光4K編碼標準

超高清 4K 電視已經成為市場熱門，尷尬的是，目前 4K 影像內容極為匱乏，消費者購買 4K 電視依舊只能觀看 1080P 全高清影像，可謂大材小用。

根據我們的經驗，藍光標準的發佈奠定了 1080P 曠日持久的影響力，而 4K 影像想要有所作為，藍光 4K 標準是極為重要的推助器。如果說 H.264 編碼技術為 1080P 而生，那麼 HEVC 編碼技術則為藍光 4K 而生。

藍光 4K 標準/8K（Super Hi-Vision）均採用 HEVC 編碼技術

HEVC 編碼技術有著驚人的壓縮率，加上靈活的宏塊像素技術，這對於 Ultra HD 4K/8K 超高清解析度極為重要，於 2015 年春季頒布的藍光 4K（3840×2160）標準，已採用 H.265/HEVC 編碼標準，HEVC 編碼技術能夠大幅降低藍光 4K 光碟的容量需求，對於推進 4K 產業發展，有極其重大的意義，隨著藍光光碟技術的不斷演進，HEVC 格式有望影響未來的 8K（7680×4320）標準。

HEVC 編碼大幅提升網路影像畫質

● 網路影像將由 HEVC 編碼主導

HEVC 編碼技術「事半功倍」的壓縮率，還能夠在網路線上視訊領域發揮巨大作用，舉例來說，使用者家中 10M 網路頻寬觀看 H.264 720p 網路影像體驗出色，觀看 H.264 1080p 網路影像則卡頓嚴重，透過 HEVC 編碼後的 1080p 的網路影像，則可以在 10M 網路頻寬下流暢觀看（H.264 720p/HEVC 1080p 頻寬需求接近）。因此，HEVC 編碼技術在同樣的網路頻寬下，有效提升網路影像的畫質表現。

● HEVC 編碼技術為 iPhone 使用者節約流量費用

iPhone 6/Plus 官方支援 H.265（HEVC）編碼技術 —— 截取蘋果（中國）官方網站

蘋果 FaceTime 是一項十分受歡迎的視訊通話技術，支援 WiFi 和蜂窩數據連接，蜂窩數據不同的地點接收到的信號不同，數據傳輸不如 WiFi 穩定，透過 HEVC 影像編碼，可以大幅降低蜂窩數據需求，相比以往 FaceTime 視訊通話，可獲得更出色的體驗，更重要的是 HEVC FaceTime 可大幅降低 iPhone 使用者的流量費用，如果您已經購買了最新款 iPhone 手機產品，建議在通用設置中，將 FaceTime 選項設置為 H.265/HEVC 格式。

● HEVC 影像文件容量：HEVC/1080p 容量小於 H.264/720p

對於大多數讀者而言，HEVC 編碼技術的技術解析，是比較枯燥乏味的，沒關係，我們只需知道 HEVC 編碼技術「僅需原先的一半頻寬，即可播放相同品質的影像」即可，那麼 HEVC 影像文件的壓縮率真的有如此驚人嗎？一起來看看。

720p（H.264）/1080p（H.264）/1080p（HEVC）對比測試素材

筆者為這篇評測準備了《美國隊長2：酷寒戰士》、《極速快感》和《蜘蛛人：驚奇再起》三部電影的完整版文件，透過 Windows 7 系統自帶的文件屬性查看容量，重要資訊紅邊框標出，同時用文字資訊標注格式和容量。

上圖將所有文件 Ctrl+All 總容量顯示為 68.5GB（特別說明：以上影像均為測試素材，均已刪除）。

《美國隊長2：酷寒戰士》影像文件容量對比

《極速快感》影像文件容量對比

《蜘蛛人：驚奇再起》影像文件容量對比

可以看到，三部電影的 HEVC 影像文件容量，不僅大大小於同為 1080p 的 H.264 影像文件，甚至還要小於 H.264/720p 影像文件。為了更直接的體現三種格式影像文件，容量上的差異，具體看下表：

文件容量對照表

前面我們說過，H.264 編碼技術的編碼單位，每個宏塊固定為 16×16 像素，而 HEVC 編碼技術的編碼單位較為靈活，最小可以實現 8×8 像素編碼，最大可以實現 64×64 像素編碼。H.264 幀內預測模式支援 8 種方向調節，而 HEVC 幀內預測模式支援多達 33 種方向調節，因此，H.264 編碼下的 720p 文件容量大約是 1080p 文件容量的一半，比較固定。

相比之下，HEVC 影像編碼文件的容量比較靈活，以《美國隊長2：酷寒戰士》為例，同為 1080p 解析度編碼，H.264/1080p 文件容量，幾乎是 HEVC 編碼文件的 3 倍，HEVC 編碼文件甚至只有 H.264/720 編碼的 2/3 大小，相當的驚人。《極速快感》和《蜘蛛人：驚奇再起》亦是如此，只不過幅度沒《美國隊長2：酷寒戰士》那般誇張。

● 三種格式畫質對比：720p 遭屠殺

從容量對比來看，HEVC 影像編碼技術毫無懸念的取得了勝利，三種格式容量對比，HEVC 格編碼文件容量，遠遠小於 H.264/1080p 編碼文件，甚至小於 H.264/720p 編碼文件。那麼實際效果如何呢？請特別注意標注紅框內的圖像信息差異，結果一目瞭然。

《美國隊長2：酷寒戰士》三種格式畫質對比

《極速快感》三種格式畫質對比

《蜘蛛人：驚奇再起》三種格式畫質對比

透過對比，牆上的文字、名片上的文字，以及人物臉部的特寫來看，解析度處於劣勢的 720p 顯得力不從心，畫面較為模糊，尤其是名片上的文字資訊幾乎無法辨識，相比之下，兩種不同 1080p 格式文件，畫面要銳利許多。

從色彩的角度來看，三種格式比較接近，不過 720p 色彩過渡略顯生硬，沒有 1080p 顯得自然。

重點要說的是，HEVC/1080p 編碼不僅畫質遠遠高於 H.264/720p，容量卻更為小巧。由此可見，HEVC 編碼並未因提升圖像壓縮率而犧牲畫質，表現絕贊。

● 點對點圖像比較：HEVC 表現驚艷

H.264/720p 編碼格式在 HEVC/1080p 編碼格式面前，潰敗的十分徹底，因此兩者之間更多的比較已無意義。

拋開容量差異不說，從初步對比的結論來看，H.264/1080p 編碼格式和HEVC/1080p 編碼格式的最終畫質十分接近，那麼 HEVC/1080p 編碼格式的畫質果真達到 H.264/1080p 水準了嗎？接下來，我們不妨透過「點對點」圖像資訊，再次進行對比驗證。

《美國隊長2：酷寒戰士》1080p點對點圖像比較

《極速快感》1080p點對點圖像比較

《蜘蛛人：驚奇再起》1080p點對點圖像比較

儘管筆者也希望能夠找到 H.264/1080p 編碼格式，和 HEVC/1080p 編碼格式的畫質差異，HEVC 編碼技術號稱「僅需原先的一半頻寬即可播放相同品質的影像」這句話並沒有半點吹噓，透過 1080p 點對點圖像，進行細緻的比較，兩者之間幾乎感受不到任何差異，不得不說 HEVC 編碼技術有著極其強悍的編碼實力。

● HEVC 編碼技術的秘密：降低碼率

同樣 1080p 解析度下，HEVC 編碼文件容量不足 H.264 編碼文件的一半，更為先進的編碼技術自不必說，然而容量直接減半的關鍵，還在於影像碼率的降低。以下是三部電影 H.264/1080p，以及 HEVC/1080p 編碼格式的解碼資訊。

《美國隊長2：酷寒戰士》解碼資訊

《極速快感》解碼資訊

《蜘蛛人：驚奇再起》解碼資訊

標注的紅框內有兩個重要資訊，一個是 CPU 使用率，另一個則是影像解碼器和碼率資訊。從 CPU 使用率來看，H.264/1080 硬解，和 HEVC/1080p 硬解區別不大，HEVC 編碼格式的 CPU 使用率，僅僅是略高於 H.264 編碼格式，最新版完美解碼播放器，對 HEVC 編碼格式的支援十分到位（後續我們會試試終極解碼，以及其它的播放器）。

完美解碼解碼資訊中的解碼器顯示，H.264 解碼器為 H.264，HEVC 解碼器為 HEVC。而更重要的是，三部電影的 HEVC 編碼格式的碼率，大約只有 H.264 編碼格式的一半，甚至不足一半。比如《美國隊長2：酷寒戰士》碼率對比是7411:3000；《極速快感》碼率對比是 942:665；《蜘蛛人：驚奇再起》碼率對比是9826:4705，這才是 HEVC 編碼格式容量大幅降低的關鍵所在。

● HEVC 編碼技術直接競爭對手 —— Google VP8/WebM

文章最後，我們回顧兩個重要的時間點，有關 H.264 和 HEVC 編碼技術。早在 1999 年，H.264 編碼技術已比較完善，然而，國際電信聯盟（ITU）一直到 2003 年 3 月才正式審核通過 H.264 編碼標準。

2012 年 8 月愛立信推出就首款了 H.265 編碼器，半年後的 2013 年 2 月，國際電信聯盟（ITU）規範，以驚人的速度通過 H.265 標準審核。

Google VP9/WebM 影像編碼技術十分强大

為何 H.264 和 HEVC 編碼技術的待遇，差距如此之大？原因是 HEVC 編碼技術有一個強大的競爭對手，HEVC 必須盡快建立標準來抗衡。

這個對手就是 Google VP9/WebM 影像編碼技術，目前 Google VP8/WebM 編碼技術，主要針對 HTML5 和雲播放領域，Google 旗下的 YouTube 視訊網站，已採用 VP8/WebM 編碼技術進行編碼（未來會採用 VP9/WebM 編碼技術），考慮到 YouTube 的強勢，Google VP9/WebM 編碼技術，是 HEVC 編碼技術不得不重視的對手。

所幸的是，在家電領域，目前 Google 的影響力相對有限，三星、索尼、LG、夏普、松下、蘋果等國際巨頭的支援 HEVC 編碼技術，有著相對光明的前景。2015 年春季，藍光 4K 標準已採用 HEVC 編碼格式（幾乎板上釘釘），那麼 HEVC 編碼格式的未來，將無需擔憂。

● HEVC 影像編碼已經開始造福百姓，並將持續影響著整個視訊影像產業

High Efficiency Video Coding（高效影像編碼）

對岸中國的搜狐視頻和迅雷視頻，已經開始採用 HEVC 編碼技術進行影像處理，力求使用者可以獲得流暢的高品質影像體驗。目前許多高清論壇，也有將經典電影內容「洗版」HEVC 編碼的趨勢，此舉可為高清收藏控，提升可觀的儲存空間利用率。

展望未來，無論是即將出台的藍光標準，還是未來的 8K 超高清技術，更是離不開 HEVC 編碼技術的支持。

綜上所述，HEVC 編碼技術，已經開始並將持續影響著整個視訊影像產業。

按此回今日3S Market新聞首頁

AKD 寰楚專業級全系列監控設備

．人臉表情辨識研究

MICRO EXPRESSIONS in 4K - LIE TO ME Style Analysis - Micro Expressions Training like in Lie To Me

AKD 寰楚1080P 零售商店監控專用機

來源：infoq.cn 作者: 言有三李振东

隨著機器學習和深度神經網路，兩個領域的迅速發展，以及智慧設備的普及，人臉辨識技術正在經歷前所未有的發展，關於人臉辨識技術討論從未停歇。目前，人臉辨識精度已經超過人眼，同時大規模普及的軟硬體基礎條件也已具備，應用市場和領域需求很大，基於這項技術的市場發展和具體應用，正呈現蓬勃發展態勢。

人臉表情辨識 (facial expression recognition, FER) 作為人臉辨識技術中的一個重要組成部分，近年來在人機交互、安全、機器人製造、自動化、醫療、通信和駕駛領域，得到了廣泛的關注，成為學術界和工業界的研究熱點。本文將對人臉辨識中的表情辨識的相關內容，做一個較為詳細的綜述。

1 表情相關概述

1.1 表情定義與分類

「表情」是我們日常生活中，提到很多的一個詞語，在人際溝通中，人們透過控制自己的臉部表情，可以加強溝通效果。人臉表情是傳播人類情感資訊，與協調人際關係的重要方式，據心理學家 A.Mehrabia 的研究顯示，在人類的日常交流中，透過語言傳遞的資訊，僅佔資訊總量的 7%，而透過人臉表情傳遞的資訊，卻達到資訊總量的 55%，可以這麼說，我們每天都在對外展示自己的表情，也在接收別人的表情，那麼表情是什麼呢？

臉部表情，是臉部肌肉的一個或多個動作或狀態的結果。這些運動表達了個體對觀察者的情緒狀態。臉部表情是非語言交際的一種形式。它是表達人類之間的，社會資訊的主要手段，不過也發生在大多數其他哺乳動物，和其他一些動物物種中。

人類的臉部表情至少有 21 種，除了常見的高興、吃驚、悲傷、憤怒、厭惡和恐懼 6 種，還有驚喜（高興＋吃驚）、悲憤（悲傷＋憤怒）等 15 種可被區分的復合表情。

表情是人類及其他動物，從身體外觀投射出的情緒指標，多數指臉部肌肉，及五官形成的狀態，如笑容、怒目等。也包括身體整體表達出的身體語言。一些表情可以準確解釋，甚至在不同物種成員之間，憤怒和極端滿足是主要的例子。

然而，一些表情則難以解釋，甚至在熟悉的個體之間，厭惡和恐懼是主要的例子。一般來說，臉部各個器官是一個有機整體，協調一致地表達出同一種情感。

臉部表情是人體（形體）語言的一部分，是一種生理及心理的反應，通常用於傳遞情感。

1.2 表情的研究

臉部表情的研究始於 19 世紀，1872 年，達爾文在他著名的論著《人類和動物的表情（The Expression of the Emotions in Animals and Man，1872）》中，就闡述了人的臉部表情，和動物的臉部表情之間的聯繫和區別。

1971 年，Ekman 和 Friesen 對現代人臉表情辨識，做了開創性的工作，他們研究了人類的 6 種基本表情（即高興、悲傷、驚訝、恐懼、憤怒、厭惡），確定辨識對象的類別，並系統地建立了有上千幅，不同表情的人臉表情圖像數據庫，細緻的描述了每一種表情，所對應的臉部變化，包括眉毛、眼睛、眼瞼、嘴唇等等是如何變化的。

1978 年，Suwa 等人對一段人臉影像動畫，進行了人臉表情辨識的最初嘗試，提出了在圖像序列中，進行臉部表情自動分析。

20 世紀 90 年代開始，由 K.Mase 和 A.Pentland 使用光流，來判斷肌肉運動的主要方向，使用提出的光流法，進行臉部表情辨識之後，自動臉部表情辨識，進入了新的時期。

1.3 微表情

隨著對表情研究的深入，學者們將目光聚焦到，一種更加細微的表情的研究，即微表情的研究，那麼什麼是微表情呢？

微表情是心理學名詞，是一種人類在試圖隱藏某種情感時，無意識做出的、短暫的臉部表情。他們對應著七種世界通用的情感：厭惡、憤怒、恐懼、悲傷、快樂、驚訝和輕蔑。微表情的持續時間，僅為 1/25 秒至 1/5 秒，表達的是一個人試圖壓抑與隱藏的真正情感。雖然一個下意識的表情，可能只持續一瞬間，但有時表達相反的情緒。

微表情具有巨大的商業價值和社會意義。

在美國，針對微表情的研究，已經應用到國家安全、司法系統、醫學臨床和政治選舉等領域。在國家安全領域，有些訓練有素的恐怖分子等危險人物，可能輕易就透過測謊機的檢測，但是透過微表情，一般就可以發現他們，虛假表面下的真實表情，並且因為微表情的這種特點，它在司法系統和醫學臨床上，也有著較好的應用。

電影製片人導演或者廣告製作人等，也可以透過人群抽樣採集的方法，對他們觀看宣傳片，或者廣告時候的微表情，來預測宣傳片或者廣告的收益如何。

總之，隨著科技的進步和心理學的不斷發展，對臉部表情的研究，將會越來越深入，內容也會越來越豐富，應用也將越來越廣泛。

2 表情辨識的應用

2.1 線上 API（Application Programming Interface《應用程式介面》）

(1) Microsoft Azure

該 API 包括人臉驗證、臉部檢測、以及表情辨識等幾部分。對於人臉 API 已整合的表情辨識功能，可針對圖像上所有臉部的一系列表情（如氣憤、蔑視、厭惡、恐懼、高興、沒有情緒、悲傷和驚訝）返回置信度，透過 JSON 返回辨識結果。可以認為這些情感，跨越了文化界限，通常由特定的臉部表情傳達。

鏈接：https://azure.microsoft.com/zh-cn/services/cognitive-services/face/

圖 2.1 為人臉 API 辨識結果:

圖 2.1 Microsoft Azure 人臉 API 表情辨識實際操作示意圖

(2) Baidu AI 開放平台（配備微信小程式）

該 API 可以檢測圖中的人臉，並為人臉標記出邊框。檢測出人臉後，可對人臉進行分析，獲得眼、口、鼻輪廓等 72 個關鍵點定位，準確辨識多種人臉屬性，如性別，年齡，表情等資訊。該技術可適應大角度側臉，遮擋，模糊，表情變化等各種實際環境。

鏈接： https://ai.baidu.com/tech/face/detect

圖 2.2 為該 API 的功能演示。

圖 2.2 Baidu AI 開放平台人臉 API 的功能演示

(3) 騰訊優圖 AI 開放平台（配備微信小程式）

該 API 對於任意一幅給定的圖像，採用智慧策略對其進行搜索，以確定其中是否含有人臉，如果是，則返回人臉的位置、大小和屬性分析結果。當前支持的人臉屬性有：性別、表情（中性、微笑、大笑）、年齡（誤差估計小於 5 歲）、是否佩戴眼鏡（普通眼鏡、墨鏡）、是否佩戴帽子、是否佩戴口罩。

目前優圖人臉檢測和分析，不僅成熟應用於圖片內的人臉顏值分析，檢測到人臉時啓動相機等娛樂場景，還可透過對圖像或影像中的人臉，進行檢測和計數，能夠輕鬆瞭解區域內的人流量，並且可以透過對廣告受眾群體的人臉檢測和分析，瞭解人群的性別、年齡等屬性和分布，據此進行更精準對應的廣告投放。

鏈接： http://youtu.qq.com/#/face-detect

圖 2.3 為該 API 的功能演示。

圖 2.3 騰訊優圖 AI 開放平台人臉 API 的功能演示

2.2 APP

(1) Polygram

Line、微信等社群工具，已經成為了我們生活中，必不可少的一部分，社交、轉賬、支付、購物。在中國，微信已成為一個載體，刷微信、刷朋友圈、發段子、鬥圖，成為了中國人民空閒時間的日常，各種微信表情包成為一大主流。

Polygram 與以往的社交軟體的方式不同，是一款基於人臉辨識的表情包，為主要特色的社交軟體，加持人臉辨識與神經網路技術，它可以使用者的臉部表情，來生成一個 emoji。在這裡，用戶可以透過人臉辨識技術，搜索發送相應表情。

Polygram 是一個人工智慧動力社會網路，可以理解人臉表情。它以基於人臉辨識的表情包為主要特色，即能夠利用人臉辨識技術，對面部的真實表情進行檢測，從而搜索到相應的表情，併發送該表情。

當使用者在 Polygram 上發佈圖片或影片時，它非常聰明的是可以使用臉部辨識技術和手機攝影機，自動捕獲使用者在社交平台上，瀏覽朋友分享的照片、文字、影片等資訊時，臉部出現的真實表情，您將瞭解您的好友對他們的感受。

這是透過模仿臉部表情的，現場表情符號來完成的，並允許用戶對自己的臉部做出反應。

圖 2.4 用戶在使用 Polygram

(2) 落網 emo

emo，是一款可以辨識情緒的音樂 APP，我們總是在掏出手機，打開音樂播放器之後，不停的在播放列表中找歌，卻難以在存了幾百首歌的播放列表中，找到此刻想聽的，這並非出於執念，只是因為心情。快樂的時候，想聽跳躍的歌；悲傷的時候，要放低沈的曲兒；激動的時候，需要激昂的調……每個人都有心情不同的時候，每個人都需要不同的音樂解藥。emo 因此而生，解決聽歌煩惱，在最適合的時候播放最適合的歌。

在 emo 面前的你，會是最誠實的你，不必掩藏你的心情，愉快便是愉快，悲傷即是悲傷。emo 會通過前置攝影機掃描你的臉，推算出你當下的心情狀態，你會驚訝於它的準確度之高，而且，不僅是愉快悲傷，它還能「看」出來其它心情如：平靜、困惑、驚訝、憤怒等等。

推算心情不是唯一讓人驚嘆的地方，在推算出你的心情狀態之後，emo 還會貼心地為你推送音樂。emo 擁有龐大優質的音樂後台曲庫，推送的每一首歌，都由人工打上心情標籤，每一首歌都是我們為你精心挑選的，符合你現時心情的。

簡單來說 emo 是一個音樂播放器，而臉部辨識技術的嵌入，讓這個播放器又沒那麼簡單 —— emo 可以透過掃描使用者的臉部表情，判斷使用者的情緒，推薦給使用者相應的音樂。產品的立意是希望使用者在每一刻，都能聽到想聽的符合心情的歌曲。總體而言，該 App 也跳出了一般意義上的播放器，是一款十分有意思的產品，期待優化的更好一些。其他三大主流音樂播放器，或許未來也可以借鑒一下。

2.3 分析總結

目前，各家大廠的 API 都已經非常成熟，同時由於微信小程式的興起，很多 APP 的功能，都可以遷移至小程式完成，透過廣泛的調研，可以發現目前做人臉辨識的產品較多，而聚焦於表情辨識的並不多，或者僅僅是簡單的給出，是否微笑等簡單的表情提示，大部分並沒有將其與產品進行一個有機的結合。在調研過程中，個人覺得 emo 是一個很好的點子，不過很可惜並沒有得到很好的推廣。

目前，僅針對人臉辨識的技術相對成熟，表情辨識還有很大的市場，接下來需要做的是將表情辨識運用到實際場景中，將其與現實需求進行良好結合。例如在遊戲的製作上面，可以根據人類情感做出即時反映，增強玩家沈浸感；

在遠端教育方面，可以根據學生表情調整授課進度、授課方法等；在安全駕駛方面，可以根據司機表情，判斷司機駕駛狀態，避免事故發生。

在公共安全監控方面，可以根據表情，判斷是否有異常情緒，預防犯罪；在製作廣告片的時候，製作者往往都會頭疼一個問題：該在什麼時候插入商標 logo、該在什麼時候跳出產品圖片，才能讓觀眾對這個品牌、這個產品有更深的印象？

表情辨識就可以幫助廣告製作者，解決這一令人頭疼的問題。製作者只需要在廣告片完成後，邀請一部分人來試看這個廣告片，並在試看過程中，使用表情辨識系統測試，觀看者的情緒變化，找到他們情緒波動最大的段落，這就是最佳的 logo 插入段落。

與其類似的，可以幫助廣告製作者，找出最佳的 logo 植入點，還可以幫助電影製作方，尋找出一部電影中，最吸引人的部分來製作電影的預告片，以確保預告片足夠吸引人，保證有更多的人在看完預告片後，願意走進電影院觀看「正片」。

表情辨識是一個很有發展前景的方向，將其與日常所需緊密聯繫，是這類產品需要考量的重要因素，而不單單只是給一個檢測結果而已，或許這個未來的發展方向之一。

3 表情常用開源數據庫

(1) KDEF 與 AKDEF(karolinska directed emotional faces) 數據集

鏈接： http://www.emotionlab.se/kdef/

這個數據集最初是被開發，用於心理和醫學研究目的。它主要用於知覺、注意、情緒、記憶等實驗。在創建數據集的過程中，特意使用比較均勻，柔和的光照，被採集者身穿統一的 T 恤顏色。這個數據集，包含 70 個人，35 個男性，35 個女性，年齡在 20 至 30 歲之間。

沒有鬍鬚，耳環或眼鏡，且沒有明顯的化妝。7 種不同的表情，每個表情有 5 個角度。總共 4900 張彩色圖。尺寸為 562 * 762 像素。圖 3.1 是該數據集中一個微笑的示例。

圖 3.1 KDEF 與 AKDEF Dataset 中微笑示例

(2) RaFD 數據集

鏈接： http://www.socsci.ru.nl:8180/RaFD2/RaFD?p=main

該數據集是 Radboud 大學 Nijmegen 行為科學研究所整理的，這是一個高品質的臉部數據庫，總共包含 67 個模特兒：20 名白人男性成年人，19 名白人女性成年人，4 個白人男孩，6 個白人女孩，18 名摩洛哥男性成年人。

總共 8040 張圖，包含 8 種表情，即憤怒、厭惡、恐懼、快樂、悲傷、驚奇、蔑視和中立。每一個表情，包含 3 個不同的注視方向，且使用 5 個相機從不同的角度同時拍攝的，圖 3.2 是該數據集中 5 個方向的一個示例，圖 3.3 是該數據集中一個表情的示例。

圖 3.2 RaFD Dataset 中 5 個方向的一個示例

圖 3.3 RaFD Dataset 中一個表情示例

(3) Fer2013 數據集

該數據集，包含共 26190 張 48*48 灰度圖，圖片的解析度比較低，共 6 種表情。分別為 0 anger 生氣、1 disgust 厭惡、2 fear 恐懼、3 happy 開心、4 sad 傷心、5 surprised 驚訝、6 normal 中性。圖 3.4 為 Fer2013 數據集的部分數據。

圖 3.4 Fer2013 Database 的部分數據

(4) CelebFaces Attributes Dataset (CelebA) 數據集

鏈接： http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html

CelebA 是商湯科技的，一個用於研究人臉屬性的數據集，一個包含超過 200K 名人圖像的大型人臉屬性數據集，每個數據集都有 40 個屬性注釋。

該數據集中的圖像涵蓋了大型姿態變化和複雜背景。CelebA 的多樣非常好，有約 10 萬張帶微笑屬性的數據，圖 3.5 是該數據集中一些微笑的示例。

圖 3.5 CelebA Dataset 中一些微笑示例

(5) Surveillance Cameras Face Database（SCface）

鏈接： http://www.scface.org/

SCface 是人臉靜態圖像的數據庫。圖像是在不受控制的室內環境中，使用五種不同品質的影像監控攝影機拍攝的。數據庫包含 130 個主題的 4160 靜態圖像（在可見和紅外線光譜中）。圖 3.6 是該數據集中不同姿勢的一些示例。

圖 3.6 SCface Database 中不同姿勢的一些示例

(6) Japanese Female Facial Expression (JAFFE) Database

該數據庫包含由 10 名日本女性模特兒，組成的 7 幅臉部表情（6 個基本臉部表情 +1 個中性）的 213 幅圖像。每個圖像被 60 個日語科目評為 6 個情感形容詞。圖 3.7 是該數據集中的部分數據。

圖 3.7 JAFFE 中的部分數據

除上述介紹到的開源數據集外，還有許多關於表情的開源數據集，總之需要多去搜索總結，使用這些開源數據集，我們可以省去很多構造數據的時間，也便於我們訓練出一個強健性（Robustness）比較好的模型。

4 人臉表情辨識研究方法

4.1 表情辨識系統

人臉表情辨識系統如圖 4.1 所示，主要由人臉圖像的獲取、人臉檢測、特徵提取、特徵分類四部分組成。

圖 4.1 人臉表情辨識系統

由於開源表情數據庫目前已經比較多，圖像獲取難度不大，人臉檢測算法也比較成熟，已經發展成為一個獨立的研究方向，因此人臉表情辨識的研究，主要體現在系統的後面兩個步驟：特徵提取和特徵分類上，下面將從傳統研究方法，和深度學習研究方法，對以上兩個步驟進行闡述。

4.2 傳統研究方法

4.2.1 特徵提取

表情特徵提取主要採用數學方法，依靠電腦技術對人臉表情的數位圖像，進行數據的組織和處理，提取表情特徵，去除非表情噪聲的方法。在某些情況下，特徵提取算法提取了圖像的主要特徵，客觀上降低了圖像的維數，因此這些特徵提取算法，也具有降維的作用。

人臉表情的產生是一個很複雜的過程，如果不考慮心理和環境因素，呈現在觀察者面前的，就是單純的肌肉運動，以及由此帶來的臉部形體和紋理的變化。靜態圖像呈現的，是表情發生時單幅圖像的表情狀態；動態圖像呈現的，是表情在多幅圖像之間的運動過程。

因此根據表情發生時的狀態，和處理對象來區分，表情特徵提取算法，大體分為基於靜態圖像的特徵提取方法，和基於動態圖像的特徵提取方法。

其中基於靜態圖像的特徵提取算法，可分為整體法和局部法，基於動態圖像的特徵提取算法，又分為光流法、模型法和幾何法。

基於靜態圖像的特徵提取方法：

（1）整體法

人臉表情依靠肌肉的運動來體現。人臉表情靜態圖像直接地顯示了，表情發生時人臉肌肉運動，所產生的臉部形體和紋理的變化。從整體上看，這種變化造成了臉部器官的明顯形變，會對人臉圖像的全局資訊帶來影響，因此出現了從整體角度，考慮表情特徵的人臉表情辨識算法。

整體法中的經典算法，包括主元分析法（PCA）、獨立分量分析法（ICA）和線性判別分析法（LDA）。研究者針對於此也做了大量的工作，採用 Fast ICA 算法提取表情特徵，該方法不但繼承了 ICA 算法，能夠提取像素間隱藏資訊的特點，而且可以透過更新，快速地完成對表情特徵的分離。

支持向量鑒別分析（SVDA）算法，該算法以 Fisher 線性判別分析，和支援向量機基礎，能夠在小樣本數據情況下，使表情數據具有最大的類間分離性，而且不需要構建 SVM 算法所需要的決策函數。實驗證明瞭該算法的辨識率，高於 PCA 和 LDA。

依靠 2D 離散餘弦變換，透過頻域空間對人臉圖像進行映射，結合神經網路，實現對表情特徵的分類。

（2）局部法

靜態圖像上的人臉表情，不僅有整體的變化，也存在局部的變化。臉部肌肉的紋理、皺摺等局部形變所蘊含的資訊，有助於精確地判斷表情的屬性。局部法的經典方法是 Gabor 小波法和 LBP 算子法。

以 Gabor 小波等多種特徵提取算法為手段，結合新的分類器對靜態圖像展開實驗。

首先人工標記了 34 個人臉特徵點，然後將特徵點的 Gabor 小波系數，表示成標記圖向量，最後計算標記圖向量，和表情語義向量之間的 KCCA 系數，以此實現對表情的分類。

CBP 算子法，透過比較環形鄰域的近鄰點對，降低了直方圖的維數。針對符號函數的修改，又增強了算法的抗噪性，使 CBP 算子法取得了較高的辨識率。

基於動態圖像的特徵提取方法：

動態圖像與靜態圖像的不同之處在於：動態圖像反映了人臉表情發生的過程。因此動態圖像的表情特徵，主要表現在人臉的持續形變，和臉部不同區域的肌肉運動上。

目前基於動態圖像的特徵提取方法，主要分為光流法、模型法和幾何法。

（1）光流法

光流法是反映動態圖像中，不同幀之間相應物體灰度變化的方法。早期的人臉表情辨識算法多採用光流法，提取動態圖像的表情特徵，這主要在於光流法，具有突出人臉形變、反映人臉運動趨勢的優點。因此該算法依舊是傳統方法中，來研究動態圖像表情辨識的重要方法。

首先採用連續幀之間的光流場和梯度場，分別表示圖像的時空變化，實現每幀人臉圖像的表情區域跟蹤；然後透過特徵區域運動方向的變化，表示人臉肌肉的運動，進而對應不同的表情。

（2）模型法

人臉表情辨識中的模型法，是指對動態圖像的表情資訊，進行參數化描述的統計方法。常用算法主要包括主動形狀模型法（ASM）和主動外觀模型法（AAM），兩種算法都可分為形狀模型和主觀模型兩部分。

就表觀模型而言，ASM 反映的是圖像的局部紋理資訊，而 AAM 反映的是圖像的全局紋理資訊。提出了基於 ASM 的 3D 人臉特徵跟蹤方法，該方法對人臉 81 個特徵點，進行跟蹤建模，實現了對部分複合動作單元的辨識。

借助圖像的地形特徵模型，來辨識人臉動作和表情；利用 AAM 和人工標記的方法，跟蹤人臉特徵點，並按照特徵點取得人臉表情區域；透過計算人臉表情區域的地形直方圖，來獲得地形特徵，從而實現表情辨識。

基於 2D 表觀特徵和 3D 形狀特徵的 AAM 算法，在人臉位置發生偏移的環境下，實現了對表情特徵的提取。

（3）幾何法

在表情特徵提取方法中，研究者考慮到表情的產生與表達，在很大程度上，是依靠臉部器官的變化來反映的。人臉的主要器官及其褶皺部分，都會成為表情特徵集中的區域。

因此在臉部器官區域標記特徵點，計算特徵點之間的距離，和特徵點所在曲線的曲率，就成為了採用幾何形式提取人臉表情的方法。

使用形變網格對不同表情的人臉進行網格化表示，將第一幀與該序列表情，最大幀之間的網格節點，坐標變化作為幾何特徵，實現對表情的辨識。

4.2.2 特徵分類

特徵分類的目的，是判斷特徵所對應的表情類別。在人臉表情辨識中，表情的類別分為兩部分：基本表情和動作單元。前者一般適用於所有的處理對象，後者主要適用於動態圖像，可以將主要的特徵分類方法，分為基於貝葉斯網路的分類方法，和基於距離度量的分類方法。

（1）基於貝葉斯網路的分類方法

貝葉斯網路是以貝葉斯公式為基礎、基於概率推理的圖形化網路。從人臉表情辨識的角度出發，概率推理的作用，就是從已知表情資訊中，推斷出未知表情的機率資訊的過程。基於貝葉斯網路的方法，包括各種貝葉斯網路分類算法，和隱馬爾科夫模型（HMM）算法。

研究者分別採用了樸素貝葉斯（NB）分類器、樹增強器（TAN）和 HMM 實現表情特徵分類。

（2）基於距離度量的分類方法

基於距離度量的分類方法，是透過計算樣本之間的距離，來實現表情分類的。代表算法有近鄰法和 SVM 算法。近鄰法是比較未知樣本 x ，與所有已知類別的樣本之間的歐式距離，透過距離的遠近，來決策 x 與已知樣本是否同類；SVM 算法則是透過優化目標函數，尋找到使不同類別樣本之間，距離最大的分類超平面。

採用了最近鄰法對表情特徵進行分類，並指出最近鄰法的不足之處，在於分類正確率的大小，依賴於待分類樣本的數量。分別從各自角度提出了對 SVM 的改進，前者將 k 近鄰法與 SVM 結合起來，把近鄰資訊整合到 SVM 的構建中，提出了局部 SVM 分類器；後者提出的 CSVMT 模型，將 SVM 和樹型模組結合起來，以較低的算法複雜度，解決了分類子問題。

4.3 深度學習方法

上述均為傳統研究方法的一些介紹，下文主要講述，如何將深度學習應用到表情辨識裡，並將以幾篇文章為例，來詳細介紹一下，現在深度學習方法的研究方法和思路。

與傳統方法特徵提取不同，之所以採用深度學習的方法，是因為深度學習中的網路（尤其是 CNN）對圖像具有較好的提取特徵的能力，從而避免了人工提取特徵的繁瑣，人臉的人工特徵，包括常用的 68 個 Facial landmarks 等其他的特徵，而深度學習除了預測外，往往還扮演著特徵工程的角色，從而省去了人工提取特徵的步驟。

下文首先介紹深度學習中，常用的網路類型，然後介紹透過預訓練的網路，對圖像進行特徵提取，以及對預訓練的網路，採用自己的數據進行微調的 Fine-Tunning。

如果將深度學習中，常用的網路層 CNN、RNN、Fully-Connect 等層組合成網路，將會產生多種選擇，然而這些網路性能的好與壞，需要更多地探討，經過很多研究者的一系列實踐，很多網路模型已經具備很多的性能，如 ImgeNet 比賽中提出模型： AlexNet、GoogleNet（Inception)、 VGG、ResNet 等。這些網路已經經過了 ImageNet 這個強大數據集的考驗，因此在圖像分類問題中也常被採用。

對於網路的結構，往往是先透過若干層 CNN，進行圖像特徵的提取，然後透過全連接層，進行非線性分類，這時的全連接層就類似與 MLP，只是還加入了 Dropout 等機制防止過擬合等，最後一層有幾個分類，就連接幾個神經元，並且透過 Softmax 變換得到，樣本屬於各個分類的機率分布。

關於人臉表情辨識的討論一直在繼續，很多學者團隊都聚焦於此。

用於注釋自然情緒臉部表情的，一百萬個圖像的大型數據庫（即，從因特網下載的臉部圖像）。首先，證明這個新提出的算法，可以跨數據庫可靠地辨識 AU 及其強度。根據調研，這是第一個在多個數據庫中，辨識 AU 及其強度的高精度結果的已發佈算法。

算法可以即時運行（> 30 張圖像 / 秒），允許它處理大量圖像和影像序列。其次，使用 WordNet 從網路下載 1,000,000 張臉部表情圖像，以及相關的情感關鍵詞。

然後透過我們的算法用 AU、AU 強度，和情感類別自動注釋這些圖像。可以得到一個非常有用的數據庫，可以使用語義描述，輕鬆查詢電腦視覺、情感計算、社會和認知心理學，和神經科學中的應用程式。

還有一種深度神經體系結構，它透過在初始階段，結合學習的局部和全局特徵，來解決這兩個問題，並在類之間複製消息傳遞算法，類似於後期階段的圖形模型推理方法。

結果顯示，透過增加對端到端訓練模型的監督，在現有水準的基礎上，我們分別在 BP4D 和 DISFA 數據集上，提高了 5.3％和 8.2％的技術水準。

5 總結

FER 目前的關注點，轉移到具有挑戰性的真實場景條件下，利用深度學習技術，來解決如光照變化、遮擋、非正面頭部姿勢等問題。

需要考慮的另一個主要問題是，儘管目前表情辨識技術，已經被廣泛研究，但是我們所定義的表情，只涵蓋了特定種類的一小部分，主要是臉部表情，而實際上人類還有很多其他的表情。

表情的研究相對於顏值年齡等要難得多，應用也要廣泛的多，相信這幾年會不斷出現有意思的應用。

按此回今日3S Market新聞首頁

康橋科技 —— 白光攝影機專業廠商！

2019年9月23日 星期一

‧ 2019\09\23\3S MARKET Daily 智慧產業新資訊

A.I. Is Monitoring You Right Now and Here’s How It's Using Your Data

．4K/8K 影像主力 H.265 編碼技術解析！

．人臉表情辨識研究

鏈接： https://ai.baidu.com/tech/face/detect

(2) RaFD 數據集 鏈接： http://www.socsci.ru.nl:8180/RaFD2/RaFD?p=main

鏈接： http://www.scface.org/

2019年9月23日星期一

(2) RaFD 數據集

鏈接： http://www.socsci.ru.nl:8180/RaFD2/RaFD?p=main