．RGB-D 骨架行為辨識研究進展及展望

JMTA2016 - Filtered Pose Graph for Efficient Kinect Pose Reconstruction

智慧安控專區，展覽報名聯絡人：0935-970-603 施正偉

【3S MARKET】監控攝影機為什麼要加入骨架辨識技術？這篇報導告訴你，未來監控廠商的競爭力，關鍵就在這技術！

來源：自动化学报 作者：胡建芳王熊辉郑伟诗赖剑煌

行為辨識是電腦視覺領域，很重要的一個研究問題，其在安全監控、機器人設計、無人駕駛和智慧家庭設計等方面，都有著非常重要的應用。基於傳統 RGB 影像的行為辨識方法，由於容易受背景、光照等行為無關因素的影響，導致辨識精度不高。廉價 RGB-D 攝影機出現之後，人們開始從一個新的途徑，解決行為辨識問題。

基於 RGB-D 攝影機的行為辨識，透過聚合 RGB、深度和骨架三種模態的行為數據，可以融合不同模態的行為資訊，從而可以克服傳統 RGB 影像行為辨識的缺陷，也因此成為近幾年的一個研究熱點。

本文系統地綜述了，RGB-D 行為辨識領域的研究進展和展望。首先，對近年來 RGB-D 行為辨識領域中，常用的公共數據集，進行簡要的介紹；同時也系統地介紹了，多模態 RGB-D 行為辨識，研究領域的典型模型和最新進展，其中包括卷積神經網路（Convolution neural network，CNN），和循環神經網路（Recurrent neural network，RNN）等深度學習技術，在RGB-D 行為辨識的應用；最後，在三個公共 RGB-D 行為數據庫上，對現有方法的優缺點，進行了比較和分析，並對未來的相關研究進行了展望.

關鍵詞: RGB-D 行為辨識骨架點深度學習

RGB-D Action Recognition: Recent Advances and Future Perspectives

HU Jian-Fang、 WANG Xiong-Hui、ZHENG Wei-Shi、 LAI Jian-Huang

Abstract: Action recognition is an important research topic in computer vision, which is critical in some real-world applications including security monitoring, robot design, self driving and smart home system etc.. The existing single modality RGB based action recognition approaches are easily suffered from the illumination variation, background clutter, which leads to an inferior recognition performance. The emergence of low-cost RGB-D cameras opens a new dimension for addressing the problem of action recognition. It can overcome the drawbacks of single modality by outputting RGB, depth, and skeleton modalities, each of which can describe actions from one perspective. In this paper, we mainly review the current advances in RGB-D action recognition. Firstly, we briefly introduce some datasets popularly used in the research of RGB-D action recognition, then we review the literatures and the state-of-the-art recognition models based on convolution neural network (CNN) and recurrent neural network (RNN). Finally, we discuss the advantages and disadvantages of these methods through the experiments on three datasets and provide some problems needing addressing in the future.

Key words: RGB-D action recognition skeleton deep learning

從圖像影像中，分析和理解人體行為，是電腦視覺與模式辨識領域的重要研究課題之一，其在安全監控、機器人設計、無人駕駛和智慧家庭設計等方面，都有著非常重要的應用。

近年來, 由於圖像影像拍攝設備製造技術的飛速發展，人們可獲得的影像圖像語言，越來越趨於多樣化和複雜化，其獲得途徑也越來越便捷化。多模態影像圖像同步記錄設備的快速發展，給相關的電腦智慧應用技術，特別是多媒體影像安全監控方面，提供了新的發展契機,，一系列的基於多模態攝影機的研究課題和應用，層出不窮。

特別是在廉價 RGB-D (「RGB-D」指同時使用 RGB、深度和骨架三種模態數據)攝影機出現之後，人們開始嘗試用一個新的途徑(深度資訊)，來解決傳統的電腦視覺、模式辨識和電腦圖形學問題.

與傳統的 RGB 數據相比，多模態的 RGB-D 數據，可以給行為分析方面的研究，帶來不少便利。RGB 圖像數據容易受拍攝環境、光照和行為人衣著紋理等，與行為無關的外界因素影響，直接從 RGB 影像圖像中，推斷行為人的骨架姿勢、輪廓資訊，和一些關鍵動作資訊，是件很困難的事情，從而導致很多影像分析，和行為動作分析技術，在實際生活中沒有得到很好的應用。

如圖 1 所示，在深度影像圖像中，因行人與周圍的拍攝場景，通常具有很高的辨識度，且所獲得的深度數據，不容易受衣著的影響，從中獲得行人輪廓骨架資訊，簡單方便準確很多; 而 RGB 影像中的顏色資訊，能更細緻地刻畫，物體表觀紋理特徵，這些在處理涉及人與物體交互的行為時，顯得特別重要。

多模態 RGB-D 數據，雖然可以為行為辨識，研究提供更多的資訊，但同時也給相關的影像分析研究，帶來了新的挑戰。首先，不同模態數據，從不同角度刻畫行為資訊，傳統 RGB 影像圖像分析領域中的常用特徵。

如 HOG (Histogram of oriented gradient)、SIFT (Scale invariant feature transform)、LBP (Local binary pattern)等，並不一定適用於其他模態的影像圖像數據，怎樣從深度攝影機拍攝的深度數據，或者 3D 骨架數據中，挖掘出有效動作變化資訊，進行行為表示及辨識，是該領域的一個研究難點。

其次, 多模態 RGB-D 攝影數據，包含多個模態，怎樣才能更有效地，合併不同模態的資訊，以獲得更多的行為上下文內容資訊(Context)，使辨識能達到更好的效果，也是 RGB-D 行為辨識的研究熱點之一。

圖 1 RGB-D 數據樣例(圖中為 SYSU 3D HOI 數據庫中的部分樣本, 從上到下依次為彩色數據(RGB), 深度數據(Depth)和骨架數據(Skeleton), 從左到右的所對應的行為分別為「喝水」、「打電話」、「背包」、「坐下」、「打掃」。從圖中可以看到, 每種模態的數據，從不同角度刻畫行為內容.)

Fig. 1 Some RGB-D samples captured by Kinect (This figure presents some samples from SYSU 3DHOI set. The examples for RGB, depth and skeleton modalities are provided in the first, second, and third rows, respectively. Each column in the figure gives a sample of action "drinking", "calling", "packing", "sitting down", and "sweeping", respectively. As shown, each of the modalities characterizes actions from one perspective.)

為了克服上述挑戰，已經提出了很多 RGB-D 行為辨識算法, 它們在構建深度特徵描述子、 3D 骨架動態特徵提取、多模態特徵融合等方面，採用了不同的策略。

本文分別從數據、模型方法和實驗結果，分析三個方面比較系統，全面地介紹了目前 RGB-D 行為辨識究現狀.在模型方法介紹方面, 本文按照模型所使用的數據模態，對現有的方法進行了分類介紹, 並結合多個公共數據庫中的實驗結果，分析了相關方法的優缺點.

1 RGB-D 行為公共數據庫介紹

與其他數據驅動為主的視覺應用問題一樣，數據在行為辨識中，也起著非常重要的作用。為了促進 RGB-D 行為辨識方面的研究，全世界的研究者，從不同研究角度收集了大量的 RGB-D 行為數據庫，不同的數據庫包含了用 Kinect 拍攝的，不同應用背景的行為影像數據。

公共數據庫的發展，在一定程度上，反映了研究主流方法的發展。在深度學習被大範圍應用到，RGB-D 行為辨識之前, 收集的 RGB-D 行為數據庫，都是相對比較小規模的，其總樣本數不超過 5,000，行為類別數也不超過 20。深度學習興起之後，大規模的 RGB-D 行為數據也開始出現，以配合深度學習算法應用。下面，本文將對 RGB-D 行為辨識研究領域中，具有一定代表性的數據庫進行簡要介紹。

1.1 MSR 日常行為數據庫

MSR 日常行為數據庫，是由 Wang 等在微軟雷德蒙研究院所創建，其包含 10 個行為人拍攝的 16 種日常行為影像(如喝水、看書、鼓掌等)，每種行為都以站立和坐著的方式，重複拍攝 2 次。因此，該庫總共有 320 個影像, 每個影像都記錄了相應的深度影像、RGB 影像，和 3D 骨架序列數據。

特別地，該庫中的大部分行為，都包含人與物體之間的交互動作。為了測試模型性能，數據庫建構者，採用了傳統的個體交叉的驗證方式，進行實驗驗證，即將其中 5 個行為人拍攝的 160 個行為影像，用來訓練模型，剩下行為人相關的 160 個影像用來測試.

1.2 SYSU 3D HOI 行為數據庫

SYSU 3D HOI 是一個專門關注於人與物體，交互行為的數據庫。為了搭建該數據庫，來自於對岸中國中山大學的 Hu 等，邀請了 40 位參與者，盡可能自由地做 12 種不同的交互行為(如喝水、倒水、打電話和玩手機等)。

這 12 個交互行為，主要涉及 6 種不同的被操作物體：手機、椅子、書包、錢包、掃把和拖把，每種物體都與其中 2 個不同的交互行為相關。

因此, 該數據庫總共包含有 480 個 RGB-D 影像。創建人設置了兩種不同的測試方案，第一種測試為：從每個行為類中，隨機選取一半的影像作為訓練集，剩下的一半作為測試。

第二種測試為：隨機選取 20 個個體的視頻數據作為訓練，剩下的個體影像進行測試，第二種測試為傳統的個體交叉認證。上述的每種測試方案，都重複進行 30 次後，取平均結果作為最終辨識效果.

1.3 多視角 3D 行為數據庫

多視角 3D 行為數據庫，是由對岸中國西安理工大學的 Wei 等，於 2013 年等建立。創建該庫主要初衷，是為了研究跨視角的 RGB-D 行為辨識問題。

為了拍攝該庫，創建者邀請了 8 個個體，實施預先定義好的 8 種交互行為(用手機打電話、用杯子喝水、倒水、打水、按按鈕、看書、用滑鼠和敲鍵盤等，每個行為重複拍攝大概 20 次左右。所有個體的行為實施過程，被三個 Kinect 攝影機，從不同的角度，同時捕捉拍攝。

該庫是個比較大的規模的行為庫，其總共包含 3,815 個行為序列，383,036 個 RGB-D 影像幀。每個行為類別對應有 477 個左右的行為影像。作者在其主頁上，公開了部分的行為影像數據。

1.4 CAD6 行為數據庫

CAD60 行為數據庫，是由康奈爾大學的 Sung 等拍攝。該庫總共包含由 Kinect 拍攝的 68 個影像。為了拍攝該數據庫，Sung 等邀請了 4 個行為人，分別進行 13 種特定的行為(含靜止站立、打電話等)，每個行為樣本可能涉及，如下 5 種場景之一：辦公室、廚房、臥室、洗浴間和客廳。

本數據庫採用了針對每種場景的留一法，交叉驗證的方式，對模型進行訓練測試，即對於一種特定場景，其中三個行為個體的影像樣本用來訓練，剩下的用來測試。這樣可以保證訓練集和測試集中，不會出現同一個人。因此，該庫中總共涉及 20 次訓練測試，平均辨識效果作為最終的辨識結果。後來，該庫被進一步拓展為 CAD120。

1.5 NTU 大規模行為數據庫

NTU 大規模數據庫，是目前包含行為樣本數目，最多的 RGB-D 數據庫，由來自於新加坡南洋理工大學的 Shahroudy 等，於 2016 年創建。該庫由第二代 Kinect 拍攝，因而其深度和彩色影像的分辨率，比前面兩個庫大。其包含來自於 60 個行為類 3 種不同視覺下的 56,880 個 RGB-D 影像。

與其他數據庫相比，該庫中考慮的行為更為複雜，它們可能包含個體的手勢動作(如跳躍、鼓掌等)，人與物體交互的行為(如喝水、吃零食等)，和人與人交互的行為(如擁抱、用手指指著別人等)。為了實驗測試，作者設置了兩種不同的訓練測試集劃分：個體交叉和視角交叉。

在個體交叉中，20 個個體的行為數據，被用來作為訓練集，剩下的樣本作為測試集。相應的，視角交叉主要在視角 2 和 3 中，拍攝的樣本進行模型訓練，在第 1 個視角樣本進行測試。

除了以上列舉的公共數據庫外，還有其他的一些比較有意義的 RGB-D 行為數據庫，本文僅在表 1中，給出一些簡要的對比資訊，有興趣的研究者，可以到相關論文中瞭解更多詳情。

表 1 現有 RGB-D 行為數據庫的對比(更完整的數據庫介紹請參見文獻)

Table 1 Comparison of some existing RGB-D action datasets (Please refer to for more details about the datasets)

2 RGB-D 行為辨識模型介紹

由 Kinect 拍攝的 RGB-D 行為數據，與傳統的 RGB 影像數據，具有很大的不同，其主要包含深度影像、3D 骨架，和彩色影像三種模態的數據，每種數據有很大的不同，從不同角度刻畫了行為內容資訊。

由於 RGB-D 影像數據中的，彩色圖像資訊分辨率比較低，導致單純依靠 RGB 影像中的，常用行為辨識方法，並不能得到比較理想的結果。

因此，現有的 RGB-D 行為辨識系統，需要針對 RGB-D 數據特點，發展對應的模型方法。接下來，本文將按模型所使用的數據模態進行劃分，分別介紹 RGB-D 行為辨識方法。

2.1 基於深度模態數據的行為辨識模型

為了構建基於深度影像數據的行為辨識模型，一個很直接的方式，就是將 RGB 圖像影像中，常用的特徵描述方式，拓展應用到深度圖像影像中，使得拓展後的特徵描述，能夠比較好地描述圖像中的幾何形狀資訊，這方面最具有代表性的工作。

這些方法試圖將圖像中的 HOG (Histogram of oriented gradient)特徵拓展成 4D 空間中的，帶方向直方圖特徵 HON 4D (Histogram of oriented normal)，該特徵主要刻畫場景中的曲面法向量，在 4D 空間上的分布資訊。

具體地，該方法把深度圖像內容，看成一個 3D 空間上的曲面，相應的深度影像，則可以定義為隨時間變化的曲面流

透過統計深度影像中 4D 法向量

n

，在每個投影區間上的頻率資訊，可以得到影像的直方圖特徵。為了得到更加具有判別性的直方圖特徵，作者們同時提出了，一種可學習的直方圖編碼方式，以自適應地確定投影區間。

Liu 等對該方法，進行了進一步的拓展，透過計算局部深度時空方體中的法向量直方圖，以得到更多的有效幾何資訊。

Wang 等在文獻中，透過隨機採樣大量的局部深度影像方體，計算每個方體內，包含點雲¹的個數，來刻畫場景下的點雲幾何分布。 Lu 等則直接比較隨機採樣，得到的像素對之間的深度大小關係，來表示形狀。

這些方法試圖透過對場景中的幾何形狀資訊，進行建模，獲取行為實施過程中的動作變化資訊。在建模過程中，這些方法都忽略了紋理和人體姿勢資訊，加上 Kinect 獲取的深度數據，具有比較多的噪聲，從而導致這些模型，在很多數據庫上的效果，並不是特別理想。

¹即將深度圖像像素點，以 3D 坐標的形式展示.

2.2 基於 3D 骨架模態數據的行為辨識模型

得益於微軟開發的 3D 骨架即時捕捉系統，系統可以比較準確地，從深度影像數據中，獲取場景中行為人的 3D 骨架資訊。研究發現，動態的 3D 骨架序列數據，也能比較好地用來表示人體動作資訊。

而且, 在建模過程中，基於 3D 骨架建構的行為辨識模型，具有一定的強健性，不受紋理、背景等，可能與行為無關因素的影響。該類方法主要致力於，挖掘各個關鍵骨架點位置，或者骨架點之間相對位置，或者它們的組合的動態資訊，進行辨識。在深度學習應用於 RGB-D 行為辨識之前，傅立葉變換被廣泛用來提取，骨架序列的動態資訊。

在建模過程中，每個特徵維度隨著時間變化資訊，被當成一個單獨的時間序列，分別提取對應的傅立葉低頻資訊。透過將身體部位的位置資訊，投射到高維李群空間，運用李代數中的運算技巧，從時間序列數據中，挖掘動態資訊。

上述基於手工設計特徵的算法，往往不能捕捉到判別性的動作資訊，因而在很多行為數據庫中的效果不是很理想。

近幾年隨著 GPU 計算能力的提升，以及大規模 RGB-D 行為數據庫(NTU大規模數據庫)的出現，湧現出了大量基於深度學習的方法，應用最廣泛的是循環神經網路(Recurrent neural network, RNN)和卷積神經網路(Convolution neural network, CNN)。

LSTM (Long short-term memory)作為 RNN 的一種變體，在處理長時間序列數據時，有著得天獨厚的優勢，其能捕捉序列在較長時間內的相關性。Du等在 2015 就使用 LSTM 建立編碼器，對骨架動作進行辨識和預測。其計算公式如下:

其中，

i_{t}

f_{t}

o_{t}

u_{t}

分别代表輸入門、遗忘門、輸出門和輸入控制門，

c_{t}

為細胞狀態, 用來儲存長期的時序資訊，

h_{t}

為隱藏狀態，

⊙

代表元素乘積。 LSTM 使用門來控制長時間資訊和短時間資訊的流動，一定程度上消除了 RNN 的梯度消失問題，所以能處理長時間的依賴關係。

然而傳統的 RNN (LSTM) 忽視了骨架數據中的空間資訊，即骨架點間的相對位置。考慮人體骨架的空間結構，將數據分為軀幹和四肢 5 個部分，分別使用 5 個雙向循環神經網路(Bidirectional recurrent neural network, BRNN) 提取特徵，然後將特徵逐層合併，送往下一層 BRNN 進行訓練。

經過 4 層 BRNN 之後，便完成了對人體各部位的空間關係，從局部到整體的建模，最後將整體的特徵，送入分類器進行分類，具體網路結構如圖 2。

這種分層 RNN 模型，一定程度上挖掘了骨架數據的空間特徵，缺點在於由於模型過大，參數量過多, 只有最後一層使用了雙向 LSTM，前面僅使用了普通的雙向 RNN，大大降低了模型的性能。

圖 2 基於分層循環神經網路的 3D 骨架行為辨識系統

Fig. 2 Hierarchical recurrent neural network for skeleton based action recognition

為了更加充分地挖掘骨架數據的空間資訊，提出了時空 LSTM 模型。傳統的 LSTM 僅考慮時間維度，使用細胞狀態來儲存長期的資訊，對於任意時刻的輸入，使用遺忘門、輸入門和輸出門丟棄或者增加資訊。而在時空 LSTM中, 如圖 3 所示，當前時刻當前骨架點的狀態

h_{j, t}

不僅與前一時刻的狀態

h_{j, t - 1}

hj,t−1 hj,t−1有關，還與前一骨架點的狀態

h_{j, t - 1}

h_{j - 1, t}

有關, 作者使用兩個遺忘門

f_{j, t}^{S}

和

f_{j, t}^{T}

分別控制時間和空間，對當前狀態的影響，以此來同時挖掘空間特徵和時間特徵。

此外，骨架點也不僅僅是按照傳統順序排列，考慮到人體動作，往往是由部分相鄰的骨架點所決定的，作者提出了循環遍歷樹結構，進一步挖掘骨架點的空間資訊。時空 LSTM 計算流程如下:

圖 3 時空LSTM

Fig. 3 Spatio-temporal LSTM

\begin{array}{lll} (\begin{matrix} i_{j, t} \\ f_{j, t}^{S} \\ f_{j, t}^{T} \\ o_{j, t} \\ u_{j, t} \end{matrix}) = (\begin{matrix} σ \\ σ \\ σ \\ \tanh \end{matrix}) (\begin{matrix} M (\begin{matrix} x_{j, t} \\ h_{j - 1, t} \\ h_{j, t - 1} \end{matrix}) \end{matrix}) \\ c_{j, t} = i_{j, t} ⊙ u_{j, t} + f_{j, t}^{S} ⊙ c_{t - 1, t} + f_{j, t}^{T} ⊙ c_{j, t - 1} \\ h_{j, t} = o_{j, t} ⊙ \tanh (c_{j, t}) \end{array}

(2)

在行為辨識中，不同時刻的不同骨架點，對於辨識提供的資訊量是非等同的，所以注意力模型，也被廣泛地應用於此。分別使用兩個網路，來訓練空域注意力模型，和時域注意力模型，空域注意力模型，作用在網路的輸入骨架點上，時域注意力模型，作用於主網路的輸出特徵上，從而對不同時序和不同骨架點的資訊進行加權，最後實現端到端的行為辨識。

可視化結果顯示不同時域注意力模型，會對更具判別力的幀賦予更大的加權，對動作相關性較大的骨架點，也會賦予更大的加權，整體和人的感知一致，圖 4為在「拳擊」這一動作中，不同時刻不同節點的數據，對目標行為的重要程度。

圖 4 不同時刻不同節點和行為的相關程度

Fig. 4 The correlation between different skeleton joints and actions at different moments

此外還使用 LSTM，訓練 3D 空間下的坐標變換矩陣，以此來獲取最佳坐標系下的骨架數據，進而提升辨識性能，如圖 5所示 3D 歐氏空間下的坐標變換，可以使用一個旋轉矩陣

R_{t}

和一個平移向量

d_{t}

表示。繞

Z

軸旋轉

β

弧度的坐標變換矩陣為：

圖 5 學習一個坐標轉移矩陣轉換骨架數據的坐標系

Fig. 5 Learning an optimal coordinate transition matrix to transform the coordinate system

(3)

以上均為使用循環神經網路 RNN，對時序數據進行建模的方法，由於骨架數據不僅存在時間維度，也存在空間維度，所以一個骨架數據，可以使用一個 2D 的矩陣來儲存。

而近幾年 CNN 模型在圖像辨識，目標檢測等領域中愈發成熟，所以近兩年也出現了，很多基於 CNN 的特徵提取模型，取得了甚至比 RNN 更好的辨識效果。

例如首先計算全部骨架點，與 4 個重要骨架點的相對距離，然後將 3D 的笛卡爾坐標轉化為球坐標，經過雙線性插值，得到若干個固定大小的圖片，使用在 ImageNet 上預訓練好的 VGG19 模型提取特徵，經過時域中值池化後，再使用全連接層(Fully connected layer, FC)進行分類，在多個庫中均取得了，比基於 RNN 的辨識算法更好的效果。

不同的行為中，與之密切相關的骨架點，也有所不同。所蘊含的局部特徵也不同，這種特徵稱之為共現特徵。傳統的 CNN 使用卷積核，挖掘局部資訊，但只有卷積核內的相鄰骨架點，才被認為是在學習共現特徵。

有研究文獻提出了，一種端到端的共現特徵學習框架，它首先在時間尺度上，學習每個骨架點的特徵，然後將輸出進行轉置，將骨架點維度和通道維度互換，在後續的卷積層中，聚合了所有關節的全局特徵，實驗顯示這種方法，能比傳統的 CNN 挖掘更多的共現資訊。

總之，數據驅動的深度學習方法，給骨架行為辨識領域，帶來了長足的進步。雖然骨架數據，並非傳統意義上的圖像，但 CNN 強大的特徵提取能力，也使其越來越受研究者青睞。此外，在遷移學習的幫助下，預訓練好的神經網路比如VGG、ResNet 等，能大大提升網路的訓練速度，相信深度學習方法在該研究領域，還會有更進一步的突破。

2.3 基於多模態融合的行為辨識模型

基於 RGB-D 影像融合的模型，主要難點在於，怎麼去融合從不同模態數據中，得到的特徵。當然不同模態特徵的設計，對融合系統的辨識，效果影響很大，不同的融合系統，對特徵的要求也不一。本節主要介紹基於多模態特徵融合的辨識方法。

採用了從 3D 深度圖像和骨架點，提取到的兩種特徵：深度局部佔有資訊，和 3D 骨架點不變特徵。從深度圖像提取局部佔有特徵的過程如下：

1)針對每個骨架點, 從 3D 深度圖像中，提取其鄰近的局部方體；　

2)按

x,y,z

x,y,z 軸方向分別將該局部方體分成

Nx×Ny×NzNx×Ny×Nz 個空間網格(bins)；　

3)針對每個網格

bin xyz binxyz，計算網格包含的像素點的個數，並利用 Sigmoid 函數，對其進行規則化，最後得到每個 bin 的特徵表示。將所有 bin 的特徵表示，串接到一起組，成對當前幀的深度資訊的局部佔有特徵；

4)將影像序列的所有幀的，局部佔有特徵當成一個時間序列，提取其對應的傅立葉時域金字塔(Temporal pyramid Fourier, TPF)低頻資訊，作為該節點的局部佔有特徵。

3D 節點不變特徵的提取方法如下：對於每個關節點，首先計算它與其他節點的相對位置(即 3D 坐標差)，然後提取其對應的金字塔傅立葉低頻資訊，作為該節點的節點不變特徵。

最後，作者使用多核學習算法(Multiple kernel learning, MKL) 挖掘出一些最具有代表性的骨架點，進行融合實現對影像表示。如圖 6所示，該方法的優勢，在於其能結合深度特徵和骨架特徵，利用判別學習方法，從不同模態特徵中，選取出最有價值的行為特徵。

然而, 它沒有深入考慮不同特徵之間的，內在結構聯繫, 這個缺點限制了該方法，在 RGB-D 行為辨識方面的效果。

圖 6 學習判別Actionlet集合進行行為辨識

Fig. 6 Learning actionlet ensemble for 3D human action recognition

考慮挖掘多個身體部位的，多模態特徵之間，內部的結構資訊，以選取到對辨識最優的特徵組合，進行辨識。在建模過程中，作者提出了一種層次混合範數，對特徵按部位和模態，進行層次劃分。對不同的層次，使用不同的規則範數，進行歸一化，從而挖掘特徵之間的結構聯繫.

透過融合從 RGB、深度影像，和 3D 骨架序列中，提取到的動態特徵實現辨識。其中RGB、深度影像方面的動態特徵，構建如下：

1)從骨架點對應的人體部位周圍，提取深度(彩色)圖像 HOG 特徵；

2)提取影像對應的 HOG 特徵序列的，傅立葉低頻系數，作為特徵表示。考慮到不同模態的特徵，具有一定的異質性，即特徵具有不同的維度，不同的性質。

作者透過提出一種，基於多任務學習的異質特徵學習模型，來挖掘不同特徵之間的共享成分和私有成分(圖 7)，在多個數據庫中(如 SYSU 3DHOI、MSRDaily 和 CAD60)，達到比較好的辨識效果。同時，作者還發現，透過引入遷移學習技術，利用其他行為數據庫作為輔助庫，可以穩定提升，目標數據庫中的特徵學習效果。

圖 7 多模態異質特徵共享結構，與私有結構同步學習模型

Fig. 7 Jointly learning heterogeneous features for RGB-D activity recognition

在基礎上，進一步發展了一個共享 - 私有特徵學習的深度學習框架，在該深度框架裡，作者定義了一個網路層，將模態特徵分解為共享成分和私有成分。為了能夠提升學習效率，作者對分解後的特徵，加以了稀疏的約束。多個層次的組合，構成了一個深度的共享 - 私有特徵學習框架。

總體而言，以上方法能較好地，利用不同模態的特徵數據，且在現有 RGB-D 行為數據庫上，也取得了非常不錯的結果。大規模行為數據庫的出現，也促進了相關的深度學習算法發展，但以數據和任務為驅動的深度學習技術，並沒有得到很好的應用，現有工作基本把特徵融合和特徵提取，分成了兩個隔離的部分，相互之間不能促進。

基於端到端的多模態特徵融合技術，是未來需要進一步發展的技術，相信其在 RGB-D 行為辨識中，能夠取得更好的結果。

在實際應用中，可能出現部分模態數據丟失，或者很難獲取的情況。針對部分模態數據缺失的，多模態融合學習方法研究，有著重要的意義。例如，作者在模型訓練的過程中，引入了姿勢(骨架)資訊，以學習到更合適的影像行為注意力(Attention)參數，而在測試過程中，不需要輸入姿勢資訊。

3 現有 RGB-D 行為辨識方法的實驗對比與分析

前面章節主要介紹了 RGB-D 行為辨識領域中，常用的公共數據庫，和近些年來提出的，相關辨識方法及其發展。本節將結合 NTU 數據庫，MSR日常行為數據庫，和 SYSU 3DHOI 數據庫，具體對比分析相關辨識模型。

表 2 ~ 表 4，分別給出了相關方法，在 NTU 大規模行為數據庫，MSR日常行為數據庫，和 SYSU 3D HOI 數據庫上的辨識結果。從中可以看出，自深度學習方法，被廣泛用於解決 RGB-D 行為辨識問題以來，具體辨識效果有了大幅度的提高，尤其是在 NTU 大規模行為數據庫上，無論是個體交叉，還是視角交叉設置，現有方法僅使用骨架數據，就能將辨識性能，從 60% 提升至 90% 左右。

其中大部分的深度學習相關工作，都是基於改進 LSTM 模型，以挖掘動作序列中的時空變化資訊。雖然 LSTM 模型充分展現了，它在時序建模方面的強大能力，但不能忽視的是，最新的一些研究顯示，基於卷積神經網路(CNN，人工編碼成靜態圖像，利用卷積核自動學習圖像，內部編碼的時空結構資訊，從而挖掘到具有判別性的時空變化資訊。

然而值得注意的是，這些模型需要人工，將 3D 骨架序列進行編碼，且實驗顯示，該編碼方式對算法的辨識效果較大。因此，怎樣對 3D 骨架序列，進行合適編碼，是該研究中的關鍵問題。

另一方面，從表 3和表 4的辨識結果可以看到，基於 RGB-D 的多數據模態融合模型，往往比單一模態方法，辨識效果更加穩定。這很符合預期，因為不同模態數據，可以捕捉到行為不同方面的資訊，它們之間，往往能在一定程度上進行互補。

然而，由於從多個通道提取特徵，非常消耗計算資源和耗時，尤其是當使用深度學習網路，提取相關特徵時。這也導致大部分的多模態特徵融合方法，在 NTU 大規模數據庫上，未能進行驗證。因此，怎樣發展一個輕量級的深度學習模型，來融合 RGB、深度和 3D 骨架數據，進行行為辨識，也是未來的一個重要研究內容。

表 2 在NTU RGB-D數據庫上各種方法的辨識結果，對比(「RGB-D」指同時使用 RGB、深度和骨架三種模態數據)

Table 2 Comparison of action recognition accuracies on the NTU RGB-D dataset ("RGB-D" indicates that the approach employs all the RGB, depth, and skeleton modalities for recognition)

表 3 在MSR數據庫上各種方法的識別結果對比

Table 3 Comparison of action recognition accuracies on the MSR daily activity dataset

表 4 在SYSU 3D HOI數據庫上各種方法的識別結果對比(「RGB-D」指同時使用RGB、深度和骨架三種模態數據)

Table 4 Comparison of action recognition accuracies on the SYSU 3D HOI Dataset ("RGB-D" indicates that the approach employs all the RGB, depth, and skeleton modalities for recognition)

4 思考與展望

基於 RGB-D 的人體行為辨識，一直是電腦視覺領域的熱點問題，近幾年隨著深度學習的興起，RGB-D 行為辨識領域，有了很大的突破，透過神經網路技術，以數據驅動方式自動學習到的特徵，逐漸代替了 HOG、 SIFT 等手工設計特徵，相關大規模行為數據集的出現，進一步推動了基於深度學習的辨識算法的發展辨識。

特別地，卷積神經網路(CNN)的 RGB-D 行為辨識模型，在部分行為數據庫上，已經達到了相當高的辨識率。然而仍存在著不少問題有待解決。

首先，在 RGB-D 行為辨識中，深度影像、RGB 影像，以及骨架三種特徵提取，和網路訓練，都需要耗費大量的時間和計算資源，如何高效地進行多模態特徵融合，就顯的尤為重要。儘管透過利用雙線性池化操作，一定程度上，提升了融合效率，但仍有很大的提升空間，多模態行為辨識，仍有待進一步研究。

其次，實際測試中，往往可能會遇到，部分模態數據缺失或失效的情況，怎麼調整多模態融合學習算法，使得其能充分利用獲取到的部分模態數據，也是一個重要的需要解決的研究內容。

最後，在數據庫設計方面，現有的 RGB-D 行為數據庫，都主要記錄室內控制場景下的人體行為，行為樣本缺少多樣性，期待未來有更加複雜的，大規模 RGB-D 行為數據庫的出現。

考慮到行為辨識是「事後」辨識研究，即系統需要在行為動作完成之後，再進行辨識。針對正在進行的部分行為的 RGB-D 行為，前期預測問題，也逐漸受到了眾多研究者的關注。

在無人駕駛、機器人，以及醫療監控等，很多應用場景下，人們更希望在動作實施完成前，系統便能即時地預測和辨識，這可以給我們足夠的反應時間，來提前做好準備。

例如，當系統觀測到一個患者失去了平衡時，可能即將會摔倒，我們希望系統能及時預測到，這一動作的發生，並做出相應的反應。

早期的工作主要基於馬爾科夫模型(Markov model, MM)、條件隨機場(Conditional random fields, CRF)等非深度學習方法，近幾年則主要是利用 RNN 和生成對抗網路(Generative adversarial networks, GAN)。

針對不完整的影像學習一個弱類標，從而可以利用部分影像和完整影像中，學習到一個強健性的 RNN 行為預測器。利用RNN 配合編碼器和解碼器，透過最小化預測值，和真實值之間的歐氏距離，來訓練網路。

採用 GAN 模型，透過同時訓練生成器和判別器，來預測骨架的行為特徵。提出時域自適應選擇網路，同步學習行為起始時間和行為預測器，從而實現從未切割的長影像中，預測行為類別。總體而言，基於 RGB-D 影像數據的前期行為預測，無論在研究，還是應用方面，未來都有很大的發展空間。

5 結論

本文詳細介紹了 RGB-D 行為辨識領域中，具有代表性的數據庫，然後根據使用的數據模態類型，對現有研究方法進行劃分，分別介紹了基於深度數據、基於 3D 骨架數據，以及基於多模態融合的，RGB-D 行為辨識研究進展。

基於傳統機器學習方法的辨識算法，採用手工設計特徵挖掘人體的運動資訊，並進行分類，在數據庫較小，時能取得較好的效果，但在面對複雜的數據庫時，分類效果就未盡人意。

而數據驅動的深度學習方法，需要大量已知標籤的數據，進行訓練。可以自發地學習人體行為特徵，所以在複雜問題面前，有著比傳統方法更好的效果。

但同時我們也應該注意到，深度學習方法，需要大量的數據和較長的訓練時間，基於深度學習和多模態特徵融合的 RGB-D 行為辨識方法，在計算效率上也有待進一步提升。

按此回今日3S Market新聞首頁

AKD 寰楚1080P 零售商店監控專用機

3S MARKET

．RGB-D 骨架行為辨識研究進展及展望

0 comments:

Recent Comments

Arsip Blog