CHINESE GAIT RECOGNITION!
摘要
步態辨識作為一種遠端生物特徵辨識技術,已受到越來越多的關注,即它可以實現遠距離辨識,而其他辨識技術幾乎無法使用。 它顯示出在刑事偵查、醫療、身份辨識、人機交互等領域中的巨大潛力。
在本章中,我們在第一部分介紹最新的步態辨識技術,包括基於 3D 和 2D 的方法。考慮到基於 3D 方法的優勢,介紹了它們的相關數據集,以及我們的步態數據庫,第二部分同時包含了 2D 輪廓圖像和 3D 關節資訊。
給定我們的步態數據集,在第三部分中提出了一個人類步行模型,以及相應的靜態和動態特徵提取,這些被證明是不變的。 並且介紹了一些基於步態的應用。
1.簡介
作為生物辨識技術之一,步態辨識已經引起了廣泛的關注。 有許多理論支持人們的步行方式是一種獨特的行為特徵,可以用作生物特徵辨識。與其他生物辨識技術(例如人臉辨識)不同,步態辨識被公認為最重要的非接觸式,非侵入性生物辨識技術,很難模仿。
由於這些優點,步態辨識有望應用於諸如刑事調查和門禁控制之類的場景中。 通常,步態辨識包括以下五個步驟,如圖1所示。
圖1。
步態辨識的步驟。
步驟1:獲取步態數據
獲取原始步態數據的方式取決於如何辨識步態。通常,步態是由單台攝影機,多台攝影機,專業運動捕捉系統(例如 VICON)和帶深度感測器的攝影機(例如 Kinect)獲得的。
步驟2:預處理
預處理方法與獲取步態的條件完全不同。例如,在某些基於單攝影機的方法中,預處理通常是背景減法,即獲得步行者的身體輪廓。但是,在基於 Kinect 的方法中,預處理是從框架序列中濾除噪聲。
步驟3:期間提取
由於人的步態是一種週期性信號,所以步態序列可以包括幾個步態週期。步態週期提取有助於減少數據冗餘,因為所有步態特徵都可以包含在一個整個步態週期中。
第4步:特徵提取
各種步態特徵用於不同類型的步態辨識方法中,它們會影響步態辨識的性能。步態特徵可以分為手工特徵和機器學習特徵。手工製作的易於將其推廣到不同的數據集,而機器學習的通常更適合特定的數據集。
步驟5:分類
步態分類,即步態辨識,是基於步態特徵使用分類器。分類器的範圍從傳統的分類器(例如kNN(k最近鄰))到現代的分類器(例如深度神經網路),該分類器在臉部辨識、手寫辨識、語音辨識等方面都取得了成功。
通常,步態辨識方法可以分為基於 3D 的方法和基於 2D 的方法。基於 2D 的步態辨識方法,取決於一台 2D 攝影機捕獲的人體輪廓,這是影像監控的正常情況。基於 2D 的步態辨識方法,在步態辨識領域占主導地位,通常分為基於模型的方法和非模型的方法。
基於模型的方法,從影像序列中提取人體形狀和動態資訊,通過整合資訊建立合適的骨骼或關節模型,並根據模型中參數的變化對個體進行分類。 Cunado等。
將步態建模為鉸接擺,並透過動態霍夫變換提取線以代表每幀大腿,如圖 2a 所示。約翰遜等。基於從跨多個視圖的步行動作中,恢復的靜態身體參數來辨識人,這可以減少由視角變化引起的影響,如圖 2b 所示。文獻透過輪廓圖,透過簡筆劃模型,對人體結構進行了建模,該模型有 10 條帶有六個關節的關節,如圖 2c 所示。
使用該模型,可以將人體運動記錄為一系列的棒形圖形參數,這些參數可以作為 BP 神經網路的輸入。提出了一個用於人體運動分析的體積模型,使用 14 個橢圓圓柱體對人體進行建模,如圖 2d 所示。將下半身關節角的軌跡,投影到步行平面中,並透過動態時間扭曲(DTW)對它們進行時間標準化。
在靜態和動態身體特徵之間進行了融合。具體而言,靜態特徵是透過 Procrustes 形狀分析獲得的緊湊表示形式。動態人體特徵是透過基於模型的方法提取的,該方法可以跟踪對象並恢復下肢的關節角度軌跡,如圖 2e 所示。
通常,基於模型的步態辨識方法,具有更好的不變性,並且在處理遮擋、噪聲、縮放和視圖變化方面也更好。但是,基於模型的方法,通常需要高解析度和沈重的計算成本。
圖2。
基於模型的方法的示例。
另一方面,無模型方法直接基於從影像序列中,提取的輪廓生成步態簽名,而無需擬合模型。步態能量圖像(GEI)是最流行的步態表示,它以灰色圖像表示空間和時間步態資訊。
GEI 是透過對整個步態週期中的輪廓進行平均來生成的,並且在保留時間資訊的同時,在單個圖像中表示人的運動序列,如圖 3a 所示。運動輪廓圖像(MSI)類似於 GEI,也是灰色圖像。
MSI 的強度取決於每個像素運動的時間歷程,如圖 3b 所示。 MSI 的強度表示一個步態週期中的運動資訊。由於 GEI 和 MSI 代表運動和外觀資訊,因此它們對各種協變量條件(例如攜帶和穿著)的變化敏感。
如圖 3c 所示,在中提出了基於形狀變化(SVB)的帶狀裝飾圖案,以提高其抵抗這些變化的強健性。 SVB 帶狀裝飾圖案水準和垂直投射輪廓,以表示步態資訊,並使用關鍵幀減法,來減少外觀變化對輪廓的影響。
儘管已經顯示出 SVB 條紋圖案在外觀發生重大變化時,可以獲得更好的結果,但在沒有變化的情況下,並不會表現出色,並且需要對每個步態週期進行時間對齊預處理,這會帶來更多的計算負擔。
步態熵圖像(GEnI)是另一種步態表示,它基於 Shannon 熵。它在整個步態週期內,對剪影圖像中像素值的隨機性進行編碼,並且對外觀變化(如攜帶和穿著)更具強健性,如圖 3d 所示。
提出瞭如圖 3e 所示的 Chrono-Gait 圖像(CGI),以壓縮輪廓圖像,而又不會丟失它們之間的太多時間關係。他們利用顏色映射功能,以相同的步態序列,對每個步態輪廓圖像進行編碼,並在一個四分之一步態週期內,平均一個 CGI。保留步態週期的更多時間資訊是有幫助的。
圖3。
無模型方法的示例。
上面提到的方法,都將步態序列轉換為單個圖像/模板。還有其他方法可以保留步態序列的時間資訊,它們也具有良好的性能。
提出了一種基於隱馬爾可夫模型(HMM)的步態辨識方法,因為步態序列由一系列姿勢構成,適合於 HMM 表示。在這種方法中,姿勢被視為 HMM 的狀態,並且與個人相同,這提供了一種辨識手段。
應用主成分分析(PCA)從輪廓序列中,提取統計時空特徵,並透過監督模式分類技術,在低維特徵空間中辨識步態。 利用序列對的相關性來保留廚房和探針序列之間的時空關係,並將其用作步態辨識的基線。
無模型方法的優點是計算效率高,操作簡便。然而,針對照明,衣服,縮放比例和視圖變化的魯棒性仍需要提高。在這裡,我們重點介紹視圖不變步態辨識方法。
迄今為止,基於 2D 的視圖不變步態辨識方法可分為無姿勢和基於姿勢的步態辨識方法。無姿勢方法目的在提取,獨立於攝影機視角的步態參數。提出了一種步態辨識方法,該方法基於靜態身體參數來辨識人,該參數是從跨多個視圖的步行中提取的。
建議從每個幀中,提取與該人的運動斑點,相對應的圖像模板。隨後,計算獲得的模板序列的自相似性。
另一方面,基於姿勢的方法目的在從任意角度合成人體的側視圖。如果人離攝影機足夠遠,則可以使用單個攝影機,從任何其他任意視圖合成側視圖。
使用人體輪廓和人體測量比例,以較低的計算成本,來估計圖像參考系統中下肢的姿勢。經過無標記運動估計後,透過獨立於視點的步態,重建算法校正了獲得的角度趨勢,該算法可以重建矢狀面中四肢的姿勢以進行辨識。
提出了一種用於跨步態步態匹配的任意視圖變換模型(AVTM)。構建訓練對象的 3D 步態體積序列,然後透過將 3D 步態體積序列,投影到與目標視圖相同的視圖上,來生成訓練對象的 2D 步態輪廓序列。
最後,以從 2D 序列中提取的步態特徵,訓練AVTM。在最新工作中,建立了深度卷積神經網路(CNN),並使用一組標記的多視圖人類步行影片進行了訓練,以透過相似性學習,進行基於步態的人類辨識。
該方法在 CASIA-B、OU-ISIR 和 USF 數據集上進行了評估,並且與以前的最新方法相比具有出色的表現。
從上述方法可以看出,二維視場不變方法的主要思想,是找到獨立於攝影機視場的相同步態參數,或者可以用來合成,具有任意視點的側視圖。
2.基於 3D 的步態辨識和數據集
2.1。 基於 3D 的步態辨識
基於 3D 的方法,在抵抗視圖變化的強健性方面,具有本能的優勢。 通常,在基於 3D 的方法中,使用多台經過校準的攝影機,或帶有深度感測器的攝影機,這對於提取具有 3D 資訊的步態特徵是必需的。
提議基於由多個攝影機捕獲的 10 個關節和 24 個自由度(DOF)建構 3D 骨架模型,並且 3D 資訊為視點的變化,提供了強健性,如圖 4a 所示。
從投影機、攝影機系統捕獲密集的 3D 步態,可用於辨識處於不同姿勢的個人,如圖 4b 所示。建立一個具有四個校準和同步攝影機的系統,使用影像序列估計 3D 運動,並基於無標記 3D 運動跟踪辨識視變步態,如圖 4c 所示。
圖4。
基於 3D 方法的示例。
基於3D的方法,通常比基於 2D 的視圖不變方法好,不僅在辨識準確度上,而且在抵抗視圖更改的強健性上也是如此。然而,由於多個攝影機的校準和多個影像的融合,這些方法具有高計算成本。
Microsoft Kinect 是傳統的基於 3D 的步態辨識方法的新策略,因為它是一種可消耗的RGB-D(深度)感測器,可以輕鬆提供深度資訊。到目前為止,有兩代 Kinect,如圖 5a 和 b 所示。
用 Kinect 捕獲的深度圖像,將 GEI 的概念從 2D 擴展到 3D。他們對整個步態週期中,已註冊的三維體的序列求平均,這稱為步態能量體(GEV),如圖 6 所示。由 3D 點雲表示的深度資訊,被整合到基於輪廓的步態辨識方案中。
圖5。
第一代和第二代 Kinect。
圖6。
步態能量(GEV)。
Kinect 的另一個特點是,它可以透過機器學習技術,精確估計和跟踪每個幀處關節的 3D 位置。 圖 7a 和 b 顯示了第一代和第二代 Kinect 之間的跟踪點的差異。
圖7。
(a)第一代 Kinect 跟踪的 20 個關節,(b)第二代 Kinect 跟踪的 25 個關節。
計算從關節點得出的身體部位的長度,作為靜態人體測量資訊,並將其用於步態辨識。 使用 Kinect 捕獲的所有關節的坐標來生成 RGB 圖像,將這些 RGB 圖像組合成影像,以表示行走序列,並基於基於內容的圖像檢索(CBIR)技術的精神來辨識步態。
選擇 Kinect 捕獲的 11 個骨架特徵作為靜態特徵,將步長和速度用作動態特徵,並將靜態和動態特徵整合在一起進行辨識。提出了一種新的步態表示形式,稱為基於相對距離的步態特徵,與人體測量特徵相比,它可以保留步態的周期性特徵。
艾哈邁德(Ahmed)等人提出使用 Kinect 的步態特徵,在整個步態週期內,計算一系列關節相對角度(JRA)。他們還引入了一個新的基於動態時間規整(DTW)的內核,以完成帶有JRA序列的訓練樣本與測試樣本之間的相異性度量。
Kastaniotis 提出了,使用 Kinect 進行基於步態辨識的框架。捕獲的姿勢序列表示為八個選定肢體的角度矢量(歐拉角)。然後,將角向量映射到相異空間中,從而生成相異向量。最後,通過稀疏表示對姿勢序列的相異矢量進行建模。
選擇 Kinect 捕獲的 11 個骨架特徵作為靜態特徵,將步長和速度用作動態特徵,並將靜態和動態特徵整合在一起進行辨識。提出了一種新的步態表示形式,稱為基於相對距離的步態特徵,與人體測量特徵相比,它可以保留步態的周期性特徵。
艾哈邁德(Ahmed)等人提出使用 Kinect 的步態特徵,在整個步態週期內,計算一系列關節相對角度(JRA)。他們還引入了一個新的基於動態時間規整(DTW)的內核,以完成帶有JRA序列的訓練樣本與測試樣本之間的相異性度量。
Kastaniotis 提出了,使用 Kinect 進行基於步態辨識的框架。捕獲的姿勢序列表示為八個選定肢體的角度矢量(歐拉角)。然後,將角向量映射到相異空間中,從而生成相異向量。最後,通過稀疏表示對姿勢序列的相異矢量進行建模。
2.2。數據集
步態數據集,對步態辨識性能的改進和評估很重要。當前學術界中有許多步態數據集,它們的目的和特徵互不相同。這些數據集之間的差異,主要在於被拍攝對象的數量,影像序列的數量,協變量因子,視點和環境(室內或室外)。
儘管步態數據集中的對像數量,遠少於其他生物特徵數據集(例如臉部、指紋等)的對像數量,但當前數據集仍可以滿足步態辨識方法設計和評估的要求。在這裡,我們簡要介紹幾個流行的步態數據集。表 1 總結了這些數據集的資訊。
儘管步態數據集中的對像數量,遠少於其他生物特徵數據集(例如臉部、指紋等)的對像數量,但當前數據集仍可以滿足步態辨識方法設計和評估的要求。在這裡,我們簡要介紹幾個流行的步態數據集。表 1 總結了這些數據集的資訊。
表格1。
流行步態數據集列表。
SOTON 大型數據庫是一個經典的步態數據庫,其中包含 115 個對象,這些對像從側面和傾斜角度觀察,並在幾種不同的環境中行走,包括室內、跑步機和室外。
SOTON Temporal 包含有關時間流逝的最大變化。在 1 年內,每月在受控和不受控的衣服條件下,捕獲步態序列。它僅用於研究步態辨識的時間流逝效果,而無需考慮衣服狀況。
USF HumanID 是最常用的步態數據集之一。它包含 122 位受試者,他們沿著室外的橢圓形路徑行走,還包含各種協變量,包括視野、表面、鞋子、袋子和經過時間。該數據庫適合於調查,每個協變量對步態辨識性能的影響。
CASIA 步態數據庫包含三個集合,即A、B 和 C。集合 A(也稱為 NLPR)由 20 個對象組成,每個對象包含 12 個序列,其中包括三個步行方向,即 0、45 和 90°。設置 B 包含從前視圖到後視圖的較大視圖差異,間隔為18°。
每個對像有 10 個序列,其中六個序列是正常序列,兩個序列是長外套,兩個序列是背包。集合 B 適用於評估交叉視野步態辨識。集合 C 包含紅外線攝影機,在四個步行條件下,在夜間以正常速度行走,快速行走,緩慢行走和背著背包行走的 4 種步行條件下的紅外線步態數據。
每個對像有 10 個序列,其中六個序列是正常序列,兩個序列是長外套,兩個序列是背包。集合 B 適用於評估交叉視野步態辨識。集合 C 包含紅外線攝影機,在四個步行條件下,在夜間以正常速度行走,快速行走,緩慢行走和背著背包行走的 4 種步行條件下的紅外線步態數據。
OU-ISIR LP 包含最多的科目,即 4000 多個,年齡範圍從 1 歲到 94 歲,並且性別比例幾乎平衡,儘管其中沒有任何協變量。它適合以較高的統計可靠性,估算一種步態辨識的上限精度。它也適用於評估基於步態的年齡估計。
TUM-GAID 是第一個多模型步態數據庫,其中包含由 Kinect 獲得的步態音頻信號,RGB 步態圖像和深度人體圖像。
KinectREID 是一個基於 Kinect 的數據集,包括 483 個影像序列,包含 71 個個體在不同的光照條件下,和 3 個視圖方向(正面、背面和側面)。儘管最初的動機是為了重新辨識人,但是所有影像序列都是使用 Kinect,針對每個主題拍攝的,其中包含 Kinect 提供的所有資訊,並且對於其他基於 Kinect SDK 的應用程序非常方便。
根據有關步態數據集的概述,大多數數據集基於 2D 影像或基於專業攝影機(如 VICON)捕獲的 3D 運動數據。據我們所知,有一些步態數據集,同時包含2D輪廓圖像和3D關節位置信息。這樣的數據集可以製定基於關節位置的方法,例如參考文獻中的方法。
直接使用 Kinect 捕獲的關節位置,可以利用基於 2D 和 3D 的方法的優勢,並提高辨識性能。同時,使用基於 Kinect 的方法,例如 Refs。將有一個統一的平台來相互比較。因此,建立了一個基於 Kinect 的新穎數據庫,其特點如下:
直接使用 Kinect 捕獲的關節位置,可以利用基於 2D 和 3D 的方法的優勢,並提高辨識性能。同時,使用基於 Kinect 的方法,例如 Refs。將有一個統一的平台來相互比較。因此,建立了一個基於 Kinect 的新穎數據庫,其特點如下:
如圖 8 所示,使用兩種 Kinect 同時獲得 21 個關節(不包括 4 個手指關節)的 3D 位置,以及每個幀的相應二值化身體輪廓圖像;
數據集中有 52 個受試者,每個受試者有 20 個步態序列,共 1040 個步態序列。
每個對像有六個固定的行走方向,和兩個任意的行走方向,可用於研究視圖變化,對步態辨識性能的影響;
數據集中有 28 位男性和 24 位女性,平均年齡為 22 歲。沒有磨損的限制,儘管大多數受試者都穿著短褲和 T 恤衫,很少女性穿著衣服和高跟鞋,這些都記錄在基本資訊文件中。
圖8。
我們數據庫中的兩種數據:上部區域中 21 個關節的 3D 位置和下部區域中相應的二值化輪廓圖像。
我們選擇 Kinect V2 的原因是 Kinect V2 在其第一代產品上,有了全面的改進,例如視野更廣,顏色和深度圖像的解析度更高,以及關節辨識能力更高。記錄了 3D 數據和 2D RGB 圖像,如圖 8 所示。
圖 8 的上方區域顯示了 21 個關節的 3D 位置,這意味著每個關節,在每一幀的坐標都將像(x,y,z)。我們在整個步行週期的每一幀,記錄所有這些原始 3D 位置數據。下部區域顯示從背景中減去被攝體後對應的二進制輪廓圖像序列。
圖 8 的上方區域顯示了 21 個關節的 3D 位置,這意味著每個關節,在每一幀的坐標都將像(x,y,z)。我們在整個步行週期的每一幀,記錄所有這些原始 3D 位置數據。下部區域顯示從背景中減去被攝體後對應的二進制輪廓圖像序列。
實驗環境如圖 9 所示。兩個 Kinect 以 2.5 m 的距離相互垂直,以形成最大的視野,即步行區域。考慮到視角,我們在腳架上放置了兩個 Kinect,高度為 1 m。紅色虛線是 Kinect 可以探測到的最大和最小深度。黑色實線包圍的區域,是可用的步行區域。
圖9。
實驗環境的俯視圖。
在記錄每個受試者的數據之前,我們會收集基本資訊,例如名稱、性別、年齡、身高、穿著(例如高跟鞋,女志願者的衣服)等,以進行潛在分析和數據挖掘。 要求每個受試者在如圖 9 中箭頭 ①–⑤ 所示的預定方向上行走兩次,特別是 ⑤ 表示受試者在任意方向上沿直線行走。
我們可以將所有數據,視為一個 Kinect 記錄的數據,因為這兩種 Kinect 相同,因此每個對像有 20 個行走序列,每個預定義方向的行走持續時間如圖 10 所示。可在網站上訪問數據集 ,https://sites.google.com/site/sdugait/,並且可以與應用一起下載。
我們可以將所有數據,視為一個 Kinect 記錄的數據,因為這兩種 Kinect 相同,因此每個對像有 20 個行走序列,每個預定義方向的行走持續時間如圖 10 所示。可在網站上訪問數據集 ,https://sites.google.com/site/sdugait/,並且可以與應用一起下載。
圖10。
步行方向和相應的步行時間。
3.基於 Kinect 的步態辨識
3.1。基於 Kinect 的步態辨識
從 Kinect 捕獲的數據中提取的步態特徵包含靜態和動態特徵。在這一部分中,我們將首先介紹,如何提取靜態和動態特徵,並演示這兩種特徵的性質。然後,我們將展示如何從序列中,提取步行時間。最後,我們將這兩種特徵進行特徵融合,以進行步態辨識。
靜態特徵是一種在整個步行過程中,幾乎不變的特徵,例如高度、骨骼的長度等。有了人體測量學的知識,就可以在一定程度上根據靜態身體參數識別該人。在這裡,我們選擇一些骨骼的長度作為靜態特徵,包括腿和手臂的長度。考慮到人體的對稱性,通常將兩側肢體的長度視為相等。
靜態特徵定義為八維向量,即(d1,d2,d3,d4,d5,d6,d7,d8)(d1,d2,d3,d4,d5,d6,d7,d8),其中 didi 是表2 中列出的 Joint_1 和 Joint_2 之間的空間距離。此處,參考 Refs 中的研究經驗,選擇歐幾里德距離來測量空間距離。
靜態特徵定義為八維向量,即(d1,d2,d3,d4,d5,d6,d7,d8)(d1,d2,d3,d4,d5,d6,d7,d8),其中 didi 是表2 中列出的 Joint_1 和 Joint_2 之間的空間距離。此處,參考 Refs 中的研究經驗,選擇歐幾里德距離來測量空間距離。
表2。
靜態特徵向量的組成部分。
我們可以獲取每幀中表2 中列出的關節的 3D 坐標,併計算靜態特徵向量的每個分量。
其中(x1,y1,z1)(x1,y1,z1)和(x2,y2,z2)(x2,y2,z2)分別表示列為 Joint_1 和 Joint_2 的相應關節的 3D 位置。
當我們評估 Kinect 獲得的關節位置的估計時,我們發現精度會隨著深度範圍而變化。 鑑於經驗結果,我們發現當深度在 1.8 至 3.0 m 之間時,可以獲得更穩定的數據。
因此,我們提出一種策略,來自動選擇該範圍內的幀。 我們選擇 HEAD 關節的深度資訊,來表示整個身體的深度,因為它可以被穩定地檢測到,並在行走過程中,保持深度方向上的單調性。 然後我們設置兩個深度閾值,即 Z 方向上的距離,分別作為上下邊界。 兩個邊界之間的幀被視為可靠幀。
因此,我們提出一種策略,來自動選擇該範圍內的幀。 我們選擇 HEAD 關節的深度資訊,來表示整個身體的深度,因為它可以被穩定地檢測到,並在行走過程中,保持深度方向上的單調性。 然後我們設置兩個深度閾值,即 Z 方向上的距離,分別作為上下邊界。 兩個邊界之間的幀被視為可靠幀。
其中Hf|Hf 表示 HEAD 的框架,fa 表示可靠的框架,Hf、zHf,z 表示當 HEAD 關節的坐標為 z 時獲得的框架。在獲得可靠框架的期間,我們保留所有關節的 3D 坐標。最後,我們計算每個可靠幀所需的骨架長度,並取其平均值來計算靜態特徵向量的分量。
要求受試者沿著相同的路徑行走七次,這可以使受試者以後更自然地行走。對於每個主體,將 Kinect從-15° 旋轉到 15° 旋轉5°,並記錄每個方向上的靜態特徵矢量。這些方向分別由n15、n10、n5、0、p5、p10 和 p15 表示,其中「0」表示正向,「 n」和「 p」分別表示逆時針和順時針。
總共隨機選擇 10 名志願者重複此實驗,所有結果都證明我們選擇的靜態功能,對視圖變化具有強健性。我們在圖 13a 中顯示了一個示例,其中繪製了這些靜態矢量,在七個方向上的每個分量,以及這些矢量的平均值。
總共隨機選擇 10 名志願者重複此實驗,所有結果都證明我們選擇的靜態功能,對視圖變化具有強健性。我們在圖 13a 中顯示了一個示例,其中繪製了這些靜態矢量,在七個方向上的每個分量,以及這些矢量的平均值。
動態特徵是步行過程中,隨時間變化的任何一種特徵,例如速度、步幅、重心的變化等。經過大量研究,步行過程中擺肢的角度具有顯著的動態性步態特徵。因此,如圖 11 所示,定義了四組上肢即手臂和前臂,以及下肢即大腿和腿的擺動角度,分別表示為 a1,…,a8a1,…,a8。這裡以 a2 為例進行說明。 KNEE_RIGHT 處的坐標表示為(x,y,z)(x,y,z),並且在 ANKLE_RIGHT 處的坐標表示為(x',y',z')
(x’,y',z'),因此 a2a2 可以計算為
圖11。
行走模型的側視圖。
每個動態角度,都可以視為一個獨立的動態特徵進行辨識。 給出參考文獻中的研究結果。 和我們在這些動態角 a2 上的比較實驗,根據接近 Kinect 的一側,選擇右側的 a2 或左側的 a4a4 作為動態角度。
可以計算每幀 a2a2 和 a4a4 的值,並可以描述整個行走過程,如圖 12 所示。我們進行了類似於靜態功能的驗證實驗,以證明其對視圖不變的強健性 ,圖13b 中所示的結果表明,所提出的動態特徵對於視圖變化也具有強健性。
圖12。
根據動態特徵提取時間段。
圖13。
(a)一個對像在七個方向上的靜態特徵和(b)動態特徵。
步態提取是步態分析中的重要步驟,因為步態是一種週期性特徵,多數特徵可以在一個週期內捕獲。基於輪廓的方法通常僅分析輪廓寬度,隨時間的變化,以獲得周期資訊。一些方法應用信號處理,來分析用於週期提取的動態特徵,例如峰值檢測和傅立葉變換。與它們不同的是,我們建議透過將左肢和右肢的數據組合,在一起來提取周期性,如圖12 所示。a2a2 和 a4a4 sequences 分別代表左右信號。
可以得出結論,左右信號之間的交叉點,可以適當地劃分步態週期。我們使用左右信號之間的交叉點,來提取步態週期。在信號開始處將噪聲部分切除後,我們對左右信號進行減法運算,將交叉點作為零點,並提取兩個間隔零點之間的周期。黑色虛線表示檢測到的周期。
靜態和動態特徵,分別具有各自的優點和缺點。這兩種功能在分數級別中融合在一起。透過線性歸一化,將兩種不同類型的匹配分數歸一化到封閉區間[0,1]上。
其中 SS 是歸一化之前的矩陣,其成分為 ss
,這裡代表分數,S^S ^是歸一化矩陣,其成分為s^s ^。 兩種功能的加權融合為
其中 FF 是融合後的分數,RR 是用於融合的特徵數量,ωiωi 是 iith 分類器的權重,s^is ^ i 是 ii 的分數分類器,這是我們的距離。 CiCi 是用於單獨辨識的第 i 個特徵的 CCR(正確分類率),因此可以根據 CCR 的級別設置權重。
3.2。比較
分析了靜態特徵,動態特徵及其融合的交叉視圖辨識能力。由於可以記錄對象的身體兩側,因此將 180° 上的四個序列用作訓練數據。其他方向的序列用作測試數據。由於在 Kinect 的較近側,獲取的序列具有更高的準確性,因此將自動選擇較近體側的數據,以進行每個方向的計算。
從右側的 0°,225° 和 270° 以及左側的 90° 和 135° 提取靜態特徵。由於對稱,身體兩側的骨架長度被認為是相等的。靜態特徵的計算公式如下。 (1)和 NN 分類器用於辨識。結果顯示在表3 的第一行中。
表3。
每個步行方向上靜態要素,動態要素和要素融合的 CCR(%)結果。
從肢體的右側在 0°、225° 和 270° 上計算動態特徵 a2,從肢體的左側在 90° 和 135° 上計算動態特徵 a4。由於我們可以在 180° 方向上提取 a2 和 a4,因此它們中的任何一個,都可以用作訓練集上的動態特徵。結果顯示在表3 的第二行中。
如我們之前所討論的,靜態特徵和動態特徵,在分數級別中融合在一起,並且在視圖變化情況下,在特徵融合之後測試結果。給定從不同方向獲得的動態特徵,和靜態特徵的 CCR,我們重新分配權重,獲得不同主題的最終分數,並使用 NN 分類器,獲得最終°結果,如表3 第三行所示。表3 顯示,特徵融合可以提高每個方向的辨識率。
Preis 等提出了一種基於 Kinect 的步態°方法,其中提取 11 條肢體的長度作為靜態特徵,並將步長和速度作為動態特徵。他們的方法在包括 9 個人在內的,自己的數據集中進行了測試,最高 CCR 可以達到 91%。他們提出的步態特徵,也基於 3D 位置關節,因此可以在我們的數據庫中,重建他們的方法。
在本章中,我們重建了他們的方法,並在 52 人的數據庫上進行了測試,並與我們提出的方法進行了比較。由於他們的數據集僅包含額葉行走序列,因此我們僅在 180°(額葉)方向上,比較數據庫中的兩種方法。我們在 180° 方向上隨機選擇三個序列作為訓練數據,其餘序列作為測試數據。兩種方法的 CCR 結果如表4 所示。我們提出的方法具有約 10% 的精度提高。
在本章中,我們重建了他們的方法,並在 52 人的數據庫上進行了測試,並與我們提出的方法進行了比較。由於他們的數據集僅包含額葉行走序列,因此我們僅在 180°(額葉)方向上,比較數據庫中的兩種方法。我們在 180° 方向上隨機選擇三個序列作為訓練數據,其餘序列作為測試數據。兩種方法的 CCR 結果如表4 所示。我們提出的方法具有約 10% 的精度提高。
表4。
所提方法與文獻中方法的 CCR 比較。
評估了所提出的方法的另一個基於 Kinect 的步態數據集,即參考文獻中的 KinectREID 數據集。圖14 中顯示了四個辨識率曲線,分別是 front_VS_front、rear_VS_rear、front_VS_rear 和 front_VS_lateral,因為 KinectREID 數據集中只有三個方向,即前後和橫向。
從圖14 可以看出,該方法的橫斷面辨識率,略遜於相同方向的橫斷面辨識率,這表明儘管辨識率越高,但該方法對視點變化的強健性卻下降了。 測試對象的數量。
從圖14 可以看出,該方法的橫斷面辨識率,略遜於相同方向的橫斷面辨識率,這表明儘管辨識率越高,但該方法對視點變化的強健性卻下降了。 測試對象的數量。
圖14。
KinectREID 數據集上的步態辨識性能。
根據上面討論的實驗結果,可以說關節之間的靜態關係,和動態運動關係是非常重要的特徵,可以代表步態的特徵。在許多基於 2D 的方法中,許多研究人員還試圖獲得關節之間的關係,但是必須從 2D 影像中,計算出關節的位置,並利用各種策略。 Goffredo 提出了一種參考不變的步態辨識方法。
它們僅使用一台攝影機獲得的 2D 影像。從背景中提取行走輪廓後,他們根據輪廓的幾何特徵,估計關節的位置,並計算脛骨與垂直軸之間的角度,以及大腿與垂直軸之間的角度,作為動態特徵,最後進行投影轉換,以使用視點校正算法,將這些特徵投影到矢狀平面中。
實際上,Goffredo 的方法在邏輯上,與我們的方法相比具有許多類似的步態特徵。如前所述,我們的數據庫不僅具有 3D 位置數據,而且還具有每幀的 2D 輪廓圖像。利用我們的數據庫,我們可以使用 2D 輪廓圖像序列重建其方法;同時,我們使用同一個人的 3D 關節位置數據。我們將這種方法與我們的方法,在三個方向上的不同觀點進行比較。表5 中的比較結果表明,我們提出的方法具有 14-19% 的精度提高。
它們僅使用一台攝影機獲得的 2D 影像。從背景中提取行走輪廓後,他們根據輪廓的幾何特徵,估計關節的位置,並計算脛骨與垂直軸之間的角度,以及大腿與垂直軸之間的角度,作為動態特徵,最後進行投影轉換,以使用視點校正算法,將這些特徵投影到矢狀平面中。
實際上,Goffredo 的方法在邏輯上,與我們的方法相比具有許多類似的步態特徵。如前所述,我們的數據庫不僅具有 3D 位置數據,而且還具有每幀的 2D 輪廓圖像。利用我們的數據庫,我們可以使用 2D 輪廓圖像序列重建其方法;同時,我們使用同一個人的 3D 關節位置數據。我們將這種方法與我們的方法,在三個方向上的不同觀點進行比較。表5 中的比較結果表明,我們提出的方法具有 14-19% 的精度提高。
表5。
在三個方向上進行比較的 CCR(%)結果。
3.3。應用領域
步態研究仍處於探索階段,而不是商業應用階段。但是,我們有信心說,鑑於步態分析的最新發展,它很有希望。步態的獨特特徵,例如不顯眼,不可接觸和非侵入性,具有強大的潛力,可應用於包括犯罪調查,出入安全和監視在內的場景。
例如,如果被拍攝對象與攝影機之間的距離較大,則臉部辨識將變得不可靠。事實證明,指紋和虹膜辨識功能更強大,但只能由某些接觸或接近接觸的設備捕獲。
例如,如果被拍攝對象與攝影機之間的距離較大,則臉部辨識將變得不可靠。事實證明,指紋和虹膜辨識功能更強大,但只能由某些接觸或接近接觸的設備捕獲。
例如,步態生物特徵已經被用作法醫的證據。 2004年,犯罪者搶劫了丹麥的一家銀行。哥本哈根法醫研究所(IFMC)被要求透過步態分析來確認肇事者,因為他們認為肇事者俱有獨特的步態。 IFMC 指示警察從與監視記錄相同的角度,為嫌疑人建立秘密記錄,以進行比較。
步態分析揭示了,肇事者與犯罪嫌疑人之間的幾種特徵匹配,如圖 15 所示。在圖 15 中,在左腿的站立階段,左側的犯罪者和右側的犯罪嫌疑人均顯示出左腳踝倒立,即角度 b。腳明顯向外旋轉。該嫌疑人被判犯有搶劫罪,法院認為步態分析是非常有價值的工具。
步態分析揭示了,肇事者與犯罪嫌疑人之間的幾種特徵匹配,如圖 15 所示。在圖 15 中,在左腿的站立階段,左側的犯罪者和右側的犯罪嫌疑人均顯示出左腳踝倒立,即角度 b。腳明顯向外旋轉。該嫌疑人被判犯有搶劫罪,法院認為步態分析是非常有價值的工具。
圖15。
銀行搶劫辨識。
另一個類似的例子是在智慧機場,在安檢過程中使用了基於 Kinect 的步態辨識。 Pratik 等考慮到機場安全檢查站的典型應用場景,使用 RGB-D 攝影機(Kinect)建立了正面步態辨識系統,如圖 16a 所示。 在他們的進一步工作中,他們透過兩種 Kinect 的組合,解決了正面步態辨識中的遮擋問題,如圖 16b 所示。
圖16。
基於步態的機場安全檢查系統,具有(a)單和(b)雙 Kinect。
另外,步態分析在醫學診斷和康復中,也起著重要作用。 例如,評估受帕金森氏病(PD)影響的個體的步態異常,對於確定疾病的進展,藥物治療和康復治療的有效性非常重要。 電暈等。研究了許多受 PD 影響的老年人與正常人之間步態的時空和運動學參數,這可以幫助臨床醫生,檢測和診斷帕金森氏病。
0 comments:
張貼留言