2014年3月10日 星期一

‧ 淺析智慧影像監控技術

來源:CPS中安網 作者:謝玨琪

影像監控是監控工程中重要的技術和應用領域,支撐其發展的影像技術在不到一個世紀的發展過程中,大致經歷了3個跨越式的發展階段。20世紀30年代,以電視廣播為代表的影像技術走出了實驗室,進入廣播電視臺和千萬家庭,實現了從靜止圖像傳輸到活動圖像傳輸的跨越;20世紀80年代末,以會議電視、影像監控等為代表的影像技術走出了實驗室,進入眾多的電視會議室、安防系統,實現了從類比影像通信到數位視訊通信的跨越。
如今,以智慧影像監控(IVS)為代表的影像技術,正處在走出實驗室、進入到各行各業的應用階段,將要實現從“機械”的影像資訊處理向智慧化影像資訊處理的跨越。當前市場正處在這一跨越的關鍵時段。智慧影像監控只是智慧影像技術的一個部分,一個將影像技術引入智慧時代的部分。
  
智能影像監控技術兩種構架方式
影像監控的智慧化表現為電腦視覺演算法在影像分析中的應用。智慧影像監控區別于傳統意義上的監控系統在於變被動監控為主動監控(自動檢測、辨識潛在入侵者、可疑目標和突發事件),即它的智慧性。簡單而言,不僅用攝影機代替人眼,而且用電腦代替人、協助人,來完成監視或控制的任務,從而減輕人的負擔。智能影像監控系統的結構通常有如下兩種:

主動智慧監視系統,這類系統的特點是主動攝影機不僅可以理解視場內的場景,還可以有選擇性專注於特定的活動或感興趣的事件。主動智慧監視系統需要額外完成兩個任務:管理主動攝影機資源,即確定哪些攝影機用於監視全景,哪些攝機用於監視特定行為或事件;利用影像分析演算法提供的資訊控制攝影機的運動和變焦。
  
分散式智慧影像監視系統,通過無線影像通信網路將各點智能攝與中心站連接起來,智慧監視伺服器不僅可以生成圖像還可以分析影像,根據影像分析的資訊控制攝影機以及確定使用恰當的儲存資源和頻寬傳送高品質影像給終端使用者。智慧攝影機最大程度減小了系統結構的成本。
  
智慧影像監控技術特性
智慧影像監控技術一直在發展,然而,環境的複雜性以及目標行為的多樣性等原因使得智慧監控演算法變得複雜,且演算法通常是針對具體的應用而設計的。儘管已經提出許多被證明是有效的智慧分析演算法,但是受電腦資料處理能力的限制,難以適合即時計算,自我調整性也較差,應用場合受限。

目前,對於以目標整體的運動軌跡作為研究目標,提取運動目標的運動特徵,或者其本身所具有的特性,這種類型的影像智慧分析已經取得了一定的成果。這一類研究目標不一定是人,也可以是車輛、動物或飛機、坦克等軍事目標。以目標的局部部分運動為研究目標,提取其局部的“肢體語言”特徵分析判斷目標的行為,比如影像的手語辨識、步態辨識、表情辨識或者動作辨識等。

此類監視問題的困難,在於運動模式的提取,以及高效可靠的辨識演算法。智慧影像監控系統可以解決兩個主要問題:一個是將安防操作人員從繁雜而枯燥的“盯螢幕”任務中解脫出來。由機器來完成這部分工作,對異常情況能夠及時處理等,比如報警等;另外一個是為在海量的影像資料中,快速搜索到想要找的圖像。對於上述兩個問題,影像分析廠家經常提到的案例是:操作人員盯著螢幕超過10分鐘後將漏掉90%的影像資訊而使這項工作失去意義;倫敦地鐵案中,安保人員花了70個工時才在大量磁帶中找到需要的資訊。

智慧影像監控的核心內容是對特定目標的自動檢測、跟蹤與行為辨識,包括運動檢測、目標分類、目標跟蹤、行為辨識等4個方面內容。例如對人體的跟蹤:首先從即時圖像序列中檢測出運動物體,再判定運動物體中的人體,然後跟蹤人體的運動軌跡,並分析和選定有異常行為的人,如在車站,機場等遺留包裹的人。最後對行為異常的人進行持續跟蹤。
  
移動目標提取
運動檢測是從圖像序列中將變化區域從背景圖像中提取出來。運動區域的有效分割,將大大減少後續過程的運算量。然而,背景圖像的不穩定性,如陰影、光照、慢移動、靜移動(樹葉的擺動)等等,也使得運動檢測非常困難。目前較為實用的影像分析方法主要有兩類:一類是背景減除方法,另一類是時間差分方法。

背景減除方法是利用當前圖像和背景圖像的差分來檢測出運動區域的一種方法,可以提供比較完整的運動目標特徵資料,精確度和靈敏度比較高,具有良好的性能表現。時間差分法利用影像特徵,從連續得到的影像流中提取所需要的動態目標資訊。時間差分實質是利用相鄰幀圖像相減來提取前景目標移動的資訊,此方法不能完全提取所有相關特徵像素點,在運動實體內部可能產生空洞,能檢測出目標的邊緣。

移動目標跟蹤
移動目標跟蹤等價於在連續的圖像幀間,創建基於位置、速度、形狀、紋理、色彩等有關特徵的對應匹配問題。常用的數學工具有卡爾曼濾波、Condensation演算法,及動態貝葉斯網路等。其中Kalman濾波是基於高斯分佈的狀態預測方法。不能有效地處理多峰模式的分佈情況。


Condensation演算法是以因數抽樣為基礎的條件密度傳播方法,結合可學習的動態模型,可完成魯棒的運動跟蹤。就跟蹤物件而言,跟蹤如手、臉、頭、腿等身體部分與跟蹤整個目標;就跟蹤視角而言,有對應于單攝影機的單一視角、對應於多攝影機的多視角和全方位視角;當然還可以通過跟蹤空間(二維或三維)、跟蹤環境(室內或戶外)、跟蹤人數(單人、多人、人群)、攝影機狀態(運動或固定)等方面進行分類。從跟蹤方法的不同討論跟蹤演算法。
  
1、基於模型的跟蹤
傳統的人體表達方法有如下三種:線圖法:人運動的實質是骨骼的運動,因此該表達方法將身體的各個部分以直線來近似。二維輪廓(2D Contour):該人體表達方法的使用直接與人體在圖像中的投影有關,如Ju等提出的紙板人模型,它將人的肢體用一組連接的平面區域塊所表達,該區域塊的參數化運動受關節運動(Articulated Movement)的約束,該模型被用於關節運動圖像的分析。立體模型(Volumetric Model):它是利用廣義錐台、橢圓柱、球等三維模型來描述人體的結構細節,因此要求更多的計算參數和匹配過程中更大的計算量。

例如Rohr使用14個橢圓柱體模型來表達人體結構,坐標系統的原點被定位在軀幹的中心,目的是想利用該模型來產生人的行走的三維描述;WachterNagel利用橢圓錐台建立三維人體模型,通過在連續的圖像幀問匹配三維人體模型的投影來獲得人運動的定量描述,其中,它利用了反覆運算的擴展卡爾曼濾波方法,結合邊緣、區域資訊及身體解析約束確定的身體關節運動的自由度,實現單目圖像序列中人的跟蹤。
  
2、基於區域的跟蹤
基於區域的跟蹤方法目前已有較多的應用,例如Wren等利用小區域特徵進行室內單人的跟蹤,文中將人體看作由頭、軀幹、四肢等身體部分所對應的小區域塊所組成,利用高斯分佈建立人體和場景的模型,屬於人體的像素被規劃於不同的身體部分。通過跟蹤各個小區域塊來完成整個人的跟蹤。

基於區域跟蹤的難點是處理運動目標的影子和遮擋,這或許可利用彩色資訊以及陰影區域缺乏紋理的性質來加以解決,如McKenna等首先利用色彩和梯度資訊建立自我調整的背景模型,並且利用背景減除方法提取運動區域,有效地消除了影子的影響;然後,跟蹤過程在區域、目標、目標群三個抽象級別上執行,區域可以合併和分離,而人是由許多身體部分區域在滿足幾何約束的條件下組成的,同時人群又是由單個的人組成的,因此利用區域跟蹤器並結合人的表面色彩模型,在遮擋情況下也能夠較好地完成多人的跟蹤。
  
3、基於活動輪廓的跟蹤
基於活動輪廓的跟蹤思想是利用封閉的曲線輪廓來表達運動目標,並且該輪廓能夠自動連續地更新。例如ParagiosDeriche利用短程線的活動輪廓、結合Level Set理論在圖像序列中檢測和跟蹤多個運動目標;採用基於卡爾曼濾波的活動輪廓來跟蹤非剛性的運動物體;利用隨機微分方程去描述複雜的運動模型,並與可變形範本相結合應用於人的跟蹤。

相對於基於區域的跟蹤方法,輪廓表達有減少計算複雜度的優點。如果開始能夠合理地分開每個運動目標並實現輪廓初始化的話,既使在有部分遮擋存在的情況下也能連續地進行跟蹤,然而初始化通常是很困難的。
  
4、基於特徵的跟蹤
基於特徵的跟蹤包括特徵的提取和特徵的匹配兩個過程。一個很好的例子是點特徵跟蹤,將每個目標用一個矩形框封閉起來,封閉框的質心被選擇作為跟蹤的特徵;在跟蹤過程中若兩人出現相互遮擋時。只要質心的速度能被區分開來,跟蹤仍能被成功地執行;該方法的優點是實現簡單,並能利用人體運動來解決遮擋問題,但是它僅僅考慮了平移運動。

如果結合紋理、彩色及形狀等特徵可能會進一步提高跟蹤的魯棒性。另外,SegenPingali的跟蹤系統使用了運動輪廓的角點作為對應特徵,這些特徵點採用基於位置和點的曲率值的距離度量在連續幀間進行匹配。
  
目標分類
目標分類的目的,是從檢測到的運動區域中,將特定類型物體的運動區域提取出來,例如分類場景中的人、車輛、人群等不同的目標。根據可利用資訊的不同,目標分類可以分為基於運動特性的分類和基於形狀資訊的分類兩種方法。基於運動特性的辨識,利用目標運動的週期性進行辨識。受顏色、光照的影響較小。基於形狀資訊的辨識利用檢測出的運動區域的形狀特徵,與範本或者統計量進行匹配。
  
1、基於形狀資訊的分類
基於形狀資訊的分類是利用檢測出的運動區域的形狀特徵進行目標分類的方法。例如VSAM採用區域的分散度、面積、寬高比等作為特徵。利用三層神經網路方法將運動目標劃分為人、人群、車和背景干擾;Lipton等利用分散度和面積資訊對二維運動區域進行分類,主要是區分人、車及混亂擾動,時間一致性約束使其分類更加準確;KunoWatanabe使用簡單的人體輪廓模式的形狀參數從圖像中檢測運動的人。
  
2、基於運動特性的分類
基於運動特性的分類是利用人體運動的週期性進行目標分類的方法。例如CutlerDavis通過跟蹤感興趣的運動目標,計算出目標隨著時間變化的自相關特性,而人的週期性運動使得其自相關也是週期性的,因此通過時頻化方法分析目標是否存在週期性的運動特性而將人辨識出來;Lipton通過計算運動區域的殘餘光流來分析運動實體的剛性和週期性,非剛性的人的運動,相比於剛性的車輛運動而言,具有較高的平均殘餘光流,同時它也呈現了週期性的運動特徵,據此可以將人區分出來。目標辨識是系統對之前提取,並跟蹤的目標進行辨識。

要想讓系統具有目標辨識能力,需要對系統進行模型訓練。就是利用已知的目標特徵(如車輛、人員、動物等),對系統進行訓練,系統將會在大量已知的樣本資訊上瞭解、學習不同目標的特徵(大小、顏色、速度、行為方式等),這樣當系統發現一個目標時,系統將自動與已經建立好的模型進行比對或匹配特徵,從而對目標進行辨識和分類。
行為辨識
目標的行為辨識是近年來被廣泛關注的研究熱點,它是指對目標的運動模式進行分析和辨識。行為辨識可以簡單地被認為是時變數據的分類問題,即將測試序列與預先標定的代表典型行為的參考序列進行匹配。通過在跟蹤過程中檢測目標的行為以及行為變化,根據使用者的自訂行為規則,判斷被跟蹤目標的行為是否存在威脅。
  
1、範本匹配方法
採用範本匹配技術的行為辨識方法首先將圖像序列轉換為一組靜態形狀模式,然後在辨識過程中和預先儲存的行為標本相比較。範本匹配技術的優點是計算複雜度低、實現簡單,然而它對於雜訊和運動時間間隔的變化是敏感的。
  
2、狀態空間方法
基於狀態空間模型的方法定義每個靜態姿勢作為一個狀態,這些狀態之間通過某種概率聯繫起來。任何運動序列可以看作為這些靜態姿勢的不同狀態之間的一次遍歷過程,在這些遍歷期間計算聯合概率。其最大值被選擇作為分類行為的標準。

目前,狀態空間模型已經被廣泛地應用於時間序列的預測、估計和檢測,最有代表性的是HMMS。每個狀態中可用於辨識的特徵包括點、線或二維小區域。狀態空間方法雖然能克服範本匹配的缺點,但通常涉及到複雜的反覆運算運算。
  
影像監控系統的核心價值在於智慧影像分析技術,由運動目標檢測、分類、跟蹤和行為辨識等幾個基本節組成,還包括智慧影像檢索技術,其中行為辨識又包括異常行為檢測、異常事件檢測以及影像內容理解描述等。

近年來,智慧影像監控技術取得長足發展,應用領域不斷擴大,從自動目標檢測到現在的事件檢測、自動目標辨識,其監控產品也逐漸由類比化向數位化、網路化與智慧化方向發展。

                                                                                                                                                                                                                            

沒有留言:

張貼留言