‧ 關於攝影機智慧化的一些思考

來源:CPS中安網作者:胡力旗

如今，“智慧”一詞已經頻繁地出現在我們的工作、學習和生活中。電腦類的產品被冠以“智慧”自不用多說，就連衣食住行也都“智慧化”了——虛擬試衣鏡、全時線上電鍋、自動吸塵器、導航儀等等，比比皆是“智慧”的影子。同樣，攝影機也經歷了類比、數位、IP等三個階段進入了智慧時代。本文將就筆者在相關技術研究中的一些體會提出三點思考。

一、攝影機智慧化的目的和內涵

上敦日夜兩用全功能室外快速球型攝影機

“智慧”的本意是在現實世界中賦予人造工具以最大程度的擬人能力，並使人能通過使用這樣的工具獲得自身相應能力的延伸。在技術實現上，“智慧”一般都依賴於對應的軟硬體計算能力。攝影機的擬人功能是視覺，類比攝影機實現了“看得見”，高清攝影機實現了“看得清”，那麼智慧的攝影機要實現哪些特質呢?

首先，智慧的攝影機要確保“看得清”!　　

在實際應用場景中，這主要與攝影機的環境適應能力相關。為適應大氣環境條件，當前，“透霧”已成為攝影機實現智慧化的迫切需求之一。儘管具備這樣功能的攝影機早在十年前就已面世，但由於霧、雨、霾、煙等的光學特性不盡相同，具有普適性的光學處理與自動“霧”判斷演算法仍是一個研究熱點。此外，如何保證在攝影機應用環境中高速運動物體的細節，能被清晰地連續記錄下來，也成為一種智慧化需求。由此，能夠按普通攝影機的幀率輸出連續圖像的“快照”演算法，也成為實現攝影機智慧化的一個方面。從“看得清”的立場來看，(超)低照度和寬動態，因為都需要有相關的演算法支援，也可以被看成是一種“智慧化”的功能。從目前的實踐結果來看，實現了上述功能的攝影機，其視頻效果基本都能超越人眼的觀察能力。

其次，智慧的攝影機要實現“看得懂”、“看得牢”。　　

在當前大多數的應用場景下，攝影機主要承擔了現實世界捕捉器的角色，它所提供的圖像需要依靠人工來進行判斷和處理。可以這麼認為，目前大部分的監控系統應用還處於“半自動”狀態，系統的效能沒有得到充分發揮。要解決這樣的問題，自然就會想到應該設法讓攝影機“看懂”圖像，並使監控圖像的應用從“事後複現”擴展到“事中控制”，進而可以溯及“事前發現”，真正實現特定的防範功能。要看懂圖像，就需要過濾掉一些一般的、不重要的資訊，而將關鍵的、重要的信息分離出來，並進行應用處理。於是，防篡改、車牌識別、人臉辨識、人群估計和鬥毆行為分析等已成為因為攝影機“看懂”了圖像而提供的、得以廣泛應用的能力，其背後則是特定物件檢測和識別演算法的支撐。這裡值得一提的是，目前已上市的攝影機“看圖像”的範圍大多為矩形區域，能處理非矩形(或任意形狀)觀測區域的較少見。

在能夠“看懂”圖像後，攝影機在機械裝置的承載下，就可以緊緊跟隨目標物件的移動，實現類似於人頭部轉動來盯住目標物件的“看得牢”功能，即所謂的跟蹤取證或跟蹤拍攝。在現實應用中，具有“看得牢”功能的攝影機可以實現“撥浪鼓”式的運動，既其跟蹤拍攝的角度可以達到全周(360度)，而且半周(180度)轉向和對焦的速度達到百毫秒級。

第三，智慧的攝影機要“善思考”和“易交流”。

越來越多的攝影機所產生的影像資料形成了海量的資料;為節約和控制建設及運行成本，對這些資料的後續保存策略目前基本上是依據“時間”這樣一個維度來進行的。如果能增加“內容”這樣一個維度的話，圖像資料的保存策略將更顯科學。為了要讓整個系統能根據“內容+時間”來進行所保存資料的取捨，就需要讓攝影機會“思考”，既將圖像所表達的意思用“語言”表達出來。這裡有必要引用兩個概念：

·視頻內容描述資料：關於影像內容的資料。視頻內容的描述分為場景或背景、目標或前景以及目標的動作或變化軌跡等，是對影像內容的客觀描述。　
　

·視頻語義描述資料：關於影像語義的資料。視頻語義具有領域本體屬性，即按照領域本體知識，對影像內容的理解。影像語義又可分為三個層次：底層語義是關於影像底層特徵的語義，如顏色、場景、前景、目標形狀或紋理等的描述;中層語義是關於影像目標動作、行為、密度、流量統計特性等的描述;高層語義是關於具有領域本體知識的影像事件屬性的描述。

語言是有結構和含義的，所以一旦能用語言資料來描述視頻內容及語義，也就實現了視頻的結構化和語義化。這將從根本上實現“反應快、效率高”的監控視頻應用以及“成本適中、綠色節能”的監控系統運維。

人與人之間的交流需要用語言作為工具，同樣將來自五湖四海的、具備“思考”能力的攝影機組合在一起為一個共同的目標而工作時，也需要有一套開放的、分層次定義的語義規範來使彼此能夠交流和協同。作為攝影機智慧化的高級別任務，視頻語義規範的研究當前正處在起步階段，但其有著較快的發展速度。業界應該對此給予足夠的重視，並迅速聯合起來，一起為國內蓬勃發展的影像監控行業未來的持續發展，搶佔技術高地。

綜合以上敘述，從技術角度來看，攝影機的智慧化可以理解為：是利用信號處理技術、電腦視覺技術和積體電路技術，對影像圖像進行清晰的複現，並對其中的感興趣目標或異常事件進行自動的、即時的檢測、跟蹤、辯識、分類、分析和語義提取等。同時，我們也不難得出這樣的結論，智慧化的攝影機絕不是相關的技術和產品供應商為純粹的商業目的而增加的“噱頭”，而是他們為攝影機能夠更好地滿足實際應用需求所進行各種技術創新的成果。

二、攝影機智慧化所面臨的技術挑戰

攝影機智慧化的實現依賴於各種影像處理演算法的研究、設計和實現。近些年研究在這方面所取得的成果是十分豐富的，但這些成果所形成的實際生產力卻仍然有限。究其原因，除了市場需求的發展需要一個過程外，最主要的還是有一些技術挑戰尚未完全克服。限於篇幅，這裡僅摘取其中兩點進行分析。

一是“智慧”演算法的前端化、固態化。儘管智慧化是新一代攝影機的重要標誌，但其進程卻始於類比時代。經過多年的發展，諸如移動偵測、人臉辨識、自動跟蹤等智慧視頻演算法日趨成熟並在一些特定場合得到了廣泛應用。隨著分散式運算技術架構的發展，特別是雲計算概念的提出，與攝影機智慧化相關的演算法實現也呈現出十分明顯的前端化(即內置於攝影機)傾向。理論上，將前期大量經過實踐檢驗、比較成熟的演算法，從桌面以上的平臺移植到嵌入式平臺成為最可行的第一步。

但這看似容易的第一步，真的走起來卻並不輕鬆。最困難的，也是最能體現技術水準的就是演算法實現的可攜性。由為於不同嵌入式系統在系統結構、指令系統以及處理能力等多方面都存在差異，對本來就對計算效率極其敏感的影像處理演算法來說，要實現高度的可攜性(無論是靜態的還是動態的)是十分困難的。解決之道就是在產品開發中引入軟體可攜性工程，將自主研製的演算法以不同目標環境下的支援函式庫形式提供給需求者。

此外，隨著攝影機所能提供的圖像解析度的不斷提升，智慧影像演算法需要處理的資料量也急劇增加。在很多場合下，演算法實現需要固態化才能滿足即時性要求。所謂固態化就是用專用晶片來實現相關的演算法。這就需要有既懂演算法軟體、又懂硬體描述語言，具有長期實踐經驗的技術人員，來設計可靠、高效的演算法晶片。

正是因為上述兩項工作的技術門檻高，並要求產品研發機構保持持續、穩定的資源投入，真正實現前端智慧的攝影機產品目前尚不豐富。

二是視頻結構化描述技術。與影像結構化描述相關的技術大致包括機器視覺與模式辨識、語義網與知識庫、大資料或海量資訊處理以及系統管理和應用技術等。現階段，上述各項技術研究，就其本身來說，無論開展的時間是長是短，都或多或少取得了一定的成果，有的甚至已經得到了大量的應用(如車牌辨辨識)。可是，如果從滿足實現視頻結構化目標所需的角度來看，“孤島”現象仍十分明顯。我們可以“從影像圖像中區分出多個不同的感興趣目標”這一最基礎的工作為例來理解這方面的情況。

作為一項高度擬人化功能，要完成它就需要依據已有經驗對即時圖像進行時空分割、特徵提取、物件辨識等處理。這裡所說的“已有經驗”在系統中就表現為“樣本庫”、“特徵庫”或“知識庫”。鑒於這些庫的形成需要經歷一定的積累或“學習”過程，在沒有一個有效規則的情況下，這些經驗的共用和交流是十分困難的，形成“孤島”也就是很自然的了。　　

三、攝影機智能化對產業發展的影響

從視頻監控產業的發展來看，包括上述技術挑戰在內的各種攝影機智慧化，所涉及技術難題的有效解決，都是行業本身、業內企業必須給予足夠重視的。從個人理解的層面來看，要能更加有效地推進攝影機智慧化，一個可行的做法就是學習國際上的成功經驗，由對此感興趣的“產、學、研、用”機構一起組成一個合作體，依照“規範標準統一、知識合理共用”的原則，以市場需求為導向，形成產業的、技術的規範，以此來引領整個行業朝著“技術領先、規模占優”的方向發展。

同時，在當前的全球經濟形勢下，影像監控行業無疑是一個極其“吸引眼球”的產業，這樣的產業應該具有一定的引領作用。從對其它產業的依賴度來看，攝影機智慧化最合適、最可行的是進一步帶動半導體行業的發展。