‧ 影像檢索技術意義重大發展曲折不斷提升

來源：安防展覽網

監控攝影機已遍佈很多城市的每個街頭，晝夜不停地監視和錄影。然而，有了相關影像，不等於就找到了目標資訊，查找影像、分析影像的工作，常常會耗用大量的時間和人力。

如何在海量影像中更方便、更省力地查找到相關資訊呢？現在，隨著安控智慧化需求越來越強烈，影像檢索技術也得以快速發展。

影像檢索的重要性

檢索技術源於網路發展需求。各類搜尋引擎，如Google、Bing、 Baidu以及Yahoo等，都是以此技術為基礎的。隨著網路頻寬不斷的提高，人們可以更加快地，將自己採集到的各種多媒體資訊進行共用，或者進行多媒體資訊的交互，越來越多的資訊通過影像等多媒體的形式，展現在網路中，這對以圖像、影像為代表的多媒體資訊檢索技術，提出了越來越高的要求。

20世紀90年代初，國際上開始了對影像方面的檢索研究。區別於文字資訊檢索，圖像影像的檢索是建立在圖像影像內容分析的基礎上，所以常稱之為基於內容的圖像影像檢索。1992年，“基於內容的影像檢索”一詞開始使用。

數位技術和網路技術的飛速發展，影像資訊也在飛快的增長，電視和電影等需要保存的影像素材也越來越多，而且每天都在產生大量的影像資訊。對這些多媒體資料的儲存、管理和再利用變得非常困難，需要合適的歸檔體系允許高效的流覽、搜索和檢索。

比較通用的方法是採用文本注釋圖像和影像資訊，以基於文本的資料庫管理系統進行圖像和影像檢索。但文本注釋方法對大量的資訊不僅費力而且力不從心，對於在儲存的影像節目中，尋找指定的影像片斷這樣的應用需求，比如特定節目內容的搜索、定位就更加困難，基本只能靠人工的觀看、辨識和記錄。

此外，許多應用場合文字不足以描述具有豐富內容的影像。而且，因為目前大部分的影像資產，還是以類比形式存放，從現有資源中找出要用的影像片段，意味著搜查大量的人工索引和可能素材冗長的線性篩選。

大型的機構，例如無線電視臺、有線電視臺以及製作公司最有可能遭遇這種頭痛的情況，所有影像資產豐厚的機構同樣面臨這個難題。他們基本上以人工方式管理影像資產，這種人手密集和時間密集的管理模式拖慢了應用步伐，增加了成本。

對於開發利用影像的機構，如果能具有高效、靈活、智慧地存取影像資源的技術，再加上簡單、經濟的方式、及時的通信，必將增加電子商務應用的機會，提供全新的商機。

影像資源豐富的機構必須應對的挑戰就是如何高效率地管理這些資產，使使用者如何以前所未有的速度和便利直觀地搜索影像，尋找他們所需的準確片段。

無線電視臺、有線電視臺每天都在產生大量的影像資訊

影像檢索技術原理

十多年來，影像資料在獲取、儲存、操作及傳輸技術方面，取得了重大的理論突破和技術進步。

影像資料按照由粗到細的順序可以劃分為四個層次結構：影像（Video）、場景（Scene）、鏡頭（Shot）和圖像幀（Frame）。由於一個鏡頭內的相鄰幀間的變化不是很大，它們之間的特徵差值會限定在某個閾值範圍內。

而在鏡頭突變時，突變點前後兩個相鄰幀在內容上顯示會有很大的變化，如果特徵差值超過了給定的閾值，則意味著出現一個分割邊界。鏡頭的關鍵幀就是反映該鏡頭中主要資訊內容的幀圖像。將各鏡頭檢測出來後，對每個鏡頭可提取關鍵幀，並用關鍵幀簡潔地表達鏡頭。

關鍵幀數目的確定是關鍵幀提取中的一個重要問題，其確定方法可以根據鏡頭內幀的差異進行統計，求出其方差，用方差來衡量鏡頭視覺內容的複雜程度。方差越大，該鏡頭提取的關鍵幀數就越多。

從內容上對影像進行搜索，其特點包括：第一，直接從媒體內容中提取資訊線索；第二，基於內容的檢索是一種近似匹配，這一點與常規資料庫檢索的精確匹配方法有明顯的不同；第三，動態特徵提取和索引建立可由電腦自動實現，這避免了人工描述的主觀性，也大大減少了工作量。基於內容檢索時，根據媒體特徵進行相似性匹配檢索的媒體特徵有：顏色、紋理、輪廓、形狀、空間約束、動態、概念、結構描述及其他的圖像資訊。

www.seo.com

影像檢索技術不斷升級提升

目前，從影像資料中提取有效資訊的技術已基本解決，主要面臨的是提高從海量資料提取資訊的速度。影像資料檢索的提述經歷了三個階段：一、有效影像資料提取；二、基於智慧影像分析演算法的檢索；三、基於影像資料的中繼資料的檢索。

有效影像資料提取

該方法的技術基石是，圖像分析技術中的移動偵測技術。該技術在業界已經比較成熟。移動偵測我們可以在前端設備中完成，也可以通過後端處理來執行。以24小時錄影來說，鬧市區場景的錄影可能有1/3左右的錄影是無運動目標；而郊區場景的錄影可能有2/3左右的錄影是無運動目標，在檢索影像資料時，我們只需要觀看有運動目標的影像資料即可，無論是1/3或2/3，均能顯著降低所需檢索影像資料的大小。

www.commoncraft.com

基於智慧影像分析演算法的檢索

前面提到，一段24小時的錄影，人工查看即使用4倍速查看也需要6小時，而利用電腦通過智慧影像分析演算法進行影像的自動檢索，檢索的速度則取決於影像解碼和分析演算法的運行速度。我們以對4 CIF的影像資料執行周界防範演算法為例，一幀影像資料解碼加上演算法執行的平均時間可以控制在10ms左右，也就是相當於4倍速。同樣四倍速，一個是不知疲倦的電腦，一個是極易疲倦和出錯的人腦。孰優孰劣，一目了然。

基於影像資料的中繼資料的檢索

如果我們把1段24小時的錄影，經過解碼，智慧分析，把獲取到的智慧中繼資料都儲存下來，對中繼資料的查詢速度可以達到十秒的量級。

一段24小時錄影檔的查詢速度提升過程：人工，正常速度查詢，24小時；人工，四倍速查詢，6小時；影像濃縮後，人工四倍速查詢，3小時左右；影像濃縮後，基於智慧分析演算法查詢，3小時左右；基於影像資料的中繼資料查詢，十秒量級。

可以看到，最後一步才是質的提升，檢索速度量級的飛躍。儘管如此，影像資料的中繼資料的檢索也並不是完美無缺的，仍有一些問題等待解決。