![]() |
| 上敦 AXXON 台灣總代理 |
介紹
在過去的幾年裡,影像分析(也稱為影像內容分析或智慧影像分析,video content analysis or intelligent video analysis)引起了工業界和學術界越來越多的興趣。由於深度學習的普及,影像分析實現了曾經僅由人類完成的任務的自動化。
這種技術看起來很棒,但它是如何運作的,以及如何使你的企業受益?
在本指南中,你將了解影像分析的基本概念、如何在現實世界中,使用它來自動化流程,並獲得有價值的見解,以及在你的組織中實施智慧影像分析解決方案時,應該考慮什麼。
什麼是智慧影像分析?
影像分析的主要目標,是自動辨識影像中的時間和空間事件。行為可疑的人、不遵守交通標誌、突然出現火焰和煙霧;這些只是影像分析解決方案可以檢測到的幾個示範案例。
即時影像分析和影像挖掘
通常,這些系統執行即時監控,其中可偵測與監控環境相關的物件、物件屬性、運動模式或行為。然而,影像分析也可以用來分析歷史數據以挖掘見解。此取證分析任務可以偵測出,能夠解答以下企業問題的趨勢和模式:
- 我的商店中顧客最多的時間是什麼時候?顧客的年齡分佈如何?
- 闖紅燈是幾次,闖紅燈的車輛具體車牌是什麼?
一些已知的應用
影像分析領域的一些應用,已為公眾廣泛知曉。其中一個例子就是影像監控,這項任務已經存在了大約 50 年。原則上,這個想法很簡單:策略性地安裝攝影機,讓人類操作員控制房間、區域或公共空間內發生的事情。
然而,實際上,這項任務遠非簡單。一名操作員通常負責多台攝影機,多項研究顯示,增加需要監控的攝影機數量,會對操作員的表現產生不利影響。換句話說,即使有大量硬體可用並產生訊號,由於人為的限制,在處理這些訊號時也會形成瓶頸。
影像分析軟體可以透過提供準確處理大量資訊的方法,做出重大貢獻。
深度學習影像分析
機器學習,尤其是深度學習方法的驚人發展,徹底改變了影像分析。
深度神經網路 (DNN) 的使用,使得訓練模仿人類行為的影像分析系統成為可能,從而帶來了範例轉移。它始於基於經典電腦視覺技術的系統(例如,如果攝影機影像太暗或發生劇烈變化則觸發警報),然後轉向能夠辨識影像中的特定物體,並追蹤其路徑的系統。
例如,光學字元辨識 (OCR) 幾十年來,一直用於從圖像中提取文字。原則上,將 OCR 演算法直接應用於車牌影像即可辨別其號碼。在先前的範例中,如果攝影機的放置位置正確,在執行 OCR 時,我們確信正在拍攝車牌,那麼這種方法可能會有效。
現實世界中的一個應用是停車場的車牌辨識,攝影機位於大門附近,可以在汽車停下時拍攝車牌。然而,對交通攝影機的圖像不斷運行 OCR 並不可靠:如果 OCR 返回結果,我們如何確定它確實與車牌相對應?
在新範式中,基於深度學習的模型,能夠辨識影像中車牌出現的精確區域。有了這些信息,OCR 僅應用於所討論的精確區域,從而獲得可靠的結果。
讓我們來談談建構新的解決方案
產業應用
衛生保健
從歷史上看,醫療機構在以下監控解決方案上,投入了大量資金,以確保患者、員工和訪客的安全,而這些安全通常受到嚴格立法的監管。竊盜、嬰兒綁架和毒品走私,是監控系統解決的一些最常見的問題。
除了促進監控任務之外,影像分析還可以讓我們更進一步,利用收集到的數據來實現企業目標。例如,影像分析解決方案可以根據患者的需求,檢測患者何時未接受檢查,並提醒工作人員。分析病患和訪客流量,對於確定縮短等待時間的方法非常有價值,同時確保可以順利進入急診區。
在家中對老年人或有健康問題的人的監控,是另一個具有巨大價值的應用案例。例如,跌倒是老年人受傷和死亡的主要原因。儘管個人醫療設備可以偵測跌倒,但必須穿戴,而且經常被消費者忽略。影像分析解決方案可以處理家用攝影機的訊號,即時偵測是否有人跌倒。例如,透過適當的設置,這樣的系統還可以確定一個人,是否在規定時間服用了某種藥物。
心理健康護理是影像分析,可以做出重大貢獻的另一個領域。可以開發分析臉部表情、身體姿勢和凝視的系統,來協助臨床醫生評估患者。這樣的系統能夠從肢體語言和微表情中檢測情緒,為臨床醫生提供客觀訊息,以證實他們的假設或給他們新的線索。
真實案例
布法羅大學開發了一款智慧型手機的應用 app,目的在幫助檢測兒童的自閉症譜系障礙 (ASD)。該應用 app,僅使用智慧型手機攝影機,即可追蹤孩子觀看社交場景照片(顯示多人)時的臉部表情和注視注意力。該應用 app 可以監測眼球運動,並能準確檢測患有自閉症的兒童,因為他們的眼球運動與非自閉症人士的眼球運動不同。
智慧城市/交通
事實證明,影像分析在交通領域提供了巨大的幫助,有助於智慧城市的發展。
如果沒有採取適當的交通管理措施,交通量增加(尤其是在城市地區)可能會導致事故和交通堵塞的增加。智慧影像分析解決方案,可以在此場景中發揮關鍵作用。
交通分析可用於動態調整交通燈控制系統,和監控交通堵塞。它還可以用於即時檢測危險情況,例如停在高速公路上未經授權的空間的車輛、逆向行駛的車輛、不穩定行駛的車輛,或發生事故的車輛。一旦發生事故,這些系統有助於收集訴訟證據。
在 Tryolabs,我們開發了一個影像分析平台,用於偵測街道影像中行人的不當行為,並能夠處理大量資料。該專案向客戶提供了相關統計數據,以便客戶能夠在發生交通問題、不良行為猖獗的地區採取行動。
車輛計數,或區分汽車、卡車、公共汽車、計程車等,會產生高價值的統計資料,用於獲取有關交通的見解。 安裝測速攝影機,可以大規模精確控制駕駛員。 利用自動車牌辨識,辨識違規的汽車,或者透過即時搜尋,發現被盜或被用於犯罪的車輛。
基於影像分析的智慧停車系統,透過分析安全攝影機的影像,來幫助司機找到空位,而不是在每個停車位上使用感測器。
這些只是影像分析技術為建設更安全、生活更舒適的城市做出貢獻的一些例子。
真實世界的例子
紐約市的影像分析,就是利用影像分析解決現實世界問題,一個很好的例子。為了更了解重大交通事件,紐約市交通局使用 分析和機器學習,來偵測交通堵塞、天氣模式、停車違規等。攝影機捕捉這些活動,對其進行處理並向市政官員發送即時警報。
零售
機器學習,尤其是影像分析在零售領域的應用,是近年來最重要的技術趨勢之一。
實體零售商可以使用影像分析,來了解他們的客戶是誰,以及他們的行為。
最先進的演算法能夠辨識臉部,並確定人們的關鍵特徵,例如性別和年齡。這些演算法還可以追蹤顧客在商店中的足跡,並分析導航路線,以檢測步行模式。透過增加注視方向的偵測,零售商可以確定顧客注視某種產品的時間,並最終回答一個關鍵問題:為了最大限度地提高銷售額,並改善客戶體驗,將商品放在哪裡最好?
透過影像分析解決方案,可以收集大量可操作的資訊,例如:顧客數量、顧客特徵、訪問時長和步行模式。所有這些數據,都可以在考慮其時間特性的同時進行分析,以便根據一周中的某一天、一年中的某個季節或假日,來優化商店的組織。透過這種方式,零售商可以非常準確地了解他們的顧客是誰、何時造訪他們的商店,以及他們在商店內的行為。
計算商店顧客進出次數的典型解決方案,可以提供有用的資訊,來計算轉換率等高影響指標。這種方法可以利用先前安裝的安全攝影機,從而實現快速且經濟高效的佈署。
影像分析對於開發防盜機制也很棒。 例如,可以訓練人臉辨識演算法,來發現已知的入店行竊者,或即時發現一個人藏在揹包裡的物品。
更重要的是,從視訊分析中提取的資訊,可以作為訓練機器學習模型的輸入數據,目的在解決更大的挑戰。例如,步行模式和商店中的人數,可以作為有用的資訊,添加到機器學習驅動的需求預測、價格優化和庫存預測解決方案中。
真實世界的例子
Amazon Go 是亞馬遜進軍雜貨業的途徑。它試圖簡化顧客的購物體驗,避免結帳,讓顧客直接走出雜貨店,並根據他們購買的商品自動收費。它已經存在好幾年了,而且它仍然是一個顛覆性的解決方案。Amazon Go 利用基於多個攝影機的精確影像分析軟體,來追蹤顧客在商店中的行為。該軟體與商店周圍放置的多個感測器相結合,使 Amazon Go 在向用戶收取購買費用時,能夠做出自信的決定。
安全
影像監控是安全領域的古老任務。然而,從系統完全由人類監控到目前基於影像分析的解決方案,已經發生了許多變化。
臉部和車牌辨識 (LPR) 技術,可用於即時辨識人員和車輛,並做出適當的決策。例如,可以即時和儲存的影像片段中搜尋嫌疑人,或辨識授權人員,並授予進入安全設施的權限。
人群管理是安全系統的另一個關鍵功能。尖端的影像分析工具,可以在購物中心、醫院、體育場和機場等場所發揮巨大作用。這些工具可以即時提供估計的人群數量,並在達到或超過臨界值時觸發警報。他們還可以分析人群流量,以檢測不受歡迎或被禁止方向的移動。
實時人員檢測。在上述影像中,訓練了一個監控系統來即時辨識人員。 這為獲得其他結果奠定了基礎。 最直接的:每天經過的人數的計數。 根據歷史資料,更高階的目標,可能是根據一週中的某一天和時間,確定「正常」的人流,並在異常交通時生成警報。 如果監控區域僅限行人通行,系統可以被訓練為檢測未經授權的物體,如摩托車或汽車,並再次觸發某種警報。
這是這些方法的一大優點:影像內容分析系統可以經過訓練,來偵測特定事件,有時甚至具有高度的複雜程度。其中一個例子就是儘快發現火災。或者,在機場,當有人進入禁區,或逆著乘客的行走方向行走時發出警報。另一個很好的案例,是在公共場所即時檢測無人看管的行李。
至於入侵者檢測等經典任務,由於演算法可以過濾掉風、雨、雪或動物引起的運動,它們可以穩健地執行。
智慧影像分析提供的功能,在安全領域與日俱增,這是未來將繼續的趨勢。
真實世界的例子
丹麥足球俱樂部布隆德比,是第一個於 2019 年正式引入臉部辨識技術的足球俱樂部,目的在提高其體育場比賽日的安全性。該系統可以辨識被禁止觀看比賽的人員,並使工作人員能夠阻止他們進入運動體育場。
運動體育
資料進入運動體育界已經很久了。 從足球教練到私人教練,從職業運動員到初學者,每個人都在利用資料,來取得更好的成績。
足球比賽統計數據(例如控球率或傳球次數)已成為教練了解球隊表現的預設工具。有研究分析了歐冠比賽中控球率的重要性,結果顯示控球率較高的球隊勝率為 49.2%,平分機率為 22.0%,負率為 28.7%,勝率均高於對手。如果你對此主題感興趣,我們在 Tryolabs 有一個教程,介紹如何使用 AI 和影像分析自動測量足球控球率。
瞭解運動員在練習運動時的姿勢,對於提高技術非常重要。 影像分析解決方案可以向運動員或教練提供這些資訊,以便更容易實現他們的目標。 此外,姿勢資訊可以透過,瞭解是否有任何危險的動作,來預防受傷。
也可以利用影像分析解決方案,來了解對手的玩法。 學習他們的遊戲,有助於建立有效的反擊策略。 解決方案可能包括從自動選擇比賽中的相關遊戲,到提供有用的統計資料,來理解對手的弱點。
真實世界的例子
在英國,足球隊不僅在英超聯賽中相互競爭,而且在爭奪最佳資料的競爭中。 從僱傭火箭科學家到國際象棋冠軍,甚至使用導彈技術,不僅僅是偵察兵,團隊已經開始尋找工程師、數學家、物理學家和統計學或演算法專家。
一些團隊,如阿森納,有自己的內部資料公司,而許多其他團隊則依靠第三方公司,為他們提供所有必要的資料。 這些資料用於每個決定:僱用球員和教練,瞭解每個球員在球場上的最佳位置,以及追蹤年輕人在租借時的表現,僅舉幾例。
影像分析是如何運作的?
讓我們來看看影像分析解決方案,如何工作的總體方案。 根據特定的應用案例,解決方案的架構可能會有所不同,但方案保持不變。
影像內容分析可以透過兩種不同的方式進行:實時,透過配置系統來觸發當前發生的特定事件,和事件的警報,或在後期處理中,透過執行高階搜尋,以促進取證分析任務。
給系統餵食
正在分析的資料,可以來自各種流媒體影像源。 最常見的是 CCTV 攝影機、交通攝影機和線上影像源。 然而,任何使用適當協議的影像源(例如 RTSP:即時流媒體協議或 HTTP)通常可以整合到解決方案中。
一個關鍵目標是覆蓋範圍:我們需要從各個角度清楚地瞭解整個區域,以及可能發生被監控事件的地方。 記住,資料越多越好,因為它可以被處理。
中央處理與邊緣處理
影像分析軟體可以在通常位於監控站的伺服器上集中執行,這被稱為中央處理。 或者,它可以嵌入攝影機本身,這種策略被稱為邊緣處理。
在設計解決方案時,應仔細考慮攝影機的選擇。 許多舊有的軟體都是用中央處理功能開發的。 然而,近年來,遇到混合解決方案並不罕見。 事實上,一個好的做法是,儘可能集中中央伺服器上的攝影機,和取證分析功能的即時處理。
透過混合方法,攝影機執行的處理減少了中央伺服器處理的資料,否則隨著攝影機數量的增加,中央伺服器可能需要廣泛的處理能力和頻寬。 此外,可以將軟體配置為,僅透過網路向伺服器傳送有關可疑事件的資料,從而減少網路流量和儲存需求。
同時,將取證分析的資料集中化允許使用多種搜尋和分析工具,從一般演算法到臨時實現,所有這些都利用不同的參數集,有助於平衡所獲得結果中的噪聲和沉默。 從本質上講,你可以輸入自己的演算法,來獲得所需的結果,這是一個特別靈活和有吸引力的計劃。
定義場景和培訓模型
一旦規劃和安裝實體架構,就有必要定義你要關注的場景,然後訓練將要檢測目標事件的模型。
車輛碰撞? 人群流動? 零售店的臉部辨識,來辨識已知的入店行竊者? 每個場景都會導致,系統必須知道如何執行的一系列基本任務。
一個例子:檢測車輛,最終辨識其類型(例如摩托車、汽車、卡車),逐幀追蹤其軌跡,然後研究這些路徑的演變,以檢測可能的碰撞。
影像分析中最常見的基本任務是:
- 影像分類:從一組預定的類型(例如汽車、人、馬、剪刀、雕像)中選擇影像的類型。
- 本地化:在影像中定位物件(通常涉及在物件周圍繪製一個邊界框)。
- 物件檢測:在影像中定位和分類物件。
- 物件辨識:給定目標物件,辨識影像中的所有例項(例如,在影像中找到所有足球運動員)。
- 物件追蹤:追蹤影像中隨著時間的推移而移動的物件。
要進一步瞭解執行的基本任務,和用於開發影像分析軟體的演算法類型,我們建議你閱讀本電腦視覺入門指南。 更具體地說,如果你想更深入地瞭解物體檢測和追蹤任務,你可以參考我們的分步教程。
從頭開始訓練模型,需要付出相當大的努力。 幸運的是,有相當多的資源可用,使這項任務不那麼繁重。
ImageNet 或 Microsoft Common Objects in Context(COCO)等影像資料集,是簡化新模型訓練的關鍵資源。
有幾個預先訓練好的模型可用於影像分類、物件檢測和臉部辨識等任務,由於轉移學習技術,這些模型允許根據給定的應用案例進行調整(微調)。 這比完整的訓練要便宜得多。
最後,近年來,社群越來越多地釋出開源專案,以促客製化影像分析系統的建構。 依靠電腦視覺庫,例如下一節中介紹的庫,大大有助於更快、更準確地建構解決方案。
人工審查
幾乎所有情況下,都需要人來監控影像分析系統生成的警報,並決定應該做什麼,如果有的話。 從這個意義上說,這些系統對操作員起到了寶貴的支援作用,幫助他們檢測可能被忽視,或需要很長時間才能手動檢測的事件。
開源專案
目前還沒有成熟的影像分析庫。 現有的論文通常是研究論文的一些實施,因此它們往往很難在實際背景下使用。 在其他情況下,影像分析庫目的在易於使用,但效能不佳。
最好的選擇是尋找物件追蹤或姿勢追蹤資料庫,並建立自定義內容。
在 Tryolabs,我們使用物件檢測和姿勢估計等影像級演算法,來執行影像分析,然後在它們上新增我們自己的追蹤演算法層,然後從那裡繼續。
開放 CV
開源電腦視覺庫(OpenCV)是最著名的電腦視覺庫。 它包含一套全面的機器學習演算法,用於執行影像分類、人臉辨識,以及物體檢測和追蹤等常見任務。 它被公司和研究小組廣泛使用,因為它可以透過其原生 C++ 介面或 Java 和 Python 包裝器使用。
由於它是一個通用的電腦視覺庫,因此可以使用 OpenCV 實現影像分析系統。 然而,由於它不是一個專門的影像分析庫,轉向其他可用的庫可能更有趣(取決於應用案例)。 一般來說,OpenCV 是處理經典電腦視覺任務,以及預處理和後處理任務的絕佳工具。
NorFair
如前所述,在 Tryolabs,我們使用物件檢測和姿勢估計演算法,並在它們之上新增追蹤,來建立影像分析解決方案。 為了實現這一目標,我們建構了 Norfair,這是一個可客製化的輕量級 Python 庫,用於即時多物件追蹤。 使用 Norfair,您只需幾行程式即可為任何探測器新增跟蹤功能。
Norfair 具有高度的可客製化性,允許使用者定義自己的距離函式,它是模組化的,因為它可以輕鬆插入複雜的影像處理管道中,而且它的速度很快,因為唯一限制推理速度的東西是檢測網路。
Norfair 不僅允許你追蹤簡單的邊界框,而且還與關鍵點,甚至 3D 物件相容。 你還可以透過估計攝影機運動,來準確追蹤物體,即使攝影機在移動,也可能考慮平移、傾斜、旋轉、任何方向的移動和縮放。 還支援重新辨識(ReID),允許包含外觀嵌入,以實現更強大的追蹤系統。
YOLO
早在 2016 年,Joseph Redmon 等人,在 CVPR 會議上釋出了第一個單級物體探測器《你只看一次:統一的即時物體檢測》。 YOLO 在設計時,考慮到了速度和準確性,這就是為什麼它是生產環境中,最受歡迎的物體檢測模型之一。YOLO 不僅是一個模型,而且是一個物件檢測模型家族。 多年來,為了達到更好的效果,對原始架構進行了幾次修改。YOLOv4、YOLOv5、YOLOv7 和 YOLOX,是一些最受歡迎的變體,這種演變不會很快停止。
YOLOv7(2022)的作者,使用 PyTorch 開源了實現。 該程式允許透過為使用者提供預先訓練的物件檢測模型,來快速開發影像分析解決方案。YOLOv7 實現的另一個巨大優勢,是它可以擴充到姿勢估計和例項分割任務。
影像分析解決方案
影像分析中有大量的現成解決方案,從經典的安全系統到智慧家居,或醫療保健應用 app 等,更複雜的場景。如果你的應用案例,對這些標準解決方案之一感到滿意,它們可能是你的一個選擇。 請注意,一般來說,必須對軟體進行某種調整或參數化,這些解決方案只允許一定程度的客製化製。
然而,大多數公司目的在透過影像分析解決方案,獲得具體的見解,以實現個人目標,這需要更最佳化的軟體。 在這種情況下,理想的解決方案是求助於一家專門從事影像分析服務的公司,就像我們在 Tryolabs 所做的那樣。 自定義解決方案可能更準確,並且可以解決不尋常或極其特殊的用例。
結論
影像分析解決方案,在幫助我們完成日常任務方面非常寶貴。 有很多行業可以從這項技術中受益,特別是隨著近年來潛在應用的複雜性不斷增加。從智慧城市,到醫院和機場的安全控制,再到零售和購物中心的人追蹤,影像分析領域使流程,對人類來說既有效又不那麼繁瑣,對公司來說成本更低。
我們希望你喜歡這篇報導,並更好地瞭解影像分析是什麼,它是如何工作的,以及如何在組織中利用它,來實現流程自動化並獲得有價值的見解,從而做出更好的決策。
自 2010 年以來,我們一直在開發機器學習解決方案。 與不同行業的公司合作,讓我們更好地瞭解他們的挑戰,以及他們如何利用資料來推動業務成果。 如果你對此有任何疑問或意見,請隨時給我們留言。
| iF+ 系列雙系統免接觸式智慧門鎖 (請點擊 ↑ 連結詳細介紹) |






0 comments:
張貼留言