★ 影像分析指南：應用和機會

影像分析演示 - 人流計數

不只是縮時，還有粉塵、噪音、位移偵測

tryo labs

介紹

在過去的幾年裡，影像分析，也被稱為影像內容分析或智慧影像分析，吸引了行業和學術界越來越多的興趣。由於深度學習的普及，影像分析引入了曾經是人類專屬許可權的任務自動化。

最近影像分析的改進改變了遊戲規則，從即時監控交通堵塞和警報的應用，到分析客戶零售流量，以最大限度地提高銷售額的應用，以及其他更知名的場景，如臉部辨識或智慧停車。

閉路電視監控攝影機即時檢測車輛，以辨識特定事件，如車禍，並相應觸發警報。

這種技術看起來很棒，但它是如何工作的，它如何使你的業務受益？

在本指南中，你將發現影像分析的基本概念，如何在現實世界中使用它來自動化流程並獲得寶貴的見解，以及在組織中實施智慧影像分析解決方案時，應該考慮什麼。

什麼是智慧影像分析？

影像分析的主要目標是自動辨識影像中的時間和空間事件。一個可移動的人，交通標誌不被遵守，突然出現火焰和煙霧；這些只是影像分析解決方案可以檢測到的幾個例子。

即時影像分析和影像挖掘

通常，這些系統會進行即時監控，檢測與監控環境相關的物件、物件屬性、移動模式或行為。然而，影像分析也可以用於分析歷史資料來挖掘見解。此法庭分析任務可以檢測回答商業問題的趨勢和模式，例如：

客戶在我商店的高峰期是什麼時候，他們的年齡分佈是多少？
紅燈執行多少次，車輛的具體車牌是什麼？

一些已知的應用

影像分析領域的一些應用廣為公眾所知。其中一個例子是影像監控，這項任務已經存在了大約 50 年。原則上，這個想法很簡單：策略性地安裝攝影機，讓人類操作員控制房間、區域或公共空間發生的事情。

然而，在實踐中，這是一項遠非簡單的任務。操作員通常負責多個攝影機，正如幾項研究顯示的那樣，增加要監控的攝影機數量，會對操作員的效能產生不利影響。換句話說，即使有大量的硬體可用並產生訊號，由於人類的侷限性，當需要處理這些訊號時，也會形成瓶頸。

影像分析軟體可以透過提供準確處理大量資訊的手段，來做出重大貢獻。

深度學習的影像分析

機器學習，特別是深度學習方法的驚人發展，使影像分析發展了革命。

深度神經網路（DNN）的使用，使訓練模仿人類行為的影像分析系統成為可能，從而導致了正規化轉變。它從基於經典電腦視覺技術的系統開始（例如，如果攝影機影像變得太暗或發生劇烈變化，會觸發警報），然後移動到能夠辨識影像中特定物體，並追蹤其路徑的系統。

使用深度學習工具包 Luminoth 進行腳踏車檢測。

例如，幾十年來，光學字元辨識（OCR）一直被用來從影像中提取文字。原則上，將 OCR 演算法直接應用於車牌影像即可，以辨識其車號。在之前的正規化中，如果影像定位在執行 OCR 時，我們確信我們正在拍攝車牌，這可能會起作用。

這方面的一個現實應用是在停車設施中辨識車牌，那裡的影像位於大門附近，當汽車停車時可以拍攝車牌。然而，在交通攝影機的影像上不斷執行 OCR 是不可靠的：如果 OCR 返回結果，我們如何確定它確實與車牌相對應？

在新正規化中，基於深度學習的模型能夠辨識出現車牌的影像的確切區域。有了這些資訊，OCR只適用於確切的有關區域，從而獲得可靠的結果。

行業應用

醫療保健

從歷史上看，醫療保健機構在影像監控解決方案上投入了大量資金，以確保其患者、工作人員和訪客的安全，其水準通常受到嚴格立法的監管。盜竊、綁架嬰兒和毒品轉用，是監控系統解決的一些最常見的問題。

除了促進監控任務外，影像分析還允許我們更進一步，利用收集的資料來實現業務目標。例如，影像分析解決方案可以檢測患者，何時沒有根據其需求進行檢查，並提醒員工。對患者和訪客流量的分析，在確定縮短等待時間的方法方面非常有價值，同時確保進入急診區。

對老年人或有健康問題的人的在家監測，是提供巨大價值的應用的另一個例子。例如，摔倒是老年人受傷和死亡的主要原因。雖然個人醫療裝置可以檢測到摔倒，但它們必須佩戴，並且經常被消費者忽視。影像分析解決方案可以處理家用攝影機的訊號，即時檢測一個人是否摔倒。例如，如果設定得當，這樣的系統還可以確定一個人，是否在應該服用給定藥物時服用。

精神保健是影像分析可以做出重大貢獻的另一個領域。可以開發分析臉部表情、身體姿勢和凝視的系統，以幫助臨床醫生評估患者。這種系統能夠從肢體語言和微觀表達中檢測情緒，為臨床醫生提供客觀資訊，可以確認他們的假設或給他們新的線索。

現實世界的例子

布法羅大學開發了一個智慧手機應用 app，目的在幫助檢測兒童自閉症譜系障礙（ASD）。該應用 app 僅使用智慧手機攝影機，追蹤臉部表情，並凝視兒童觀看社交場景照片的注意力（顯示多人）。該應用 app 監控眼球運動，並可以準確檢測患有自閉症的兒童，因為他們的眼球運動與沒有自閉症的人不同。

智慧城市/交通

事實證明，影像分析在交通領域提供了巨大的幫助，有助於智慧城市的發展。

如果不採取適當的交通管理措施，交通量的增加，特別是在城市地區，可能會導致事故和交通堵塞的增加。智慧影像分析解決方案可以在這種情況下，發揮關鍵作用。

交通分析可用於動態調整交通燈控制系統和監控交通堵塞。它還可用於即時檢測危險情況，例如車輛停在高速公路上未經授權的空間，有人開錯了方向，車輛不正常行駛，或發生事故的車輛。在發生事故時，這些系統有助於在訴訟中收集證據。

在 Tryolabs，我們開發了一個影像分析平台，以檢測行人在街頭影像上的不當行為，並能夠處理大量資料。該專案為客戶提供了相關統計資料，以便能夠在行為不端豐富的領域採取行動，從而產生交通問題。

車輛計數，或區分汽車、卡車、公共汽車、計程車等，會產生高價值的統計資料，用於獲得對交通的洞察力。安裝測速儀可以集體精確控制司機。自動車牌辨識辨別違規的汽車，或者由於即時搜尋，發現被盜或用於犯罪的車輛。

基於影像分析的智慧停車系統，透過分析安全攝影機的影像，來幫助司機找到空位，而不是在每個停車位中使用感測器。

這些只是影像分析技術為建設更安全、更舒適的城市做出貢獻的一些例子。

現實世界的例子

用於解決現實世界問題的影像分析的一個很好的例子就是紐約市。為了更好地瞭解重大交通事件，紐約市交通部使用影像分析和機器學習，來檢測交通堵塞、天氣模式、停車違規等。攝影機捕捉活動，進行處理，並向市政官員傳送即時警報。

零售

零售領域使用機器學習，特別是影像分析，是近年來最重要的技術趨勢之一。

實體零售商可以使用影像分析，來瞭解他們的客戶是誰以及他們的行為方式。

最先進的演算法能夠辨識臉孔，並確定人們的關鍵特徵，如性別和年齡。這些演算法還可以追蹤客戶透過商店的旅程，並分析導航路線，以檢測步行模式。在檢測凝視方向時，零售商可以辨識客戶對某種產品的看法有多長，並最終回答一個關鍵問題：為了最大限度地提高銷售額和改善客戶體驗，哪裡是放置物品的最佳地點？

使用影像分析解決方案，可以收集許多可操作的資訊，例如：客戶數量、客戶特徵、訪問時間和步行模式。所有這些資料都可以在考慮其時間性質的同時進行分析，以便根據星期幾、一年中的季節或假期最佳化商店的組織。透過這種方式，零售商可以非常準確地瞭解他們的客戶是誰，他們何時訪問他們的商店，以及他們一旦進入商店後的行為。

計算商店中客戶進出的典型解決方案，可以為計算高影響力指標（如轉化率）提供有用的資訊。這種方法可以透過以前安裝的安全攝影機來利用，使其部署快速且具有成本效益。

影像分析也非常適合開發防盜機制。例如，可以訓練人臉辨識演算法，來發現已知的商店盜竊者，或即時發現將物品藏在揹包中的人。

此外，從影像分析中提取的資訊，可以作為訓練機器學習模型的輸入資料，目的在解決更大的挑戰。例如，步行模式和商店中的人數，可以成為有用的資訊，以新增到需求預測、價格最佳化和庫存預測的機器學習解決方案中。

現實世界的例子

AMAZON Go 是亞馬遜進入雜貨行業的方式。它試圖透過避免結賬，讓客戶走出雜貨店，根據他們搶到的東西自動向他們收費，來簡化客戶的購物體驗。它已經存在了好幾年了，它仍然是一個顛覆性的解決方案。AMAZON Go 利用基於多個攝影機的準確影像分析軟體來追蹤客戶在商店中的行為。該軟體與放置在商店周圍的幾個感測器相結合，讓AMAZON Go 在向用戶收取購買費用時做出自信的決定。

安全

影像監控是安全領域的一項舊任務。然而，從系統完全由人類監控到基於影像分析的當前解決方案，橋下已經流過了很多水。

臉部和車牌辨識（LPR）技術，可用於即時辨識人員和車輛，並做出適當的決定。例如，可以在即時和儲存的影像片段中搜尋嫌疑人，或者辨識授權人員，並授予訪問安全設施的許可權。

人群管理是安全系統的另一個關鍵功能。尖端的影像分析工具，可以在購物中心、醫院、體育場和機場等地方產生巨大影響。這些工具可以即時提供估計的人群計數，並在達到或超過閾值時觸發警報。他們還可以分析人群流動，以檢測不想要的或被禁止的方向移動。

即時人員檢測。

在上面的影像中，對監控系統進行了即時辨識的訓練。這為獲得其他結果奠定了基礎。最直接的：每天經過的人數。基於歷史資料的更高階目標可能是根據星期幾和時間確定人員的「正常」流量，並在出現異常交通時生成警報。如果監控區域僅限行人，則可以訓練系統檢測未經授權的物體，如摩托車或汽車，並再次觸發某種警報。

這是這些方法的巨大優勢之一：影像內容分析系統可以被訓練以檢測特定事件，有時具有高度的複雜性。其中一個例子是儘快檢測火災。或者，在機場的情況下，當有人進入禁區或違背乘客方向行走時，發出警報。另一個很棒的案例是即時檢測公共空間中無人看管的行李。

至於入侵者檢測等經典任務，由於可以過濾掉風、雨、雪或動物引起的運動的演算法，它們可以穩健地執行。

智慧影像分析提供的功能在安全領域日益成長，這是未來將繼續的趨勢。

現實世界的例子

丹麥足球俱樂部 Brondby 是第一個在 2019 年正式引入臉部辨識技術的足球俱樂部，以提高其體育場比賽日的安全。該系統辨識被禁止的人參加比賽，並使工作人員能夠阻止他們進入體育場。

運動

體育資料已經很久沒有出現了。從足球教練到私人教練，從專業運動員到初學者，每個人都在利用資料來取得更好的結果。

足球比賽統計資料，如控球或計數傳球次數，已成為教練瞭解球隊表現的預設工具。研究分析了控球在歐洲冠軍聯賽比賽中的重要性，得出結論，控球量更多的球隊贏得了 49.2%，平局 22.0%，在總比賽中輸掉了 28.7%，超過了對手的獲勝率。如果你對此主題感興趣，在 Tryolabs，我們有一個關於如何使用人工智慧和影像分析自動測量足球持有量的教程。

控球演示。

在練習運動時瞭解運動員的姿勢，對提高技術相當重要。影像分析解決方案可以向運動員或教練提供這些資訊，使其更容易實現目標。此外，透過瞭解是否有任何危險動作，可以將姿勢資訊用於防止受傷。

也可以利用影像分析解決方案，來瞭解對手是如何玩的。學習他們的遊戲可以幫助建立對他們策略的有效計數器。解決方案可能從自動選擇比賽中的相關比賽，到提供有用的統計資料來瞭解對手的弱點。

現實世界的例子

在英國，足球隊不僅在英超聯賽中相互競爭，而且在爭奪最佳資料的比賽中。從僱用火箭科學家到國際象棋冠軍，甚至使用導彈技術，比起偵察員，團隊已經開始尋找工程師、數學家、物理學家和統計或演算法專家。

一些球隊，如阿森納，有自己的內部資料公司，而許多其他團隊則依靠第三方公司向他們提供所有必要的資料。這些資料用於每個決定：僱用球員和教練，瞭解每個球員在球場上的最佳位置，並追蹤年輕人在貸款中的表現，僅舉幾例。

影像分析是如何工作的？

讓我們來看看影像分析解決方案如何工作的一般方案。根據特定的案例，解決方案的架構可能會有所不同，但方案保持不變。

影像內容分析可以透過兩種不同的方式進行：即時配置系統以觸發當下發生的特定事件和事件的警報，或者在後處理中，透過執行高階搜尋來促進法庭分析任務。

餵養系統

正在分析的資料可以來自各種串流媒體影像來源。最常見的是閉路電視攝影機、交通攝影機和線上影像。然而，任何使用適當協議的影像源（例如 RTSP：即時流媒體協議或 HTTP）通常可以整合到解決方案中。

一個關鍵目標是覆蓋：我們需要從各個角度清楚地瞭解整個區域，以及被監控的事件可能發生的地方。請記住，鑑於可以處理，更多的資料會更好。

中央處理與邊緣處理

影像分析軟體可以在通常位於監控站的伺服器上集中執行，這被稱為中央處理。或者，它可以嵌入到攝影機本身，這種策略被稱為邊緣處理。

在設計解決方案時，應仔細考慮攝影機的選擇。許多傳統軟體都是只具有中央處理能力的。然而，近年來，遇到混合解決方案並不罕見。事實上，一個好的做法是儘可能將即時處理集中在攝影機和中央伺服器上的法律分析功能上。

透過混合方法，攝影機執行的處理減少了中央伺服器正在處理的資料，否則隨著攝影機數量的增加，這可能需要廣泛的處理能力和頻寬。此外，可以將軟體配置，為僅透過網路向伺服器傳送有關可疑事件的資料，從而減少網路流量和儲存需求。

與此同時，將資料集中用於法醫分析，可以使用多種搜尋和分析工具，從通用演算法到臨時實現，所有這些都利用不同的參數集，幫助平衡所獲得結果中的噪音和沉默。從本質上講，你可以輸入自己的演算法，來獲得預期的結果，這是一個特別靈活和有吸引力的方案。

定義場景和訓練模式

一旦計劃並安裝了實體架構，就有必要定義你想要關注的場景，然後訓練將檢測目標事件的模式。

車禍？人群流動？在零售店進行臉部辨識，以辨識已知的商店盜竊者？每個場景都會導致一系列基本任務，系統必須知道如何執行。

一個例子：檢測車輛，最終辨識其型別（例如摩托車、汽車、卡車），逐幀追蹤其軌跡，然後研究這些路徑的演變以檢測可能的碰撞。

影像分析中最頻繁的基本任務是：

影像分類：從一組預定類別（例如汽車、人、馬、剪刀、雕像）中選擇影像類別。
定位：在影像中定位物件（通常涉及在物件周圍繪製邊界框）。
物件檢測：在影像中定位和分類物件。
物件辨識：給定目標物件，辨識影像中的所有例項（例如，在影像中找到所有足球運動員）。
物件追蹤：追蹤影像中隨著時間的推移而移動的物件。

要瞭解更多關於執行的基本任務和用於開發影像分析軟體的演算法類型，我們建議你閱讀本電腦視覺入門指南。更具體地說，如果你想深入研究物體檢測和追蹤任務，你可以參考我們的分步教程。

物體檢測示例。

從零開始訓練模型需要付出相當大的努力。幸運的是，有相當數量的可用資源使這項任務負擔更小。

ImageNet 或 Microsoft Common Objects in Context（COCO）等影像資料集是簡化新模式訓練的關鍵資源。

有幾種預先訓練的模式可用於影像分類、物體檢測和臉部辨識等任務，由於轉移學習技術，這些模式可以適應（微調）給定案例。這比完整的訓練要便宜得多。

最後，近年來，社群越來越多地釋出開源專案，以促進客製化影像分析系統的建構。靠電腦視覺庫，如下一節中介紹的庫，大大有助於更快、更準確地建構解決方案。

人類評論

在幾乎所有情況下，都需要人類來監控影像分析系統生成的警報，並決定應該做什麼（如果有的話）。從這個意義上說，這些系統對操作員起到了寶貴的支援作用，幫助他們檢測可能被忽視或需要很長時間，才能手動檢測的事件。

開源專案

目前還沒有成熟的影像分析庫。現有的那些通常是研究論文的一些實施，因此它們往往很難在實際環境中使用。在其他情況下，資料庫目的在易於使用，但效能不佳。

最好的選擇是尋找物件追蹤或姿勢追蹤庫，並建立自定義內容。

在 Tryolabs，我們使用物體檢測和姿勢估計等影像級演算法，來執行影像分析，然後在它們上新增我們自己的追蹤演算法層，然後從那裡繼續前進。

OpenCV

開源電腦視覺庫（OpenCV）是最知名的電腦視覺庫。它包含一套全面的機器學習演算法，用於執行影像分類、人臉辨識以及物體檢測和追蹤等常見任務。它被公司和研究小組廣泛使用，因為它可以透過其原生 C++ 介面，或透過 Java 和 Python 包裝器使用。

由於它是一個通用的電腦視覺庫，因此可以使用 OpenCV 實現影像分析系統。然而，由於它不是一個專門的影像分析庫，因此轉向其他可用的庫可能更有趣（取決於暗例）。一般來說，OpenCV 是處理經典電腦視覺任務，以及預處理和後處理任務的絕佳工具。

Norfair

如前所述，在 Tryolabs，我們使用物件檢測和姿勢估計演算法，並在它們上面新增追蹤來建立影像分析解決方案。為了實現這一點，我們建構了 Norfair，這是一個可客製化的輕量級 Python 庫，用於即時多物件追蹤。使用 Norfair，你只需幾行程式即可為任何檢測器新增追蹤功能。

Norfair 是高度可客製化的，允許使用者定義自己的距離函式，它是模組化的，因為它可以很容易地插入到複雜的影像處理管道中，而且速度很快，因為唯一限制推理速度的是檢測網路。

Norfair 不僅允許你追蹤簡單的邊界框，還與關鍵點甚至 3D 物件相容。即使攝影機正在移動，你也可以透過估計攝影機運動來準確追蹤物體，這可能考慮平移、傾斜、旋轉、任何方向的運動和變焦。還支援重新辨識（ReID），允許包含外觀嵌入以實現更強大的追蹤系統。

YOLO

早在 2016 年，Joseph Redmon等人在 CVPR 會議上，釋出了第一個單級物體檢測器《你只看一次：統一的即時物體檢測》。YOLO 的設計考慮到了速度和準確性，這就是為什麼它是生產環境中，最受歡迎的物體檢測模型之一。YOLO 不僅是一個模型，而且是一個物體檢測模型家族。多年來，對原始架構進行了幾項修改，以實現更好的結果。YOLOv4、YOLOv5、YOLOv7 和 YOLOX 是一些最受歡迎的變體，這種演變不會很快停止。

YOLOv7（2022）的作者使用 PyTorch 開源了實現。此程式允許透過向用戶提供預先訓練的物件檢測模型，來快速開發影像分析解決方案。YOLOv7 實現的另一個巨大優勢是，它可以擴充到 pose 估計和例項分割任務。