The Impact of COVID-19 Social Distancing
COVID-19 社交距離的影響
摘要
COVID-19 是一種嚴重的流行病,使世界陷入全球危機。截至 2021 年 6 月 6 日,全球已有超過 4200 萬人被感染,114 萬人死亡。
對流行病的更深入瞭解顯示,一個人的疏忽,可能會造成難以否認的廣泛傷害。由於疫苗供不應求,因此必須保持社交距離,以阻止 COVID-19 的傳播。
因此,我們的目標是開發一個追蹤人類的框架,以監控正在實施的社交距離。為了實現社交距離監控的這一目標,開發了一種使用對象檢測方法的算法。在這裡,探索了基於 CNN 的對象檢測器,來檢測人類的存在。
物體檢測器的輸出,用於計算檢測到的每對人類之間的距離。這種社交距離算法的方法,將紅色標記靠近允許限制的人。實驗結果證明,使用我們提出的社交距離算法,是基於 CNN 的對象檢測器,在監控公共區域的社交距離方面,表現出有希望的結果。
介紹
COVID-19(冠狀病毒)是一種傳染病,已被世界衛生組織 (WHO) 宣佈為流行病。它於 2019 年底在中國武漢首次發現。截至 2020 年 10 月 23 日,全球有 217 個國家和地區受到 COVID-19 的影響,並報告了大約 4200 萬確診病例和 114 萬人死亡。
圖1 說明了 2021 年 1 月 22 日至 2020 年 10 月 23 日的病例總數和死亡總數。根據世界衛生組織,如果一個人與其他病毒感染者接觸,他可能會感染 COVID-19。迄今為止,疫苗仍遠遠供不應求。因此,有必要尋找替代控制措施,來防止這種致命病毒的傳播。
眾所皆知,預防勝於治療,世衛組織提出了多項安全措施,以盡量減少冠狀病毒的傳播。在目前的情況下,社交距離已被證明是,作為阻止傳播最巧妙的替代方法之一。社交距離也可以稱為「實體距離」,這意味著與周圍的人保持距離。
保持社交距離,有助於減少可能感染 COVID-19 的人,和健康人之間的身體接觸或互動。根據世衛組織的標準規定,每個人之間應保持至少 6 英尺的距離,以遵守社交距離。
這是打破傳染鏈的重要方式。因此,所有受影響的國家,都採取了保持社交距離的措施。
在即時場景中,監控社交距離是一項具有挑戰性的任務。可以透過兩種方式實現:手動和自動。手動方法需要許多肉眼,來觀察每個人是否嚴格遵守社交距離規範。這是一個艱鉅的過程,因為人們無法在 24 × 7 的情況下,保持眼睛連續監控。
自動化監控系統,用閉路電視攝影機取代了許多實體眼睛。閉路電視攝影機生成影像片段,自動監控系統會檢查這些片段。當發生任何可疑事件時,系統會發出警報。針對此警報,安全人員可以採取相關措施。因此,自動化監控系統,已經超越了手動監控方法的幾個侷限性。
這項研究目的,在限制冠狀病毒流行的影響,同時將對經濟產物的危害降至最低。在本文中,我們提出了一種有效的自動監視系統,可幫助定位每個人,並監控他們的社交距離參數。
此應用適用於室內和室外監控場景。它可以在火車站、機場、大型商店、商場、街道等各種地方得到顯著使用。所提出的方法,可以看作是兩個主要任務的組合,提到如下:
(i) 人體檢測和追蹤
(ii) 監測人與人之間的社交距離
在第一個任務中,這項研究解決了監控影像中,人體檢測和追蹤 的問題。人體檢測是一個兩階段的過程,涉及第一階段的目標定位,和第二階段的定位目標的分類。本文提出了一種,基於視覺特定學習的人體檢測技術,透過影像源中的深度神經網路。
第二個任務的重點,是使用我們提出的算法,計算公共區域中人與人之間的距離。如果遵循,將根據社會距離做出決定。如果不是,那麼不遵守社交距離標準的人,會用紅色矩形突出顯示。看到這一點,保全人員可以採取與社交距離規則,相關的任何行動,以便嚴格遵守。
本文分為五個部分。第一節描述了保持社交距離的動機,和介紹性的知識。第二部分目的,在對各種人體檢測技術,傳統和最新的方法進行大量研究。第三部分側重於,有關深度學習的人體檢測模式。實驗及其詳細分析,在第四部分中介紹。最後,在第五部分中,描述了結論和未來的範圍。
文獻報導的評論
2001 年,Viola 和 Jones,提出了一種非常流行的目標檢測方法。他們使用 Haar 特徵進行特徵提取,使用 adaboost 學習算法,與級聯分類器進行分類。這種方法,比傳統方法快 15 倍。 Fu-Chun Hsu 等則提出了,一種透過融合運動和視覺特徵,來檢測頭部和肩部的混合方法。
作者發現定向光流直方圖 (HOOF) 描述,符是分割影像序列中,運動對象的更好選擇,並且可以有效地處理雜亂和遮擋的環境。
Vijay 和 Shashikant 提出了,一種用於高級駕駛員輔助的即時行人檢測。該系統使用 Edgelet 特徵,來檢測行人,以提高準確性,並使用有關 k-means 聚類算法的分類器,來降低系統複雜度。蘇曼·庫馬爾·喬杜里等人, 因而提出了一種先進的行人系統,透過結合背景減法技術,提取運動物體、輪廓方向直方圖,和基於黃金比例的分區,從運動物體和 HIKSVM 中,提取有意義的資訊進行物體分類。該系統可以有效處理遮擋,準確率高達 98.36%。
Seemanthini 和 Manjunath 為動作辨識系統,佈署了人體檢測技術。辛格等人提出了,一種透過閉路電視攝影機,在城市進行廣泛監視的人體檢測框架。他們使用背景減法技術,分割運動對象,使用 HOG 描述符提取特徵,使用 SVM 進行對象分類。
早些時候,對象檢測框架實現了滑動窗口概念,用於圖像內的對象定位。根據這種方法,圖像被分成特定大小的塊或區域。
此外,這些塊被分類到它們各自的類別中。各種手工特徵提取技術,如 HOG、SIFT、LBP等,用於評估屬性或特徵。
此外,這些屬性用於建構分類器,以在圖像的網格上定位對象。然而,這種基於網格的原型,需要很高的計算成本,有時會產生很高的誤報率。
因此,需要一個有效的對象分類,和定位框架,來檢測圖像中具有不同尺度的多個對象。另外,它應該降低計算成本和誤報率。最近,在使用深度卷積神經網路 (CNN) 的對象檢測方面,取得了重大進展。
卷積神經網路 (CNN) ,是一類密集的前饋人工神經網路,已被用於在電腦視覺任務中準確執行,例如圖像分類和檢測。CNN 能夠在卷積過程的幫助下,提取穩健的特徵。其強大的屬性表示能力,在目標檢測中發揮了巨大的作用。
Aichun、Tian 和 Qiao 提出了一種用於多個人體上半身檢測,深度層次的模式。該模式採用具有多個卷積特徵的,候選區域卷積神經網路 (CR-CNN) ,來適應圖像中的局部和上下關聯資訊,並已實現高達 86% 的準確率。
文獻中的研究顯示,目標檢測在電腦視覺中具有重要的作用,因為它具有許多實際用例,例如人臉檢測、行人、檢測、活動辨識、醫學成像等。本文擴展了其作用。物體檢測以減少 COVID-19 的生動傳播。因此,我們的目標是開發一種應用,用於使用高效的對象檢測器,分析人與人之間的社交距離。
提議的最先進的社交距離監測框架
如圖 2 所示,此處提出了在公共場所,監控社交距離的總體場景。任何公共場所可用的閉路電視攝影機,都可用於監控,即監控社交距離。
從這些攝影機接收的影像串流/幀序列,被饋送到對象檢測和跟蹤模組,用於定位場景中是否有人。評估對象/人位置的「質心」和許多此類質心之間的「距離」等參數,以衡量所實踐的社交距離程度。
將檢測到的人類邊界框的顏色,從綠色更改為紅色時,會生成警報。邊界框的顏色為綠色,直到任何兩個人之間存在允許的距離。當這個減少時,邊界框的顏色變為紅色,這表示違反社交距離。
基於滑動窗口的區域提議,是設計高效目標檢測器,一種簡單直接的方法。根據這種方法,圖像或幀被分成特定大小的塊或區域。此外,這些塊被分類到它們各自的類別中。
塊的分類可以透過不同的機器學習,和深度學習的範式來實現。區域也可能包含對象的一部分,這會在對象周圍引入許多邊界框。為瞭解決這個問題,非最大抑制(NMS)算法,用於在圖像中正確定位對象,抑制低邊界框,並只保留最好的。
本文運用基於深度學習的技術,借助基於滑動窗口的區域提議算法,來檢測人類的存在。所提出的技術在對象檢測,和定位方面非常有幫助,這在第 3 節中進行了描述。3.1. 中,這些採用的技術用於社交距離算法,以查看人們是否遵循距離標準。社交距離的算法,在 3.2. 的第 1 節中描述。
提出的 CNN 模型
卷積神經網路 (CNN),引起了研究界的高度關注,並且可以成功地嵌入到,更廣泛的圖像分類範式中。它以圖像為輸入,根據可訓練的加權和偏差,為圖像中的不同對象分配重要性,並有效區分每個對象。
本文介紹了兩種基於 CNN 的序列模式,來檢測圖像中是否存在個體。這些建議模式的總體概述如表 1 所示。這些模式由卷積層、池化層、扁平化、全連接層 1 和 2,以及輸出層組成。
這兩個模式唯一的區別,在於模式 1 由兩個卷積層和兩個池化層組成,而模式 2 由三個卷積層和三個池化層組成。由於這種變化,模式 1 產生大約 10,402,993 個可訓練參數,而模型 2 產生大約 2,861,297 個可訓練參數。
表 1 建議的模式配置
圖 3 顯示了模式 2 的圖形結構,它以大小為 128 × 64 × 3 的彩色圖像作為輸入,並生成其預測值作為輸出。它具有三個卷積層、三個池化層、兩個全連接層和一個輸出層。第一個卷積層涉及 32 個大小為 3 × 3 的捲積濾波器,而第二個和第三個卷積層,分別涉及 48 個濾波器,和 64 個卷積濾波器。卷積層使用 (1, 1) 步長值。池化層涉及 (2, 2) pool size 以減小圖像的大小。兩個大小分別為 512 和 128 的全連接層 (FC) ,用於訓練網路。輸出層的大小是一個神經元,指示返回 True 或 False 值。我們在卷積層和全連接層中使用了「Relu」激活函數。
而「Sigmoid」函數用於輸出層,產生輸出向量,其中每個元素都是一個概率。在第一層 FC 中使用 30% 的 dropout 率來克服過擬合問題。
圖 3
建議的社交距離監控算法
這是我們提議的,框架的第二階段。 所提出的社交距離監控算法,具有兩個主要功能。Function1,有助於找出圖像中對象的位置。它使用人體檢測技術,並以坐標值的形式提供人體位置,如 XA(左)、YA(上)、XB(右)和 YB(下)。從這些坐標值中,辨識出不同對象的質心值。 對一個對象的質心值的評估,顯示在方程中 1 和 2。
其中 XA、YA、XB 和 YB 是對象的坐標值(左、上、右、下)。 X 和 Y 是質心坐標或值。 此外,這些參數被傳遞到下一個函數,來測量社交距離。
函數 2 使用阿基里得距離,找出兩個物體之間的距離,這決定了它們之間的接近程度,如公式 2 所示。3. 將這個距離向量與預定義的閾值,進行比較來做出決定。 如果阿基里得距離小於某個閾值,則假定這兩個對像不遵守社會疏遠標準,或者它們之間沒有足夠的距離。如果違反這些安全問題,冠狀病毒就有可能傳播。 因此,透過在對象周圍繪製紅色矩形,向安全人員生成警報。因此,預期的人或觀察者,可以採取適當的行動,或要求他們保持社交距離。
實驗與分析
在本文中,已經開發了基於 CNN 的技術,來檢測人類的存在。此外,保持社交距離的做法,是從這些建議的技術中進行的。所有實驗均在 64 位類型系統的 Intel core i3-5005 CPU@2.00 GHz 處理器,和 Python 中的 Google Colab 上進行。
我們使用 INRIA 圖像數據集,進行訓練。它由總共 6562 張圖像組成,其中 4146 張圖像為負圖像,2416 張圖像為正圖像。我們將圖像數據集,分為訓練和測試模組,其中 2316 張正圖像和 4046 張負圖像,用於訓練目的;100 張正圖像和 100 張負圖像,用於測試目的。該數據集包含靜態圖像,並包含解析度為 64 × 128 的人類變異。
在對基於滑動窗口模組,即時影像的序列進行測試時,最小窗口大小為(64, 128),步長為(10, 10),縮小為1.25。對於大小為 264 × 400 × 3 的圖像,它處理了大約 567 個窗口,每個窗口的大小為 64 × 128。
所提出的技術採用了 CNN 架構進行人體檢測。它使用滑動窗口概念進行區域提議,使用 Convnet 進行人體檢測。作為導出優化模式,實驗的一部分,已經提出了兩種不同的模式,即模式 1 和模式 2。這些模式使用不同的參數進行了超調,例如批次大小、Dropout 率、激活函數、優化器和 Epoch。表 2 說明瞭這些模式不同變體的超參數調整。
表 2 建議模型的超參數調整
這些提議的模式(即模式 1 和模式 2),在不同的超參數上,進行了訓練和測試,並提供了適當的結果,如表 3 所示。模式 1 以「8」批量大小、「30%」丟失率、「 卷積層和 FC 層的 Relu' 激活函數、輸出層的 'Sigmoid' 激活函數、'Adam' 優化器和 '120' epochs。 它產生 97% 的測試準確率。
模式 2 的結構,以與模式 1 相同的方式進行了超調,除了兩個模式具有不同的結構、丟失率和優化器參數。模式 2 產生 98.50% 的測試準確率。
表 3 模型 1 和模型 2 的結果
在執行實驗時,觀察到基於 CNN 的模式,在我們的系統(具有 4 GB 暫存的 i3 處理器)中,運行時的訓練,和測試成本非常昂貴。相反,它在 Google Colab 平台(在 GPU 環境中)運行流暢,計時成本更低。
表 4 顯示了透過我們的系統和 Google Colab 進行的整體訓練和測試時間比較。這裡,使用大小為 264 × 400x3 的圖像,來評估所提出模式的測試時間。
表 4 模式 1 和模式 2 的時間比較
圖 4 展示了模式 1 和模式 2 超過 120 個 epoch 的精度和損失曲線。在分析這兩個模式時,我們發現模式 2 提供了,比模式 1 更令人鼓舞的結果,後者提供了更高的精度和更低的損失值。
表 5 顯示了我們提出的模式,與現有人體探測器的比較分析 經過探索,發現兩種模式都提供了出色的結果。但是,模式 2 實現了最高的準確度,並被證明是最有效的人體檢測技術。
表 5 與現有人體檢測方法的比較
在物理即時系統中,為可能接收影像串流,而適當定位和放置攝影機,是最具挑戰性的任務。在實驗的上下關聯中,可以看出,如果攝影機靠近物體/人,物體看起來更大,如果攝影機遠離物體,則捕獲的圖像中的物體尺寸會減小。
這在獲取用於物體/人體,檢測相關的特徵時,產生了問題。因此,考慮到我們的算法,基於實際校準,來調整攝影機的位置。 圖 5 展示了一些用於執行社交距離的結果圖像,其中包含應用 NMS 之前的原始檢測,和應用 NMS 之後的最終檢測結果。
結論
本文建議,使用基於深度學習的人體檢測技術,來監控即時環境中的社交距離。這些技術是在深度卷積網路的幫助下開發的,該網路使用滑動窗口概念,作為區域提議。此外,它們與社交距離算法一起使用,來衡量人與人之間的距離標準。
這個評估的距離標準,決定了兩個人是否遵循社交距離的規範。廣泛的實驗,是使用基於 CNN 的對象檢測器進行的。在實驗中發現,基於 CNN 的物體檢測模式,在準確率上優於其他模式。有時,它在處理即時影像序列時,會產生一些誤報實例。
未來,不同的現代物體檢測器,如 RCNN、Faster RCNN、SSD、RFCN、YOLO 等,可能會與自創數據集一起佈署,以提高檢測精度,並減少誤報實例。
此外,從單個攝影機獲得的單個視點,無法更有效地反映結果。因此,提出的算法可能在未來,透過許多攝影機針對不同的視圖進行設置,以獲得更準確的結果。
沒有留言:
張貼留言