隨著研究人員開發出更先進的架構,電腦視覺任務也隨之不斷發展。當今最需要了解的電腦視覺任務和應用 ⋯⋯
![]() |
| Klacci 凱樂奇 Kii Assistant 智慧酒店服務系統 |
本報導將深入探討當今各行各業最熱門的電腦視覺任務。
電腦視覺 (CV) 是人工智慧 (AI) 領域中一個快速發展的領域,它使機器能夠處理醫療保健、交通運輸、農業和製造業等不同領域的,複雜現實世界視覺數據。現代電腦視覺研究,正在為各種應用開發新的演算法,例如人臉辨識、自動駕駛、標註的手術影片等。
電腦視覺作業的功用現狀
當今的電腦視覺領域,涉及先進的 AI 演算法和架構,例如卷積神經網路 (CNN) 和視覺轉換器 (ViT),用於處理、分析和提取視覺資料中的相關模式。
- 生成式 AI:諸如生成對抗網路 (GAN) ,和變分自編碼器 (VAE) 之類的架構,正在催生生成式模型,這些模型可以根據輸入資料,分佈合成新的圖像。這項技術可以幫助你解決資料標註問題,並擴充資料樣本,以便更好地進行模型訓練。
- 邊緣運算:隨著資料量的成長,在邊緣處理視覺資料,已成為電腦視覺應用的關鍵概念。邊緣人工智慧 (Edge AI) 涉及在源頭附近處理資料。因此,伺服器或電腦等邊緣設備連接到攝影機,並在即時應用中運行人工智慧模型。
- 即時電腦視覺:借助先進的人工智慧硬體,電腦視覺解決方案可以分析即時影像來源,從而提供關鍵洞察。最常見的例子是安全分析,深度學習模型可以分析閉路電視錄影,即時偵測竊盜、交通違規或入侵行為。
- 擴增實境:隨著 Meta 和 Apple 進軍擴增實境領域,電腦視覺模型在理解實體環境方面的作用,將取得突破性進展,使用戶能夠將數位世界與周圍環境融合。
- 3D 成像:電腦視覺建模的進步正在幫助專家,透過精確捕捉深度和距離資訊,來分析 3D 影像。例如,電腦視覺演算法,可以理解光檢測和測距 (LIDAR) 數據,從而增強對環境的感知。
- 少樣本學習 vs. 零樣本學習:少樣本學習和零樣本學習範式,正在徹底改變機器學習 (ML) 的開發,它們允許你僅使用少量,甚至零個帶標籤的樣本,來訓練電腦視覺 (CV) 模型。
影像分類
影像分類任務涉及電腦視覺 (CV) 模型,將影像分類為使用者定義的類別,以用於各種應用。例如,一個分類模型會將下圖分類為老虎。

以下列出了一些最佳的圖像分類模型:
BLIP
自舉語言 —— 影像預訓練 (BLIP) 是一種視覺語言模型,可用於為影像添加字幕、檢索影像以及執行視覺問答 (VQA)。
該模型使用一個濾波器,去除合成字幕中的雜訊數據,實現了當前最佳 (SOTA) 的結果。
其底層架構包含一個編碼器 —— 解碼器架構,該架構使用自舉方法濾除雜訊字幕。
ResNet
殘差神經網路 (ResNet) 使用 CNN 架構,來學習複雜的視覺模式。使用 ResNet 的最大優勢在於,它們允許你建立密集的深度學習網路,而不會導致梯度消失問題。
通常,多層深度神經網路無法更新初始層的加權。這是由於反向傳播過程中,梯度非常小造成的。 ResNets 透過跳過一些層,並在訓練過程中學習殘差函數來解決這個問題。
VGGNet
超深卷積網路(VGGNet)是一種基於 CNN 的模型。 VGGNet 使用 3×3 濾波器,從影像資料中提取基本特徵。
該模型在 2014 年 ImageNet 大規模視覺辨識挑戰賽 (ILSVRC) 中,分別擊敗冠亞軍。
分類的實際應用
- 分類模型可讓您將 CV 系統應用於各個領域,包括:
- 物流和庫存管理中的電腦視覺用於對庫存物品進行分類以進行詳細分析。
- 醫療保健中的電腦視覺用於對醫學影像(例如 X 光片和 CT 掃描)進行分類,以進行疾病診斷。
製造業中的電腦視覺用於檢測缺陷產品,以進行品質控制。

物體偵測與定位
影像分類是將整個影像分類,而物體偵測與定位,則可以辨識影像中的特定物體。
例如,電腦視覺模型可以在單一影像中偵測多個物體,例如椅子和桌子。這是透過在目標物體周圍繪製邊界框,或多邊形來實現的。

熱門的物體偵測模型包括:
Faster R-CNN
Faster R-CNN 是採用兩階段架構的深度學習演算法。在第一階段,該模型使用基於卷積層的區域提議網路 (RPN) 來,使用 SSD 相關的物件區域,以便進行分類。
在第二階段,Fast R-CNN 使用區域提議來偵測物體。此外,RPN 和 Fast R-CNN 組件使用新穎的注意力機制組成一個網路,使模型能夠專注於檢測所需的關鍵區域。
YOLO v7
YOLO (You Only Look Once) 是一種流行的物體偵測演算法,它使用深度卷積網路一次偵測物體。與 Faster R-CNN 不同,它無需提議區域即可分析和預測物體位置。
YOLOv7 是 YOLO 網路的最新版本。此版本在所有先前版本的基礎上進行了改進,提供了更高的準確率和更快的檢測速度。此機器學習模型非常適合需要即時結果的即時應用。

要了解更多關於 YOLO 系列中其他目標檢測模型的資訊,請查看我們關於 YOLOv3、YOLOv5、YOLOv8 和 YOLOv9 的其他文章。
SSD
單次偵測 (SSD) 模型將來自真實影像的邊界框,分解為多個具有不同長寬比的預設框。這些框出現在特徵圖的多個位置,並具有不同的比例。
該架構允許更輕鬆地進行大規模訓練,並與目標檢測系統整合。

物體偵測的實際應用
物體偵測的實際應用包括:
- 自動駕駛,車輛必須辨識道路上的不同物體才能導航。
- 貨架和零售店的庫存管理,用於檢測庫存短缺。
- 使用偵測和定位 CV 模型進行監控中的異常偵測和威脅辨識。
語意分割
語義分割旨在識別影像中的每個像素,以便進行更詳細的分類。該方法透過為物件的各個像素分配標籤,來實現更精確的分類。

常見的語意分割模型包括:
FastFCN
快速全卷積網路 (FastFCN) 在先前的 FCN 架構基礎上進行了改進,用於語義分割。 FastFCN 透過引入聯合金字塔上採樣 (JPU) 方法,降低了提取特徵圖的計算成本。
DeepLab
DeepLab 系統克服了傳統深度卷積網路 (DCNN) 面臨的挑戰。這些 DCNN 的特徵解析度較低,無法捕捉多尺度目標,且定位精度較低。
DeepLab 透過空洞卷積、空洞空間金字塔池化 (ASPP) 和條件隨機場 (CRF) 解決了這些問題。
U-Net
U-Net 架構的主要目的是分割生物醫學影像,這需要較高的定位精度。此外,缺乏註釋的資料樣本也是一個重大挑戰,阻礙了模型的有效訓練。
U-Net 透過上取樣算子修改 FCN 架構來解決這些問題,從而提高影像解析度,並將上取樣輸出與高解析度特徵相結合,以實現更好的定位。

語意分割的實際應用
語意分割廣泛應用於各個領域,例如:
- 在醫學影像診斷中,用於輔助更詳細地分析 CT 掃描影像。
- 在場景分割中,用於識別特定場景中的單一物件。
- 在衛星災害管理中,用於探測洪水造成的受損區域。

實例分割
實例分割能夠辨識同一物件的每個實例,因此比語義分割更細粒度。例如,如果一幅圖像中有三頭大象,實例分割會分別辨識並突出顯示每頭大象,並將它們視為不同的實例。

以下是一些流行的實例分割模型:
SAM
Segment Anything Model (SAM) 是由 Meta AI 開發的實例分割框架,它允許您透過可點擊的提示來分割任何物件。該模型遵循零樣本學習範式,非常適合對影像中的新物件進行分類。
模型採用編碼器-解碼器架構,其中主編碼器計算影像嵌入,提示編碼器將使用者提示作為輸入。掩碼解碼器負責理解編碼並預測最終輸出。

Mask R-CNN
基於 Mask 區域的捲積神經網路 (Mask R-CNN) 擴展了 Faster R-CNN 架構。它透過增加另一個分支,來預測感興趣區域 (ROI) 的分割遮罩。
在 Faster R-CNN 中,一個分支根據真實邊界框對目標區域進行分類,另一個分支預測邊界框偏移量。Faster R-CNN 將這些偏移量,新增至已分類區域中,以確保預測的邊界框更接近真實邊界框。
增加第三個分支可以提升泛化效能並加速訓練過程。

實例分割的實際應用
實例分割在各種電腦視覺應用中都有應用,包括:
- 用於地理空間分析的空拍影像,用於偵測移動物體(例如汽車)或街道、建築物等結構。
- 零售的虛擬試穿,讓顧客虛擬試穿不同的穿戴式裝置。
- 醫學診斷,用於識別不同的細胞實例以檢測癌症。

姿態估計
姿態估計可以識別物體上的關鍵語義點,從而追蹤方向。例如,它可以透過標記肩膀、右臂、左臂等關鍵點來幫助辨識人體動作。

主流的姿態估計模型包括:
OpenPose
OpenPose 是一個即時多人二維自下而上的姿態檢測模型,它使用部位親和場 (PAF) 將身體部位與個體關聯起來。由於它只使用 PAF 細化策略,而非同時進行 PAF 和身體部位細化策略,因此具有更高的運行時性能和準確率。

MoveNet
MoveNet 是 TensorFlow 預先訓練的高速位置追蹤模型,可捕捉膝蓋、臀部、肩部、肘部、手腕、耳朵、眼睛和鼻子的運動,最多可標記 17 個關鍵點。
TensorFlow 提供兩種變體:Lightning 和 Thunder。 Lightning 變體適用於低延遲應用,而 Thunder 變體則適用於對準確性非常重要的應用案例。
PoseNet
PoseNet 是一個基於 TensorFlow.js 的框架,它使用 CNN 和姿勢解碼演算法來檢測姿勢。此電腦視覺演算法會分配姿勢置信度分數、關鍵點位置,以及相應的關鍵點置信度分數。
模型最多可偵測 17 個關鍵點,包括鼻子、耳朵、左膝、右腳等。它有兩種變體。一種變體只能檢測一個人,而另一種變體可以辨識圖像或影像中的多個人。
姿勢估計的實際應用
姿勢估計的應用非常廣泛,其中包括:
- 電腦視覺機器人,其中姿勢估計模型可以幫助訓練機器人動作。
- 健身和運動,其中教練可以追蹤身體運動以設計更佳的訓練方案。
- VR 遊戲,其中姿勢估計可以幫助檢測玩家在遊戲過程中的動作。
影像生成與合成
圖像生成是一個不斷發展的領域,其中人工智慧演算法基於訓練資料生成新穎的圖像、藝術作品、設計等。這些訓練資料可以包括來自網路或其他使用者自訂來源的圖像。
.
以下是一些著名的圖像生成模型:
DALL-E
DALL-E 是由 OpenAI 創建的零樣本文字轉圖像生成器。該工具以使用者定義的文字提示作為輸入,產生逼真的圖像。
DALL-E 2 是著名的生成式預訓練 Transformer 3 (GPT-3) 模型的變體,基於 Transformer 架構運行。它還使用變分自編碼器 (VAE) ,來減少影像標記的數量,從而提高處理速度。

MidJourney
與 DALL-E 類似,MidJourney 也是一個文字轉圖像產生器,但使用擴散架構來產生圖像。
擴散方法會逐步向輸入影像添加噪聲,然後對其進行去噪以重建原始影像。經過訓練後,該模型可以接受任何隨機輸入來產生圖像。

穩定擴散
Stability AI 的穩定擴散也使用擴散框架,透過文字使用者提示產生照片般逼真的影像。
使用者可以在有限的計算資源上訓練模型。這是因為該框架使用預先訓練的具有交叉注意力層的自編碼器,來提高品質和訓練速度。

影像生成與合成的實際應用
圖像生成有多種用例,包括:
- 內容創作,廣告主可以使用圖像產生器,為品牌推廣和數位行銷製作藝術作品。
- 產品構思為製造商和設計師提供文字提示,描述他們所需的功能,以產生合適的圖像。
- 合成資料生成,幫助克服電腦視覺中的資料稀缺和隱私問題。
電腦視覺任務的挑戰與未來方向
隨著電腦視覺應用的增多,挑戰也隨之增加。這些挑戰將指導未來的研究,以克服人工智慧社群面臨的最迫切問題。
挑戰
- 缺乏基礎設施:電腦視覺需要極其強大的硬體和一系列軟體技術。主要的挑戰是如何使電腦視覺在達到足夠精度的同時,具有可擴展性和成本效益。缺乏優化的基礎設施是我們看不到更多電腦視覺系統投入生產的主要原因。在 viso.ai,我們建立了最強大的端到端平台 Viso Suite,以解決這項挑戰,並使組織能夠實施和擴展現實世界的電腦視覺。
- 缺乏標註資料:由於相關訓練資料的匱乏,訓練電腦視覺模型極具挑戰性。例如,在醫療領域,標註資料集的匱乏一直是一個長期存在的問題,因為現有的影像數量有限,這使得基於人工智慧的診斷變得困難。然而,自監督學習是一項前景光明的進展,它可以幫助您使用有限的標註資料來發展模型。一般來說,演算法的效率往往會顯著提高,而最新的框架使得使用先前所需資料的一小部分即可訓練出更優秀的人工智慧模型。
- 倫理問題:隨著資料法規的不斷發展,電腦視覺模型能夠提供無偏見且公平的輸出非常重要。這裡的挑戰在於理解關鍵的偏見來源,並找到在不影響性能的情況下消除偏見的技術。
未來方向
- 可解釋人工智慧:可解釋人工智慧 (XAI) 是一種可以幫助您輕鬆檢測偏見的研究範式。這是因為 XAI 可以讓你了解模型背後的工作原理。
- 多模態學習:從影像產生器模型可以看出,文字和影像資料的融合是常態。未來可能會出現更多模型整合不同模態,例如音頻和視頻,從而使電腦視覺模型更具情境感知能力。
- 高效能人工智慧影像分析:目前,我們在即時視訊理解方面僅實現了一小部分目標。在不久的將來,我們將在更高解析度資料上以更經濟高效的方式運行更強大的機器學習模型方面取得突破。
電腦視覺任務:關鍵要點
隨著研究界發展出更強大的架構,電腦視覺模型能夠執行的任務可能會不斷發展,從而催生各領域的新應用。
但目前需要記住的關鍵點包括:
- 常見的電腦視覺任務:影像分類、物件偵測、姿態語義分割、實例分割、姿態估計和影像生成仍將是電腦視覺的主要任務。
- CNN 和 Transformer:雖然 CNN 框架主導了上述大多數任務,但 Transformer 架構對於生成式人工智慧仍然至關重要。
- 多模態學習和可解釋人工智慧 (XAI):多模態學習和可解釋人工智慧 (XAI),將徹底改變人類與人工智慧模型的交互方式,並改善人工智慧的決策過程。
你可以在以下文章中探索相關主題:
- 如何評估電腦視覺模型的性能
- 數據增強技術
- 熱門電腦視覺工具
- 企業電腦視覺指南
- Python 中的特徵提取
端對端電瞍視覺入門
佈部署電腦視覺系統可能很複雜,因為您需要一個強大的數據管道來收集、清理和預處理非結構化數據,一個數據存儲平台,以及了解建模過程的專家。
使用開源工具可能是一種選擇。然而,它們通常需要熟悉後端程式碼,並且將它們與您現有的技術堆疊整合到統一的、協調一致的工作流程中非常複雜。
Viso Suite 是一站式端到端基礎架構,可將電腦視覺任務應用於實際解決方案:
- 透過自動化工具註釋視覺數據
- 建立完整的電腦視覺開發和部署流程
- 透過自訂儀表板監控效能
想了解電腦視覺如何在你的行業中發揮作用?立即開始使用 Viso Suite 建立企業機器學習應用程式。

Klacci 凱樂奇 iF+ 系列雙系統免接觸式智慧門鎖




0 comments:
張貼留言