cookieOptions = {...}; ★ 探索電腦視覺應用的工作原理 - 3S Market「全球智慧科技應用」市場資訊網

3S MARKET

3S MARKET
2025年10月31日 星期五


ultralytics



上敦 AXXON 台灣總代理


與我們一起深入探索電腦視覺的應用。我們還將介紹各種電腦視覺任務,例如目標偵測和分割。

在探索電腦視覺模型的歷史時,我們了解了電腦視覺的演變過程,以及它是如何發展成為如今先進的視覺模型的。像 Ultralytics YOLOv8 這樣的現代模型支援多種電腦視覺任務,並廣泛應用於各種令人興奮的應用中。

在本報導中,我們將介紹電腦視覺和視覺模型的基礎知識。我們將介紹它們的工作原理及其在各行業的多樣化應用。電腦視覺創新無所不在,默默地塑造我們的世界。讓我們 一一 揭曉它們!

什麼是電腦視覺?

人工智慧 (AI) 是一個涵蓋性術語,涵蓋了眾多目的在複製部分人類智慧的技術。電腦視覺就是人工智慧的一個分支領域。電腦視覺致力於賦予機器「眼睛」,使其能夠觀察、理解周圍環境。

與人類視覺一樣,電腦視覺解決方案目的在區分物體、計算距離和檢測運動。然而,與人類不同,人類擁有一生的經驗來幫助他們觀察和理解,而電腦則依賴大量的數據、高清攝影機和複雜的演算法。


__wf_reserved_inherit
圖 1. 人類視覺與電腦視覺的比較。

電腦視覺系統能夠以驚人的速度和精確度,處理和分析影像、圖像等視覺資料。快速且準確地分析大量視覺資訊的能力,使電腦視覺成為從製造業,到醫療保健等,各行各業的強大工具。

視覺模型支援各種電腦視覺任務

電腦視覺模型是任何電腦視覺應用的核心。它們本質上是由深度學習技術驅動的計算演算法,目的在賦予機器解釋和理解視覺資訊的能力。視覺模型支援從影像分類到物體偵測等,一系列關鍵的電腦視覺任務。讓我們更詳細地了解其中一些任務及其用例。

影像分類

影像分類是指將影像分類,並標註到預先定義的類別中。像 YOLOv8 這樣的視覺模型,可以利用大型標註圖像資料集進行訓練。在訓練過程中,模型會學習辨識與每個類別相關的模式和特徵。訓練完成後,它可以透過分析新影像的特徵,並將其與已學習的模式進行比較,來預測新影像的類別。

__wf_reserved_inherit
圖 2. 影像分類範例。 (資料來源:towardsdatascience.com)

影像分類有多種類型。例如,處理醫學影像時,你可以使用二分類將圖片分為兩類,例如健康或患病。另一種類型是多類分類。它可以幫助將圖像分成許多組,例如將農場裡的不同動物分類,例如豬、山羊和牛。或者,假設你想將動物分成不同的組和子組,例如將動物分為哺乳動物和鳥類,然後再進一步分為獅子、老虎、鷹和麻雀等物種;那麼層次分類將是最佳選擇。

物體偵測

物體偵測是使用電腦視覺在影像和視訊影格中,辨識和定位物體的過程。它包含兩個任務:物體定位(在物體周圍繪製邊界框)和物體分類(辨識每個物體的類別)。基於邊界框標註,視覺模型可以學習辨識,每個物體類別特有的模式和特徵,並預測這些物體在新的、未見過的影像中的存在和位置。


__wf_reserved_inherit
圖 3. YOLOv8 物體偵測用於偵測足球場上的球員。

物體偵測技術在各行各業都有廣泛的應用,從運動體育到海洋生物,無所不包。例如,在零售業,亞馬遜的 Just Walk Out 技術,利用物件偵測技術辨識顧客挑選的商品,實現自動結帳。電腦視覺和感測器數據的結合,讓顧客無需排隊即可取走商品離開。

以下是其工作原理的詳細介紹:

  • 安裝在天花板上的攝影機捕捉顧客在商店中的移動,並透過視覺模型即時處理這些影像片段。
  • 物體偵測技術用於偵測顧客挑選,並放入購物車的商品,並相應地更新虛擬購物車。
  • 貨架上的重量感測器,透過偵測商品的取出或放回來提高準確性。
  • 當顧客離開商店時,物體偵測和臉部辨識技術,可以用來確認顧客已經離開,並根據他們的付款資訊(例如信用卡)自動扣款。

語意分割和實例分割

語意分割和實例分割都是電腦視覺任務,有助於將影像分割成有意義的片段。語義分割根據像素的語義含義對其進行分類,並將同一類別中的所有物件視為具有相同標籤的單一實體。它適用於標記不可數的對象,例如「天空」或「海洋」,或聚類對象,例如「樹葉」或「草」。另一方面,實例分割可以透過為每個偵測到的物件分配唯一的標籤,來區分同一類別的不同實例。你可以使用實例分割來分割可數對象,其中物件的數量和獨立性非常重要。它可以實現更精確的識別和區分。


__wf_reserved_inherit
圖 4.語意和實例分割的範例。

我們可以透過一個與自動駕駛汽車相關的範例,更清楚地理解語義分割和實例分割之間的差異。語義分割非常適合需要理解場景內容的任務,並且可以在自動駕駛汽車中,用於對道路上的特徵(例如人行橫道和交通標誌)進行分類。同時,實例分割可用於在自動駕駛汽車中,辨識單一​​行人、車輛和障礙物。

姿態估計

姿態估計是一項電腦視覺任務,專注於檢測和追蹤圖像或影像中,物體姿態的關鍵點。它最常用於人體姿態估計,關鍵點包括肩膀和膝蓋等區域。估計人體姿態有助於我們理解和辨識,對各種應用非常重要的動作和運動。


__wf_reserved_inherit
圖 5.使用 YOLOv8 進行姿勢估計的範例。

姿勢估計可用於體育運動中,分析運動員的運動方式。NBA 使用姿勢估計,來研究球員在比賽中的動作和位置。透過追蹤肩膀、手肘、膝蓋和腳踝等關鍵點,姿勢估計可以深入了解球員的動作。這些洞察有助於教練制訂更合理的戰術,優化訓練計劃,並在比賽中進行即時調整。此外,這些數據還可以幫助監測球員的疲勞程度和受傷風險,從而改善球員的整體健康和運動表現。

定向邊界框物體偵測

定向邊界框物體偵測 (OBB,Oriented bounding boxes object detection) 使用旋轉矩形,來精確辨識和定位影像中的物體。與與影像軸對齊的標準邊界框不同,OBB 會旋轉以符合物體的方向。這使得它們對於非完全水平或垂直的物體特別有用。它們非常擅長精確定位和隔離旋轉的物體,以防止在擁擠的環境中重疊。


__wf_reserved_inherit
圖 6.使用 YOLOV8 對船隻航拍影像進行定向邊界框偵測的範例。

在海上監控中,辨識和追蹤船舶是安全和資源管理的關鍵。OBB 偵測可用於精確定位船舶,即使船舶密集排列或方向各異。它有助於監控航道、管理海上交通並優化港口運作。它還可以透過快速辨識和評估,颶風或漏油等事件後,船舶和基礎設施的損壞情況,來協助災難應變。

對象追蹤

到目前為止,我們已經討論了處理影像的電腦視覺任務。物件追蹤是一項電腦視覺任務,可以在影像的整個影格中追蹤物件。它首先使用檢測演算法辨識第一幀中的對象,然後持續追蹤其在影像中移動的位置。對象追蹤涉及對象檢測、特徵提取和運動預測等技術,以確保追蹤的準確性。


__wf_reserved_inherit
圖 7.使用 YOLOv8 追蹤魚。

YOLOv8 等視覺模型,可用於追蹤海洋生物學中的魚類。研究人員可以使用水下攝影機監測魚類,在其自然棲息地的活動和行為。該過程首先檢測影像的前幾幀中的單一魚類,然後在整個影像中追蹤它們的位置。追蹤魚類有助於科學家了解遷徙模式、社會行為,以及它們與環境的互動。此外,它還能透過提供魚類分佈和豐度方面的洞見,支持永續的捕撈實踐。

電腦視覺的最後回顧

電腦視覺正在積極改變我們使用科技和與世界互動的方式。透過使用深度學習模型和複雜演算法,來理解圖像和影像,電腦視覺幫助各行各業簡化了許多流程。諸如物體檢測和物體追蹤之類的電腦視覺任務,正在使創建前所未有的解決方案成為可能。隨著電腦視覺技術的不斷進步,未來將湧現更多創新應用!

讓我們共同學習、一起成長!瀏覽我們的 GitHub 程式碼庫,了解我們對人工智慧的貢獻。了解我們如何利用人工智慧,重新定義自動駕駛汽車和農業等行業。🚀



iF+ 系列雙系統免接觸式智慧門鎖

按此回今日3S Market新聞首頁

0 comments: