精彩論壇預告
AI 人工智慧在電腦視覺上有哪些技術發展?這些技術形成的解決方案,在交通、建築、零售等應用領域,發揮了什麼功能?解決了哪些問題?帶來了哪些效用?
擁有攝影機、NVR、VMS、智慧停車廠設備的國際銷售業務以及產品經理豐富實務經驗,並且是台灣人工智慧學校第四屆畢業的 Sharon. Yeh,從她的角度,分享 AI 人工智慧在電腦視覺上的解決方案應用……
報名網址 https://seminars.tca.org.tw/D10i00933.aspx
不只是縮時,還有粉塵、噪音、位移偵測 |
電腦視覺使用人工智慧,使電腦能夠從視覺輸入中獲得有意義的資料。
電腦視覺被定義為利用人工智慧(AI),允許電腦從視覺輸入中,獲取有意義的資料的解決方案。然後,從電腦視覺中獲得的見解,被用於採取自動化操作。本文詳細介紹了電腦視覺的含義、示例和應用。
目錄
- 什麼是電腦視覺?
- 電腦視覺的 5 個例子
- 2022 年電腦視覺的十大應用
什麼是電腦視覺?
電腦視覺利用人工智慧(AI)使電腦能夠從照片和影像等視覺輸入中,獲得有意義的資料。然後,從電腦視覺中獲得的見解,被用於採取自動化操作。就像人工智慧賦予電腦「思考」的能力一樣,電腦視覺允許它們「看到」。
作為人類,我們通常一生都使用視神經、視網膜和視覺皮層來觀察周圍環境。我們獲得上下文來區分物體,測量它們與我們和其他物體的距離,計算它們的移動速度,並發現錯誤。同樣,電腦視覺使人工智慧驅動的機器能夠訓練自己執行這些過程。這些機器使用攝影機、演算法和資料的組合來做到這一點。
然而,與人類不同,電腦不會感到疲倦。你可以訓練由電腦視覺驅動的機器,在幾分鐘內分析數千個生產資產或產品。這使生產工廠能夠自動檢測人眼無法辨識的缺陷。
電腦視覺需要一個大型資料庫才能真正有效。這是因為這些解決方案反覆分析資訊,直到它們獲得分配任務所需的一切可能的見解。例如,一台經過訓鏈以辨識健康作物的電腦,需要「檢視」數千種作物、農田、動物,和其他相關物體的視覺參考輸入。只有這樣,它才能有效地辨識不同型別的健康作物,將其與不健康的作物區分開來,衡量農田品質,檢測作物中的害蟲和其他動物,等等。
推動電腦視覺的兩項關鍵技術:卷積神經網路和深度學習,一種機器學習。
機器學習(ML,Machine Learning)利用基於演算法的模型,使電腦能夠透過視覺化資料分析學習上下文。一旦向模型提供了足夠的資料,它將能夠「看到大局」,並區分視覺輸入。該機器沒有被寫程式來辨識和區分影像,而是使用人工智慧演算法自主學習。
卷積神經網路(Convolutional Neural Network,簡稱 CNN),透過將影像分餾成畫素來幫助 ML 模型檢視。每個畫素都有一個標籤或標籤。然後,這些標籤被集體用於進行卷積,這是一個數學過程,將兩個函式結合起來產生第三個函式。透過這個過程,卷積神經網路可以處理視覺輸入。
為了像人類一樣檢視影像,神經網路執行卷積,並在許多迭代中檢查輸出的準確性。就像人類在很遠的地方辨別物體一樣,卷積神經網路從辨識基本形狀和硬邊開始。完成此操作後,模型會修補其資料中的空白,並執行其輸出的迭代。這種情況一直持續到輸出準確地「預測」,將要發生的事情。
雖然卷積神經網路理解單個影像,但反覆神經網路處理影像輸入,使電腦能夠「學習」一系列圖片之間的關係。
檢視更多:什麼是人工智慧:人工智慧的歷史、型別、應用、益處、挑戰和未來
電腦視覺的 5 個例子
以下是電腦視覺的五個關鍵案例,這些案例顯示了這種人工智慧驅動的解決方案,在徹底改變整個行業方面的潛力。
1. 谷歌翻譯
2015 年,技術主管者谷歌推出了透過智慧手機相機,利用案視覺的即時翻譯服務。神經機器翻譯是一個驅動基於電腦視覺的即時和準確翻譯的關鍵系統,於 2016 年被納入谷歌翻譯網路結果。
當該應用 app,在帶有攝影機的支援網際網路的裝置上開啟時,相機會檢測現實世界中的任何文字。然後,應用 app 會自動檢測文字,並將其翻譯成使用者選擇的語言。例如,一個人可以將相機對準有另一種語言文字的廣告牌或海報,並在智慧手機螢幕上閱讀他們選擇的語言。
除了翻譯,谷歌還在其鏡頭服務中使用電腦視覺。這兩項服務都能夠立即翻譯 100 多種語言。谷歌的翻譯服務已經使亞洲、非洲和歐洲的使用者受益,許多語言集中在相對較小的地理區域。
在過去的幾年裡,谷歌一半以上的翻譯工具包語言已提供離線使用。因此,這些神經網路驅動的翻譯不需要網路連線。
2. 臉書 3D 照片
不遺漏,技術巨頭 Meta(早期稱為 Facebook)也在為各種令人興奮的應用程式涉足電腦視覺。其中一種用途是將 2D 圖片轉換為 3D 模型。
Facebook 3D Photo 於 2018 年推出,最初需要一支帶有雙攝影鏡頭的智慧手機,來生成 3D 影像並建立深度圖。雖然這最初限制了該功能的受歡迎程度,但自那以經濟的價格出售的雙鏡頭攝影機手機的廣泛可用性,增加了這種電腦視覺功能的使用。
3D 照片將普通的二維照片變成 3D 影像。使用者可以在智慧手機上旋轉、傾斜或滾動,從不同角度檢視這些圖片。機器學習用於推斷影像中描繪的物體的 3D 形狀。透過這個過程,對圖片應用了逼真的 3D 效果。
Meta 使用的電腦視覺演算法的進步,使 3D 照片功能能夠應用於任何影像。 今天,人們可以使用中端的 Android 或 iOS 手機,將數十年前的圖片轉換為 3D,使該功能在 Facebook 使用者中很受歡迎。
Meta 並不是唯一的一家,探索電腦視覺在 2D 到 3D 影像轉換中的應用的公司。谷歌支援的 DeepMind 和 GPU 市場領導者英偉達,都在嘗試人工智慧系統,這些系統允許電腦從不同角度感知圖片,類似於人類的做法。
3. YOLO
YOLO 代表 You Only Look Once,是一個經過預先訓練的物件檢測模型,利用轉移學習。你可以將其用於許多應用程式,包括執行社交距離指南。
作為電腦視覺解決方案,YOLO 演算法可以即時檢測和辨識,視覺輸入中的物件。這是使用卷積神經網路實現的,可以同時預測不同的邊界框和類可能性。
顧名思義,YOLO 只能一次透過神經網路傳遞影像來檢測物件。該演算法在一個演算法執行中,完成了整個影像的預測。它還能夠快速有效地「學習」新事物,儲存物件表示的資料,並利用這些資訊進行物件檢測。
在新冠肺炎疫情高峰期,執行社交距離措施非常重要,但對於資源有限和人口眾多的司法管轄區來說極其困難。為瞭解決這個問題,世界一些地區的當局採用了電腦視覺解決方案,如 YOLO 來開發社交距離工具。
YOLO 可以跟蹤特定地理區域內的人,並判斷是否遵循了社交距離規範。它即時應用物件檢測和追蹤原則,以檢測違反社交距離的行為,並提醒相關當局。
在實踐中,YOLO 透過使用邊界框,捕獲視覺輸入中的每個人來工作。這些盒子的運動在框架內被追蹤,它們之間的距離不斷被重新計算。如果檢測到違反社交距離準則的行為,該演算法會突出顯示違規邊界框,並允許觸發進一步的操作。
4. Faceapp
Faceapp 是一個流行的影像操作應用程式,可以修改人臉的視覺輸入,以改變性別、年齡和其他特徵。這是透過深卷積生成對抗網路實現的,這是電腦視覺的一種特定子型別。
Faceapp 將臉部辨識的一個關鍵方面,影像辨識原則與深度學習相結合,以辨識顴骨、眼瞼、鼻樑和下頜線等關鍵臉部特徵。一旦這些功能在人臉上概述,應用程式就可以修改它們來轉換影像。
Faceapp 的工作原理,是從多個使用者的智慧手機上收集樣本資料,並將其輸入深層神經網路。這使系統能夠「學習」人臉外觀的每一個小細節。然後,這些學習被用來增強應用程式的預測能力,使其能夠模擬皺紋,修改髮際線,並對人臉的影像進行其他逼真的更改。
Faceapp 依靠電腦視覺來辨識模式。其人工智慧功能使其能夠使用從多個來源接收的資料,隨著時間的推移,效率不斷提高。Faceapp 在微觀層面,將臉部資訊從一張圖片,傳輸到另一張圖片。這導致了巨集觀層面令人印象深刻的功能,從而使應用程式能夠透過處理數百萬張使用者照片,來建立一個大型資料庫。
5. SentioScope
SentioScope 是由 Sentio 開發的健身和運動跟蹤系統。它主要作為足球的球員追蹤解決方案,處理現場比賽的實時視覺輸入。記錄的資料被上傳到基於雲的分析平台。
SentioScope 依靠 4K 相機設定來捕獲視覺輸入。然後,它處理這些輸入,以檢測玩家,並從他們的動作和行為中獲得即時見解。
這種電腦視覺驅動的解決方案,創造了一個足球場的概念模型,代表了二維世界中的遊戲。這個二維模型被劃分為密集空間單元格。每個單元格代表場上一個獨特的接地點,在影像中顯示為固定影像補丁。
SentioScope 由機器學習提供動力,並使用超過 10 萬個玩家樣本進行訓練。這使它能夠檢測到足球比賽鏡頭中的「玩家」細胞。可能演算法可以在多種具有挑戰性的可見性條件下發揮作用。
Sentio 是眾多致力於為電腦視覺注入體育訓練方案的公司之一。這些解決方案通常分析來自高解析度相機的即時提要,以追蹤移動的球,檢測玩家的位置,並記錄可用於提高球員和團隊效能的其他有用資訊。
檢視更多:機器學習的十大 Python 庫
當下電腦視覺的十大應用
儘管人眼的能力令人難以置信,但當今的電腦視覺正在努力追趕。以下是當下市場電腦視覺的十大應用。
1. 農業
傳統上,農業與尖端技術無關。 然而,過時的方法和工具正在慢慢從全球的農田中逐步淘汰。 今天,農民正在利用電腦視覺來提高農業生產力。
專門從事農業技術的公司正在開發先進的電腦視覺和人工智慧模型,用於播種和收穫目的。 這些解決方案也可用於除草、檢測植物健康和高階天氣分析。
電腦視覺在農業領域有許多現有和即將到來的應用,包括基於無人機的作物監測、農藥自動噴灑、產量追蹤,以及智慧作物分類和分類。這些人工智慧驅動的解決方案掃描作物的形狀、顏色和紋理以進行進一步分析。 透過電腦視覺技術,天氣記錄、林業資料和現場安全,也越來越多地被使用。
2. 自動駕駛車輛
2022年是自動駕駛汽車的一年。 特斯拉等市場主管者在電腦視覺和 5G 等先進技術的支援下,正在取得長足進展。
特斯拉的自動駕駛汽車使用多攝影機設定來分析周圍環境。這使車輛能夠為使用者提供高階功能,如自動駕駛儀。該車輛還使用 360° 攝影機,透過電腦視覺檢測和分類物體。
自動駕駛汽車的司機可以手動駕駛,也可以允許車輛做出自主決定。如果使用者選擇採用後一種安排,這些車輛將使用電腦視覺來參與高階流程,如路徑規劃、駕駛場景感知和行為仲裁。
3. 臉部辨識
雖然臉部辨識已經在個人層面使用,例如透過智慧手機應用程式,但公共安全行業也是臉部檢測解決方案的值得注意的驅動力。在公共場合檢測和辨識人臉是電腦視覺的有爭議的應用,在某些司法管轄區已經實施,在其他司法管轄區已被禁止。
成功的臉部檢測依賴於深度學習和機器視覺。電腦視覺演算法在公共場地檢測和捕獲人們臉部的影像。然後將這些資料傳送到後端系統進行分析。一種典型的大規模公眾臉部辨識解決方案,結合了分析和辨識演算法。
支持者支援電腦視覺驅動的臉部辨識,因為它可用於檢測和預防犯罪活動。 這些解決方案還具有追蹤安全任務特定人員的應用程式。
4. 人類姿勢追蹤
人類姿勢追蹤模型,使用電腦視覺來處理視覺輸入和估計人類姿勢。追蹤人類姿勢是適用於遊戲、機器人、健身應用程式,和物理治療等行業的另一種電腦視覺能力。
例如,Microsoft Kinect 遊戲裝置,可以透過使用人工智慧視覺準確地監控玩家的動作。它的工作原理是檢測人類骨骼關節,在 3D 平面上的位置,並辨識它們的運動。
5. 互動娛樂
數位娛樂意味著,觀眾不得不坐著觀看而不參與互動的日子,已經一去不復返了。今天,互動式娛樂解決方案利用電腦視覺,提供真正身臨其境的體驗。尖端娛樂服務使用人工智慧,允許使用者參與動態體驗。
例如,谷歌玻璃和其他智慧眼鏡,演示了使用者如何在觀看時,接收有關所看到的資訊。資訊直接傳送到使用者的視野。這些裝置還可以響應頭部移動和表示式的變化,使使用者只需移動頭部即可傳輸命令。
6. 醫學成像
醫療系統嚴重依賴模式檢測,和影像分類原則進行診斷。雖然這些活動主要由合格的醫療保健專業人員手動進行,但電腦視覺解決方案正在慢慢加強,以幫助醫生診斷醫療狀況。
電腦視覺技術在處理醫療影像方面的應用顯著增加。這在病理學、放射學和眼科中尤為普遍。透過電腦視覺進行視覺模式辨識,使 Microsoft InnerEye 等高階產品,能夠在越來越多的醫學專業中提供快速準確的診斷。
7. 製造業
製造業是現代世界技術最密集的工藝之一。電腦視覺在製造廠很受歡迎,通常用於人工智慧驅動的檢測系統。這種系統在研發實驗室和倉庫中普遍存在,使這些設施能夠更智慧、更有效地執行。
例如,預測性維護系統在其檢查系統中使用電腦視覺。這些工具透過不斷掃描環境,最大限度地減少機械故障和產品畸形。如果檢測到可能的故障或低品質產品,系統會通知人員,允許他們觸發進一步的行動。除此之外,工人在包裝和品質監控活動中,也使用電腦視覺。
多虧了工業 4.0 帶來的進步,電腦視覺也被用於自動化其他勞動密集型流程,如產品組裝和管理。AI 驅動的產品組裝最常見於電子產品等精緻商品的裝配線。特斯拉等公司正在實現工廠製造流程的完全自動化。
8. 零售管理
雖然無互動購物體驗始終是不可避免的未來,但新冠肺炎疫情無疑有助於加快零售業採用電腦視覺應用程式的速度。今天,亞馬遜等科技巨頭正在積極探索,如何利用人工智慧願景徹底改變零售業,讓客戶「帶走開」。
零售店已經在採用電腦視覺解決方案來監控購物者的活動,使損失預防非侵入性和客戶友好。電腦視覺也被用於分析客戶情緒和個性化廣告。除此之外,人工智慧驅動的願景解決方案正在被用於透過客戶保留計劃、庫存追蹤和產品放置策略評估,來最大限度地提高投資報酬率。
9. 教育
由於新冠肺炎疫情,遠端教育備受影響,教育技術行業也在利用電腦視覺進行各種應用。例如,教師使用電腦視覺解決方案,來非阻塞性地評估學習過程。這些解決方案使教師能夠辨識脫離接觸的學生,並調整教學過程,以確保他們不會被拋在後面。
除此之外,人工智慧願景正被用於學校後勤支援、知識獲取、出勤監測和定期評估等應用。一個常見的例子是支援電腦視覺的網路攝影機,這些網路攝影機用於在考試期間監控學生。這使得透過分析眼球運動和身體行為,更容易發現不公平的做法。
10. 交通
最後,電腦視覺系統正越來越多地用於提高運輸效率。例如,電腦視覺正被用來檢測交通訊號違規者,從而使執法機構能夠最大限度地減少不安全的在路上行為。
智慧感測和處理解決方案<也被用於檢測超速和錯誤駕駛違規行為<以及其他破壞性行為。除此之外,智慧交通系統正在使用電腦視覺進行交通流量分析。
檢視更多:人工智慧的型別是什麼:狹窄、通用和超級人工智慧解釋
要點
電腦視覺是一種突破性的技術,有許多令人興奮的應用。這個尖端的解決方案,使用我們每天生成的資料,來幫助電腦「看到」我們的世界,並為我們提供有用的見解,這將有助於提高整體生活品質。2022 年,電腦視覺有望釋放許多令人興奮的新技術的潛力,幫助我們過上更安全、更健康、更幸福的生活。
透過這篇文章,你對電腦視覺有了全面的瞭解嗎? 在 LinkedIn、推特或臉書上與我們分享你的想法,我們很樂意收到你的來信。
更多關於人工智慧的資訊
- 2021年十大開源人工智慧軟體
- 什麼是人工智慧(AI)作為一項服務? 定義、架構和趨勢
- 什麼是機器學習? 當前的定義、型別、應用程式和趨勢
- 21 大人工智慧軟體、工具和平台
- 到 2030 年,人工智慧將破壞最多的 10 個行業
沒有留言:
張貼留言