First Look at the AI Camera Systems at CES - WSJ
兩年前 CES 上的 AI 攝影機系統最初亮相 - 華爾街日報
當數位眼睛讓大腦匹配時會發生什麼?
我們通常將監控攝影機視為數位眼睛,根據你的看法監視我們或注意我們。但實際上,它們更像是舷窗:只有在有人透過它們查看時才有用。有時這意味著人類觀看即時畫面,通常來自多個影像來源。然而,大多數監控攝影機都是被動的。他們在那裡起到威懾作用,或者在出現問題時提供證據。例如當你的車被偷了?才會去檢查閉路電視。
但這種情況正在改變 —— 而且速度很快。人工智慧正在為監控攝影機提供數位大腦,來匹配他們的眼睛,讓他們無需人工就可以分析即時影像。這對於公共安全來說可能是個好消息,可以幫助警察和急救人員,更容易地發現犯罪和事故,並具有一系列科學和工業應用。但它也對隱私的未來提出了嚴重的問題,並對社會正義構成了新的風險。
當政府可以追踪大量使用閉路電視的人時會發生什麼?什麼時候警察可以透過將你的臉部照片上傳到數據庫中,以數位方式在城市中追踪你?或者當一個有偏見的算法,在你當地商場的攝影機上運行時,因為它不喜歡特定青少年群體的樣子,而對警察發出警告?
這些場景還有一段路要走,但我們已經看到了將人工智慧與監控相結合的初步成果。IC Realtime 就是一個例子。其旗艦產品於去年 12 月亮相,被稱為 Google for CCTV。這是一個名為 Ella 的應用 app 和網路平台,它使用 AI 來分析影像源中發生的事情,並使其立即可搜索。 Ella 可以辨識數十萬個自然語言查詢,讓用戶搜索鏡頭以查找顯示特定動物、穿著某種顏色衣服的人,甚至是個別汽車品牌和型號的剪輯。
在一個網路演示中,IC Realtime 首席執行官馬特·塞勒向 The Verge 展示了 Ella 的一個版本,該版本連接了大約 40 個監控工業園區的攝影機。他輸入了各種搜索詞 —— 「一個穿紅衣服的男人」、「UPS 貨車」、「警車」—— 所有這些搜索都在幾秒鐘內找到了相關的圖像。然後,他按時間段和位置縮小了結果範圍,並指出用戶如何對剪輯表示贊同或反對,以改善結果 —— 就像 Netflix 一樣。
「假設發生了一起搶劫,而你並不真正知道發生了什麼,」Sailor 說。 「但後來有一輛吉普牧馬人向東飛馳。所以我們進去,我們搜索‘Jeep Wrangler’,它就在那裡。」在螢幕上,剪輯開始填充提要,顯示不同的吉普牧馬人滑過。 Sailor 解釋說,這將是結合 AI 和 CCTV 的第一個大優勢:讓你可以輕鬆找到所需內容。 「如果沒有這項技術,你只知道你的攝影機,你必須篩選幾個小時和幾個小時的影片,」他說。
Ella 在 Google Cloud 上運行,可以從幾乎任何閉路電視系統中搜索鏡頭。 「[它] 在單攝影機系統上運行良好 - 就像保姆攝影機或寵物攝影機 - 一直到企業,擁有數千個攝影機的矩陣,」Sailor 說。用戶將按月支付訪問費用,起價約為 7 美元,並隨著攝影機數量的增加而增加。
IC Realtime 希望針對各種規模的企業,但認為其技術也將吸引個人消費者。亞馬遜、羅技、Netgear 和谷歌旗下的 Nest 等公司,生產的「智慧」家庭安全攝影機市場蓬勃發展,這些客戶已經為這些客戶提供了良好的服務。但 Sailor 表示,這項技術比 IC Realtime 的技術還要簡陋得多。這些攝影機連接到家庭 Wi-Fi,並透過應用 app 提供即時流媒體,當他們看到有東西移動時,它們會自動記錄影像。但是,Sailor 說,他們無法區分闖入和鳥類之間的區別,從而導致很多誤報。「它們是已經存在多年的非常基礎的技術,」他說。「沒有人工智慧,就沒有深度學習。」
這種情況不會持續很長時間。雖然 IC Realtime 提供基於雲的分析,可以升級現有的啞攝影機,但其他公司正在將人工智慧直接建構到他們的硬體中。Boulder AI 就是這麽樣的一家新創公司,它使用自己的獨立 AI 攝影機銷售「視覺即服務」。將人工智慧整合到設備中的一大優勢,是它們不需要網路連接即可工作。Boulder 向廣泛的行業銷售產品,為個人客戶量身訂制其建構的機器視覺系統。
「這些應用真的無處不在,」創始人達倫奧多姆告訴The Verge。「我們的平台賣給了銀行、能源領域的公司。我們甚至有一個應用 app ,我們可以在其中查看比薩餅,確定它們的大小和形狀是否合適。」
奧多姆舉了一個愛達荷州客戶建造水壩的例子。為了符合環境法規,他們一直在監測在結構頂部上方的魚的數量。「他們曾經讓一個人坐在這個魚梯的窗戶旁,計算有多少鱒魚經過,」奧多姆說。(魚梯就像它聽起來的樣子:魚用來上坡的階梯水道。)「然後他們開始拍攝影像,有人[遠端]觀看它。」最後,他們聯繫了 Boulder,後者為他們建構了一個客製化的 AI CCTV 系統,以辨識魚梯上的魚的類型。「我們確實使用電腦視覺完成了魚類物種辨識,」奧多姆自豪地說。「我們現在 100% 可以在愛達荷州辨識鱒魚。」
如果 IC Realtime 代表市場的通用終端,那麼 Boulder 展示了精品承包商可以做的事情。然而,在這兩種情況下,這些公司目前提供的只是冰山一角。就像機器學習在辨識物體的能力方面,取得了迅速的進步一樣,分析場景、活動和動作的技能,也有望迅速提高。一切就緒,包括基礎研究、計算能力和訓練數據集 —— 這是創建合格 AI 的關鍵組成部分。兩個最大的影像分析數據集,是由 YouTube 和 Facebook 製作的,這兩家公司表示他們希望 AI 幫助審核其平台上的內容(儘管兩者都承認它還沒有準備好)。例如,YouTube 的數據集包含 450,000 多個小時的標記影像,希望能刺激「影像理解的創新和進步」。參與建構此類數據集的組織的廣度,使人們對該領域的重要性有所了解。谷歌、麻省理工學院、IBM 和 DeepMind 都參與了他們自己的類似項目。
IC Realtime 已經在研究臉部辨識等高級工具。之後,它希望能夠分析螢幕上發生的事情。 Sailor 說,他已經與教育領域的潛在客戶進行了交談,他們希望透過監控能夠辨識學生何時在學校遇到麻煩。「例如,他們對打架的搶先通知感到興趣,」他說。系統需要做的就是注意聚集在一起的學生,然後提醒一個人,他可以檢查影像源,以查看正在發生的事情或親自前往調查。
博爾德也在探索這種高級分析。它正在開發的一個原型系統,應該用來分析銀行中人們的行為。 「我們專門尋找壞人,並找出正常演員和行為越界的人之間的區別,」奧多姆說。為此,他們使用舊的安全攝影機鏡頭來訓練他們的系統,以發現異常行為。但是這個影像很多都是低畫質的,所以他們也在拍攝自己的演員訓練鏡頭。奧多姆無法透露細節,但表示該系統將尋找特定的臉部表情和動作。「我們的演員正在做蹲伏、推搡、斜視等動作,」他說。
對於監控和人工智慧領域的專家來說,引入這些能力充滿了潛在的技術和道德困難。而且,就像人工智慧經常發生的情況一樣,這兩個類別是相互交織的。這是一個技術問題,機器無法像人類一樣理解世界,但是當我們假設它們可以並讓它們為我們做決定時,它就變成了一個道德問題。
卡內基梅隆大學專門研究此類電腦分析的教授 Alex Hauptmann 表示,儘管人工智慧近年來極大地推動了該領域的發展,但在讓電腦理解影像方面,仍然存在根本性挑戰。其中最大的挑戰,是我們不再經常考慮的攝影機的挑戰:解析度。
舉個例子,一個經過訓練可以分析影像中,人類行為的神經網路。這些工作透過將人體分解成部分 —— 手臂、腿、肩膀、頭部等 —— 然後觀察這些簡筆劃如何從一幀影像變為下一幀。由此,人工智慧可以告訴你,某人是否在跑步,或者是在梳頭。「但這取決於你擁有的影像的解析度,」豪普特曼告訴 The Verge。 「如果我用一台攝影機觀察停車場的盡頭,我很幸運能分辨出是否有人打開了車門。如果你就在[攝影機]前彈吉他,它可以追踪到你的手指。」
這對 CCTV 來說是個大問題,因為攝影機經常是顆粒狀的,角度也很奇怪。Hauptmann 舉了一個例子,一個便利店裡的攝影機瞄準收銀台,但它也忽略了面向街道的窗戶。如果外面發生搶劫,部分被攝影機遮擋,那麼人工智慧就會被難住。「但是,作為普通人,我們可以想像正在發生的事情,並將其拼湊起來。電腦無法做到這一點,」他說。
同樣,雖然人工智慧非常擅長以相當高的水準辨識影像中發生的事情(例如,某人正在刷牙、看手機或踢足球),但它還不能提取重要的上下關聯。以可以分析人類行為的神經網路為例。它可能會看到錄影並說「這個人正在跑步」,但它無法告訴你他們是否因為公共汽車遲到,或因為他們剛剛偷了某人的手機而跑步。
這些準確性問題,應該讓我們對人工智慧新創公司的一些主張三思而後行。我們離電腦能夠以與人類相同的洞察力,理解它在影像中看到的東西的程度相去甚遠。(研究人員會告訴你這太難了,基本上是「解決」智力的代名詞。)但事情進展很快。
Hauptmann 說,使用車牌追踪來跟踪車輛是「一個已解決的實際問題」,受控環境中的臉部辨識也是如此。(使用低畫質閉路電視錄影,進行臉部辨識是另一回事。)辨識汽車和衣服等物品也非常可靠,並且可以透過多個攝影機自動跟踪一個人,但前提是條件合適。「你很擅長在不擁擠的場景中追踪個人 —— 但在擁擠的場景中,就別管它了,」豪普特曼說。他說,如果個人穿著不起眼的衣服,這尤其困難。
然而,即使是這些非常基本的工具,也可以在規模上產生強大的影響。中國提供了一個例子來說明這種情況。在最近的《華爾街日報》上,新疆西部地區當地維吾爾族的異議受到壓制,被稱為「高科技社會控制的實驗室」報告。在新疆,傳統的監控和民事控制方法與臉部辨識、車牌掃描儀、虹膜掃描儀和無處不在的閉路電視相結合,創造了一個「全面監控狀態」,在公共場所不斷追踪個人。在莫斯科,正在組裝類似的基礎設施,將臉部辨識軟體,插入一個由超過 100,000 個高解析度攝影機組成的集中系統,該系統覆蓋了該市 90% 以上的公寓入口。
在這種情況下,可能會形成一個良性循環,隨著軟體變得更好,系統會收集更多數據,這反過來又有助於軟體變得更好。 「我認為這一切都會有很大改善,」Hauptmann 說。 「它來了。」『3S MARKET:這就是所謂你可能聽到的機器學習的過程。』
如果這些系統正在工作中,那麼我們已經遇到了算法偏差等問題。這不是一個假設的挑戰。研究顯示,機器學習系統吸收了對它們進行編程的社會的種族和性別偏見 —— 從總是把女性放在廚房裡的圖像辨識軟體,到總是說黑人更有可能再次犯罪的刑事司法系統。如果我們使用舊鏡頭(例如閉路電視或警察隨身攝影機)訓練 AI 監控系統,那麼社會中存在的偏見很可能會長期存在。
紐約大學以道德為重點的 AI Now 研究所聯合主任梅雷迪思·惠特克 (Meredith Whittaker) 表示,這一過程已經在執法部門進行,並將擴展到私營部門。Whittaker 舉了 Axon(前身為 Taser)的例子,該公司收購了幾家 AI 公司,以幫助將影像分析建構到其產品中。「他們擁有的數據來自警察身上的攝影機,這些數據告訴我們很多關於個別警察可能會描述誰的資訊,但並沒有給我們一個完整的畫面,」惠特克說。「這有一個真正的危險,那就是我們正在普遍化有偏見的犯罪和犯罪圖片。」
ACLU 高級政策分析師傑伊·史丹利 (Jay Stanley) 表示,即使我們設法解決了這些自動化系統中的偏見,但這並不能使它們變得良性。他說,將閉路電視攝影機從被動觀察者轉變為主動觀察者,可能會對公民社會產生巨大的寒蟬效應。
「我們希望人們不僅自由,而且感到自由。這意味著他們不必擔心未知的、看不見的觀眾可能會如何解釋或誤解他們的每一個動作和話語,」史丹利說。「令人擔憂的是,人們將開始不斷地監控自己,擔心他們所做的一切都會被誤解並給他們的生活帶來負面影響。」
史丹利還表示,不準確的人工智慧監控產生的誤報,也可能導致執法人員與公眾之間發生更危險的對抗。例如,想想 Daniel Shaver 的槍擊案,在看到 Shaver 拿著槍後,一名警察被叫到德克薩斯州的一家旅館房間。警長查爾斯·蘭利(Charles Langley)按要求在地板上爬向他時,槍殺了拿剃鬚刀的人。有人看到剃鬚刀使用的槍,但那是用於害蟲防治工作的彈丸槍。
如果人類可以犯這樣的錯誤,那麼電腦有什麼機會呢?如果監控系統變得部分自動化,這種錯誤會變得更普遍還是更不常見?史丹利說:「如果技術在那裡,就會有一些警察部隊在那裡看著它。」
Whittaker 說,我們在這個領域看到的只是 AI 更大趨勢的一部分,我們使用這些相對粗糙的工具,來嘗試根據人們的形像對他們進行分類。她指出去年發表的有爭議的研究聲稱,能夠使用臉部辨識來辨識性行為,作為一個類似的例子。人工智慧結果的準確性值得懷疑,但批評者指出,它是否有效並不重要;人們是否相信它有效,並使用這些數據做出判斷很重要。
Whittaker 說:「讓我感到不安的是,很多這些系統都被注入我們的核心基礎設施,而沒有民主程序讓我們能夠就其有效性提出問題,或告知將要部署它們的人群。」 「這是算法系統的又一個例子,該系統提供基於從嵌入文化和歷史偏見的數據中,提取的模式辨識來分類和確定個體類型。」
當我們向 IC Realtime 詢問 AI 監控如何被濫用的問題時,他們給出了一個在科技行業很常見的答案:這些技術是價值中立的,只有它們的實施方式和實施者,才能決定它們的好壞。「任何新技術都有可能落入壞人之手,」Sailor 說。「任何技術都是如此……我認為這方面的優點遠遠大於缺點。」
AKD 寰楚專業級全系列監控設備 |
0 comments:
張貼留言