First Look at the AI Camera Systems at CES - WSJ

兩年前 CES 上的 AI 攝影機系統最初亮相 - 華爾街日報

當數位眼睛讓大腦匹配時會發生什麼？

我們通常將監控攝影機視為數位眼睛，根據你的看法監視我們或注意我們。但實際上，它們更像是舷窗：只有在有人透過它們查看時才有用。有時這意味著人類觀看即時畫面，通常來自多個影像來源。然而，大多數監控攝影機都是被動的。他們在那裡起到威懾作用，或者在出現問題時提供證據。例如當你的車被偷了？才會去檢查閉路電視。

但這種情況正在改變 —— 而且速度很快。人工智慧正在為監控攝影機提供數位大腦，來匹配他們的眼睛，讓他們無需人工就可以分析即時影像。這對於公共安全來說可能是個好消息，可以幫助警察和急救人員，更容易地發現犯罪和事故，並具有一系列科學和工業應用。但它也對隱私的未來提出了嚴重的問題，並對社會正義構成了新的風險。

當政府可以追踪大量使用閉路電視的人時會發生什麼？什麼時候警察可以透過將你的臉部照片上傳到數據庫中，以數位方式在城市中追踪你？或者當一個有偏見的算法，在你當地商場的攝影機上運行時，因為它不喜歡特定青少年群體的樣子，而對警察發出警告？

這些場景還有一段路要走，但我們已經看到了將人工智慧與監控相結合的初步成果。IC Realtime 就是一個例子。其旗艦產品於去年 12 月亮相，被稱為 Google for CCTV。這是一個名為 Ella 的應用 app 和網路平台，它使用 AI 來分析影像源中發生的事情，並使其立即可搜索。 Ella 可以辨識數十萬個自然語言查詢，讓用戶搜索鏡頭以查找顯示特定動物、穿著某種顏色衣服的人，甚至是個別汽車品牌和型號的剪輯。

在一個網路演示中，IC Realtime 首席執行官馬特·塞勒向 The Verge 展示了 Ella 的一個版本，該版本連接了大約 40 個監控工業園區的攝影機。他輸入了各種搜索詞 —— 「一個穿紅衣服的男人」、「UPS 貨車」、「警車」—— 所有這些搜索都在幾秒鐘內找到了相關的圖像。然後，他按時間段和位置縮小了結果範圍，並指出用戶如何對剪輯表示贊同或反對，以改善結果 —— 就像 Netflix 一樣。

「假設發生了一起搶劫，而你並不真正知道發生了什麼，」Sailor 說。「但後來有一輛吉普牧馬人向東飛馳。所以我們進去，我們搜索‘Jeep Wrangler’，它就在那裡。」在螢幕上，剪輯開始填充提要，顯示不同的吉普牧馬人滑過。 Sailor 解釋說，這將是結合 AI 和 CCTV 的第一個大優勢：讓你可以輕鬆找到所需內容。「如果沒有這項技術，你只知道你的攝影機，你必須篩選幾個小時和幾個小時的影片，」他說。

Ella 在 Google Cloud 上運行，可以從幾乎任何閉路電視系統中搜索鏡頭。「[它] 在單攝影機系統上運行良好 - 就像保姆攝影機或寵物攝影機 - 一直到企業，擁有數千個攝影機的矩陣，」Sailor 說。用戶將按月支付訪問費用，起價約為 7 美元，並隨著攝影機數量的增加而增加。

IC Realtime 希望針對各種規模的企業，但認為其技術也將吸引個人消費者。亞馬遜、羅技、Netgear 和谷歌旗下的 Nest 等公司，生產的「智慧」家庭安全攝影機市場蓬勃發展，這些客戶已經為這些客戶提供了良好的服務。但 Sailor 表示，這項技術比 IC Realtime 的技術還要簡陋得多。這些攝影機連接到家庭 Wi-Fi，並透過應用 app 提供即時流媒體，當他們看到有東西移動時，它們會自動記錄影像。但是，Sailor 說，他們無法區分闖入和鳥類之間的區別，從而導致很多誤報。「它們是已經存在多年的非常基礎的技術，」他說。「沒有人工智慧，就沒有深度學習。」

這種情況不會持續很長時間。雖然 IC Realtime 提供基於雲的分析，可以升級現有的啞攝影機，但其他公司正在將人工智慧直接建構到他們的硬體中。Boulder AI 就是這麽樣的一家新創公司，它使用自己的獨立 AI 攝影機銷售「視覺即服務」。將人工智慧整合到設備中的一大優勢，是它們不需要網路連接即可工作。Boulder 向廣泛的行業銷售產品，為個人客戶量身訂制其建構的機器視覺系統。

「這些應用真的無處不在，」創始人達倫奧多姆告訴The Verge。「我們的平台賣給了銀行、能源領域的公司。我們甚至有一個應用 app ，我們可以在其中查看比薩餅，確定它們的大小和形狀是否合適。」

奧多姆舉了一個愛達荷州客戶建造水壩的例子。為了符合環境法規，他們一直在監測在結構頂部上方的魚的數量。「他們曾經讓一個人坐在這個魚梯的窗戶旁，計算有多少鱒魚經過，」奧多姆說。（魚梯就像它聽起來的樣子：魚用來上坡的階梯水道。）「然後他們開始拍攝影像，有人[遠端]觀看它。」最後，他們聯繫了 Boulder，後者為他們建構了一個客製化的 AI CCTV 系統，以辨識魚梯上的魚的類型。「我們確實使用電腦視覺完成了魚類物種辨識，」奧多姆自豪地說。「我們現在 100% 可以在愛達荷州辨識鱒魚。」

如果 IC Realtime 代表市場的通用終端，那麼 Boulder 展示了精品承包商可以做的事情。然而，在這兩種情況下，這些公司目前提供的只是冰山一角。就像機器學習在辨識物體的能力方面，取得了迅速的進步一樣，分析場景、活動和動作的技能，也有望迅速提高。一切就緒，包括基礎研究、計算能力和訓練數據集 —— 這是創建合格 AI 的關鍵組成部分。兩個最大的影像分析數據集，是由 YouTube 和 Facebook 製作的，這兩家公司表示他們希望 AI 幫助審核其平台上的內容（儘管兩者都承認它還沒有準備好）。例如，YouTube 的數據集包含 450,000 多個小時的標記影像，希望能刺激「影像理解的創新和進步」。參與建構此類數據集的組織的廣度，使人們對該領域的重要性有所了解。谷歌、麻省理工學院、IBM 和 DeepMind 都參與了他們自己的類似項目。

IC Realtime 已經在研究臉部辨識等高級工具。之後，它希望能夠分析螢幕上發生的事情。 Sailor 說，他已經與教育領域的潛在客戶進行了交談，他們希望透過監控能夠辨識學生何時在學校遇到麻煩。「例如，他們對打架的搶先通知感到興趣，」他說。系統需要做的就是注意聚集在一起的學生，然後提醒一個人，他可以檢查影像源，以查看正在發生的事情或親自前往調查。

博爾德也在探索這種高級分析。它正在開發的一個原型系統，應該用來分析銀行中人們的行為。「我們專門尋找壞人，並找出正常演員和行為越界的人之間的區別，」奧多姆說。為此，他們使用舊的安全攝影機鏡頭來訓練他們的系統，以發現異常行為。但是這個影像很多都是低畫質的，所以他們也在拍攝自己的演員訓練鏡頭。奧多姆無法透露細節，但表示該系統將尋找特定的臉部表情和動作。「我們的演員正在做蹲伏、推搡、斜視等動作，」他說。

對於監控和人工智慧領域的專家來說，引入這些能力充滿了潛在的技術和道德困難。而且，就像人工智慧經常發生的情況一樣，這兩個類別是相互交織的。這是一個技術問題，機器無法像人類一樣理解世界，但是當我們假設它們可以並讓它們為我們做決定時，它就變成了一個道德問題。

卡內基梅隆大學專門研究此類電腦分析的教授 Alex Hauptmann 表示，儘管人工智慧近年來極大地推動了該領域的發展，但在讓電腦理解影像方面，仍然存在根本性挑戰。其中最大的挑戰，是我們不再經常考慮的攝影機的挑戰：解析度。

舉個例子，一個經過訓練可以分析影像中，人類行為的神經網路。這些工作透過將人體分解成部分 —— 手臂、腿、肩膀、頭部等 —— 然後觀察這些簡筆劃如何從一幀影像變為下一幀。由此，人工智慧可以告訴你，某人是否在跑步，或者是在梳頭。「但這取決於你擁有的影像的解析度，」豪普特曼告訴 The Verge。「如果我用一台攝影機觀察停車場的盡頭，我很幸運能分辨出是否有人打開了車門。如果你就在[攝影機]前彈吉他，它可以追踪到你的手指。」

這對 CCTV 來說是個大問題，因為攝影機經常是顆粒狀的，角度也很奇怪。Hauptmann 舉了一個例子，一個便利店裡的攝影機瞄準收銀台，但它也忽略了面向街道的窗戶。如果外面發生搶劫，部分被攝影機遮擋，那麼人工智慧就會被難住。「但是，作為普通人，我們可以想像正在發生的事情，並將其拼湊起來。電腦無法做到這一點，」他說。

同樣，雖然人工智慧非常擅長以相當高的水準辨識影像中發生的事情（例如，某人正在刷牙、看手機或踢足球），但它還不能提取重要的上下關聯。以可以分析人類行為的神經網路為例。它可能會看到錄影並說「這個人正在跑步」，但它無法告訴你他們是否因為公共汽車遲到，或因為他們剛剛偷了某人的手機而跑步。

這些準確性問題，應該讓我們對人工智慧新創公司的一些主張三思而後行。我們離電腦能夠以與人類相同的洞察力，理解它在影像中看到的東西的程度相去甚遠。（研究人員會告訴你這太難了，基本上是「解決」智力的代名詞。）但事情進展很快。

Hauptmann 說，使用車牌追踪來跟踪車輛是「一個已解決的實際問題」，受控環境中的臉部辨識也是如此。（使用低畫質閉路電視錄影，進行臉部辨識是另一回事。）辨識汽車和衣服等物品也非常可靠，並且可以透過多個攝影機自動跟踪一個人，但前提是條件合適。「你很擅長在不擁擠的場景中追踪個人 —— 但在擁擠的場景中，就別管它了，」豪普特曼說。他說，如果個人穿著不起眼的衣服，這尤其困難。

然而，即使是這些非常基本的工具，也可以在規模上產生強大的影響。中國提供了一個例子來說明這種情況。在最近的《華爾街日報》上，新疆西部地區當地維吾爾族的異議受到壓制，被稱為「高科技社會控制的實驗室」報告。在新疆，傳統的監控和民事控制方法與臉部辨識、車牌掃描儀、虹膜掃描儀和無處不在的閉路電視相結合，創造了一個「全面監控狀態」，在公共場所不斷追踪個人。在莫斯科，正在組裝類似的基礎設施，將臉部辨識軟體，插入一個由超過 100,000 個高解析度攝影機組成的集中系統，該系統覆蓋了該市 90% 以上的公寓入口。

在這種情況下，可能會形成一個良性循環，隨著軟體變得更好，系統會收集更多數據，這反過來又有助於軟體變得更好。「我認為這一切都會有很大改善，」Hauptmann 說。「它來了。」『3S MARKET：這就是所謂你可能聽到的機器學習的過程。』

如果這些系統正在工作中，那麼我們已經遇到了算法偏差等問題。這不是一個假設的挑戰。研究顯示，機器學習系統吸收了對它們進行編程的社會的種族和性別偏見 —— 從總是把女性放在廚房裡的圖像辨識軟體，到總是說黑人更有可能再次犯罪的刑事司法系統。如果我們使用舊鏡頭（例如閉路電視或警察隨身攝影機）訓練 AI 監控系統，那麼社會中存在的偏見很可能會長期存在。

紐約大學以道德為重點的 AI Now 研究所聯合主任梅雷迪思·惠特克 (Meredith Whittaker) 表示，這一過程已經在執法部門進行，並將擴展到私營部門。Whittaker 舉了 Axon（前身為 Taser）的例子，該公司收購了幾家 AI 公司，以幫助將影像分析建構到其產品中。「他們擁有的數據來自警察身上的攝影機，這些數據告訴我們很多關於個別警察可能會描述誰的資訊，但並沒有給我們一個完整的畫面，」惠特克說。「這有一個真正的危險，那就是我們正在普遍化有偏見的犯罪和犯罪圖片。」

ACLU 高級政策分析師傑伊·史丹利 (Jay Stanley) 表示，即使我們設法解決了這些自動化系統中的偏見，但這並不能使它們變得良性。他說，將閉路電視攝影機從被動觀察者轉變為主動觀察者，可能會對公民社會產生巨大的寒蟬效應。

「我們希望人們不僅自由，而且感到自由。這意味著他們不必擔心未知的、看不見的觀眾可能會如何解釋或誤解他們的每一個動作和話語，」史丹利說。「令人擔憂的是，人們將開始不斷地監控自己，擔心他們所做的一切都會被誤解並給他們的生活帶來負面影響。」

史丹利還表示，不準確的人工智慧監控產生的誤報，也可能導致執法人員與公眾之間發生更危險的對抗。例如，想想 Daniel Shaver 的槍擊案，在看到 Shaver 拿著槍後，一名警察被叫到德克薩斯州的一家旅館房間。警長查爾斯·蘭利（Charles Langley）按要求在地板上爬向他時，槍殺了拿剃鬚刀的人。有人看到剃鬚刀使用的槍，但那是用於害蟲防治工作的彈丸槍。

如果人類可以犯這樣的錯誤，那麼電腦有什麼機會呢？如果監控系統變得部分自動化，這種錯誤會變得更普遍還是更不常見？史丹利說：「如果技術在那裡，就會有一些警察部隊在那裡看著它。」

Whittaker 說，我們在這個領域看到的只是 AI 更大趨勢的一部分，我們使用這些相對粗糙的工具，來嘗試根據人們的形像對他們進行分類。她指出去年發表的有爭議的研究聲稱，能夠使用臉部辨識來辨識性行為，作為一個類似的例子。人工智慧結果的準確性值得懷疑，但批評者指出，它是否有效並不重要；人們是否相信它有效，並使用這些數據做出判斷很重要。

Whittaker 說：「讓我感到不安的是，很多這些系統都被注入我們的核心基礎設施，而沒有民主程序讓我們能夠就其有效性提出問題，或告知將要部署它們的人群。」「這是算法系統的又一個例子，該系統提供基於從嵌入文化和歷史偏見的數據中，提取的模式辨識來分類和確定個體類型。」

當我們向 IC Realtime 詢問 AI 監控如何被濫用的問題時，他們給出了一個在科技行業很常見的答案：這些技術是價值中立的，只有它們的實施方式和實施者，才能決定它們的好壞。「任何新技術都有可能落入壞人之手，」Sailor 說。「任何技術都是如此……我認為這方面的優點遠遠大於缺點。」