．人工智慧正在推動超級監控

Ella - intelligent video search engine

Ella - 智慧影像搜索引擎

來源：至頂網

我們通常會認為，監控攝影機是數位化的眼睛，監視著我們，或者是為我們進行監視，具體是哪種情況取決於你的立場。但實際上，它們更像是舷窗：只有當有人透過它們看時才有用。

有時候這意味著，會有人監看監控影像，通常是同時監看多個影像窗口。然而，大多數監控攝影機都是被動的。它們在那裡作為一種威懾，或者在出現問題時提供證據。

但是，這種影像監控情況正在發生變化，而且變化的速度非常快。人工智慧給了監控攝影機，提供了能夠對應它們眼睛的大腦，讓它們能夠分析即時影像，而且不需要人類的干預。

對於公共安全來說，這可能是一個好消息，幫助警察和應急救助人員，能夠更容易地發現犯罪和事故，並且有一系列的科學和工業上的應用。但是這也對隱私的未來，引發了嚴重的問題，並給社會正義帶來了全新的風險。

如果政府可以使用閉路電視影像監控，跟蹤大量的人，會發生什麼情況？如果警察只要將你的臉部照片，上傳到數據庫，就可以對你進行，全城數位化跟蹤，又會怎麼樣？或者你所在當地的商場的攝影機上，運行的算法存在偏見，僅僅因為不喜歡某群青少年的樣子，就發出警報召喚警察，又會怎麼樣？

雖然這些情景的出現尚需時日，但是我們已經看到，將監控和人工智慧結合的初步成果了。IC Realtime 公司就是一個例子。該公司推出的旗艦產品，被谷歌用於閉路電視影像監控。這是一個應用及網路平台，名為 Ella，它使用人工智慧，對影像流中的內容進行分析，並使之可供即時搜索。

Ella 可以辨識，成千上萬的自然語言查詢，讓使用者能夠搜索鏡頭中的內容，找到包含了特定動物、穿著特定顏色衣物的人，甚至是包含了，某款特定汽車品牌或型號的剪輯圖像。

在一次網路演示中，IC Realtime 公司的首席執行官 Matt Sailor 向《The Verge》展示了 Ella 的一個版本，該版本連接了監控一個工業園區的大約 40 台監控攝影機。

他輸入了各種搜索內容－－「一個穿紅衣服的男人」、「UPS 貨車」、「警車」－－所有這些都在幾秒鐘內，提取出了相關的鏡頭。然後，他縮小和時間範圍和地點範圍，並指出使用者可以如何用拇指，向上和向下滑動改善結果－－就像 Netflix 一樣。

人工智慧監控，從可搜索影像開始

Sailor 表示：「假如有搶劫，你並不真的知道發生了什麼」。他表示，「但之後有一輛 Jeep Wrangler 向東飛馳而去。所以我們來搜索 Jeep Wrangler，然後就找到了。」

在螢幕上，開始出現影像剪輯，顯示不同的 Jeep Wrangler 從鏡頭前滑過。這將是人工智慧和閉路電視視影像監控，相結合的第一大優勢，Sailor 解釋說：讓你很容易找到你要找的東西。他表示：「如果沒有這種技術，你所能知道的不會比你的攝影機更多，而且你必須從數個小時、數個小時又數個小時的影像中篩選內容。」

Ella 運行在谷歌雲（Google Cloud）上，可以從幾乎任何閉路電視影像監控系統中搜索影像。Sailor 表示：「它在從單攝影機系統－－例如保姆攝影機或者狗仔攝影機－－一直到擁有成千上萬攝影機的企業級系統中，都能工作得很好。」用戶每月支付使用費用，起價為每個月 7 美元左右，總價會根據攝影機的數量增加。

IC Realtime 公司希望能夠，針對各種規模的企業，但該公司也認為其技術，也能夠吸引個人消費者。這些客戶已經透過「智慧」家庭監控攝影機市場的急速發展，得到了很好的服務，這些攝影機是由亞馬遜、羅技、Netgear，以及谷歌旗下的 Nest 之類的公司製造的。

但是 Sailor 表示說，這種技術和 IC Realtime 公司的技術相比，就太簡陋了。這些攝影機連接到家庭 WiFi 上，並透過應用 app，提供即時視訊流，當它們發現有東西在移動的時候，會自動地將影像記錄下來。

但是，Sailor 表示，它們無法區分闖入者和鳥類之間的差異，導致出現了很多誤報。他表示：「它們是非常基礎的技術，已經存在了很多年了。」他表示：「這裡沒有人工智慧，也沒有深度學習。」

這種情況不會持續很久了。雖然 IC Realtime 公司提供的，基於雲的分析功能，可以升級現有的、傻瓜式的攝影機，其他一些公司，則直接在他們的硬體中加入了人工智慧。Boulder AI 就是一家這樣的創業企業，該公司用自己的獨立人工智慧攝影機，推銷「視覺即服務」。

將人工智慧整合到設備中的一大優勢，是它們不需要網路連接就能工作。Boulder 公司廣泛地向各行各業進行銷售，為每家客戶量身打造機器視覺系統。

該公司的創始人 Darren Odom 對《The Verge》表示：「應用 app 真的是非常全面。」他表示：「我們的平台銷售給了銀行、能源公司。我們甚至有一個應用 app 可以觀察比薩餅，確定它們的大小和形狀是否正確。」

「我們現在能夠 100％地辨識愛達荷州的鱒魚。」

Odom 舉了一個在愛達荷州，建造水壩的客戶的例子。為了符合環保法規，他們正在監測能夠越過，這個基礎設施頂部的魚類的數量。Odom 表示：「他們以前安排了一個人，坐在窗口看著魚梯，數著有多少鱒魚游過。」（顧名思義，魚梯指的就是一條階梯式的水槽，魚類可以通過這條水道奮力上游。）

「然後他們轉移到了影像技術，有人（遠端）進行監控。」最後，他們聯繫了 Boulder 公司，該公司為他們搭建了一個客製化的閉路電視監控系統，以確定通過魚梯上游的魚的類別。

Odom 自豪地表示：「我們真的使用電腦視覺，進行了魚類物種辨識。」 Odom 表示：「我們現在能夠 100％地辨識愛達荷州的鱒魚。」

如果說 IC Realtime 代表了這個市場的通用一端，那麼 Boulder 公司就是展示了精品承包商的能力。不過，在這兩種情況之下，這些公司目前所能夠提供的，還僅僅是冰山一角。

就像機器學習在物體辨識的能力方面，取得迅速的進步一樣，它分析場景、活動和動作的能力，也有望迅速提高。一切都已經就位，包括基礎研究、計算能力和訓練數據集－－這是創建有能力的人工智慧的關鍵組成部分。

影像分析的兩個最大的數據集，來自 YouTube 和 Facebook，這兩家公司都曾經表示，希望人工智慧能夠幫助他們，節制平台上的內容（不過兩家公司也都承認，還沒有做好準備）。例如，YouTube 的數據集包含超過 45 萬小時帶標籤的影片，希望能夠刺激「視訊理解的創新和進步」。

參與建構此類數據集的組織的廣度，讓人對該領域的重要性有了一些瞭解。谷歌、麻省理工學院（MIT）、IBM 和 DeepMind 都參與進來，開啓了自己的類似項目。

IC Realtime 公司已經在開發，臉部辨識等高級工具了。之後，它希望能夠分析螢幕上正在發生的事情。Sailor 表示，他已經和教育行業潛在的客戶進行過交談，對方希望當學生在學校遇到麻煩的時候，監控能夠辨識出來。

他表示：「例如，他們對打架的迅速通知感興趣。」系統需要做的一切，就是注意聚集在一起的學生，然後提醒某個人，這樣他就可以檢查視訊內容，看看發生了什麼事情，或者親自去調查。

Boulder 公司也正在探索這種高級分析。該公司正在開發的一個原型系統的目標，是分析在銀行裡的人的行為。Odom 表示：「我們專門尋找壞人，並且探查一個正常人的行為，和越界的人的行為之間的區別。」要想做到這一點，他們正在使用舊的安控攝影機，拍攝的影像來訓練他們的系統，以發現異常行為。

但是這種影像有很多的品質都非常低，所以他們也會找一些演員，來拍攝自己的訓練視訊片段。Odom 沒有詳細說明細節，，但表示該系統將尋找特定的臉部表情和行為。他表示：「我們的演員們會做一些類似蹲伏、推搡，以及回頭一撇之類的動作。」

對於監控和人工智慧方面的專家來說，這些功能的引入，充滿了技術和道德方面的潛在困難。而且，和人工智慧經常遇到的情況一樣，這兩個類別的困難，是彼此交織在一起的。機器不能像人類一樣理解這個世界，這是一個技術問題，但是當我們假設它們能夠做到這一點，並且讓它們為我們做決定時，這就變成了一個道德問題。

卡內基．梅隆大學的教授 Alex Hauptmann，專門從事這種電腦分析，他表示，儘管人工智慧近年來，已經在這一領域取得了巨大的進步，但是在讓電腦理解影像方面，仍然存在著非常根本性的問題。其中最大的一個就是攝影機的問題，這個問題我們已經不再會經常想到了：解析度。

最大的障礙非常常見：低解析度的影像

舉個例子來說，一個神經網路經過訓練，可以分析影像中的人類行為。這些工作是透過將人體細分為多個部分－－手臂、腿、肩膀、頭部等－－然後觀察這些小的部分，在影像中從一幀到另一幀的變化來進行的。

這樣，人工智慧可以告訴你，是否有人在跑步，或者是在梳頭髮。Hauptmann 對《The Verge》表示：「但是這取決於，你所擁有的影像的解析度。」

Hauptmann 表示：「如果我用一個攝影機對準停車場的盡頭，如果我能分辨出是否有人打開了車門，就算是非常幸運的了。如果你就站在（攝影機）前面彈吉他，它就可以跟蹤你每一根手指的動作。」

對於閉路電視監控系統來說，這是一個大問題，攝影機往往會有顆粒感，而角度也常常很怪異。Hauptmann 舉了一個便利店攝影機的例子，攝影機的目的是監控收銀機，但是它也監視著面向街道的窗子。如果外面發生了搶劫，攝影機的鏡頭有一部分被擋住了，那麼人工智慧可能就會卡住。

他表示：「但是我們作為人類，可以想像正在發生的事情，並且把它們拼湊在一起。可是電腦就做不到這一點。」

同樣，雖然人工智慧很好地辨識，影像中的相關事件（例如，某人正在刷牙、看手機或者踢足球），但仍不能提取重要的因果關係。以分析人類行為的神經網路為例，它可能會看到鏡頭並說「這個人正在跑步」，但它不能告訴你，他們之所以在跑步，是因為他們快要趕不上公共汽車了，還是因為他們偷了某人的手機。

這些關於準確度的問題，應該讓我們認真思考，一些人工智慧新創公司的宣言。我們現在還遠未接近這樣一個點：電腦透過觀看影像能夠獲得和人類一樣的見解。（研究人員可能會告訴你，要做到這一點可是太困難了，因為它基本上是「解決」智力問題的同義詞。）但是事情的發展速度非常快。

Hauptmann 表示，使用車牌跟蹤功能跟蹤車輛，是「一個已經得到解決的實際問題」，在受控設置中的臉部辨識也是一樣的。（使用低品質的閉路電視監控影像，進行臉部辨識就完全是另一回事了。）

對汽車和衣物等物品的辨識也非常可靠，在多台攝影機之間，自動跟蹤一個人也是可以實現，但前提是條件是正確的。

Hauptmann 表示：「在一個非擁擠的場景中，跟蹤一個人的效果可能非常好，但是在擁擠的場景中，還是算了吧。」他表示，如果這個人穿著的是不起眼的服裝，要做到這一點就特別難。

一些人工智慧監控任務已經解決了；另外一些還需要繼續努力

但是，即使是這些非常基本的工具，也可以產生非常強大的效果。比如在莫斯科，一個類似的基礎設施正在組裝，將臉部辨識軟體，插入到一個集中式系統中，該系統擁有超過 10 萬台高解析攝影機，覆蓋了這個城市 90％以上的公寓入口。

在這種情況下，可能會有一個良性循環，隨著軟體越來越好，系統會收集更多的數據，從而幫助軟體變得更好。Hauptmann 表示：「我認為這一切都會有所改善。」他表示：「這種情況正在出現。」

如果這些系統已經在工作了，那麼我們就已經有了，像算法偏差這樣的問題。這可不是一個假設的挑戰。研究表示，機器學習系統吸收了，為它們編寫程序的社會的種族歧視，和性別歧視－－從總是會將女性，放置在廚房的圖像辨識軟體；到總是說黑人，更容易再次犯罪的刑事司法系統，比比皆是。

如果我們使用舊的影像剪輯，來訓練人工智慧監控系統，例如採集自閉路電視影像監控，或者警察佩戴的攝影機的影像，那麼存在於社會中的偏見，就很可能會延續下去。

Meredith Whittaker 是紐約大學（NYU）關注道德的「AI Now」研究所的聯席主任，她表示，這個過程已經在執法過程出現了，並將擴展到私有部門。

Whittaker 舉出了 Axon（以前被稱為Taser）的例子，該公司收購了幾家人工智慧公司，以幫助其將影像分析功能，整合到產品中。

Whittaker 表示：「他們得到的數據，來自警察佩戴的攝影機，這些數據告訴了我們，很多關於單個警務人員，會關注誰的情況，但是並沒有給我們一個完整的描述。」她表示：「這是一個真正的危險，我們正在將帶有偏見的犯罪，和罪犯的圖片普遍化。」

ACLU 高級政策分析師 Jay Stanley 表示，即使我們能夠解決這些自動化系統中的偏見，也不能使它們變得良性。他說，將閉路電視影像監控攝影機，從被動的觀察者，轉變為主動的觀察者，可能會對公民社會，產生巨大的不利影響。

「我們希望人們不僅僅擁有自由，還要感受到自由。」

Stanley 表示：「我們希望人們不僅僅擁有自由，還要感受到自由。這意味著他們不必擔心未知的、看不見的觀眾，會如何解釋或曲解，他們的每一個動作和話語。」 Stanley 表示：「要擔心的是人們會不斷地自我監控，擔心他們所做的一切，都會被曲解，並給他們的生活，帶來負面的後果。」

Stanley 還表示，不準確的人工智慧監控，發出的錯誤警報，也可能導致執法部門，和公眾之間更加危險的對抗。

比如說，想想看 Daniel Shaver 的槍擊事件吧，在看到 Shaver 拿著槍後，一名警察被叫到德克薩斯州的一個旅館房間裡。警長 Charles Langley，在 Shaver 按照他的要求趴在地面上時，開槍射殺了他。而 Shaver 被發現持有的槍，是一支粒丸槍，這是他用來從事他的害蟲控制工作的。

如果一個人可以犯這樣的錯誤，電腦還有什麼機會？而且，即使是監控系統變得部分自動化，這樣的錯誤會變得更加常見，還是更少？Stanley 表示：「如果技術出現在那裡，就會有一些警察不得不照看那裡。」

當人工智慧監控變得普及的時候，誰來管理這些算法呢？

Whittaker 表示，我們在這個領域看到的，只是人工智慧大趨勢的一部分，在這個趨勢中，我們使用這些相對粗糙的工具，嘗試著根據人們的形象，對他們進行分類。

她列舉了去年發表的一項有爭議的研究，作為一個類似的例子，該研究聲稱能夠透過臉部辨識，來確定性取向。人工智慧給出的結果的準確性值得懷疑，但批評人士指出，它是否有效並不重要；重要的是人們是否相信它有用，並且是否會仍然使用數據做判斷。

Whittaker 表示：「令我感到不安的是，許多這樣的系統，正在被注入我們的核心基礎設施之中，而且沒有讓我們可以提出關於有效性問題的民主程序，也沒有通知大家，將要佈署這些系統。」

Whittaker 表示：「這不過是正在出現的又一個新的例子：算法系統根據模式辨識，提供分類並確定個體類型，可是這些辨識模式是從數據中提取的，而這些數據裡，包含了文化和歷史的偏見。」