Ella - intelligent video search engine
Ella - 智慧影像搜索引擎
來源: 至頂網
我們通常會認為,監控攝影機是數位化的眼睛,監視著我們,或者是為我們進行監視,具體是哪種情況取決於你的立場。但實際上,它們更像是舷窗:只有當有人透過它們看時才有用。
有時候這意味著,會有人監看監控影像,通常是同時監看多個影像窗口。然而,大多數監控攝影機都是被動的。它們在那裡作為一種威懾,或者在出現問題時提供證據。
但是,這種影像監控情況正在發生變化,而且變化的速度非常快。人工智慧給了監控攝影機,提供了能夠對應它們眼睛的大腦,讓它們能夠分析即時影像,而且不需要人類的干預。
對於公共安全來說,這可能是一個好消息,幫助警察和應急救助人員,能夠更容易地發現犯罪和事故,並且有一系列的科學和工業上的應用。但是這也對隱私的未來,引發了嚴重的問題,並給社會正義帶來了全新的風險。
如果政府可以使用閉路電視影像監控,跟蹤大量的人,會發生什麼情況?如果警察只要將你的臉部照片,上傳到數據庫,就可以對你進行,全城數位化跟蹤,又會怎麼樣?或者你所在當地的商場的攝影機上,運行的算法存在偏見,僅僅因為不喜歡某群青少年的樣子,就發出警報召喚警察,又會怎麼樣?
雖然這些情景的出現尚需時日,但是我們已經看到,將監控和人工智慧結合的初步成果了。IC Realtime 公司就是一個例子。該公司推出的旗艦產品,被谷歌用於閉路電視影像監控。這是一個應用及網路平台,名為 Ella,它使用人工智慧,對影像流中的內容進行分析,並使之可供即時搜索。
Ella 可以辨識,成千上萬的自然語言查詢,讓使用者能夠搜索鏡頭中的內容,找到包含了特定動物、穿著特定顏色衣物的人,甚至是包含了,某款特定汽車品牌或型號的剪輯圖像。
在一次網路演示中,IC Realtime 公司的首席執行官 Matt Sailor 向《The Verge》展示了 Ella 的一個版本,該版本連接了監控一個工業園區的大約 40 台監控攝影機。
他輸入了各種搜索內容 -- 「一個穿紅衣服的男人」、「UPS 貨車」、「警車」 -- 所有這些都在幾秒鐘內,提取出了相關的鏡頭。然後,他縮小和時間範圍和地點範圍,並指出使用者可以如何用拇指,向上和向下滑動改善結果 -- 就像 Netflix 一樣。
人工智慧監控,從可搜索影像開始
Sailor 表示:「假如有搶劫,你並不真的知道發生了什麼」。他表示,「但之後有一輛 Jeep Wrangler 向東飛馳而去。所以我們來搜索 Jeep Wrangler,然後就找到了。」
在螢幕上,開始出現影像剪輯,顯示不同的 Jeep Wrangler 從鏡頭前滑過。這將是人工智慧和閉路電視視影像監控,相結合的第一大優勢,Sailor 解釋說:讓你很容易找到你要找的東西。他表示:「如果沒有這種技術,你所能知道的不會比你的攝影機更多,而且你必須從數個小時、數個小時又數個小時的影像中篩選內容。」
Ella 運行在谷歌雲(Google Cloud)上,可以從幾乎任何閉路電視影像監控系統中搜索影像。Sailor 表示:「它在從單攝影機系統 -- 例如保姆攝影機或者狗仔攝影機 -- 一直到擁有成千上萬攝影機的企業級系統中,都能工作得很好。」用戶每月支付使用費用,起價為每個月 7 美元左右,總價會根據攝影機的數量增加。
IC Realtime 公司希望能夠,針對各種規模的企業,但該公司也認為其技術,也能夠吸引個人消費者。這些客戶已經透過「智慧」家庭監控攝影機市場的急速發展,得到了很好的服務,這些攝影機是由亞馬遜、羅技、Netgear,以及谷歌旗下的 Nest 之類的公司製造的。
但是 Sailor 表示說,這種技術和 IC Realtime 公司的技術相比,就太簡陋了。這些攝影機連接到家庭 WiFi 上,並透過應用 app,提供即時視訊流,當它們發現有東西在移動的時候,會自動地將影像記錄下來。
但是,Sailor 表示,它們無法區分闖入者和鳥類之間的差異,導致出現了很多誤報。他表示:「它們是非常基礎的技術,已經存在了很多年了。」他表示:「這裡沒有人工智慧,也沒有深度學習。」
這種情況不會持續很久了。雖然 IC Realtime 公司提供的,基於雲的分析功能,可以升級現有的、傻瓜式的攝影機,其他一些公司,則直接在他們的硬體中加入了人工智慧。Boulder AI 就是一家這樣的創業企業,該公司用自己的獨立人工智慧攝影機,推銷「視覺即服務」。
將人工智慧整合到設備中的一大優勢,是它們不需要網路連接就能工作。Boulder 公司廣泛地向各行各業進行銷售,為每家客戶量身打造機器視覺系統。
該公司的創始人 Darren Odom 對《The Verge》表示:「應用 app 真的是非常全面。」他表示:「我們的平台銷售給了銀行、能源公司。我們甚至有一個應用 app 可以觀察比薩餅,確定它們的大小和形狀是否正確。」
「我們現在能夠 100% 地辨識愛達荷州的鱒魚。」
Odom 舉了一個在愛達荷州,建造水壩的客戶的例子。為了符合環保法規,他們正在監測能夠越過,這個基礎設施頂部的魚類的數量。Odom 表示:「他們以前安排了一個人,坐在窗口看著魚梯,數著有多少鱒魚游過。」(顧名思義,魚梯指的就是一條階梯式的水槽,魚類可以通過這條水道奮力上游。)
「然後他們轉移到了影像技術,有人(遠端)進行監控。」最後,他們聯繫了 Boulder 公司,該公司為他們搭建了一個客製化的閉路電視監控系統,以確定通過魚梯上游的魚的類別。
Odom 自豪地表示:「我們真的使用電腦視覺,進行了魚類物種辨識。」 Odom 表示:「我們現在能夠 100% 地辨識愛達荷州的鱒魚。」
如果說 IC Realtime 代表了這個市場的通用一端,那麼 Boulder 公司就是展示了精品承包商的能力。不過,在這兩種情況之下,這些公司目前所能夠提供的,還僅僅是冰山一角。
就像機器學習在物體辨識的能力方面,取得迅速的進步一樣,它分析場景、活動和動作的能力,也有望迅速提高。一切都已經就位,包括基礎研究、計算能力和訓練數據集 -- 這是創建有能力的人工智慧的關鍵組成部分。
影像分析的兩個最大的數據集,來自 YouTube 和 Facebook,這兩家公司都曾經表示,希望人工智慧能夠幫助他們,節制平台上的內容(不過兩家公司也都承認,還沒有做好準備)。例如,YouTube 的數據集包含超過 45 萬小時帶標籤的影片,希望能夠刺激「視訊理解的創新和進步」。
參與建構此類數據集的組織的廣度,讓人對該領域的重要性有了一些瞭解。谷歌、麻省理工學院(MIT)、IBM 和 DeepMind 都參與進來,開啓了自己的類似項目。
IC Realtime 公司已經在開發,臉部辨識等高級工具了。之後,它希望能夠分析螢幕上正在發生的事情。Sailor 表示,他已經和教育行業潛在的客戶進行過交談,對方希望當學生在學校遇到麻煩的時候,監控能夠辨識出來。
他表示:「例如,他們對打架的迅速通知感興趣。」系統需要做的一切,就是注意聚集在一起的學生,然後提醒某個人,這樣他就可以檢查視訊內容,看看發生了什麼事情,或者親自去調查。
Boulder 公司也正在探索這種高級分析。該公司正在開發的一個原型系統的目標,是分析在銀行裡的人的行為。Odom 表示:「我們專門尋找壞人,並且探查一個正常人的行為,和越界的人的行為之間的區別。」 要想做到這一點,他們正在使用舊的安控攝影機,拍攝的影像來訓練他們的系統,以發現異常行為。
但是這種影像有很多的品質都非常低,所以他們也會找一些演員,來拍攝自己的訓練視訊片段。Odom 沒有詳細說明細節,,但表示該系統將尋找特定的臉部表情和行為。他表示:「我們的演員們會做一些類似蹲伏、推搡,以及回頭一撇之類的動作。」
對於監控和人工智慧方面的專家來說,這些功能的引入,充滿了技術和道德方面的潛在困難。而且,和人工智慧經常遇到的情況一樣,這兩個類別的困難,是彼此交織在一起的。機器不能像人類一樣理解這個世界,這是一個技術問題,但是當我們假設它們能夠做到這一點,並且讓它們為我們做決定時,這就變成了一個道德問題。
卡內基.梅隆大學的教授 Alex Hauptmann,專門從事這種電腦分析,他表示,儘管人工智慧近年來,已經在這一領域取得了巨大的進步,但是在讓電腦理解影像方面,仍然存在著非常根本性的問題。其中最大的一個就是攝影機的問題,這個問題我們已經不再會經常想到了:解析度。
最大的障礙非常常見:低解析度的影像
舉個例子來說,一個神經網路經過訓練,可以分析影像中的人類行為。這些工作是透過將人體細分為多個部分 -- 手臂、腿、肩膀、頭部等 -- 然後觀察這些小的部分,在影像中從一幀到另一幀的變化來進行的。
這樣,人工智慧可以告訴你,是否有人在跑步,或者是在梳頭髮。Hauptmann 對《The Verge》表示:「但是這取決於,你所擁有的影像的解析度。」
Hauptmann 表示:「如果我用一個攝影機對準停車場的盡頭,如果我能分辨出是否有人打開了車門,就算是非常幸運的了。如果你就站在(攝影機)前面彈吉他,它就可以跟蹤你每一根手指的動作。」
對於閉路電視監控系統來說,這是一個大問題,攝影機往往會有顆粒感,而角度也常常很怪異。Hauptmann 舉了一個便利店攝影機的例子,攝影機的目的是監控收銀機,但是它也監視著面向街道的窗子。如果外面發生了搶劫,攝影機的鏡頭有一部分被擋住了,那麼人工智慧可能就會卡住。
他表示:「但是我們作為人類,可以想像正在發生的事情,並且把它們拼湊在一起。可是電腦就做不到這一點。」
同樣,雖然人工智慧很好地辨識,影像中的相關事件(例如,某人正在刷牙、看手機或者踢足球),但仍不能提取重要的因果關係。以分析人類行為的神經網路為例,它可能會看到鏡頭並說「這個人正在跑步」,但它不能告訴你,他們之所以在跑步,是因為他們快要趕不上公共汽車了,還是因為他們偷了某人的手機。
這些關於準確度的問題,應該讓我們認真思考,一些人工智慧新創公司的宣言。我們現在還遠未接近這樣一個點:電腦透過觀看影像能夠獲得和人類一樣的見解。(研究人員可能會告訴你,要做到這一點可是太困難了,因為它基本上是「解決」智力問題的同義詞。)但是事情的發展速度非常快。
Hauptmann 表示,使用車牌跟蹤功能跟蹤車輛,是「一個已經得到解決的實際問題」,在受控設置中的臉部辨識也是一樣的。(使用低品質的閉路電視監控影像,進行臉部辨識就完全是另一回事了。)
對汽車和衣物等物品的辨識也非常可靠,在多台攝影機之間,自動跟蹤一個人也是可以實現,但前提是條件是正確的。
Hauptmann 表示:「在一個非擁擠的場景中,跟蹤一個人的效果可能非常好,但是在擁擠的場景中,還是算了吧。」他表示,如果這個人穿著的是不起眼的服裝,要做到這一點就特別難。
一些人工智慧監控任務已經解決了;另外一些還需要繼續努力
但是,即使是這些非常基本的工具,也可以產生非常強大的效果。比如在莫斯科,一個類似的基礎設施正在組裝,將臉部辨識軟體,插入到一個集中式系統中,該系統擁有超過 10 萬台高解析攝影機,覆蓋了這個城市 90% 以上的公寓入口。
在這種情況下,可能會有一個良性循環,隨著軟體越來越好,系統會收集更多的數據,從而幫助軟體變得更好。Hauptmann 表示:「我認為這一切都會有所改善。」他表示:「這種情況正在出現。」
如果這些系統已經在工作了,那麼我們就已經有了,像算法偏差這樣的問題。這可不是一個假設的挑戰。研究表示,機器學習系統吸收了,為它們編寫程序的社會的種族歧視,和性別歧視--從總是會將女性,放置在廚房的圖像辨識軟體;到總是說黑人,更容易再次犯罪的刑事司法系統,比比皆是。
如果我們使用舊的影像剪輯,來訓練人工智慧監控系統,例如採集自閉路電視影像監控,或者警察佩戴的攝影機的影像,那麼存在於社會中的偏見,就很可能會延續下去。
Meredith Whittaker 是紐約大學(NYU)關注道德的「AI Now」研究所的聯席主任,她表示,這個過程已經在執法過程出現了,並將擴展到私有部門。
Whittaker 舉出了 Axon(以前被稱為Taser)的例子,該公司收購了幾家人工智慧公司,以幫助其將影像分析功能,整合到產品中。
Whittaker 表示:「他們得到的數據,來自警察佩戴的攝影機,這些數據告訴了我們,很多關於單個警務人員,會關注誰的情況,但是並沒有給我們一個完整的描述。 」她表示:「這是一個真正的危險,我們正在將帶有偏見的犯罪,和罪犯的圖片普遍化。」
ACLU 高級政策分析師 Jay Stanley 表示,即使我們能夠解決這些自動化系統中的偏見,也不能使它們變得良性。他說,將閉路電視影像監控攝影機,從被動的觀察者,轉變為主動的觀察者,可能會對公民社會,產生巨大的不利影響。
「我們希望人們不僅僅擁有自由,還要感受到自由。」
Stanley 表示:「我們希望人們不僅僅擁有自由,還要感受到自由。這意味著他們不必擔心未知的、看不見的觀眾,會如何解釋或曲解,他們的每一個動作和話語。」 Stanley 表示:「要擔心的是人們會不斷地自我監控,擔心他們所做的一切,都會被曲解,並給他們的生活,帶來負面的後果。」
Stanley 還表示,不準確的人工智慧監控,發出的錯誤警報,也可能導致執法部門,和公眾之間更加危險的對抗。
比如說,想想看 Daniel Shaver 的槍擊事件吧,在看到 Shaver 拿著槍後,一名警察被叫到德克薩斯州的一個旅館房間裡。警長 Charles Langley,在 Shaver 按照他的要求趴在地面上時,開槍射殺了他。而 Shaver 被發現持有的槍,是一支粒丸槍,這是他用來從事他的害蟲控制工作的。
如果一個人可以犯這樣的錯誤,電腦還有什麼機會?而且,即使是監控系統變得部分自動化,這樣的錯誤會變得更加常見,還是更少?Stanley 表示:「如果技術出現在那裡,就會有一些警察不得不照看那裡。」
當人工智慧監控變得普及的時候,誰來管理這些算法呢?
Whittaker 表示,我們在這個領域看到的,只是人工智慧大趨勢的一部分,在這個趨勢中,我們使用這些相對粗糙的工具,嘗試著根據人們的形象,對他們進行分類。
她列舉了去年發表的一項有爭議的研究,作為一個類似的例子,該研究聲稱能夠透過臉部辨識,來確定性取向。人工智慧給出的結果的準確性值得懷疑,但批評人士指出,它是否有效並不重要;重要的是人們是否相信它有用,並且是否會仍然使用數據做判斷。
Whittaker 表示:「令我感到不安的是,許多這樣的系統,正在被注入我們的核心基礎設施之中,而且沒有讓我們可以提出關於有效性問題的民主程序,也沒有通知大家,將要佈署這些系統。」
Whittaker 表示:「這不過是正在出現的又一個新的例子:算法系統根據模式辨識,提供分類並確定個體類型,可是這些辨識模式是從數據中提取的,而這些數據裡,包含了文化和歷史的偏見。」
0 comments:
張貼留言