【編者按】本文來自Medium,原作者Noah Norman。
這篇文章是基於Mark Domino 和Jasper Speicher 2009 年的談話昇華而成。現在儘管硬體方面有所進步,但和那時候相比並沒多大改變。
現在我給出一個結論:增強現實的發展很像早期的網際網路。增強現實正處於潛在的變革上,也面臨著和早期網際網路相同的問題。我會指出其中的一些陷阱。
現在正是技術增長的轉折期:作為個體而言,很難做出很有影響力的決策。我們全體選擇了一條道路,出於私有產權而束縛技術的發展,限制了它改變生活的可能性。
這篇文章最重要的基礎假設是:忽視所有權,在不久的將來增強現實會無處不在,始終開放,會如同現在的智慧手機一樣被廣泛採用。從硬體的角度來說,這可能意味著增強眼鏡、隱形眼鏡、車裡的擋風玻璃、大腦植入、栓劑(suppositories)或者你有的東西。
如果你不是在這個前提下和我探討,那麼下面的的內容將對你沒什麼關係。也許有一天這兒會出現關於這個前提的討論,但對我來說這個結論已經不需要爭辯了。
在這個信仰之外,我也套用Nick Bostrom 的話:這篇文章裡的許多假設可能是錯誤的,但我不知道是哪一個。
| 與早期網路相比
對現在而言,增強現實無論是嵌入到可穿戴設備中,還是以「魔法鏡子」或手機窺視鏡的方式,它在部署和消費方面都很像早期網路的佈局。主要是,消費級增強現實系統被設計為在一個時間內只運行一個程式,而那時候的網路應用程式,也是在一個時間裡只能連接一個系統或數據模型。
相對應在內容創作方面,創作者必須給每個應用單獨創作內容。如果我想給Layar AR 平臺創造內容,我必須基於他們的使用者介面後端(這不是可擴展的方法),然後根據這個目標提供一個版本。如果我想對Aurasma、Wikitude或BrowsAR 做同樣的事,或者做其他的標記來追蹤,我需要重新給每個平臺設計。
網路的早期應用,在某種程度而言有非常多的限制。上個世紀90 年代,如果你想傳輸檔給一個用戶,你得先打電話給他,讓他們準備好,啟動和收件相關的程式,通過撥號連線聯繫到對方,然後傳輸檔。而如果我想和他們聊天,我需要斷開連接,打電話給他們讓他們啟動聊天應用程式,關閉收發程式,然後才可以聊天。
早期網路的部分力量,在於它使得任意的內容,可以在任何地方進行演示。這個能力從HTML 開始,Tim Berners-Lee 採用了已被接受的標準SGML。不久後流覽器誕生了,從1992 年基於文本的流覽器Lynx 的到來開始。
正是這種內容和表現形式的分離,才有可能創造現在被稱為網路的生態系統。
也正是在這樣的背景下,創新的推動和標準化的發生,才帶給我們現在的流覽器:可以同時運行多種程式,有功能齊全的應用以及獨立於流覽器的設計。
這並不是說,人們致力於圍繞網路各大平臺,做專門化的設計是沒有價值的。必須強調的是,現在的情況有些跳躍,超越對當前創造物和增強現實內容的思考。現在是一場競賽,去定義最具有實力的平臺,並希望它能夠成為事實上的標準。通過這樣做,這些早期進入者希望能圍繞封閉系統,定義自己的市場。
| 但問題顯然更大
這些問題可以被解決,通過對網頁和3D 圖形標準化,建立靈活的標記語言,給AR 流覽器開放SDK,並使之和內容彼此獨立。這將是尋求共識的挑戰,但這不是在重新發明輪子,事實上他們已經在這兒了。
廣泛採用一種標記語言是可以想像的,而且很可能會出現一個或多個獨立於內容的AR 流覽器(更重要的是,也獨立於硬體),這就像我們現在基於螢幕的網路內容。
更大的問題來自於現實擴增(真實增強)現實應用,對內容的感知能力。使用者在網路中的輸入,限制在鍵盤和滑鼠,但AR 應用被期待能夠對我們的思想做出反應。AR的硬體必須轉播AR 軟體的內容,並且連接到系統裡從各個感測器的輸入:視覺輸入、音訊輸入、語音命令、地理資訊等。
但這樣的系統會對資訊流做什麼事情?當然,你可以想像一個應用程式做一些和你的位置和方向相關的工作,並且在頭戴式設備中進行地圖標記,但我們現在就有了,而且這非常無聊。
在網路的情況下,搜索通過超連結,能夠對文本輸入訪問遠端託管的內容。以AR 作為等價的類比,但在“搜索”這個環節就失敗了。就結果而言,我們在AR 操作中並沒有滑鼠,所有輸入到搜索裡面的,是視覺和感測器的數據,而非小心輸入的文本資訊。所以超連結往往不管用。
在最普遍的意義上,AR搜索是必須的,作為第一步,要把我們大腦所想的和資訊做到一致。聽起來很簡單麼?並不是這樣。
| 教機器以語義
要教會機器辨識它看到的東西,這裡面有一百萬個難題。我不打算把它們一一列舉出來,部分是因為我不夠資格,另外也因為這篇文章並不是直接關於機器學習和電腦視覺。
這是關於未來的重要難題。當機器能夠辨識出東西,或者一個具體的實例、地點和接近使用者的其他人,這都是AR 未來的問題。
當一個AR 系統解決了它看到的問題,這就能夠給刺激帶來反應鏈,導致系統實際上給你的周圍增加新的場景。例如,當指向我的AR 隱形眼鏡的時候,它會採集一些顏色的資訊,也許會有一些深度資訊(3D),一些規模資訊(上下文),地理資訊,聲音、溫度、高度等,然後根據這些資訊來辨識出物體。
目前來說,小規模的作者驅動的AR 系統,需要內容創造者在創造時,輸入3D 模型和2D 文本。應用程式在這個時候,會搜索輸入的視訊流,看這些物體的文本和資料庫中哪些物品能夠匹配上。而當它能夠辨識出一個的時候,就給出設計好的回應。這些回應是有限的,在大多數情況下,對視訊或3D 內容在預先定義的空間關係上,進行疊加或者辨識。
為瞭解當前系統固有的問題,增強現實反應和輸入之間的對應關係,取決於個人作者的決定。在這個封閉系統裡,我們來看看關於這些的案例,裡面有很多的利益相關者。
在我們的假設下,未來不依賴於內容的AR 流覽器,會在各種各樣的硬體上運行。當我們看著一個可樂瓶的時候會發生什麼?首先,這兒會有很大的光澤,而下面會更多,系統會像我們的大腦一樣,辨識出這個罐子,並且說道:「這兒有一件你的東西,屬於可樂罐的類別,甚至可能會有更多的資訊,例如凹陷的、打開的、生產於亞特蘭大,2017年11 月過期等。」
更重要的是,這是一個象徵性的辨識,相比於現在的文本檢索,更抽象也更強大。
作為最近的例子,Google發佈了Cloud Vision API,使用機器學習的方法進行圖像辨識。這很像Google Goggles 過去做的,給實際的圖像添加標籤,給地圖添加座標,進行人臉辨識和OCR。給這些辨識進行堆疊,並且配對置信分數,通過Rest API 得到回饋。
通過這項服務,開發人員可以利用Google 的能力以確定內容圖像。我們可以看到圖像辨識的能力還會進一步擴大,隨著系統給更多的具體物品建立標籤,甚至對世界的名字進行連結的分類,例如把WordNet 和ImageNet 聯繫起來。
不管執行情況怎樣,我們做出一個關鍵的決策:下一步會發生什麼?當系統辨識出可口可樂的存在後,會展現出什麼?請記住,未來這些系統已經得到普遍和廣泛的使用,難道不應該發生些事情嗎?
可口可樂的廣告,一下子就顯得有生命起來了。可能是一段AR 的效果展現在可樂瓶上面,或者一群美麗的家人,以3D 的形式聚集起來,拿著自己的可樂瓶向你致敬?或者百事可樂的廣告在前面出現,遮擋住可口可樂的品牌?
對我來說,可以運行一個AR 廣告遮罩的外掛程式嗎?或者購買服務,以減少程式的贊助商內容?當我訪問時代廣場並且抬頭看到三星的看板,我能看到一個「真的」看板嗎?
那麼,你周圍人的臉呢?你從螢幕上閱讀的文字?公寓裡的牆壁?你都能得到圖片。
問題的複雜性在於,一個彈出的畫面可能會不安全。假如說我在駕駛公車,那麼這些事情的解釋就不是文字那麼簡單。這些複雜的因素會對我們的行為影響很大。
問題在於我們擁有的語義學上,或者在更大的意義上說,網路符號學。讓系統辨識符號看起來有點瑣碎,相比於一些更複雜的問題,例如涉及到環境中物體的意義,這背後還有智慧財產權的問題。
而當所有權和網路空間的智慧財產權結合在一起,這裡面的問題就遠多於其他方面。這會逐漸變得Ugly。
| 話語權的問題
對於那些關注者來說,這個問題可能聽起來很熟悉。DNS的基礎是廣泛採用的協議,它由非政府組織ICANN 管理,這是總部設在美國的非盈利組織。它具有對URL 語義專屬的解釋權,而且也對應到網路協議的空間。它沒有什麼排他性,這成為了網路的基礎,創造了通用文本的白皮書,由於它和現實情況關於商標、產權等案例的相似性,網路協訂能夠根據它解決問題。
不過我不相信,這些涉及到商標、知識產區和隱私糾紛的事,會很容易擴展到VR 的領域。
關於所有權的話語權問題,正如很多東西一樣,背後都有一些共同的利益,通過主導和遊說律師,最終落在了私人手裡。我不需要對此過多解釋,但這不是最好的結果。不過為了使可能性成為可能,系統需要設計為依賴於有話語權的中央權威,而背後有利潤的動機。
沒有發生和DNS 相似的事情,因為還沒有人意識到坐在ICANN 的位置上會帶來多少價值,直到已經為時尚晚。這並不意味著這不會發生,有一個猜測是,微軟在生產AR 硬體的興趣上,其利潤可能不局限於設備本身。這不是他們玩的遊戲。他們和Magic
Leap 希望擁有自己的傳輸管道,所有東西從生產到內容到分發,都通過這裡進行。你也可以對Google 最新的CV 服務做類似的假設。
這給我們帶來了技術背後的支撐,不依賴於文本、感測器驅動、上下文感知、總是運行的消費者端AR 系統,這些問題的解決是非常重要的,最早這麼做的也許能獲得那個聖杯。
| 沒有鍵盤的作業系統
正如Google 演示的一樣,能夠運行各種隨意代碼的流覽器,和作業系統的區別是不多的。就像一些作業系統需要使用Windows 管理,來保證GUIs 運行的不錯,我們的AR 系統也在確保內容以一種好的方式來展現,考慮到我們的喜好以及大腦感測器的頻寬。
例如說,你對於邊開車邊聽紐約時報表示完全的舒適,甚至在你視野的角落上,有一個小的視訊聊天視窗也可以。但當你在高速公路疾馳的時候,你完全不想要更多的東西。相反,當你在家裡的時候,你也許會願意接受更為沉浸式的體驗,但你也不會希望視窗彈出:你的煤氣帳單該交了。
在一個用戶定義的背景下,這有點像今天智慧手機裡的許可權(Permissions)。我們可以給特定的應用程式訪問我們的注意力的許可權,而我們的螢幕也會在特定的情況下彈出提醒。這是一個開始,尤其是一些流覽器自己能提供通知和許可權設置,這也是通常作業系統的功能。
先不管輸出的問題,作業系統的任務如何接收感測器的輸入和上下文資訊?別忘了我們沒有鍵盤和滑鼠,我們都是通過自己對世界的感知,來驅動這個系統。
| 兩種途徑
正如我們常年期望電影CGI 的智慧,能夠超越即時系統能提供的,它將持續超越使用者端系統的能力,以掌握視覺處理和任務搜索,以感知周圍的世界,滿足我們對速度、正確率和頻寬不斷增長的期待。
這意味著我們的設備會部署在一個低延遲、高頻寬的連接上。他們會通過刺激和上下文的理解,對使用者的狀態、連絡人、歷史、喜好和習慣進行反應,就像當下設備和互聯網做的那樣。
由於這些限制,到目前為止,所有潛在的方法都是相同的。在返回結果的性質上,可能會出現問題,而問題的核心在於所有權和利潤的動機。
在AR 生態系統裡,識別服務是由一個非盈利或其他中立的實體組織提供,伺服器會不斷吸收這些資訊流,並且從提供的零散聯結刺激中進行推斷。
這是一輛自行車。那是124鷹街。那是你的朋友Willy。那是西方。這是一輛卡車。那是街。這是石頭。這是一個交通燈,它是綠色的。
這些離散標記的集合,會通過管道返回到硬體裡,作為對世界的標記,然後準備好在使用者的應用程式裡得到解釋。
這意味著刺激的辨識以及增強現實解釋,通過用戶端的代碼可以持續的作用,就像現在網路做的一樣。在一個物理分散式的網路中,相同的組織會被某些廣泛聯繫、同意授權的DNS 控制。關鍵是,這意味著辨識和解釋的任務,是被分離的。
當然,這樣的處理能力會給供應商帶來巨大的成本,無論是開發還是經營費用。因此,必須使得供應商通過某些方式收回成本。在ICANN 的情況下,這項服務是通過非盈利組織來提供的,現在看起來運行的還不錯。它會象徵性的收取註冊費用,而最近它也拍賣了一些頂層網域名。
我們正在討論的系統類型,並不會如此簡單的發展或者根據DNS 的根伺服器進行維護。而正如上面討論的,現在還很難界定清楚,作為一個非盈利組織究竟什麼可以出售。即便是擁有非常民主化的深度學習工具,GPU集群也不便宜,而頻寬也不是免費。
我們可以很容易的想像到,辨識服務會差不多由一小部分Google 規模的公司壟斷。這些提供辨識服務的公司會尋求垂直的整合,密切和消費者的硬體、軟體服務進行聯繫,就像我們現在看到的智慧手機、遊戲機和閱讀器等。
一旦循環被關閉,就很難阻止供應商給最高價格的公司,提供前所未有的用戶訪問權。
這可能意味著任何數量的貨幣,優先展現贊助商關於產品、地方和人的內容,甚至是具體的文本,例如當你看到車的引擎蓋的時候,會出來如何維護的手冊,或者是零售產品的評論。想想一個有驚人經濟實力的公司,它能夠完全控制始終開啟的視覺系統,嵌入到成千上萬的消費者的注意力中。至少,你現在還可以不看電視廣告。
想像一下,當這些應用處於追求利潤的公司手上時,或者在分散式的生態系統時,會有什麼不同。
以微軟為例,Harris確認說,微軟對HoloLens 平臺的意圖,是通過伺服器同步所有用戶的體驗。這些多用戶的體驗是一種共用幻覺,這能帶來AR 的廣泛使用。
伺服器端的應用程式和預先渲染的內容,將進一步加強垂直整合,避免各地用戶端的反向工程或「越獄」,並把用戶端的硬體轉化為簡單的啞巴終端,並把它變成免費服務發放出去。
| 如果我們一起做
我們拒絕:國王、總統和投票。我們相信:共識和運行的代碼。Tao
of IETF
除了最堅定的自由主義者,我們不得不承認利潤動機和壟斷相結合,會導致非常不好的事情。
除了最左派的份子,我們也不得不承認,系統越現代和複雜,越不適應政府提供的服務。近期這些自豪吹噓的政客們,也表現出對網路知識缺乏瞭解。
即便是像ICANN 這樣的非政府、非盈利組織來規範辨識任務,我們也會有微妙的形勢,審查制度、文化規範、禁忌、地緣政治衝突、政府、員警,遠遠超過Google 在世界範圍內遇到沒完沒了的挑戰。這是一個永無止境的戰鬥,而且沒有更高的權威來仲裁糾紛。
有一種觀點認為,辨識問題的規模表明,唯一可行的、可拓展的解決方法,將會依賴於用戶在輸入上的逐漸增多,類似於reCAPTCHA 中的分散式OCR 項目。而在深度學習技術出現之前,語音辨識和電腦視覺的問題都過於複雜,而難以操作。
這些早期的方法,試圖把複雜的辨識問題,分解為較小的不相關的任務。深度學習,雖然更加自主,但還是需要大量正確標記的資料集,這需要培養對真實世界的經驗。這意味著,人類需要先對此進行標記,這種工作也許超越了最財大氣粗的實體。
深度學習最近在各個領域的成功是一個提示,但是尋找合適的訓練材料,依然是個障礙。
即便有一個合適的組織,訓練一個辨識系統能夠對各種任務進行反應,數據中心也不便宜,而除了維基百科之外,我們還沒看到哪些大規模的自組織任務,能夠在年輕網路實行的案例。這不是找到誰來買單的問題,必須有人來駕駛這艘船隻。
但是,假如我們從最近的假設中學習到了某些錯誤,而你也同意我的觀點,那麼什麼時候會開始建立一個在網路協議層,結束被單一組織控制的的垂直實體?這個組織是什麼樣子?
甚至可以想像,未來這個角色由一個營利性公司來承擔?
或者說,一個分散式的組織,或者一個標準組織,一個政府實體,來扮演這個角色?
0 comments:
張貼留言