‧ 增強現實的權力江湖

【編者按】本文來自Medium，原作者Noah Norman。

這篇文章是基於Mark Domino 和Jasper Speicher 2009 年的談話昇華而成。現在儘管硬體方面有所進步，但和那時候相比並沒多大改變。

現在我給出一個結論：增強現實的發展很像早期的網際網路。增強現實正處於潛在的變革上，也面臨著和早期網際網路相同的問題。我會指出其中的一些陷阱。

現在正是技術增長的轉折期：作為個體而言，很難做出很有影響力的決策。我們全體選擇了一條道路，出於私有產權而束縛技術的發展，限制了它改變生活的可能性。

這篇文章最重要的基礎假設是：忽視所有權，在不久的將來增強現實會無處不在，始終開放，會如同現在的智慧手機一樣被廣泛採用。從硬體的角度來說，這可能意味著增強眼鏡、隱形眼鏡、車裡的擋風玻璃、大腦植入、栓劑（suppositories）或者你有的東西。

如果你不是在這個前提下和我探討，那麼下面的的內容將對你沒什麼關係。也許有一天這兒會出現關於這個前提的討論，但對我來說這個結論已經不需要爭辯了。

在這個信仰之外，我也套用Nick Bostrom 的話：這篇文章裡的許多假設可能是錯誤的，但我不知道是哪一個。

| 與早期網路相比

對現在而言，增強現實無論是嵌入到可穿戴設備中，還是以「魔法鏡子」或手機窺視鏡的方式，它在部署和消費方面都很像早期網路的佈局。主要是，消費級增強現實系統被設計為在一個時間內只運行一個程式，而那時候的網路應用程式，也是在一個時間裡只能連接一個系統或數據模型。

相對應在內容創作方面，創作者必須給每個應用單獨創作內容。如果我想給Layar AR 平臺創造內容，我必須基於他們的使用者介面後端（這不是可擴展的方法），然後根據這個目標提供一個版本。如果我想對Aurasma、Wikitude或BrowsAR 做同樣的事，或者做其他的標記來追蹤，我需要重新給每個平臺設計。

網路的早期應用，在某種程度而言有非常多的限制。上個世紀90 年代，如果你想傳輸檔給一個用戶，你得先打電話給他，讓他們準備好，啟動和收件相關的程式，通過撥號連線聯繫到對方，然後傳輸檔。而如果我想和他們聊天，我需要斷開連接，打電話給他們讓他們啟動聊天應用程式，關閉收發程式，然後才可以聊天。

早期網路的部分力量，在於它使得任意的內容，可以在任何地方進行演示。這個能力從HTML 開始，Tim Berners-Lee 採用了已被接受的標準SGML。不久後流覽器誕生了，從1992 年基於文本的流覽器Lynx 的到來開始。

正是這種內容和表現形式的分離，才有可能創造現在被稱為網路的生態系統。

也正是在這樣的背景下，創新的推動和標準化的發生，才帶給我們現在的流覽器：可以同時運行多種程式，有功能齊全的應用以及獨立於流覽器的設計。

這並不是說，人們致力於圍繞網路各大平臺，做專門化的設計是沒有價值的。必須強調的是，現在的情況有些跳躍，超越對當前創造物和增強現實內容的思考。現在是一場競賽，去定義最具有實力的平臺，並希望它能夠成為事實上的標準。通過這樣做，這些早期進入者希望能圍繞封閉系統，定義自己的市場。

| 但問題顯然更大

這些問題可以被解決，通過對網頁和3D 圖形標準化，建立靈活的標記語言，給AR 流覽器開放SDK，並使之和內容彼此獨立。這將是尋求共識的挑戰，但這不是在重新發明輪子，事實上他們已經在這兒了。

廣泛採用一種標記語言是可以想像的，而且很可能會出現一個或多個獨立於內容的AR 流覽器（更重要的是，也獨立於硬體），這就像我們現在基於螢幕的網路內容。

更大的問題來自於現實擴增(真實增強)現實應用，對內容的感知能力。使用者在網路中的輸入，限制在鍵盤和滑鼠，但AR 應用被期待能夠對我們的思想做出反應。AR的硬體必須轉播AR 軟體的內容，並且連接到系統裡從各個感測器的輸入：視覺輸入、音訊輸入、語音命令、地理資訊等。

但這樣的系統會對資訊流做什麼事情？當然，你可以想像一個應用程式做一些和你的位置和方向相關的工作，並且在頭戴式設備中進行地圖標記，但我們現在就有了，而且這非常無聊。

在網路的情況下，搜索通過超連結，能夠對文本輸入訪問遠端託管的內容。以AR 作為等價的類比，但在“搜索”這個環節就失敗了。就結果而言，我們在AR 操作中並沒有滑鼠，所有輸入到搜索裡面的，是視覺和感測器的數據，而非小心輸入的文本資訊。所以超連結往往不管用。

在最普遍的意義上，AR搜索是必須的，作為第一步，要把我們大腦所想的和資訊做到一致。聽起來很簡單麼？並不是這樣。

| 教機器以語義

要教會機器辨識它看到的東西，這裡面有一百萬個難題。我不打算把它們一一列舉出來，部分是因為我不夠資格，另外也因為這篇文章並不是直接關於機器學習和電腦視覺。

這是關於未來的重要難題。當機器能夠辨識出東西，或者一個具體的實例、地點和接近使用者的其他人，這都是AR 未來的問題。

當一個AR 系統解決了它看到的問題，這就能夠給刺激帶來反應鏈，導致系統實際上給你的周圍增加新的場景。例如，當指向我的AR 隱形眼鏡的時候，它會採集一些顏色的資訊，也許會有一些深度資訊（3D），一些規模資訊（上下文），地理資訊，聲音、溫度、高度等，然後根據這些資訊來辨識出物體。

目前來說，小規模的作者驅動的AR 系統，需要內容創造者在創造時，輸入3D 模型和2D 文本。應用程式在這個時候，會搜索輸入的視訊流，看這些物體的文本和資料庫中哪些物品能夠匹配上。而當它能夠辨識出一個的時候，就給出設計好的回應。這些回應是有限的，在大多數情況下，對視訊或3D 內容在預先定義的空間關係上，進行疊加或者辨識。

為瞭解當前系統固有的問題，增強現實反應和輸入之間的對應關係，取決於個人作者的決定。在這個封閉系統裡，我們來看看關於這些的案例，裡面有很多的利益相關者。

在我們的假設下，未來不依賴於內容的AR 流覽器，會在各種各樣的硬體上運行。當我們看著一個可樂瓶的時候會發生什麼？首先，這兒會有很大的光澤，而下面會更多，系統會像我們的大腦一樣，辨識出這個罐子，並且說道：「這兒有一件你的東西，屬於可樂罐的類別，甚至可能會有更多的資訊，例如凹陷的、打開的、生產於亞特蘭大，2017年11 月過期等。」

更重要的是，這是一個象徵性的辨識，相比於現在的文本檢索，更抽象也更強大。

作為最近的例子，Google發佈了Cloud Vision API，使用機器學習的方法進行圖像辨識。這很像Google Goggles 過去做的，給實際的圖像添加標籤，給地圖添加座標，進行人臉辨識和OCR。給這些辨識進行堆疊，並且配對置信分數，通過Rest API 得到回饋。

通過這項服務，開發人員可以利用Google 的能力以確定內容圖像。我們可以看到圖像辨識的能力還會進一步擴大，隨著系統給更多的具體物品建立標籤，甚至對世界的名字進行連結的分類，例如把WordNet 和ImageNet 聯繫起來。

不管執行情況怎樣，我們做出一個關鍵的決策：下一步會發生什麼？當系統辨識出可口可樂的存在後，會展現出什麼？請記住，未來這些系統已經得到普遍和廣泛的使用，難道不應該發生些事情嗎？

可口可樂的廣告，一下子就顯得有生命起來了。可能是一段AR 的效果展現在可樂瓶上面，或者一群美麗的家人，以3D 的形式聚集起來，拿著自己的可樂瓶向你致敬？或者百事可樂的廣告在前面出現，遮擋住可口可樂的品牌？

對我來說，可以運行一個AR 廣告遮罩的外掛程式嗎？或者購買服務，以減少程式的贊助商內容？當我訪問時代廣場並且抬頭看到三星的看板，我能看到一個「真的」看板嗎？

那麼，你周圍人的臉呢？你從螢幕上閱讀的文字？公寓裡的牆壁？你都能得到圖片。

問題的複雜性在於，一個彈出的畫面可能會不安全。假如說我在駕駛公車，那麼這些事情的解釋就不是文字那麼簡單。這些複雜的因素會對我們的行為影響很大。

問題在於我們擁有的語義學上，或者在更大的意義上說，網路符號學。讓系統辨識符號看起來有點瑣碎，相比於一些更複雜的問題，例如涉及到環境中物體的意義，這背後還有智慧財產權的問題。

而當所有權和網路空間的智慧財產權結合在一起，這裡面的問題就遠多於其他方面。這會逐漸變得Ugly。

| 話語權的問題

對於那些關注者來說，這個問題可能聽起來很熟悉。DNS的基礎是廣泛採用的協議，它由非政府組織ICANN 管理，這是總部設在美國的非盈利組織。它具有對URL 語義專屬的解釋權，而且也對應到網路協議的空間。它沒有什麼排他性，這成為了網路的基礎，創造了通用文本的白皮書，由於它和現實情況關於商標、產權等案例的相似性，網路協訂能夠根據它解決問題。

不過我不相信，這些涉及到商標、知識產區和隱私糾紛的事，會很容易擴展到VR 的領域。

關於所有權的話語權問題，正如很多東西一樣，背後都有一些共同的利益，通過主導和遊說律師，最終落在了私人手裡。我不需要對此過多解釋，但這不是最好的結果。不過為了使可能性成為可能，系統需要設計為依賴於有話語權的中央權威，而背後有利潤的動機。

沒有發生和DNS 相似的事情，因為還沒有人意識到坐在ICANN 的位置上會帶來多少價值，直到已經為時尚晚。這並不意味著這不會發生，有一個猜測是，微軟在生產AR 硬體的興趣上，其利潤可能不局限於設備本身。這不是他們玩的遊戲。他們和Magic Leap 希望擁有自己的傳輸管道，所有東西從生產到內容到分發，都通過這裡進行。你也可以對Google 最新的CV 服務做類似的假設。

這給我們帶來了技術背後的支撐，不依賴於文本、感測器驅動、上下文感知、總是運行的消費者端AR 系統，這些問題的解決是非常重要的，最早這麼做的也許能獲得那個聖杯。

| 沒有鍵盤的作業系統

正如Google 演示的一樣，能夠運行各種隨意代碼的流覽器，和作業系統的區別是不多的。就像一些作業系統需要使用Windows 管理，來保證GUIs 運行的不錯，我們的AR 系統也在確保內容以一種好的方式來展現，考慮到我們的喜好以及大腦感測器的頻寬。

例如說，你對於邊開車邊聽紐約時報表示完全的舒適，甚至在你視野的角落上，有一個小的視訊聊天視窗也可以。但當你在高速公路疾馳的時候，你完全不想要更多的東西。相反，當你在家裡的時候，你也許會願意接受更為沉浸式的體驗，但你也不會希望視窗彈出：你的煤氣帳單該交了。

在一個用戶定義的背景下，這有點像今天智慧手機裡的許可權（Permissions）。我們可以給特定的應用程式訪問我們的注意力的許可權，而我們的螢幕也會在特定的情況下彈出提醒。這是一個開始，尤其是一些流覽器自己能提供通知和許可權設置，這也是通常作業系統的功能。

先不管輸出的問題，作業系統的任務如何接收感測器的輸入和上下文資訊？別忘了我們沒有鍵盤和滑鼠，我們都是通過自己對世界的感知，來驅動這個系統。

| 兩種途徑

正如我們常年期望電影CGI 的智慧，能夠超越即時系統能提供的，它將持續超越使用者端系統的能力，以掌握視覺處理和任務搜索，以感知周圍的世界，滿足我們對速度、正確率和頻寬不斷增長的期待。

這意味著我們的設備會部署在一個低延遲、高頻寬的連接上。他們會通過刺激和上下文的理解，對使用者的狀態、連絡人、歷史、喜好和習慣進行反應，就像當下設備和互聯網做的那樣。

由於這些限制，到目前為止，所有潛在的方法都是相同的。在返回結果的性質上，可能會出現問題，而問題的核心在於所有權和利潤的動機。

在AR 生態系統裡，識別服務是由一個非盈利或其他中立的實體組織提供，伺服器會不斷吸收這些資訊流，並且從提供的零散聯結刺激中進行推斷。

這是一輛自行車。那是124鷹街。那是你的朋友Willy。那是西方。這是一輛卡車。那是街。這是石頭。這是一個交通燈，它是綠色的。

這些離散標記的集合，會通過管道返回到硬體裡，作為對世界的標記，然後準備好在使用者的應用程式裡得到解釋。

這意味著刺激的辨識以及增強現實解釋，通過用戶端的代碼可以持續的作用，就像現在網路做的一樣。在一個物理分散式的網路中，相同的組織會被某些廣泛聯繫、同意授權的DNS 控制。關鍵是，這意味著辨識和解釋的任務，是被分離的。

當然，這樣的處理能力會給供應商帶來巨大的成本，無論是開發還是經營費用。因此，必須使得供應商通過某些方式收回成本。在ICANN 的情況下，這項服務是通過非盈利組織來提供的，現在看起來運行的還不錯。它會象徵性的收取註冊費用，而最近它也拍賣了一些頂層網域名。

我們正在討論的系統類型，並不會如此簡單的發展或者根據DNS 的根伺服器進行維護。而正如上面討論的，現在還很難界定清楚，作為一個非盈利組織究竟什麼可以出售。即便是擁有非常民主化的深度學習工具，GPU集群也不便宜，而頻寬也不是免費。

我們可以很容易的想像到，辨識服務會差不多由一小部分Google 規模的公司壟斷。這些提供辨識服務的公司會尋求垂直的整合，密切和消費者的硬體、軟體服務進行聯繫，就像我們現在看到的智慧手機、遊戲機和閱讀器等。

一旦循環被關閉，就很難阻止供應商給最高價格的公司，提供前所未有的用戶訪問權。

這可能意味著任何數量的貨幣，優先展現贊助商關於產品、地方和人的內容，甚至是具體的文本，例如當你看到車的引擎蓋的時候，會出來如何維護的手冊，或者是零售產品的評論。想想一個有驚人經濟實力的公司，它能夠完全控制始終開啟的視覺系統，嵌入到成千上萬的消費者的注意力中。至少，你現在還可以不看電視廣告。

想像一下，當這些應用處於追求利潤的公司手上時，或者在分散式的生態系統時，會有什麼不同。

以微軟為例，Harris確認說，微軟對HoloLens 平臺的意圖，是通過伺服器同步所有用戶的體驗。這些多用戶的體驗是一種共用幻覺，這能帶來AR 的廣泛使用。

伺服器端的應用程式和預先渲染的內容，將進一步加強垂直整合，避免各地用戶端的反向工程或「越獄」，並把用戶端的硬體轉化為簡單的啞巴終端，並把它變成免費服務發放出去。

| 如果我們一起做

我們拒絕：國王、總統和投票。我們相信：共識和運行的代碼。Tao of IETF

除了最堅定的自由主義者，我們不得不承認利潤動機和壟斷相結合，會導致非常不好的事情。

除了最左派的份子，我們也不得不承認，系統越現代和複雜，越不適應政府提供的服務。近期這些自豪吹噓的政客們，也表現出對網路知識缺乏瞭解。

即便是像ICANN 這樣的非政府、非盈利組織來規範辨識任務，我們也會有微妙的形勢，審查制度、文化規範、禁忌、地緣政治衝突、政府、員警，遠遠超過Google 在世界範圍內遇到沒完沒了的挑戰。這是一個永無止境的戰鬥，而且沒有更高的權威來仲裁糾紛。

有一種觀點認為，辨識問題的規模表明，唯一可行的、可拓展的解決方法，將會依賴於用戶在輸入上的逐漸增多，類似於reCAPTCHA 中的分散式OCR 項目。而在深度學習技術出現之前，語音辨識和電腦視覺的問題都過於複雜，而難以操作。

這些早期的方法，試圖把複雜的辨識問題，分解為較小的不相關的任務。深度學習，雖然更加自主，但還是需要大量正確標記的資料集，這需要培養對真實世界的經驗。這意味著，人類需要先對此進行標記，這種工作也許超越了最財大氣粗的實體。

深度學習最近在各個領域的成功是一個提示，但是尋找合適的訓練材料，依然是個障礙。

即便有一個合適的組織，訓練一個辨識系統能夠對各種任務進行反應，數據中心也不便宜，而除了維基百科之外，我們還沒看到哪些大規模的自組織任務，能夠在年輕網路實行的案例。這不是找到誰來買單的問題，必須有人來駕駛這艘船隻。

但是，假如我們從最近的假設中學習到了某些錯誤，而你也同意我的觀點，那麼什麼時候會開始建立一個在網路協議層，結束被單一組織控制的的垂直實體？這個組織是什麼樣子？

甚至可以想像，未來這個角色由一個營利性公司來承擔？

或者說，一個分散式的組織，或者一個標準組織，一個政府實體，來扮演這個角色？

按此回今日3S Market新聞首頁

3S MARKET

‧ 增強現實的權力江湖

0 comments:

Recent Comments

Arsip Blog