2018年4月18日 星期三

‧ 2018\04\18\3S Market Daily 智慧產業新聞


3S Market deliver Smart and Valuable information for Business
3S Market 傳遞 智慧應用與價值的商業資訊

Smartbears智能家居 - 您專屬的智慧IoT管家


                                                                                                                                                                                                                 

.智慧音箱是智慧家庭服務普及的關鍵入口?:(ㄧ) 亞馬遜 Alexa 的橫空出世

Amazon Echo review - A conversation with Alexa





by 智慧家庭實驗室 林祐祺 2018/04/18

智慧音箱與智慧家庭市場的發展密不可分,「智慧家庭實驗室」陸續會發表系列文章,來闡述智慧音箱的發展歷史,以及對於人類未來的影響,小到生活模式大至聲控經濟 (Voice UI Economy) 對產業所帶來的衝擊。



(左起) Google Home / Sonos Play 1 / Amazon Echo

在 2014 年 11 月的時候,亞馬遜跌跌撞撞地推出了一款奇特的 WiFi 音箱,定價美金 199 元,當時主要的假想敵是同樣價格的主流品牌 Sonos Play 1,這是智慧音箱第一次與世人見面,雖然還不是太聰明,但由於遠場語音控制的娛樂性與新奇性高,Echo 的第一仗就這麼打贏了。

可以說亞馬遜 Echo 的崛起與定價策略正是釘死當時 Sonos 這類高檔 WiFi 音箱的入門款,從人工智慧繞個彎打擊當時 WiFi 音箱的幾個領導品牌。

當時的亞馬遜做對了幾件事情,現在看起來還是挺關鍵的:

第一個就是引進當時的主流音樂平台 Pandora,這對於需要串流音樂加持的智慧音箱銷路大開,也奠定了串流音樂在智慧音箱上的使用者情境佔比始終最高的地位。


再來就是支持當時也是目前第一的第三方獨立規則引擎 IFTTT,讓 Echo 一下子可以連接到 Google 與 Evernote 這些受人歡迎的數位服務,大幅增加了智慧音箱的吸引力。

amazon.com — Alexa Smart Home Skill

還有,就是陸續也開發針對智慧家庭產品的 Smart Home Skill APIs,這是重要關鍵點,小米的小愛AI音箱一推出就這麼的火,一大半的原因就是小米生態鏈的智慧家電已經有如螞蟻雄兵一般進入了老百姓的家中,小愛音箱作為一個提升生活便利性的語音人機介面裝置,在上市的第一天就有接不完的智慧家庭裝置與智慧家電,在數位內容與線上線下服務多數雷同的今日,小米的物聯網平台反而成為了一個超越 BAT 這類互聯網平台的重要關鍵。


amazon.com — Alexa Smart Home Devices (Lighting)

最後,Alexa開放了軟硬體開發平台,不論是硬體的 AVS (Alexa Voice Service),或者是基於 AWS Lambda Skill Adapter 的技能開發平台,走向開放的 Amazon Alexa 最後證明了唯有大開大闔的開放態度,才是物聯網平台的致勝關鍵。

目前看來,亞馬遜 Alexa 在智慧音箱平台的領先幅度依然巨大,除了剛開始的時候做對了以上那幾件重要的事,把生態鏈的斷鏈點補齊之後全力衝刺,差距一開始就拉大,還有以下幾個綜合因素:


第一點:亞馬遜除了是最早把人工智慧帶入智慧家庭領域,還在語音交互這邊做了一個很棒的產品規劃經典之作,PM們要好好的學起來啊! 在過去不是沒有語音交互,競爭對手 Apple Siri 與 Google Now 都曾經在手持裝置上推出近場語音交互方式,但都不太成功,原因主要有三:

  1. 對於手機來說,文字類型的輸入法沿用已久,語音輸入要與文字輸入爭取用戶使用時間,相當的吃力,Echo 智慧音箱直接強迫用戶只能用語音輸入,大大地增加了語音輸入成功的機會。
  2. 遠場才需要語音控制,因為人類很懶不想起身,但是手機就在身邊,何須在近場使用語音輸入,豈非多此一舉?
  3. 手機使用情境與語音輸入的矛盾很大,手機是以個人為單位,多數在處理有隱私的事情,且有一大部分的時間是在公眾區域,語音輸入沒有隱私,如何能在手機普及?相反的亞馬遜把音箱定於以家庭為單位的產品,放在廚房或者客廳供一家人使用,在這種情境一般都不會有隱私的疑慮,講的都是家庭對話,符合語音輸入的情境,因此才能在家庭使用的場合脫穎而出。


Amazon Lab126 曾經開發出多種產品,包括Kindle、Fire Phone、Alexa Echo


第二點:硬體補貼主打生態系開放平台。這在過去的時代並不多見,亞馬遜即使在打的壯烈的 Fire Phone 都沒有投入這麼大的硬體補貼來推廣,原因是智慧音箱的產業公式是:

智慧音箱生態系 =
              智慧家庭/家電 (物聯網) + 數位內容 + O2O服務 + 購物

智慧音箱的戰爭是檢驗各大互聯網公司綜合實力的場域,除了作為基礎的人工智慧之外,圍繞的生態系服務的豐富度與深度,同樣對於用戶體驗也是至關重要。而亞馬遜推出的 Alexa Skill 技能開放平台,已經成為智慧音箱接入第三方服務的標準形式,成為美中各大競爭者學習的對象。

  • 智慧家庭智慧裝置與智慧家電,是智慧音箱進入家中最難做的部分,這部分牽扯到智慧家庭自動化與能源管理,是未來智慧音箱 + 智慧家庭生態系中的決勝關鍵。
  • 數位內容也是一個值得消費者關注的元素,包括線上音樂、有聲書,以及各種有價資訊,包括股市分析等
  • 生活中的食衣住行育樂等O2O線上線下服務,則是生活上不可或缺一塊,比如送餐、洗衣、打掃等。
  • 購物服務則是最後一塊拼圖,有新零售平台的集團公司,把這部分當作是未來重要的收入來源。

用戶經常使用的 Alexa Skill 技能

第三點:雲雲串接,降低硬體整合風險。Alexa 採用的智慧家庭平台架構是 Cloud-to-Cloud API 整合,Device Cloud 以下最難做的硬體串接讓 Device Vendor 自行處理,降低了在串接智慧家庭裝置與 Home Gateway 的風險。這也是讓 Alexa 生態系能夠快速茁壯的關鍵。





第四點:亞馬遜本身在電商的實力。目前物聯網產品在消費端的通路主要還是在線上電商,智慧音箱 Echo 系列在 2017 年「黑色星期五到網路星期一」的四天之間,狂銷了近 1,000 萬組,是 amazon.com 的最熱銷商品。


而在以語音購物 (Voice-based E-Commerce) 的部分,除了 Echo 音箱系列,事實上亞馬遜也陸續推出過 Dash Button 與 Dash Wand,Dash Button 與快消品牌合作,用戶可以直接按壓貼在洗衣機上的 Dash Button 購買合作品牌洗衣粉,Dash Wand 則是一個 Alexa-enabled 條碼掃描器,內置 Alexa 語音助手,按壓機身上的按鈕後可與 Alexa 語音助理對話,而當用戶掃描了日常物品比如面紙、洗衣精這類常需要補充的日常用品條碼時,將自動將其添加到 amazon.com 的購物車中。



總結:亞馬遜 Alexa 開放平台重新定義了智慧家庭的服務方式與範疇

亞馬遜 Alexa 智慧家庭平台 + Echo 系列的智慧音箱,從 2014 年底上市至今接近三年,銷售數量在短短三年從 2015 全年的三百萬台成長十倍到 2017 全年銷量近三千多萬台,對於智慧家庭的推廣助益良多。

過往的智慧家庭專注在家庭安全的層面,攝影機加上無數的偵測器與控制器,專注在滿足馬斯洛五層需求中較底層的安全需求,頂多再加上一些家庭自動化的裝置,不算是可以走進千家萬戶的消費端產品,也因此智慧家庭產業多年來找不到一個可以打入家中的入口,包括了PC、手機、智慧電視、智能路由器等都沒有成功。

而亞馬遜藉由實現遠場語音交互技術與人工智慧在 WiFi 音箱之上,搭配了文章中所陳述的發展策略打入家庭之中,也帶動了智慧家庭周邊商品銷售,並且把智慧家庭的範疇擴大到與家庭相關的所有智慧裝置、線上線下服務、數位內容、購物等範疇。


相信只要能夠使人類生活更便利的服務越多,交互產生的價值越大,智慧家庭進入主流市場的時間並不會太久。





然而,雖然語音助理確實是人類喜歡的溝通方式,但是沒有適合的使用者情境,用戶還是很難買單,在接下來的系列文章,還會陸續探討用戶場景這個重要因素,以及智慧家庭市場的困境與發展策略。
---


                                                                                                                                                                                                                 

.狗狗視角看世界,用視覺數據預測狗的行為

Нейросеть научилась предсказывать поведение собаки





leiphone 作者:sanman



AI科技評論按:這篇文章提出了一種全新的CV任務。

來自華盛頓大學艾倫人工智慧研究所的Kiana Ehsani團隊突破傳統電腦視覺的研究任務,嘗試從目標對象(例如狗)的視角進行建模,並以此模型來預測對象的行為模式。

狗狗视角看世界,用视觉数据预测狗的行为


這種表示學習方法,與傳統的圖片訓練任務的不同之處在於,它的模型訓練是從特定視角出發,所以這是一種全新的CV任務。在論文中,作為案例,作者採用狗狗的視角來訓練模型,在狗的行為建模上取得顯著的成功。作者表示,該方法有望拓展到其他領域。

下面為小編對該論文的詳細解讀。



傳統的電腦視覺研究專注於分類、辨識、檢測及分割等子任務;當去解決一般的電腦視覺問題時,研究人員一般會將這些功能進行有機的組合。

但這種研究方法所得出的結果,一直與期望結果有較大的差距。

本文的作者受近期「行為和交互在視覺理解中作用」研究工作的啓發,他們將視覺智慧(visual intelligence)問題定義為:理解視覺數據並在視覺世界中採取行動或執行任務。

在這種定義下,作者認為要像一個視覺智慧體,在視覺世界中那樣去學習。

狗狗视角看世界,用视觉数据预测狗的行为

作為該項研究的切入口,他們選擇一隻狗作為視覺代理。相比於人類,狗有一個簡單的行為空間,這使任務能更容易地處理;而另一方面,它們能夠清楚地表現出視覺智慧,辨識食物、障礙物、其他人類和動物,並對這些輸入作出反應。

在實驗中,Kiana Ehsani團隊透過狗的自我視角錄製的影像數據,加上將傳感器安裝在狗的關節處,收集來的動作數據,構建了數據集DECADE(Dataset of Ego-Centric Actions in a Dog Environment)。

在作者的研究中,他們利用DECADE數據集,主要探索三個問題:

(1)Acting like a dog,即預測狗的行動;
(2)Planning like a dog,即預測狗的運動序列;
(3)Learning from a dog,即如何利用狗的動作作為表徵學習的監督信號。

1. 數據集
如上所述,作者使用了DECADE數據集。這個數據集包含380個影片剪輯片段,這些影片由安裝在狗頭部的攝影機拍攝而來。影片中還包含設備安裝部位和運動軌跡等資訊。

在實驗中,作者總共用了24500幀,其中21000幀用於訓練模型,1500幀用於驗證,2000幀用於最後的測試。

作者使用的是GoPro攝影機拍攝的這些影片,採樣頻率為5fps。該團隊使用4個慣性測量單元(IMUs)來測量狗的四肢的位置,一個單元測尾巴位置,還有一個測軀乾位置。這些設備可以用角向移動,來記錄運動。

他們獲取的每一幀都包含六個測量單元的角移。角移以4維4元數向量表示。慣性測量單元的絕對角移,與狗面向的方向有關,不同關節的角移是有區別的,這些區別也可以用四元數表示。他們認為兩個連續的幀之間角移的區別,就代表著這條狗這兩幀之間的動作。

獲取這些信息的的具體情形,是一個安裝在狗背上的Arduino監視器連接著各個測量單元(IMUs)來記錄位置資訊。它還能透過狗背上的微信麥克風來收集音訊,這些音訊可以為同步GoPro和Imus數據提供依據,最終可以將影像和IMU測量數據,同步精確到毫秒級別。

他們的團隊在多於50個不同環境下收集數據,收集時狗正處在特定的場景下,比如行走或撿東西或與其他狗互動。所有最終剪輯出來的幀都不帶備注,實驗均使用原始數據。

2. Acting like a dog
在不同的場景中如何預測狗的反應呢?作者所提出的模型,透過學習狗之前看到的場景圖片,來預測狗接下來的行動。

狗狗视角看世界,用视觉数据预测狗的行为

模型的輸入是一串視覺圖像的幀序列(I_1, I_2, . . . , I_t),而輸出則是在接下來的時間片里狗各個關節的動作t < t' ≦ N(a_t+1^j, a_t+2^j, . . . , a_t+N^j ),其中時間片大小為0.2秒。a_t^j就代表著關節 j 的運動。舉例說明,a_3^2代表著第二關節介於I3和I4幀之間的運動。

作者將預測問題表述為一個分類問題。他們將關節角移數字化編碼,並將不同關節的運動標籤化成特定的動作類。為了形成這些運動類,他們使用K-means算法來處理關節角移。每一個聚類中心都可以代表一個特定的運動。

其運動預測模型是編解碼結構的,主要目標就是找到輸入圖片與未來動作之間的映射關係。舉例說明這種關係,比如當狗看到拿著狗糧,這條狗之後的動作很可能是坐著等主人來餵。

狗狗视角看世界,用视觉数据预测狗的行为

上圖為這個模型的結構,其中編碼部分包含了CNN模型和一個LSTM。其中每個時間片內CNN都會接收到一對連續的圖片,即上文提到的行動前行動後圖片,對著其進行編碼後傳輸給LSTM。

實驗結果果表示,LSTM一個時間片內,接受兩幀可以明顯改善模型的表現。CNN包含兩層權重相同的ResNet-18,其中一個則為處理幀。

解碼器的目標,是根據已經被編碼的幀來預測狗關節的活動。解碼器接受編碼器傳來的隱藏初始狀態,和LSTM的處理結果,之後的每一個時間片,解碼器輸出上文提到的每個關節的動作類,而且前一個時間片的輸出,會被線性編碼器處理完,作為下一個時間片的輸入。

正是由於他們使用固定長度的處理後的輸出,作為下一個時間片的輸入,所以不需要停止標記,且他們的模型會在產生一定數量的輸出後停止。最後的效果就是他們的模型,每個時間片會輸出六個動作類。

每一張圖片都是獨立傳送給ResNet塔,且兩張圖片的特徵已經結合,結合起來的特徵會被線性轉化器處理後,輸入編碼器的LSTM。他們團隊在ImageNet上事先訓練了ResNet,然後優化一下來評估兩張連續幀之間的動作。

Kiana Ehsani團隊的編解碼器使用加權平均熵損失來處理每個關節。損失函數為:

狗狗视角看世界,用视觉数据预测狗的行为

3、Planning like a dog
狗是如何計劃行動來完成目標的?


狗狗视角看世界,用视觉数据预测狗的行为

為了給這個過程建模,作者設計了如下計劃:輸入兩張不連貫的圖片,然後去規劃從第一張圖片的狀態到第二張圖片的狀態中間可能出現的一系列行為。

他們指出先前的運動估計量已經不再適用,之前的運動估計是根據鏡頭的狀態變化,來補充兩張圖片變化之間的狀態。

現在則相反,我們的模型自行計劃去進行一些合理的行動,來補充圖片變化之間的狀態。更加正式的描述就是,

輸入兩張圖片(I_1,I_N),輸出時長為n-1的行動數據。這個輸出就是夠從I_1 狀態轉換到I_N狀態中間經歷的過程。

狗狗视角看世界,用视觉数据预测狗的行为

狗的每一步行動都會對下一步行動產生影響,所以作者設計了一個遞歸神經網路,這其中包含一層LSTM,用來處理一個時間片的的輸出,作為後一個時間片的輸入。

如圖所示,他們將圖片I1和IN,分別單獨的傳給ResNet-18塔,合併上一層的特徵並輸入LSTM。每一時間片內,LSTM cell都會輸出六個關節的運動數據。

他們將此作為下一個時間片的輸入,這就使得神經網路可以根據之前的狀態進行調整。同時他們還將行為出現的概率,這一數據也作下一時間片的輸入。這會使當前時間片中的低概率行為,在行動序列中進一步導致高概率行為,這樣就可以保證未來行為的多樣性。

作者使用等式所描述的加權的交叉熵損耗,在所有的時間片和關節上訓練,該遞歸神經網路。與解決如何像狗一樣,行動所採取的方法類似,他們使用了離散的動作域。

4. Learning from a dog
能否利用狗的動作,作為表徵學習的監督信號呢?

狗狗视角看世界,用视觉数据预测狗的行为

在學習從狗觀察到的圖像中,預測狗關節的運動時,可以獲得一個圖像表示,它編碼了不同類型的資訊。 

為了學習表示,作者透過觀察狗在時間t-1和t中,觀察到的圖像,訓練ResNet-18模型,來估計當前的狗的運動(IMU從時間t-1到t的變化)。

隨後作者對這個表示進行測試,並與在ImageNet上訓練的ResNet-18模型進行比較,在不同的任務中會使用不同的數據。 在實驗中,作者使用SUN397數據集,進行了可行表面估計和場景分類。

狗狗视角看世界,用视觉数据预测狗的行为

為了展示表示的效果,作者將模型中藍色部分,用在ImageNet上訓練過的ResNet進行了替換,並將其與在DECADE上訓練的ResNet進行比較。

5. 實驗結果
下面這張圖中顯示了模型從5幀影像中,學習到當一個人朝狗扔球時狗的表現。在影片中,球越過狗後,狗轉向右側去追球。本文提出的模型只使用前5幀圖像,就可以正確地預測在球飛過時,狗如何轉向右側的行為。

狗狗视角看世界,用视觉数据预测狗的行为

下面為具體實驗結果:
(1)Learning to act like a dog

狗狗视角看世界,用视觉数据预测狗的行为

觀察五幀影像後預測接下來的五個行動的精確度。
(2)Learning to plan like a dog
狗狗视角看世界,用视觉数据预测狗的行为

在開始和結束幀之間進行規劃,這裡考慮開始幀和結束幀之間相隔5步。
(3)Learning from a dog

狗狗视角看世界,用视觉数据预测狗的行为

將在ImageNet上訓練的網路結果,與在DECADE上訓練的網路進行比較,評估指標為IOU。

6. 總結
Kiana Ehsani團隊選擇直接從目標對象視角建模,他們用從狗的視角拍攝的影像來訓練模型,最終的目標是讓自己的模型可以預測隨後的行動,可以像狗一樣去規劃自己的行為,來完成目標。

他們的工作是端到端建模的第一步,這種方法不需要手動標記的數據或擁有具體語義的數據。不僅如此,它還可以在多對象和多場景下應用,去獲取有價值的資訊。

小編認為,他們的方法還有許多有待拓展的地方。一方面是,本文實現的模型只接受視覺輸入,屬於CV問題,但事實上它完全可以拓展到其他領域,例如實現聽覺、觸覺等的輸入;此外,當前模型仍只是針對一條狗的行為建模,那麼是否可以拓展到多條狗的情形呢?

無論如何,採用主人公視角的數據集來訓練模型,這種思想獨特且有深刻意義,屬於一種新穎的CV task。