.傳亞馬遜計劃將 Amazon Go 無人收銀技術,引入機場和影院

Amazon to expand cashierless payment tech to airports, movie theaters


leiphone 作者:刘伟

传亚马逊计划将 Amazon Go 无人收银技术引入机场和影院

據知情人士透露,亞馬遜計劃將 Amazon Go 背後的無人收銀技術,引入機場和電影院等場所,並正在就此事和相關零售商展開談判。

亞馬遜此舉意在以更快的速度,和更低的成本,擴張其線下零售業務,從而降低對線上零售業務的依賴。這意味著 Amazon Go 將與那些,向來被視為其競爭對手的,實體零售商們建立合作關係。潛在的進一步合作,對於亞馬遜的雲端業務來說,同樣是一個巨大的成長機會。

亞馬遜目前一共對外宣佈了 18 家 Amazon Go 商店,實際開設了 16 家。在這些商店中,顧客只需要在入口,掃描手機 app 中的二維碼,即可進店隨意選購並直接離開,而後門市店會自動向顧客手機發送賬單,並扣除相應款項。三位知情人士向 CNBC 透露,亞馬遜正急於將這項技術,開放給其他實體零售廠商,以加快它的普及應用。

Amazon's cashier-less storefront continues to grow after one year in business

其中一位知情人士表示,該公司一直在洽談,將Amazon Go的技術,引入 OTG 位於機場的CIBO Express 門市店,和 Cineworld 的 Regal 劇院。另一位知情人士則聲稱,它正打算將這項技術,開放給棒球場裡的小型商店。

兩位知情人士表示,亞馬遜計劃從 2020 年第一季,開始陸續為客戶上線這套系統,並在 2020 年底前覆蓋數百家門市店。其中一位知情人士稱,亞馬遜希望以每兩周,升級一家門市店的速度,快速推廣這項技術。

為了讓計劃順利推進,亞馬遜為第三方合作夥伴們,制定了多種靈活的合作方式。兩位知情人士稱,它打算以從銷售額中抽成,或者先收取一部分預付款,然後每月收取月費的方式,進行收費。目前尚沒有消息顯示,這些安裝在第三方門市店的智慧硬體,是否會使用亞馬遜的品牌,也不清楚未來消費者,將使用哪個 app 來進店購物。


CNBC 針對這一消息對亞馬遜、OTG 和 Cineworld 進行了確認,目前暫未收到明確答覆。

其實,亞馬遜的無人收銀技術,將進駐機場的消息,已經不是第一次傳出了。早在去年十二月就有外媒報導,亞馬遜正考慮將其無人便利店 Amazon Go 引入機場。

當時,有知情人士證實,亞馬遜已多次接觸美國數家機場營運商,商討和評估是否有可能,在機場場景中建立 Amazon Go 便利店。

去年 6 月 27 日,洛杉磯國際機場的商鋪租賃工作人員,還收到了亞馬遜技術顧問的郵件,希望就開設店 Amazon Go 事宜舉行會談。

會議結束後,機場的資訊技術經理也對此表示有興趣。除了洛杉磯國際機場外,聖何塞國際機場同樣有意向引入 Amazon Go。

為此,亞馬遜還特地任命了一位,有相關業務開發經驗的員工,來負責此項工作。

據報導,兩大機場在初步接觸後,雙方官員均表示,他們並沒有與 AmazonGo 進行下一步溝通。根據內部流程,零售商必須經過競爭性投標程序,才能成為入駐機場的特許公司。

雖然暫時還無法確定消息的真偽,但有兩點可以肯定:
首先,市場對於無人收銀技術的需求非常迫切,這正是 Amazon Go 無人收銀技術,將外開發的消息一再傳出的原因。

和中國相比,海外市場人口更少,人口老齡化也更為嚴重,對於節約人力成本、舒解用人壓力,有著更為強烈的需求。

「以日本、韓國為例,他們的店員很多都是印度人和牙買加人,本國是很難找的。而且有些國家社會福利非常好,週末幾點鐘之後就不允許上班了,但消費者又需要相應的服務,所以他們對無人化的需求非常強烈。我們今年參加 NRF 和 MWC 大會的時候都發現,海外客戶的需求是非常強烈的」。中國無人零售廠商雲拿科技的聯合創始人張一玫,曾對媒體說道。

其次,低成本無人收銀方案的可靠性,仍然有待市場檢驗,這也是為什麼傳言會一再選擇機場等封閉空間,作為其落地場景的根本原因。

由於 Amazon Go 一旦遇到人流量過大的情況,可能會出現系統崩潰和錯誤辨識的情況。而機場作為較為封閉場景,無需刻意限流,因此可以保證較好的用戶體驗。


此外,無論對於大型商超,還是小型便利店,止損都是一個亙古不變的難題。止損率的輕微浮動,對於零售行業來說都是致命的,而無人零售面臨的止損問題,更是極為嚴峻。

「便利店防盜基本靠自覺和威懾,正常人幾乎不會亂來,因為有人。一旦無人,正常人都不會正常。」一位無人零售公司 CEO 向小編透露。中國遍地屍骸的共享單車,就是無人便利店的絕佳參照,缺乏有效的約束,人性是經不起考驗的。

相比而言,機場乘客綜合素質較高,止損壓力會明顯變小。


任何顏色車牌——都拍攝的清清楚楚!

.影像分類 / 行為辨識研究綜述,從數據集到方法

Deep Learning in Security—An Empirical Example in User and Entity Behavior Analytics UEBA





视频分类/行为识别研究综述,从数据集到方法

影像分類/行為辨識,是電腦視覺領域中,非常有挑戰性的課題,因為其不僅僅要分析目標體的空間資訊,還要分析時間維度上的資訊,如何更好的提取出空間 - 時間特徵是問題的關鍵。本文總結了該領域的技術進展,和相關數據集,技術進展從傳統特徵法,到深度學習中的 3DCNN,LSTM,Two-Stream 等。

1 影像分類/行為辨識問題

视频分类/行为识别研究综述,从数据集到方法

首先我們要明確這是一個什麼問題,基於影像的行為辨識,包括兩個主要問題,即行為定位和行為辨識。行為定位即找到有行為的影像片段,與 2D 圖像的目標定位任務相似。而行為辨識即對該影片片段的行為,進行分類辨識,與 2D 圖像的分類任務相似。

本文聚焦的是行為辨識,即對整個影像輸入序列,進行影像分類,一般都是經過裁剪後的影像切片。接下來從數據集的發展,傳統方法,深度學習方法幾個方向進行總結。

2  影像分類 / 行為分析重要數據集
深度學習任務的提升,往往伴隨著數據集的發展,影像分類 / 行為辨識相關的數據集非常多,這裡先給大家介紹,在論文評測中最常見的 3 個數據集。

2.1 HMDB-51
HMDB-51 共 51 個類別,6766 個短片。

视频分类/行为识别研究综述,从数据集到方法

數據來源非常廣泛,包括電影,一些現有的公開數據集,YouTube 影片等。從中選擇了 51 個類別,每一個類別包含 101 個以上影片。

分為 5 大類:
  • 常見的臉部動作 (smile,laugh,chew,talk)
  • 複雜的臉部動作 (smoke,eat,drink)
  • 常見的肢體動作 (climb,dive,jump)
  • 複雜的肢體動作 (brush hair,catch,draw sword)
  • 多人交互肢體動作 (hug,kiss,shake hands)

下面是其中一些維度的統計,包括姿態,相機運動等。

视频分类/行为识别研究综述,从数据集到方法
视频分类/行为识别研究综述,从数据集到方法

51 個類別的展示如下:

2.2 UCF-101
UCF-101 共 101 個類別,13320 個短片。數據集地址: https://www.crcv.ucf.edu/research/data-sets/human-actions/ucf101/ ,發佈於 2012 年。

视频分类/行为识别研究综述,从数据集到方法

UCF-101 是目前動作類別數、樣本數最多的數據集之一,包含 5 大類動作:人與物體互動、人體動作、人與人互動、樂器演奏、體育運動。總共包括在自然環境下 101 種人類動作,每一類由 25 個人做動作,每個人做 4-7 組,影片大小為 320×240。

正因為類別眾多,加上在動作的採集上,具有非常大的多樣性,如相機運行、外觀變化、姿態變化、物體比例變化、背景變化等等,所以也成為了當前難度最高的,動作類數據集挑戰之一。

视频分类/行为识别研究综述,从数据集到方法

各個類別的分布如上,相對還是比較均勻的,UCF-101 是影片分類 / 行為辨識方法必須評測的標準。

2.3 Kinetics-700 dataset

视频分类/行为识别研究综述,从数据集到方法

Kinetics-700 dataset 被用於 ActivityNet 比賽,包含約 650000 個影片,700 個類別。


ActivityNet 比賽始於 2016 的 CVPR,是與 ImageNet 齊名的在影像理解方面最重要的比賽。在這個比賽下的 Task A–Trimmed Action Recognition 比賽,是一個影像分類比賽,2019 年的比賽使用 kinetics-700 數據集,在此之前還有 2017 年的 kinetics-400 和 2018 年的 kinetics-600。

數據集是 Google 的 deepmind 團隊提供,每個類別至少 600 個影片以上,每段影片持續 10 秒左右,標注一個唯一的類別。行為主要分為三大類:人與物互動,比如演奏樂器;人人互動,比如握手、擁抱;運動等。即 person、person-person、person-object。

除了以上數據集,比較重要的還有 Sports-1M,YouTube-8M 等,篇幅所限,就不一一描述,大家可以參考文獻。

视频分类/行为识别研究综述,从数据集到方法

如果不能下載數據集,可以移步有三 AI 知識星球獲取。

3  傳統有監督特徵提取方法
傳統的方法透過提取關鍵點的特徵,來對影像進行描述,以時空關鍵點,密集軌跡方法等為代表。

3.1 時空關鍵點 (space-time interest points)
基於時空關鍵點的核心思想是:影像圖像中的關鍵點,通常是在時空維度上,發生強烈變化的數據,這些數據反應了目標運動的重要資訊。

视频分类/行为识别研究综述,从数据集到方法

比如一個人揮舞手掌,手掌一定會在前後幀中發生最大移動,其周圍圖像數據發生變化最大。而這個人的身體其他部位卻變化很小,數據幾乎保持不變。如果能將這個變化數據提取出來,並且進一步分析其位置資訊,那麼可以用於區分其他動作。

時空關鍵點的提取方法,是對空間關鍵點方法的擴展,空間關鍵點的提取,則是基於多尺度的圖像表達,這裡的時空關鍵點,就是將 2D Harris 角點的檢測方法,拓展到了 3D,具體求解方法非常複雜,讀者需要自行瞭解,篇幅問題就不講述了。

得到了這些點之後,基於點的一次到四次偏導數,組合成一個 34 維的特徵向量,使用 k-means 對這些特徵向量進行了聚類。

除了 harris,經典的 2D 描述子 SIFT ,被拓展到 3D 空間 [3],示意圖如下:

视频分类/行为识别研究综述,从数据集到方法

上圖從左至右分別展示了 2D SIFT 特徵,多個時間片的 2D SIFT 特徵,以及 3D SIFT 特徵,後兩者的區別在於計算區域的不同,3D SIFT 的每一個關鍵點包含 3 個值,幅度和兩個角度:

統計關鍵點時空周圍的梯度直方圖,就可以形成特徵描述子,然後對所有的特徵描述子進行 k-means 聚類,劃分類別,形成詞彙「word」。所有不同 word 就構成了一個 vocabulary,每個影像就可以透過,出現在這個 vocabulary 中詞彙的數量來進行描述,最後訓練一個 SVM 或者感知器來進行動作辨識。

除了以上的兩種特徵,還有 HOG3D 等,感興趣的讀者可以自行閱讀。

3.2 密集軌跡 (dense-trajectories)[4]
時空關鍵點是編碼時空坐標中的影像資訊,而軌跡法 iDT(improved Dense Trajectories) 是另一種非常經典的方法,它追蹤給定坐標圖像沿時間的變化。

iDT 算法包含三個步驟:密集採樣特徵點,特徵軌跡跟蹤和基於軌跡的特徵提取。

视频分类/行为识别研究综述,从数据集到方法

密集採樣是對不同尺度下的圖像,進行規則採樣,不過真正被用於跟蹤等,不是所有點,因為平滑區域的點沒有跟蹤意義,透過計算每個像素點,自相關矩陣的特徵值,並設置閾值去除低於閾值的特徵點,來實現這個選擇。

對軌跡的追蹤是透過光流,首先計算圖像光流速率 (ut, vt),然後透過這個速率,來描述圖像運動軌跡:

视频分类/行为识别研究综述,从数据集到方法

wt 是密集光流場,M 是中值濾波器,得到的一系列點形成了一個軌跡。由於軌跡會隨著時間漂移,可能會從初始位置,移動到很遠的地方。

所以論文對軌跡追蹤距離做了限制,首先將幀數限制在 L 內,而且軌跡空間範圍限制在 WxW 範圍,如果被追蹤點不在這個範圍,就重新採樣進行追蹤,這樣可以保證軌跡的密度不會稀疏。

除了軌跡形狀特徵,還提取了 HOG,HOF(histogram of flow) ,以及 MBH(motion boundary histogram) 等特徵。

其中 HOG 特徵計算的是灰度圖像梯度的直方圖,HOF 計算的是光流的直方圖,MBH 計算的是光流梯度的直方圖,也可以理解為在光流圖像上,計算的 HOG 特徵,它反應了不同像素之間的相對運動。

以 HOG 特徵為例,在一個長度為 L 的軌跡的各幀圖像上,取特徵點周圍大小為 N×N 的區域,將其在空間和時間上進行劃分。假如空間劃分為 22,時間劃分為 3 份,bins 為 8,則 HOG 特徵維度為 2238=96,HOF 特徵和 MBH 特徵計算類似。

提取出 HOG 等資訊後,接下來具體的分類,與上面基於時空關鍵點的方法類似,不再贅述。

4  深度學習方法
當前基於 CNN 的方法不需要手動提取特徵,性能已經完全超越傳統方法,以 3D 卷積,RNN/LSTM 時序模型,雙流法等模型為代表。

4.1 3D 卷積
影像相對於圖像多出了一個維度,而 3D 卷積正好可以用於處理這個維度,因此也非常適合影像分類任務,缺點是計算量比較大,下圖展示了一個簡單的 3D 模型。

视频分类/行为识别研究综述,从数据集到方法

4.2 RNN/LSTM
視訊和語音信號都是時序信號,而 RNN 和 LSTM 正是處理時序信號的模型。如下圖所示,透過 CNN 對每一個影像幀提取特徵,使用 LSTM 建模時序關係。

视频分类/行为识别研究综述,从数据集到方法

4.3 雙流法 (two-stream)
雙流法包含兩個通道,一個是 RGB 圖像通道,用於建模空間資訊。一個是光流通道,用於建模時序資訊。兩者聯合訓練,並進行資訊融合。


视频分类/行为识别研究综述,从数据集到方法

雙流模型是影像分類中非常重要的一類模型,在特徵的融合方式,光流的提取等方向,都有非常多的研究,關於更多模型的解讀如果感興趣,可以移步有三 AI 知識星球中的模型結構 1000 變板塊。

视频分类/行为识别研究综述,从数据集到方法

4.4 其他
關於各種影像分類的網路結構解讀,有興趣的同學可以到有三 AI 知識星球中,進行閱讀和後續學習。

5 總結
雖然在 UCF-101 數據集上評測指標,已經達到了 98.5%,但是影像的分類目前遠沒有圖像分類成熟,面臨著巨大的類內方差,相機運動和背景干擾,數據不足等難題。

除了要解決以上難題外,有以下幾個重要方向是值得研究的。
  • 多模態資訊融合。即不只是採用圖像信息,還可以融合語音等資訊。
  • 多標籤影像分類。與多標籤圖像分類類似,現實生活中的影像可能有多個標籤。
  • 行為定位。一段影像中的行為有開始和結束,如何定位到真正有效的片段,是之後的影像分類的重要前提。
  • 參考文獻

  • [1] Kong Y, Fu Y. Human action recognition and prediction: A survey[J]. arXiv preprint arXiv:1806.11230, 2018.
    [2] Laptev I. On space-time interest points[J]. International journal of computer vision, 2005, 64(2-3): 107-123.
    [3] Scovanner P, Ali S, Shah M. A 3-dimensional sift descriptor and its application to action recognition[C]//Proceedings of the 15th ACM international conference on Multimedia. ACM, 2007: 357-360.
    [4] Wang H, Kläser A, Schmid C, et al. Dense trajectories and motion boundary descriptors for action recognition[J]. International journal of computer vision, 2013, 103(1): 60-79.
    [5] Ji S, Xu W, Yang M, et al. 3D convolutional neural networks for human action recognition[J]. IEEE transactions on pattern analysis and machine intelligence, 2012, 35(1): 221-231.
    [6] Donahue J, Anne Hendricks L, Guadarrama S, et al. Long-term recurrent convolutional networks for visual recognition and description[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2015: 2625-2634.
    [7] Simonyan K, Zisserman A. Two-stream convolutional networks for action recognition in videos[C]//Advances in neural information processing systems. 2014: 568-576.
    作者介绍
    言有三,真名龍鵬,曾先後就職於奇虎 360AI 研究院、陌陌深度學習實驗室,6 年多電腦視覺從業經驗,擁有豐富的傳統圖像算法,和深度學習圖像項目經驗,擁有技術公眾號《有三 AI》,著有書籍《深度學習之圖像識別:核心技術與案例實戰》。

    原文鏈接

.室內定位技術對決,RFID 與 UWB 誰能搶佔鰲頭?

RC object positioning with UWB technology

AKD 寰楚專業級全系列監控設備


源:RFID世界网

大型商超、停車場、餐館、醫院、飯店、會展中心等室內場景的日益豐富,提升了人們快速導航、便捷定位的需求,室內定位技術由此擁有了一席之地。


Advantages of using Ultra Wideband (UWB) technology for ...

室內定位技術的發展,彌補了室外定位技術,在室內應用中不精準、信號低甚至無信號的狀態,讓人們的日常生活省時省心,變得更為便利。

目前,主流室內定位技術中,提及 RFID 定位技術,與超寬頻定位技術,人們常會從安全性、抗干擾性、通信傳輸距離等方面,將二者進行比較。那兩種室內定位技術有何不同呢哪一種是更為理想的室內定位技術呢小編帶大家一起瞭解一下。

在比較二者的實質性差別之前,我們先來認識一下這兩種室內定位技術定位原理。

1.RFID定位技術
RFID 定位技術,是一項利用射頻信號的無線通迅,來實現目標自動辨識的技術,透過一組固定的閱讀器,讀取目標 RFID 標籤的特徵資訊(如身份 ID、接收信號強度等),無需在辨識系統與特定目標之間,建立機械或光學接觸。

2.超寬頻(UWB)定位技術
超寬頻定位技術,是一項以極低功率、高速傳輸數據的無線通信技術,透過事先佈置好的,已知位置的錨節點和橋節點,與新加入的盲節點進行通訊,並利用三角定位,或「指紋」定位方式來確定位置。

從上述內容我們能夠瞭解到,二者的定位原理有所不同。那兩種室內定位技術具體存在哪些實質性的差別呢

(1)安全性
RFID 定位技術受制於廉價的計算,和低效率的數據傳輸、儲存能力,容易受到包括隱私問題在內的各種安全威脅,安全性較低。而超寬頻定位技術,為滿足較高的數據傳輸速率,使用了擴頻技術和跳時技術,可將信號更好地隱藏在背景噪聲中,從而保護通信,數據被截獲的可能性低。因此,在同等數據傳輸量下,超寬頻定位技術具有更高的安全性。


(2)抗干擾性
RFID 定位技術在實際使用中,會因相鄰兩個閱讀器的兩根相鄰天線,同時發送射頻信號而相互干擾,抗干擾性較差。而超寬頻定位技術採用跳時、擴頻信號,系統具有較大的處理增益,發射時將微弱的無線電脈衝信號,分散在寬闊的頻帶中,接收時將信號能量還原出來,在解擴過程中產生擴頻增益,不易受其它信號干擾。因此,在同等碼速條件下,超寬頻定位技術具有更強的抗干擾性。

(3)通信傳輸距離
RFID 定位技術常用於區域型定位,適宜短距離辨識通信(一般在10m之內)。而超寬頻定位技術,則適宜較長距離通信(一般在80m及以上)。因此,在同等定位需求下(同地點),超寬頻定位技術,具有更遠的通信傳輸距離。

綜上來看,相對於 RFID 定位技術,在安全性、抗干擾性、通信傳輸距離方面,超寬頻定位技術有著更加顯著的優勢。因此,對於室內定位來說,超寬頻定位技術無疑是更為理想的選擇。

工地系統示範圖

放眼當前的超寬頻室內定位技術領域產品,超寬頻定位系統,以 6-15cm 的釐米級高精度定位、100m 的大覆蓋範圍、以及上萬標籤的大容量,可以廣泛使用於工廠、工地、醫療、隧道管廊、監獄、餐飲等領域。