2016年9月9日 星期五

‧ 2016\09\09\3S Market Daily 智慧產業新聞

3S Market deliver Smart and Valuable information for Business

3S Market 傳遞 智慧應用與價值的商業資訊

今日主題 工業4.0、智慧城市與環保節能、車聯網、經營管理探討
3S Market 最讚報
工業4.0與智慧工廠 








智慧城市與環保節能

車聯網與智慧車載
瀚錸科技


經營管理探討








前瞻視野股份有限公司

                                                                                                                                                                                                                             


最迷你無線雲端智慧攝影機

.數位化/工業4.0:德國北威州創新的解決方案和商機

3S Market透過這個德國智慧工業園區的投資招商,從中仔細看看這個全球頂尖的工業大國,如何運作工業4.0。

似乎……原汁原味的工業4.0,與時下台灣與對岸中國所談與所作的工業4.0,都有許多很大的出入!?

德國的工業4.0的終極目標是要從原料投入,製造生產的所有過程,到市場上的銷售,甚至後續的服務,整個目前碎片化的的過程,透過網路,將每個環節都數據化,因為有數據才能有分析、改進的依據。

藉由網路互通與數據分析,統合所有生、銷售、服務的過程,這就是工業4.0的核心運作原則。目前市面上所談的工業4.0,是否反而將自己帶到更碎片化的死路?





來源:RFID世界網 作者:莫非


工業4.0從2014年開始,成規模的在媒體上出現,到如今變成了十分熱門的議題。而後美國再工業化,日本工業復興、中國製造2025,全球各國對於工業的資訊化改革一一提上日程。

物聯網的應用,對於工業的改革有哪些方面的助推?擁有先進技術的製造業大國德國提出的工業4.0,又會給我們帶來怎樣的機會?

近日,由國際物聯網貿易與應用促進協會,和廣東省物聯網協會主辦,在對岸中國的深圳物聯傳媒承辦的「2016中國國際物聯網與智慧中國高峰論壇」在深圳會展中心盛大召開。

德國北威州投資促進署首席代表封興良先生以「數位化/工業4.0:德國北威州創新的解決方案和商機」為主題為我們分享了他眼裡的德國工業4.0,以及德國北威州在工業上的創新應用解決方案,以及投資機會。

首先,封興良先生為我們解釋了工業4.0的由來。


  德國北威州投資促進署首席代表封興良先生演講現場

工業4.0來自哪裡?
2006年,德國聯邦政府高技術規劃中,開始關注物聯網在工業中的應用;

2011年4月,提出工業4.0的初步概念,德國機械及製造商協會(VDMA)、資訊技術、通訊與新媒體協會(BITKOM)、電子電氣製造商協會(ZVEI)三大協會成立「工業 4.0」工作組;

2011年11月德國發佈《高技術戰略2020》;

2012年10月2日,工作組向聯邦教育與研究部和聯邦經濟和技術部遞交了《未來項目「工業4.0」的落實建議》;

2013年4月,保障德國製造業的未來——關於實施工業4.0戰略的建議》;

2013年12月,全球首份「工業4.0」標準化路線圖;

2014年4月,「工業」4.0學術咨詢委員會發佈了白皮書

2014年4月漢諾威工博會上展示的首個「工業4.0」演示系統

此後,工業4.0的概念迅速火遍全球……




我們一直在談工業4.0,那究竟什麼是工業4.0呢?
根據封興良先生的觀察,工業4.0涉及兩大主題(智慧工廠與智慧生產),三個設想(產品、設施、管理)。

智慧工廠重點研究智慧化生產系統及過程,以及網路化分布式生產設施的實現。而智慧生產主要涉及,整個企業的生產物流管理、人機互動、3D列印,以及增材製造等技術在工業生產過程中的應用等。

其次是三個設想:產品、設施及管理。產品整合有動態數位儲存器、感知和通信能力,承載著在其整個供應鏈和生命週期中,所需的各種整合,可實現自組織。管理能夠根據當前的狀況,靈活決定生產過程。

如何構建智慧工廠---資訊實體系統(CPS)

工業4.0是基於物聯網和服務網路,通過資訊實體生產系統CPPS為模型,建構智慧/數位工廠。

  工業4.0——資訊實體系統(CPS)
資訊實體系統(Cyber Physical System,CPS)強調,實體過程與資訊間的互通互聯。2008年美國加利福利亞大學的Lee.E在其技術報告《資訊實體系統:設計挑戰》中指出:資訊實體系統是計算和實體過程的整合。

嵌入式電腦和網路對實體過程進行監測和控制。從自動化技術的觀點看,CPS是一種工程系統,由一個嵌入在物體中的計算和通信的內核,在物理環境中進行監測和控制。(Karl Henrik Johansson,2011)以資訊實體生產系統CPPS為模型建構智慧工廠,或者數位化工廠


實現工業4.0,意味著什麼?
1).未來整個行業的研發時間,從設計到投產縮短了整整三分之一
2).自動化程度的提高,勞動力成本在產品生產中的總價值方面,所佔比例越來越少
3).軟體用於數位化仿真及虛擬裝配,從而實現各個組件及接口的成功測試
4).實現個性化生產,通過輸入有關數據,形成模型再通過數控設備的加工和製作
5).生產更有效率、更環保、更有人性化、產品從預訂到交貨的橫向一體化
6).系統允許一分鐘內更改產品和工序,虛擬世界與現實世界的交互

封興良先生還表示,實現多品種小批量智慧產品的高精度卓越品質生產,是未來像德國一樣成功經濟的發展趨勢。而目前我們的傳統製造產業,產品的開發、實驗、生產規劃、製造和服務整個過程是相分離的,如何才能改變目前這種局面?首先,大規模分隔狀態的部門必須做到數據的流通,而且是雙向流通,依靠共有數據來實現逐步改變。其次,把嵌入式軟體和各類不同的產品結合好,把軟體和電子機械結合起來。

德國北威州創新解決方案和商機
根據分析顯示,預計至2025年,在德國國民經濟中舉足輕重的六大行業,通過所謂的工業4.0,其生產率有望增加到780億歐元,而且每年每個行業的國民生產總值還能平均提高1.7%。而德國北威州在工業上,又有哪些創新的解決方案和機會呢?

1.用於工業的智慧技術系統
將資訊實體系統引入生產流程,是工業產值鏈的一場革命:自動設定生產流程,自行調整,材料向機器發出下一個生產步驟的指令。

2.實現物流流程的自動化操控
由於越來越多的網購、生產製造的個性化、送貨程序的聯網化、對生態環境可持續發展等要求,物流業正面臨全新的挑戰。

德國北威州通過對物流流程自動化控制的解決方案,建構起一個智慧系統,商品和貨物通過智慧系統,在全球供貨鏈中自動運行。此外,資訊實體系統將物流中的實體世界與智慧資訊和通訊技術連接起來,藉此才能使整個供貨鏈聯網,物流將更加智慧化。

而北威州在資訊通訊技術,以及物流業領域處於世界地位,如何將工業4.0用於物流業,幫助建立智慧交通網路和自動運行,北威州擁有最佳的條件和方案。

3.資訊通訊技術是增長助推器和創新引擎
資訊通訊技術中的智慧感應器、執行器、嵌入式系統、機器對機器的相互溝通、物流網和雲端運算等基礎技術,是工業4.0所必需的。採用資訊通訊技術後,企業可以全程監控,和掌握其能源需求和消耗資訊,首先能實現資訊透明化,在自動化和能源管理技能相互結合後,優化配置資源成為新的可能。

而資訊通訊技術是「關鍵基礎技術」對北威州經濟發展的作用舉足輕重,各行各業藉此都會得到巨大的增值空間,隨著工業4.0的推進和發展,增速還將更為顯著。

關於北萊茵-威斯特法倫州州政府的工業政策
※ 北威州政府的工業政策是鼓勵企業、研究機構和公共部門在產值鏈上的十六個產業和科技領域通力協作;

※集群組織不僅能鞏固北威州作為工業基地的地位,而且還能將在產業鏈上的企業、研究機構和關聯網路整合起來,彰顯合力的作用,在現有強項和出色成績的基礎上更上一層樓,不斷提高企業競爭力;

※特別鼓勵企業在產值過程和創新力方面推廣工業4.0,目的也在於保證企業將來的競爭力;另外還要著力打造在德國和國際上北威州工業基地的新形象。

                                                                                                                                                                                                                             


. 你計畫購買 3D 列印機嗎? 這些至關重要的幾大參數不可不知

 來源: 3D打印網

現如今,3D打印機市場的機器琳琅滿目,魚龍混雜,機器的質量也是參差不齊;對於想要購買3D列印機或者是初次購買的用戶來說,瞭解3D印機設備的相關參數非常重要,小編現在為您瞭解3D印機的一些基本的參數,讓您可以買到一台您心儀的3D印機。


1.機器設備的尺寸
用戶在選購 3D印時,第一能想到的是機器能夠印出多大的物體出來,您可以去問工作人員機器能夠印的尺寸,也可以根據 X, Y, Z軸可移動的最大範圍,來分辨出機器能夠印的尺寸。 

3D打印设备中至关重要的几大参数
2.機器設備能夠列印的材料
3D印材料有各種各樣的,並不是所有材料都能適用於一種機器哦,所以,小編在這裡提醒您,在購買3D列印機之前,一定要先瞭解3D列印材料的特點,問他 們的工作人員他們的3D列印機,能夠適用於什麼樣的材料,然後去選擇一款3D列印耗材廣泛使用的3D列印機,這樣才不會出現出了錢買了3D列印材料,卻使用不了的情況哦。

3D打印设备中至关重要的几大参数

3.機器列印的移動速度,列印層厚,以及定位精度
速度,精度,層厚這三個參數是彼此相關的,有時候我們不得不在效率、在品質之間做平衡,3D列印的精度越細,層厚就越小,但是列印速度就越慢了,列印速度變快時,列印的層厚越大時,模型就變粗糙了,在列印模型時,可以根據您想要的模型效果,來在這幾個參數之間做平衡。

3D打印设备中至关重要的几大参数
  
4.機器的軟體要求
通常列印機的運行環境一般是Windows,Mac OX ,Linux,不同公司研發的3D列印機會有不同的操作軟體,保存的模型文件一般為.stl或者Gcode格式,可以根據您會使用的3D設計軟體來設計模 型,如SolidWorks. PRO-E, Auto CAD, 3DsMax, Maya等。

5.噴嘴的直徑
一般3D列印機的噴嘴直徑為0.4mm和0.8mm,噴嘴的直徑越大,列印一層吐出的耗材就越粗,列印的層次越少,噴頭的移動次數就會變少,列印的時間 也就變快了,如果你在列印模型時,十分急需要這個模型,你可以使用大直徑的噴嘴,如果你想讓列印的模型表面的紋理更加的精細,則使用小直徑的噴嘴,通常機 器的尺寸越大,噴嘴的直徑也會越大。

3D打印设备中至关重要的几大参数
  
6.材料的線徑
通常材料的線徑為3.0mm和1.75mm。3.0mm線徑的材料大多數用著遠端送料的3D列印機上,遠端送料優點是噴頭較輕,定位準確,但是列印出來的模型拉絲較多。而1.75mm線徑的材料用於近端送料的3D列印機,能精準的控制出料,列印出來的模型會更細膩一些。

3D打印设备中至关重要的几大参数

                                                                                                                                                                                                                             


NETGEAR 物聯網專用10G交換器 

. 深度學習變革視覺實例搜索


按:本文作者鄧啓力,對岸中國哈爾濱工業大學深圳研究生院計算機系碩士研究生二年級,導師為「鵬城學者」徐勇教授。研究興趣為深度學習與電腦視覺。曾獲2015年首屆阿里巴巴大規模圖像搜索大賽二等獎,總排名第三名。


摘要
近些年,深度學習在各種電腦視覺任務上都取得了重大的突破,其中一個重要因素就是其強大的非線性表示能力,能夠理解圖像更深層次的資訊。本文對基於深度學習的視覺實例搜索方法,做了簡單的總結和概括,希望能給讀者們帶來啓發。

前言
給定一張包含某個物體的查詢圖片,視覺實例搜索的任務,就是從候選的圖片庫中,找到那些與查詢圖片包含相同物體的圖片。與一般的圖像搜索相比,實例搜索的搜索條件更為苛刻——是否包含相同的物體,如同一款衣服,同一輛車等等。

該問題具有非常廣泛的應用前景,如商品搜索,車輛搜索和基於圖像的地理位置辨識等。舉個例子,移動商品圖像搜索,就是通過分析利用手機相機拍攝的商品照片,從商品庫中找到相同或相似的商品。

然而在實際場景中,由於姿態,光照和背景等干擾因素,所以兩張包含相同物體的圖像,往往在外觀上差異很大。從這個角度來看,視覺實例搜索的本質問題,就是應該學習什麼樣的圖像特徵,從而使得包含相同物體的圖像,在特徵空間上是相似的。

近些年,深度學習在各種電腦視覺任務上,都取得了重大的突破,其中就包括視覺實例搜索任務。本文主要對基於深度學習的實例搜索算法(下面簡稱為「深度實例搜索算法」)進行剖析和總結,文章分為四個部分:第一部分總結了經典視覺實例搜索算法的一般流程;第二部分和第三部分,分別從兩個方面去介紹,近些年主要的深度實例搜索算法;端到端的特徵學習方法,和基於CNN特徵的特徵編碼方法;第四部分將通過總結在2015年首屆阿里巴巴大規模圖像大賽(Alibaba Large-scale Image Search Challenge, ALISC)中出現的相關方法,介紹一些實踐中,可以提高實例搜索性能的技巧和方法。

經典視覺實例搜索算法的一般流程
在深度學習流行之前,典型的實例搜索算法一般分為三個階段:首先在給定的圖像密集地提取局部不變特徵,然後將這些局部不變特徵進一步地編碼為一個緊湊的圖像表示,最後將查詢圖像與候選圖像庫中的圖像,進行相似度計算(基於第二步得到的圖像表示),找到那些屬於同一實例的圖片。
1.局部不變特徵。局部不變特徵的特點,就是提取圖像局部區域的細節資訊,不關心全局資訊,並對該局部區域內的光線變化、幾何變換具有一定的不變性。這對實例搜索非常有意義,因為目標物體可以伴隨著幾何變換出現圖像中的任何區域。在早期的工作中,很多實例搜索方法採用的是SIFT特徵。
2. 特徵編碼對局部特徵進一步地編碼有兩方面的意義:挖掘這些局部特徵之間的相關信息,增強可判別能力;單一緊湊的特徵向量更易於實現索引,提高搜索速度。目前常見的方法有VLAD(vector of locally aggregated descriptors),Fisher Vectors,triangular embedding等。在這裡,本文簡單地介紹下VLAD方法(在本文後面多次出現):a)VLAD方法首先利用k-means得到包含k個中心的碼本,然後每個局部特徵被指派給離它最近的中心點(我們將這一步稱為hard-assignment,之後會相關文章對此進行改進),最後將這些局部特徵與其指派的中心點之間的殘差累和作為最終的圖像表示。從上面可以看出,VLAD方法有無序的特性——不關心局部特徵的空間位置,因此可以進一步解耦全局空間資訊,對幾何變換具有很好的魯棒性。

3. 相似度計算。一種直接的做法是根據距離函數計算特徵之間的距離,例如歐式距離,餘弦距離等。另一種是學習相應的距離函數,例如LMNN、ITML等度量學習方法。

總結:經典視覺實例搜索算法的性能,往往受限於hand-crafted特徵的表示能力。當深度學習應用在實例搜索任務時,主要就是從特徵表示入手,即如何提取更加具有判別性的圖像特徵

端到端的特徵學習方法
NetVLAD: CNN architecture for weakly supervised place recognition  (CVPR 2016)

這篇文章是來自於INRIA 的Relja Arandjelović等人的工作。該文章關注實例搜索的一個具體應用——位置辨識。在位置辨識問題中,給定一張查詢圖片,通過查詢一個大規模的位置標記數據集,然後使用那些相似的圖片的位置,去估計查詢圖片的位置。

作者首先使用Google Street View Time Machine,建立了大規模的位置標記數據集,隨後提出了一種卷積神經網路架構,NetVLAD——將VLAD方法嵌入到CNN網路中,並實現「end-to-end」的學習。該方法如下圖所示:


深度学习变革视觉实例搜索

原始的VLAD方法中的hard-assignment操作是不可微的(將每個局部特徵,指派給離它最近的中心點),因此不可以直接嵌入到CNN網路裡,並參與誤差反向傳播。

這篇文章的解決方法就是使用softmax函數,將此hard-assignment操作轉化為soft-assignment操作——使用1x1卷積和softmax函數,得到該局部特徵,屬於每個中心點的概率/權重,然後將其指派給具有最大的概率/權重的中心點。

因此NetVLAD包含了三個可以被學習參數,,其中是上面1x1卷積的參數,用於預測soft-assignment,表示為每個簇的中心點。並在上圖的VLAD core層中完成相應的累積殘差操作。


作者通過下圖給我們說明,NetVLAD相比於原始的VLAD的優勢:(更大的靈活性——學習更好的簇中心點)

深度学习变革视觉实例搜索

這篇文章的另一個改進工作就是Weakly supervised triplet ranking loss。

該方法為瞭解決訓練數據可能包含噪聲的問題,將triplet ranking loss中正負樣本,分別替換為潛在的正樣本集(至少包含一張正樣本,但不確定哪張)和明確的負樣本集。

並且在訓練時,約束查詢圖片和正樣本集中,最可能是正樣本的圖片之間的特徵距離比,查詢圖片與所有負樣本集內的圖片之間的特徵距離要小。

Deep Relative Distance Learning: Tell the Difference Between Similar Vehicles (CVPR 2016)


接下來的這篇文章關注的是車輛辨識/搜索問題,來自於北京大學Hongye Liu等人的工作。如下圖所示,這個問題同樣可以被看成實例搜索任務。

深度学习变革视觉实例搜索

和很多有監督的深度實例搜索方法一樣,這篇文章旨在將原始的圖片,映射到一個歐式特徵空間中,並使得在該空間裡,相同車輛的圖片更加聚集,而非同類的車輛圖片則更加遠離。


為了實現該效果,常用的方法是通過優化triplet ranking loss,去訓練CNN網路。但是,作者發現原始的triplet ranking loss存在一些問題,如下圖所示:

深度学习变革视觉实例搜索

對於同樣的樣本,左邊的三元組會被損失函數調整,而右邊的三元組則會被忽視。兩者之間的區別在於anchor的選擇不一樣,這導致了訓練時的不穩定。

為了克服該問題,作者用coupled clusters loss(CCL)去替代triplet ranking loss。該損失函數的特點,就是將三元組變成了一個正樣本集,和一個負樣本集,並使得正樣本內的樣本相互聚集,而負樣本集內的樣本與那些正樣本更加疏遠,從而避免了隨機選擇anchor樣本所帶來的負面影響。


該損失函數的具體效果如下圖所示:

深度学习变革视觉实例搜索

最後這篇文章針對車輛問題的特殊性,並結合上面所設計的coupled clusters loss,設計了一種混合的網路架構,並構建了相關的車輛數據庫去提供所需的訓練樣本。

DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations (CVPR 2016)

最後的這篇文章同樣是發表在CVPR 2016上,介紹了衣服辨識和搜索,同樣是與實例搜索相關的任務,來自於香港中文大學Ziwei Liu等人的工作。


首先,本篇文章介紹了一個名為DeepFashion的衣服數據庫。該數據庫包含超過800K張的衣服圖片,50個細粒度類別和1000個屬性,並還額外提供衣服的關鍵點,和跨姿態/跨領域的衣服對關係(cross-pose/cross-domain pair correspondences),一些具體例子如下圖所示:

深度学习变革视觉实例搜索

然後為了說明該數據庫的效果,作者提出了一種新穎的深度學習網路,FashionNet——通過聯合預測衣服的關鍵點和屬性,學習得到更具區分性的特徵。該網路的總體框架如下所示:

深度学习变革视觉实例搜索

FashionNet的前向計算過程總共分為三個階段:第一個階段,將一張衣服圖片輸入到網路中的藍色分支,去預測衣服的關鍵點是否可見和位置。

第二個階段,根據在上一步預測的關鍵點位置,關鍵點池化層(landmark pooling layer)得到衣服的局部特徵。

第三個階段,將「fc6 global」層的全局特徵和「fc6 local」的局部特徵拼接在一起組成「fc7_fusion」,作為最終的圖像特徵。

FashionNet引入了四種損失函數,並採用一種迭代訓練的方式去優化。這些損失分別為:回歸損失對應於關鍵點定位,softmax損失對應於關鍵點是否可見和衣服類別,交叉熵損失函數對應屬性預測,和三元組損失函數對應於衣服之間的相似度學習。

作者分別從衣服分類,屬性預測和衣服搜索這三個方面,將FashionNet與其他方法相比較,都取得了明顯更好的效果。

總結:當有足夠多的有標注數據時,深度學習可以同時學習圖像特徵和度量函數。其背後的思想,就是根據給定的度量函數,學習特徵使得特徵在該度量空間下,具有最好的判別性。

因此端到端的特徵學習方法的主要研究方向,就是如何構建更好的特徵表示形式和損失函數形式。

基於CNN特徵的特徵編碼方法
本文在上面部分介紹的深度實例搜索算法,主要關注數據驅動的端到端特徵學習方法,及相對應的圖像搜索數據集。

接下來,本文關注於另一個問題:當沒有這些相關的搜索數據集時,如何提取有效的圖像特徵。為了克服領域數據的不足,一種可行的策略就是在CNN預訓練模型(訓練在其他任務數據集上的CNN模型,比如ImageNet圖像分類數據集)的基礎上,提取其中某一層的特徵圖譜(feature map),對其進行編碼得到適用於實例搜索任務的圖像特徵。

本部分將根據近些年相關的論文,介紹一些主要的方法(特別的,本部分中所有的CNN模型都是基於ImageNet分類數據集的預訓練模型)。

Multi-Scale Orderless Pooling of Deep Convolutional Activation Features (ECCV 2014)

這篇文章發表在ECCV 2014上,是來自於北卡羅來納大學教堂山分校Yunchao Gong和伊利諾伊大學香檳分校Liwei Wang等人的工作。 由於全局的CNN特徵缺少幾何不變性,限制了對可變場景的分類和匹配。

作者將該問題歸因於全局的CNN特徵,包含了太多的空間訊息,因此提出了multi-scale orderless pooling (MOP-CNN)——將CNN特徵與無序的VLAD編碼方法相結合。


MOP-CNN的主要步驟為,首先將CNN網路看作為「局部特徵」提取器,然後在多個尺度上提取圖像的「局部特徵」,並採用VLAD將這些每個尺度的「局部特徵」,編碼為該尺度上的圖像特徵,最後將所有尺度的圖像特徵連接在一起構成最終的圖像特徵。提取特徵的框架如下所示:

深度学习变革视觉实例搜索

作者分別在分類和實例搜索兩個任務上進行測試,如下圖所示,證明MOP-CNN相比於一般的CNN全局特徵,有更好的分類和搜索效果。

深度学习变革视觉实例搜索

Exploiting Local Features from Deep Networks for Image Retrieval (CVPR 2015 workshop)

這篇文章發表在CVPR 2015 workshop上,是來自於馬里蘭大學帕克學院Joe Yue-Hei Ng等人的工作。近期的很多研究工作表明,相比於全相連層的輸出,卷積層的特徵圖譜(feature map)更適用於實例搜索。


本篇文章介紹了,如何將卷積層的特徵圖譜轉化為「局部特徵」,並使用VLAD將其編碼為圖像特徵。另外,作者還進行了一系列的相關試驗,去觀察不同卷積層的特徵圖譜,對實例搜索準確率的影響。

深度学习变革视觉实例搜索
Aggregating Deep Convolutional Features for Image Retrieval(ICCV 2015)

接下來這篇文章發表在ICCV 2015上,是來自於莫斯科物理與技術學院Artem Babenko和斯科爾科沃科技學院Victor Lempitsky的工作。從上面兩篇文章可以看出,很多深度實例搜索方法都採用了無序的編碼方法。


但包括VLAD,Fisher Vector在內的這些編碼方法的計算量,通常比較大。為了克服該問題,這篇文章設計了一種更加簡單,並且更加有效的編碼方法——Sum pooing。Sum pooling的具體定義如下所示:


深度学习变革视觉实例搜索

其中就是在卷積層在空間位置上的局部特徵(這裡提取局部特徵的方法,與上篇文章一致)。在使用sum pooling後,對全局特徵進一步地執行PCA和L2歸一化得到最終的特徵。

作者分別與Fisher Vector,Triangulation embedding和max pooling這些方法進行比較,論證了sum pooling方法不僅計算簡單,並且效果更好。

Where to Focus: Query Adaptive Matching for Instance Retrieval Using Convolutional Feature Maps (arXiv 1606.6811)

最後這篇文章目前發在arXiv上,是來自於澳大利亞昆士蘭大學Jiewei Cao等人的工作。

正如本文在開頭部分所提到的,雜亂的背景對實例搜索影響非常大。為了克服該問題,這篇文章在上篇文章所提出的sum-pooling方法的基礎上,提出了一種被稱為query adaptive matching (QAM)的方法去計算圖像之間的相似度。

該方法的核心在於對圖像的多個區域執行池化操作,並創建多份特徵去表達圖像。然後在匹配時,查詢圖像將分別與這些區域的特徵比較,並將最佳匹配分數作為兩張圖像之間相似度。那麼接下的問題是如何去構建這些區域。


作者首先提出了兩種方法——Feature Map Pooling和Overlapped Spatial Pyramid Pooling (OSPP),去得到圖像的base region。然後通過對這些base region不斷地合併,以找到最好的相似度評分為目標,構建出目標區域。其中最吸引人的地方在於,作者將整個合併的過程,轉化為了對一個優化問題的求解。下圖顯示了QAM方法的部分結果及對應圖像的特徵映射。

深度学习变革视觉实例搜索

總結:在某些實例搜索任務中,由於缺少足夠的訓練樣本,所以不能直接 「端到端」的去學習圖像特徵。

這時候,如何將現成的CNN特徵編碼,為適合實例搜索的圖像表示,就成為該領域的一個熱門研究方向。

2015年首屆阿里巴巴大規模圖像搜索大賽總結
在介紹完近些年一些主要的深度實例搜索方法後,在接下來的部分,本文將通過總結在阿里巴巴大規模圖像搜索大賽中,出現的相關方法,來介紹一些實踐中可以提高視覺實例搜索性能的技巧和方法。

阿里巴巴大規模圖像搜索大賽,由阿里的圖像搜索組所主辦,要求參賽隊伍從海量的圖片庫中,找出那些與查詢圖片包含相同物體的圖片。這次比賽提供了以下兩類數據用於訓練:約200W張圖片的訓練集(類別級標籤及相對應的屬性),1417張驗證查詢圖片及相對應的搜索結果(總共約10W張)。

在測試時,給定3567張查詢圖片,參賽隊伍需從約300W張圖片的評測集中(無標籤),搜索出那些符合要求的圖片,評價指標為基於top 20的mAP ( mean  Average  Precision)。

首先簡單介紹我們的方法——Multi-level Image Representation for Instance Retrieval,該方法取得了這次比賽的第三名。很多方法都是用最後一個卷積層或全連接層的特徵進行檢索,而由於高層的特徵已經損失了很多細節訊息(對於更深的網路,損失更嚴重),所以實例搜索時不是很精準,如下圖所示,即整體輪廓相似,但細節則差距很大。
深度学习变革视觉实例搜索
為了克服該問題,我們將CNN網路中不同層的特徵圖譜(feature map)進行融合,這不僅利用了高層特徵的語義信息,還考慮了低層特徵的細節紋理資訊,使得實例搜索更精準。如下圖所示,我們的實驗主要基於GoogLeNet-22網路,對於最後的8層特徵圖(從Inception 3b到Inception 5b),首先使用最大池化對這些不同尺度的特徵圖分別進行子採樣(轉換為相同尺寸的特徵圖),並使用的卷積對這些採樣結果進一步地處理。


然後對這些特徵圖做線性加權(由的卷積完成),最後在此基礎上,使用sum pooling得到最終的圖像特徵。在訓練時,我們根據所提供的訓練數據,通過優化基於餘弦距離的triplet ranking loss來端到端學習這些特徵。因此在測試時,可以直接使用特徵之間的餘弦距離來衡量圖像的相似度。

深度学习变革视觉实例搜索

另外,借鑒於訓練SVM分類器時使用了難分樣本挖掘的思想,我們的方法首先在前向計算時,計算當前訓練批次中所有潛在三元組的損失(從當前訓練批次中選取兩張相同類別的圖片和一張不同類別的圖片構成潛在三元組),然後找到那些「困難」的三元組(更大的損失),最後在反向計算時,使用這些「困難」的三元組進行誤差傳播,從而取得更好的訓練效果。

接下來簡單總結其他隊伍的相關方法。在端到端的特徵學習方法中,除了triplet ranking loss,contrastive loss(對應於Siamese network)也是常見的損失函數。除此之外,還有一些方法值得我們關注,可以顯著地提高搜索性能:

(一)  同款圖挖掘
在有監督的機器學習方法中,更多的數據可能就意味著更高的準確率。因此來自於中科院計算所的團隊提出,先根據ImageNet預訓練模型的特徵,在類別級訓練集上聚類,然後通過閥值,挖掘出更多地同款圖,最後用這些同款圖去訓練CNN網絡,學習圖像特徵。該方法實現簡單,並且可以顯著地提高搜索的性能。

(二)  目標檢測
在實例檢索中,複雜的背景噪聲直接影響了最終的搜索性能。因此很多隊伍首先嘗試使用目標檢測(比如faster-rcnn)定位感興趣的區域,然後在進一步地學習特徵,比較相似度。另外,當沒有bounding box訓練數據時,弱監督的目標定位也是一種有效的方法。

(三) 一階池化特徵和二階池化特徵融合
二階池化方法通過捕捉圖像二階統計變量,如協方差等,往往可以取得更好的搜索準確率。來自大連理工的李培華教授所帶領的團隊在CNN網絡的基礎上,將一階池化特徵和二階池化特徵融合,取得非常出色的成績。

(四) 聯合特徵學習和屬性預測
該方法和本文在第三部分所提到的DeepFashion類似,同時學習特徵和預測圖片的屬性(多任務訓練),從而得到更具區分性的特徵。