．盤點 2018 年電腦視覺領域技術突破

Artificial Intelligence＆Computer Vision Key Trend

for 2018

康橋白光車牌攝影機，

任何顏色車牌——都拍攝的清清楚楚！

回顧2018年，是屬於人工智慧的一年，不論是Google、Facebook、Intel、阿里巴巴等，透過產業佈局，進入人工智慧領域的網路公司，亦或如曠視科技Face＋＋、極鏈科技Video＋＋、優必選科技，這樣直接以人工智慧起家的原生技術公司，都將AI注入到每個角落，掀起了一輪又一輪的技術高潮。

因而，除了NLP研究突破接連不斷，CV領域同樣精彩紛呈，伴隨著各式各樣落地應用，如此接近人們的生活，技術也變得越發成熟。本文整理了在2018年，在CV技術領域，取得的最主要的一些重大技術突破。

BigGAN發佈

Ian Goodfellow在2014年設計了GAN，在之後的幾年中，圍繞這個概念，產生了多種多樣的應用程序。

其中，在ICLR 2019論文中出現的BigGAN，同樣是一個GAN，只不過更強大，是擁有了更聰明的課程學習技巧的GAN，由它訓練生成的圖像，連它自己都分辨不出真假，因為除非拿顯微鏡看，否則將無法判斷該圖像，是否有任何問題，因而，它更被譽為史上最強的圖像生成器。

在電腦圖像研究史上，BigGAN帶來的突破是劃時代的，比如在ImageNet上進行128×128解析度的訓練後，它的IS得分能達到166.3，是之前最佳得分52.52分3倍；除了搞定128×128小圖之外，BigGAN還能直接在256×256、512×512的ImageNet數據上訓練，生成更讓人信服的樣本。

英偉達Video－to－Video Synthesis

英偉達在2018年的收穫頗豐，他們的研究焦點，從標準的監督學習，轉向更具挑戰性的機器學習，如半監督學習、領域適應、主動學習和生成模型等。

其中，由英偉達在2018年末發佈的最大成果之一，便是影像到影像生成（Video－to－Video synthesis），它透過精心設計的發生器、鑒別器網路，以及時空對抗物鏡，合成高解析度、照片級真實、時間一致的影像，實現了讓AI更具物理意識，更強大，並能夠推廣到新的，和看不見的更多場景。

因而，Video－to－Video Synthesis也被看作是在過去幾年中，視訊領域的一次重大突破，畢竟從靜態框架，轉換為動態框架的難度是很大的，但機器訓練卻在盡量模擬預測，影像將會發生的情景，透過給定的輸入影像學習映射函數，產生仿真度極高的影像內容。

Fast．ai18分鐘訓練ImageNet

在普遍認知，還停留在需要大量計算資源，來執行適當的深度學習任務時，Fast．ai透過使用16個公共AWS雲實例，每個配備8個NVIDIA V100 GPU，運行fast．ai和PyTorch，用18分鐘在ImageNet上，將圖像分類模型訓練到了93％的準確率，刷新了一個新的速度記錄。

這是一個令人驚喜的結果，尤其在公共基礎設施上訓練ImageNet能達到這種準確性，並且比其專有TPU Pod群集上的谷歌DAWNBench記錄快40％，運行成本僅約為40美元。

這意味著一個關鍵的里程碑出現了，幾乎所有人都可以在一個相當大的數據集上，訓練大規模神經網路。

除了這些重要的節點之外，2018年的電腦視覺技術也部署更多方面，不論是亞馬遜發佈 Rekognition ，將電腦視覺置於開發人員、微軟為OneDrive和SharePoint，推出了新的AI服務、Google相冊，讓我們的記憶變得可搜索，還是每個場景下，都正在逐漸普及的AI人臉辨識等等，電腦視覺正在逐步滲透到我們生活的每個部分。

最後，最值得注意的是，電腦視覺的市場成長，幾乎與其技術能力的成長是一樣快的，預計到 2025年，電腦視覺領域會帶來超過262億美元的收益，因而在人工智慧的未來裡，電腦視覺一定是最有力的表現形式，並將隨處可見。

按此回今日3S Market新聞首頁