．如何同時處理龐大、稀有、開放類別的視覺辨識？伯克萊 AI 研究院提出了開放長尾辨識方法

Artificial Intelligence Strategy | UC Berkeley School of Information Online Short Course Trailer

leiphone 作者：刘肉酱

在電腦視覺領域，圖像分類其實是一個最基本的問題，然後一旦遇到極端長尾、開放式的數據集時，即便是最基本的圖像辨識任務，也難以很好地實現。

伯克萊 AI 研究院，以對某段相關的經歷的思考，提出了「開放長尾辨識」（OLTR）方法，據介紹，該方法可同時處理龐大、稀有、開放類別的視覺辨識，是目前視覺辨識系統評價中更全面、更真實的一種檢驗標準，它可以被進一步擴展到檢測、分割和強化學習上。這一成果也在伯克萊 AI 研究院上進行了發表， AI 科技評論編譯如下。

現有的電腦視覺環境 vs 現實世界場景

有一天，一位生態學家來找我們。因為他用攝影機拍攝了很多野生動物的照片，希望運用現代電腦視覺技術，基於這些照片的數據庫自動辨識拍到了哪些動物。這聽起來是一個基本的圖像分類問題，所以我們當時很自信，覺得肯定沒問題。

然而結果我們卻失敗了。那位生態學家提供的數據庫，是極端長尾且開放式的。通常，只要無法得到足夠的訓練數據，我們就會問對方，有沒有可能提供更多的尾部類別數據，而忽略可能在測試數據中，出現的一些開集類別。

遺憾的是，要解決那位生態學家的問題，我們無法採用收集更多數據的做法。由於這些生態學家可能要花相當長的時間，才會在野外拍到他們計劃拍攝的珍稀動物。為了拍到一些瀕危動物，他們甚至必須等幾年才能拍到一張照片。

如此同時，新的動物物種不斷出現，舊的物種同時正在消失。在這樣一個動態變化的系統之內，類別的總數永遠無法固定。而且，從動物保護的意義上說，辨識新發現的稀有動物比辨識數量，還很多的動物更有價值。

如果我們只能在數量眾多的類別中，很好地辨識動物，那我們的方法永遠都不會有什麼實用價值。我們嘗試了所有可能採用的方法，能想到的都試過了，比如數據增強、採樣技術、小樣本學習、不平衡分類，但沒有一種現有的方法，可能同時處理龐大的類別、稀有的類別和開放的類別（如圖 1）。

圖1：現有的電腦視覺環境和現實世界的場景差距相當大。

自此以後，我們就一直在思考，現有的電腦視覺方法，和現實世界的場景，存在這麼大的差距，最主要的原因是什麼？不止是野生動物攝影數據存在這樣的問題，在現實生活中，這種問題一再出現，工業和學界都有。

假如卷積神經網路，可以在龐大的 ImageNet 圖像數據集中，非常順利地將圖片分門別類，那為什麼在開放的世界中，卻仍然無法解決圖片分類的問題？在視覺辨識領域，幾乎所有的問題都有成功的解決之道，如小樣本學習和開集辨識。

可似乎沒有人把這些問題，當作一個整體來看待。在現實世界的應用中，不論是頭部類別，還是尾部類別，分類有時不止面臨單獨一種問題。因此，我們認為，這種理論和實踐的差距，可能源於視覺辨識設置自身。

開放長尾辨識（Open Long-Tailed Recognition，OLTR）

在現有的視覺辨識環境中，訓練數據和測試數據在封閉世界（比如 ImageNet 數據集）的設置下都是均衡的。但這種設置，並沒有很好地模擬現實世界的場景。

例如，生態學家永遠都無法收集到均衡的野生動物數據集，因為動物的分布是不均衡的。同樣地，從道路標示、時裝品牌、面孔、天氣環境，到街道環境等等，各種類型數據集的不均衡開放分布都會干擾人。

為了如實地反映這些方面，我們開始正式研究，源自自然數據集的「開放長尾辨識」（OLTR）。一個實用的系統，應該能夠在少數共性的類別，和多個稀有類別之中分類，從極少數已知的例子之中，總結歸納單獨一個類別的概念，基於某個過去從未見過的類別，存在的一個例子，去瞭解這個類別的獨特性。

我們將 OLTR 定義為，從長尾和開放的分布式數據中學習，並且基於一個平衡測試數據集，評估分類的準確性，而這個測試數據集，要包括在一個連續譜內的頭部、尾部和開集類別（如圖 2）。

如何同时处理庞大、稀有、开放类别的视觉识别？伯克利 AI 研究院提出了开放长尾识别方法

圖2：我們這個開放長尾辨識的問題，必須從一個開放世界的長尾分布式訓練數據中學習，處理整個譜的不平衡分類、小樣本學習和開集辨識。

OLTR 並沒有局限於字面上的定義，目前有三個問題和它密切相關，分別是不平衡分類、小樣本學習和開集辨識，通常人們都是孤立地看待它們，分別獨立研究。

圖 3 概括了它們之間的差異。在評估視覺辨識系統方面，新提出的 OLTR 可以成為更廣泛、更現實的檢驗標準。

圖3：不平衡分類、小樣本學習、開集辨識和開放長尾辨識（OLTR）之間的差異。

注意力＆記憶的重要性

我們提出將圖像映射到一個特徵空間，這樣，視覺概念之間，可以基於學習到的度量相互關聯，並且這種度量既認可了封閉世界分類，又承認了開放世界的新穎性。

我們所提出的動態元嵌入層，結合了直接圖像特徵，和關聯的記憶特徵，同時，特徵範數表示了，對已知類別的熟悉程度，如圖所示 4。

首先，我們透過聚集源自頭部類別，和尾部類別的知識，獲得了視覺記憶；然後將儲存在內存中的視覺概念，當作關聯的記憶特徵重新注入，以增強原來的直接特徵。

我們可以將其理解為利用誘導知識（即記憶特徵）來幫助實現直接觀察（即直接特徵）。我們進一步學習了一個概念選擇器，來控制所要注入的記憶特徵的數量和類型。

由於頭部類別知識，已經獲得了豐富的直接觀察，所以它們只被注入了少量的記憶特徵。

相反，尾部類別獲得的觀察很少，於是記憶特徵裡的關聯視覺概念就非常有用。最後，我們透過運算出獲得視覺記憶的可達性，來調整開放類別的可信度。

圖4：關於文中方法的直觀解釋。我們提出的動態元嵌入層將直接圖像特徵，和聯想記憶特徵結合在一起，用特徵範數表示對已知類的熟悉度。

全面提升

如圖 5 所示，本文方法對所有的多/中/小樣本類別，以及開放類別進行了綜合處理，在各方面都取得了實質性的提升。

圖5：本文方法相對於普通模型的絕對 F1 分數。本文方法在多/中/少量類別，以及開放類別上取得了全面進步。

學習動態可視化

這裡，我們透過將頭部的激活神經元可視化，檢查了記憶特徵注入的視覺概念，如圖 6 所示。具體來說，對於每個輸入圖像，我們辨識出了它在記憶特徵中排名前 3 的遷移神經元。

所有神經元都透過整個訓練集上，最高的一組激活補丁實現可視化。例如，為了將左上角的圖像劃分為尾部類別「公雞」，我們的方法已經學會了，依次遷移表示「鳥頭」、「圓形」和「點狀紋理」的視覺概念。在注入特徵後，動態元嵌入層的資訊豐富度和辨識度變得更高。

圖6：記憶特性裡排前三的注入視覺概念案例。除了右下的失敗情況（標記紅色），其他 3 個輸入圖像都被普通模型錯誤分類，被我們的模型正確分類。例如，為了對屬於尾部類別「公雞」的左上角圖像進行分類，本文方法學會了分別遷移表示「鳥頭」、「圓形」和「點狀紋理」的視覺概念。

重返現實

現在讓我們回到真正的叢林，將我們在本文中提出的方法，應用到生態學家在第一部分提到的野生動物數據中。幸運的是，我們的新框架在不犧牲豐富類別的情況下，在稀缺類別上獲得了實質性的進步。

具體而言，在圖像數量少於 40 的類別上，我們讓結果提升了大約 40%（從 25% 到 66%）。並且，在開放類別檢測上，我們讓結果提高了 15% 以上。

我們相信，在開放長尾辨識環境下，開發的計算方法，最終可以滿足自然分布數據集的需要。綜上所述，開放式長尾辨識（OLTR）是視覺辨識系統評價中，更全面、更真實的一種檢驗標準，它可以被進一步擴展到檢測、分割和強化學習上。

致謝：感謝論文《開放世界中的大規模長尾辨識》的所有共同作者，在撰寫這篇博文中，所做的貢獻和討論。本文中所表達的觀點均屬於本文作者。

此博文基於將在 IEEE 電腦視覺和模式辨識會議（CVPR 2019）作口頭陳述的論文，如下：

《開放世界中的大規模長尾辨識》（Large-Scale Long-Tailed Recognition in an Open World）

作者：Ziwei Liu*, Zhongqi Miao*, Xiaohang Zhan, Jiayun Wang, Boqing Gong, Stella X. Yu

Paper：https://arxiv.org/abs/1904.05160

Project Page：https://liuziwei7.github.io/projects/LongTail.html

Dataset：https://drive.google.com/drive/folders/1j7Nkfe6ZhzKFXePHdsseeeGI877Xu1yf

Code＆Model：https://github.com/zhmiao/OpenLongTailRecognition-OLTR