Full Resolution Image Compression With Recurrent Neural Networks
leiphone 作者:脑极体
好劇總是追的特別快,比如說我們熟悉的黃暴神劇《矽谷》,今年該迎來第五季了。
這部劇裡讓人印象深刻的東西很多,而劇裡幾個主角發明的創業神器、號稱能改變世界命運的「魔笛手」絕對是其中之一。
給沒看過這部劇的朋友介紹一下,所謂的「魔笛手」是劇中主角發明的壓縮算法。本來這個東西是他們用來打造音樂網站的,結果後來這個技術被證明,可以把文件無損壓縮到極小,並且速度極快,從而引出了令人無法直視的各種劇情。(3S Market: 國外會有這樣的劇情,為什麼台灣總是一些送你一枝火柴,或是無理頭的偶像劇)
據說在寫劇本之初,主創人員曾經想過寫一種什麼技術,能讓觀眾馬上懂得其意義,又跟真正的技術世界比較貼合。最終他們發現,壓縮是最好的選擇。因為差不多每個人都知道文件越小越好,如果主角搞出來一個能讓數據無限儲存的東西,那當然就賺大了。
事實上,人類跟數據的無損壓縮這件事,已經硬槓了幾十年。成熟的壓縮技術,已經透過互聯網變成了大多數人的日常用品。但儘管如此,壓縮這件事始終沒有走到終點,《矽谷》裡那種神一樣的壓縮技術,依舊是我們渴望而不可及的。
但在今天,人工智慧開始把壓縮這件事,放在自己的任務欄裡,並且一步步對《矽谷》裡的「魔笛手」發起挑戰。
折騰了半個世紀的無損壓縮
我們日常在對壓縮的主要需求,被稱為無損壓縮。它可以將文件變小,然後再透過某種方式,還原出來正常使用。雖然今天這聽起來很普通,但其實人類已經為它折騰了50多年。
當然,發現數據應該壓縮後,再進行傳輸和儲存,是更早之前的事情。從19世紀的摩斯電碼時代,人類就已經發現了,很多數據中的無效部分,是可以被歸類和省略的,從而可以換取更快的傳輸速度,和更少的儲存空間。
這可以說是一種符號世界裡的常識,比如說一個人跟另一個人說「老地方見」,那麼就意味著他們把這句話中的地址資訊,在彼此都瞭解的情況下進行了壓縮,從而縮短了講話時間。
類似道理的壓縮技術,很早就應用在電腦世界,在大型機當道的時候,其價值已經被證明。但真正壓縮開始流行,還是在互聯網飛黃騰達之後。
1977年,是無損壓縮這件事跨時代的一個年份。這一年,以色列海法理工學院的科學家Abraham Lempel 和 Jacob Ziv聯合發表了一種壓縮算法,以兩人名字共同命名為LZ算法。這一年發佈的技術被稱為LZ77。第二年,兩人又發佈了改進版的LZ78。此後所有無損數據壓縮技術,差不多都是從這兩種演化而來。
另一個無損壓縮的時代,開始在八十年代末。
這個時候,隨著互聯網開始騰飛,各種商業壓縮軟體已經成熟,但還缺少能獨大的那一家。
當時流行的壓縮軟體叫做Arc,後來一個名叫Phil Katz的年輕人突發奇想之下,希望能夠做個更好的版本。於是,這個之後被稱為互聯網天才,和第一代極客的大牛做了名字充滿挑釁意味的PKArc。結果1988年,Phil Katz被告侵犯商標和知識產權。於是第二年他又做了新的修改版,用了新的IMPLODE算法,也就是我們今天無比熟悉的ZIP。
遺憾的是,這位無損壓縮的時代人物,沒有逃脫老天對天才的妒忌。伴隨著嚴重的妄想症、抑鬱症和酗酒,他37歲就離開了人世。但是ZIP卻統治了壓縮世界的話語規範,直到今天。
人工智慧正在改變壓縮
在相當長的一段時間裡,壓縮都被認為是無需再進行改善的東西。但隨著新終端、新的儲存方式到來,人類又一次對壓縮提出了新的要求。
就像《矽谷》裡說的那樣,行動網路和雲計算的加持下,人類正在以幾何成長的速度製造新數據,這些數據可能很快就會沒有地方儲存。既然大家都不想刪除文件,那麼只能寄希望於文件變小一點了。
《矽谷》裡所謂的魔笛算法,一度引發了不少跟風打造屬於自己的「魔笛」,但是效果普遍沒有劇裡那麼犀利。
最終這個任務,很可能還是要落在人工智慧的頭上。
2016年,谷歌相關團隊推出了一款叫做RAISR(Rapid and Accurate Image Super-ResoluTIon)的圖像壓縮技術。這個解決方案就是以人工智慧技術作為壓縮路徑,效果能達到將圖片壓縮到源文件的1/4, 卻基本不改變圖片的清晰度。
能達到這種效果的訣竅,在於給機器學習輸入大量的圖片壓縮數據。
讓智慧體去學習圖片壓縮的模式,從而創建符合每個圖片要求的濾波器。由此產生的壓縮後圖片,只是被忽略了數據細節,卻保留了能夠讓人眼辨識的部分。
在極大程度壓縮文件的同時,這種技術還能提升文件壓縮速度。主要用來提供行動端的圖像傳輸和瀏覽效率,讓用戶獲得更好的圖片觀看體驗。
谷歌發佈的AI+壓縮技術,應用在圖片領域,而一些新的方案,正在把AI向透用壓縮領域擴張。
在一篇史丹佛大學相關團隊最近發佈的論文中,闡釋了一種被稱為Deep Zip的壓縮方式。顧名思義,這種技術將深度學習和壓縮融合在了一起,希望利用AI技術獲得更好的壓縮體驗。
這篇論文裡,研究者闡釋了利用RNN,即循環神經網路技術進行文件壓縮的方式。所謂RNN,是一種深度學習中的經典神經網路技術。形象一點解釋,這種神經網路框架,就好比讓一個人擁有了一定的知識基礎,再去學習下一個知識,反覆循環形成對長期記憶的理解能力。
研究者發現,使用RNN技術可以明顯改善,內部有依賴關係文件,比如圖像、影像、文本文檔的壓縮效率。很可能是我們進一步提升壓縮效率,化大為小的突破口。
總而言之,不同的AI技術正在嘗試,從前所未有的角度,撬開無損壓縮的大門,希望能像電視劇裡那樣,搞出一個質變來。
今天的世界,確實在期待更好的壓縮
那麼到底為什麼一定要有更好的壓縮方式呢?或者說即使有了這種技術,是不是真正能像《矽谷》裡描述的那樣改變世界呢?
這要從到底哪些方向,需要壓縮的技術變革來看。
首先,對於劇中所描述的「數據末日」,產業界有各種各樣的看法。有人認為人類的數據量確實在爆炸,很可能面臨儲存瓶頸,從而引發社會對數據空間的爭奪。但也有人認為,更大的雲空間也在不斷建設中,數據量很可能永遠也追不上,不斷擴大的雲空間。
孰是孰非不好定論,關於壓縮技術的進步,更多人認為是和行動設備、可穿戴設備,以及物聯網設備的普及化相關的。這些設備都對數據傳輸的速率有要求,速度越快體驗越好。那麼壓縮能力的進化,顯然可以增強這些聯網設備的工作能力,尤其是對於物聯網設備來說。
但最有可能的需求,是來自於那些新技術風口。
比如VR、無人駕駛的高精地圖、基因圖譜數據,以及深度學習所使用的訓練數據集,這些文件都比我們日常接觸的互聯網數據大上很多。隨著VR、無人駕駛、人工智慧這些東西一步步產業化、日常化,對它們的傳輸、保存和使用需求,也在不斷擴大。而且這些都是高精度文件,對壓縮的效果和品質,也提出了新要求。
所以,高精度、高速率的壓縮解決方案正在被熱切渴望著。甚至可能成為未被重視的巨大市場。用AI壓縮來滿足AI的需求,可能是接下來我們會見到的常態。
0 comments:
張貼留言