Deep Learning for Speech Recognition
(Adam Coates, Baidu)
編者按:我們和電腦之間的交流正在發生著轉變,而深度學習也已經潤物細無聲地進入我們的生活,甚至在你意識到這一點之前,世界已經截然不同。
本文首發於fortune,分上下篇,由老呂IO、江小片及何忞聯合編譯,。
深度學習技術誕生已經幾十年了,在蟄伏一段時間後,它現在又迎來了第二春,成為了計算產業的新加速器,未來它還將徹底改變美國企業的面貌。
過去四年裡,恐怕讀者們都能清晰的感覺到,技術的提高對我們日常生活的影響。其中,最明顯的就是智慧手機中語音辨識功能的大躍進。它確實比以前好用多了,至少你命令它給自己老婆打電話時,不會無意間撥給前女友了。
事實上,我們與電腦間的交流方式正在發生轉變,原本噼噼啪啪敲個不停的方式,正在被一眾段子手語音助手所替代。百度數據顯示,在過去的一年半中,用戶使用語音交互的頻率提高了三倍。
機器翻譯和其他方式的語言處理,也正在變得越來越準確,谷歌、微軟、 Facebook 和百度每個月都會會有小小的進步。眼下,谷歌已經能在瞬息之間,將普通口語翻譯成其他 32 種語言,在文本翻譯方面它更是覆蓋了 103 種語言,在無意間還成了許多即將消失語言的保護神。
同時, Gmail 應用的收件箱,還貼心的準備了三種預製回覆,處理普通的郵件來往完全夠用了。
同時, Gmail 應用的收件箱,還貼心的準備了三種預製回覆,處理普通的郵件來往完全夠用了。
此外,圖片辨識技術也有了巨大的進步。上面提到的四家巨頭已經可以在缺乏辨識標籤的情況下,幫用戶找到他們想要的圖片了。你甚至可以讓它們專門找出帶有狗狗、雪花甚至擁抱的圖片。另外,未來圖片辨識技術還將擁有看圖說話功能,它們能在眨眼間,為你描述圖片中的內容。
不過,想達到這樣的效果可不容易,首先應用需要分清各種種類的狗狗,其次它要區分那些上下顛倒或者模糊的圖片。此外,圖片中的背景也會形成干擾,萬一來個霧霾「寶寶」可就苦了。最後,應用還得排除那些長得比較像狗狗的狼和貓。而這一複雜的過程,全靠分析像素完成,實在是太驚人了。
圖1:神經網路是如何辨識圖片中的狗狗的
除了社交應用,圖片辨識技術還順道照顧了下,其他領域的感情。一些醫學新創公司表示,它們很快就能利用電腦來分析 X 光、核磁共振和 CT 掃描的結果了,整個過程將變得更快更准,放射科的老醫生也得甘拜下風。此外,電腦還能提早發現癌細胞的存在,為病人爭取更多的治療時間。同時,新技術也是救命藥物研制中的好幫手。
不過,就在你忙著獻上膝蓋的時候,恐怕不知道它們在本質上是一種突破。其背後真正的大魔王,其實就是人工智慧技術,也就是我們所說的深度學習,另外它還有個學名叫做深度神經網路。
要說深度神經網路到底強在哪,恐怕其強悍的自學能力才是最佳答案。電腦技術發展到現在,沒有哪個程式員能直接編出一個程式或算法,來完成上面提到的任務。他們只能為電腦打造一個學習算法,日夜不斷的用數據「餵養」它,而主導這一學習過程的,並不是投餵數據的人類,而是電腦自己,它們會遨遊在數據的海洋中,自主完成學習任務。
「從本質上來說,軟體已經學會自主開發新軟體了,」英偉達公司 CEO 黃仁勳說道,該公司五年前做了一個大賭注,它正從一家我們熟悉的顯卡公司,轉變為深度學習技術巨頭。
深度神經網路的概念,其實早就不新鮮了,其歷史可追溯到上世紀 50 年代,而大多數的關鍵算法突破,這發生在上世紀 80 和 90 年代。現在這一概念重新走向前台,主要是因為我們擁有了強悍的計算和數據儲存能力,互聯網上的圖片、視訊、音訊和文本都成了「養料」。
頂級風投 Andreessen Horowitz 的合伙人 Frank Chen 認為,「深度學習迎來了屬於自己的寒武紀大爆發,」各種高等級生物在一夜間萌發了出來。
這一巨大的轉折點也點燃了許多人的激情。研究公司 CB Insights 的數據顯示,上季, AI 新創公司的融資額再創記錄,突破十億美元。 2016 年第二季,此類公司共完成了 121 輪融資,而 2011 年同期這一數字僅有 21 輪。 5 年之間,投入 AI 領域的資金達到 75 億美元,而其中 60 億都是 2014 年後才入場的。
2012 年時,谷歌只有兩個深度學習項目,但現在這一數字已經膨脹到超過 1000 個。同時這些項目也是遍地開花,谷歌旗下的搜索、安卓、 Gmail 、翻譯、地圖、 YouTube 和自動駕駛汽車都是其受益者。
此前, IBM 的 Waston 系統只靠 AI ,就能在各種比賽中稱王,但現在它們也順應潮流用上了深度學習, Waston 旗下的 30 個構建服務項目,都透過該技術得到了增強。
五年之前,恐怕沒幾家風投懂得深度學習為何物,但現在如果新創公司不懂這項技術,它們投資前就會非常猶豫。「我們生活在一個新時代,」 Frank Chen 說道。「複雜的軟體應用成了必備品。人們很快就會意識到這一巨大轉變,未來人類之間的對話也會圍繞它們展開。」
微軟研究院的 Peter Lee 認為,許多公司已經將深度學習技術,整合進了自己的日常流程。「我們的銷售團隊就在利用神經網路,預測產品前景,並根據用戶特點進行精準推薦。」
深度學習技術的快速發展,也震動了硬體產品的世界,摩爾定律不再是無可辯駁的真理,英偉達的 GPU 也能成為計算能力的倍增器。對深度學習計算來說,這種原本用來渲染 3D 遊戲的產品,比傳統 CPU 的效能高 20-50 倍。
去年八月份,英偉達新一季財報顯示,該公司數據中心部門的營收同比翻番,達到 1.51 億美元。該公司CEO 認為,「該部門營收能取得巨大進步,主要靠的就是深度學習。」在總長僅有 83 分鐘的財報電話會議上,「深度學習」一詞更是破紀錄地出現了 81 次。
芯片巨頭公司英特爾也受到了影響,在上兩個月中它並購了兩家做深度學習計算的新創公司:Nervana System(超過 4 億美金)和 Movidius (未公佈價值)。
關於這一點,Google在五月份表示,去年他們使用定制晶片——張量處理器(TPUs)來透過深度學習,實現應用程式。張量是像矩陣這樣的一列數字,在深度學習計算中,通常用一個乘以另一個。
實際上,公司現在已經處在轉折點上。百度研發中心的首席科學家 Andrew Ng 說:「過去許多標準普爾500的首席執行官,都希望他們能搶先應用因特網,我想未來五年會有更多的首席執行官希望能及早的應用人工智慧。」
儘管現在因特網,還不能使利用人工智慧的深度學習的價值,得到充分利用,但 Andrew Ng說:「100 年以前電力的出現,改變了工業時代,那麼現在人工智慧就充當著電力的角色。」
深度學習只是小小的一部分,人工智慧包含了許多技術,例如傳統邏輯算法系統,利用這種系統能使電腦和機器人,像正常人類思考那樣解決問題。深度學習是機器學習的一個分支,機器學習聽起來不好理解,但是對於讓電腦根據經驗解決問題來說,機器學習是很重要的數學算法。
百度的 Ng 說:「舉個例子來說,深度學習就像是 A 到 B 的映射,你輸入音頻,然後就可以聽到副本,這就是語音辨識。只要你有數據運行軟體,就都有可能完成。」他補充說:「如果你收到郵件,它就會辨識是否是一封垃圾郵件。如果收到貸款申請,它就會預計客戶償還的概率。如果詢問駕駛路線,它就會告訴你接下來該怎麼走。」
沒有留言:
張貼留言