一分鐘看懂自然語言處理|知智一分鐘
leiphone 作者:MrBear
按:英特爾人工智慧產品事業部,數據科學主任 Yinyin Liu 近日撰寫了一篇文章,介紹了深度學習為自然語言處理,帶來的種種變化。
有趣的大趨勢,是首先產生在 CV 領域的技術,也不斷用於 NLP,而深度學習解決方案的構建方式,也隨著時間在進化。
自然語言處理(NLP),是最常見的人工智慧的應用方式之一,它透過消費者數位助理、聊天機器人,以及財務和法律記錄的文本分析等商業應用,變得無處不在。隨著硬體和軟體能力的提升,以及模組化 NLP 組件的發展,Intel 的技術也使得各種各樣的 NLP 應用成為可能。
深度學習性能的上升趨勢
近年來,許多 NLP 領域的進展,都是由深度學習領域的普遍進步驅動的。深度學習擁有了更強大的計算資源,可以運用更大的數據集,並且在神經網路拓撲結構,和訓練範式方面有所發展。這些深度學習的進步,始於推動電腦視覺應用的改進,但是也讓自然語言處理領域極大地獲益。
在深度學習的網路層方面,為了使得信號和梯度,能夠更容易地傳遞到深度神經網路的每一層,殘差結構單元(residual layer)、highway 層(全連接的 highway 網路)以及稠密連接(dense connections)結構應運而生。
有了這些網路層,目前最先進的電腦視覺技術,透過利用深度學習網路的表示能力得以實現。同時,他們也在許多自然語言處理任務上,提高了模型的性能。例如,將稠密連接的循環層用於語言模型(Improving Language Modeling using Densely Connected Recurrent Neural Networks,https://arxiv.org/abs/1707.06130 )。
有了這些網路層,目前最先進的電腦視覺技術,透過利用深度學習網路的表示能力得以實現。同時,他們也在許多自然語言處理任務上,提高了模型的性能。例如,將稠密連接的循環層用於語言模型(Improving Language Modeling using Densely Connected Recurrent Neural Networks,https://arxiv.org/abs/1707.06130 )。
有實證研究中比較了卷積層、循環層,或者一種結合了這兩種思想的時序卷積層的表現,時序卷積層在一系列的語言數據集上取得了目前最好的效果(Convolutional Sequence to Sequence Learning,https://arxiv.org/abs/1705.03122;An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling,https://arxiv.org/abs/1803.01271)。
有這些不同類型的層可供靈活使用,使得開發者能夠在處理特定的自然語言處理問題時,嘗試各種各樣的選項。
有這些不同類型的層可供靈活使用,使得開發者能夠在處理特定的自然語言處理問題時,嘗試各種各樣的選項。
在深度學習的拓撲結構方面,一個自編碼器(auto-encoder)模型,可以被改進為一個序列到序列(seq2seq)模型用於處理順序語言數據。
注意力機制(attention mechanism)解決了隨著時間的推移,解碼網路應該如何對輸入的編碼做出反應。指針網絡(Pointer network),作為注意力模型的一種變體,專門用於在輸入序列中尋找詞語的位置,它為機器閱讀理解和文本摘要提供了一種新的處理機制(Machine Comprehension Using Match-LSTM and Answer Pointer,https://arxiv.org/abs/1608.07905;Get To The Point: Summarization with Pointer-Generator Networks,https://arxiv.org/abs/1704.04368)。
透過增加快速權重(fast weights),(Fast Weights to Attend to the Recent Past,https://arxiv.org/abs/1610.06258)短期聯想記憶的概念,可以和長期序列的學習結合到一起。
注意力機制(attention mechanism)解決了隨著時間的推移,解碼網路應該如何對輸入的編碼做出反應。指針網絡(Pointer network),作為注意力模型的一種變體,專門用於在輸入序列中尋找詞語的位置,它為機器閱讀理解和文本摘要提供了一種新的處理機制(Machine Comprehension Using Match-LSTM and Answer Pointer,https://arxiv.org/abs/1608.07905;Get To The Point: Summarization with Pointer-Generator Networks,https://arxiv.org/abs/1704.04368)。
透過增加快速權重(fast weights),(Fast Weights to Attend to the Recent Past,https://arxiv.org/abs/1610.06258)短期聯想記憶的概念,可以和長期序列的學習結合到一起。
在訓練範式方面,無監督學習利用訓練數據本身,和遷移學習技術去構建數據表示,遷移學習可以把學到的,將表徵用於一個又一個的任務,都是從電腦視覺領域獲得啓發,推動了自然語言處理技術的進步。
由於這些深度學習模型,共用了許多底層的組件,基於深度學習的自然語言處理解決方案,可以與電腦視覺和其它人工智慧功能的解決方案,共用軟體和硬體。對於深度學習的通用軟體棧的優化,也可以為深度學習,自然語言處理解決方案的性能帶來改善。
英特爾的人工智慧硬體和軟體組合解決方案,為這些在英特爾架構的系統上,運行的深度學習進展提供了很好的示例。最近,在我們的硬體和對廣泛使用的深度學習框架的優化上的工作,提供了為在英特爾至強可擴展處理器上,運行普遍使用的模型和計算任務優化後的工作性能。
英特爾也積極地將他們的這些努力,回饋到開放的框架中,這樣一來,每個開發者都能很直接地獲得這些經驗。
英特爾也積極地將他們的這些努力,回饋到開放的框架中,這樣一來,每個開發者都能很直接地獲得這些經驗。
為自然語言處理用例構建一個靈活的、模組化的棧
由於基於深度學習的自然語言處理模型,通常擁有共用的構建模組(例如:深度學習網路層和深度學習拓撲結構),這讓我們在構建自然語言處理用例的基礎時,擁有了一個全新的視角。一些底層的功能在很多種應用中,同時被需要。在一個開放的、靈活的棧中,獲得基本組件對於解決各種各樣的自然語言處理問題,是十分恰當的。
由於基於深度學習的自然語言處理模型,通常擁有共用的構建模組(例如:深度學習網路層和深度學習拓撲結構),這讓我們在構建自然語言處理用例的基礎時,擁有了一個全新的視角。一些底層的功能在很多種應用中,同時被需要。在一個開放的、靈活的棧中,獲得基本組件對於解決各種各樣的自然語言處理問題,是十分恰當的。
相比之下,傳統的機器學習或者深度學習的做法,都是每一次只考慮某一個特定問題。而如今,由於深度學習社區,已經提供了許多有用的基礎功能模組,企業中的用戶和數據科學家們,就可以考慮其它的方面,在學習、構建起基礎以後,著眼於如何把它們應用於各種不同的問題。
這種轉換的好處主要有這麼幾點。首先,這些可以複用的組件,可以幫助我們逐步構建「結構性資產」。透過重複應用之前已經構建好的東西,我們可以做得更快、評價得更快。
其次,這些構建在英特爾的統一軟硬體平台上的功能和解決方案,可以持續不斷地從英特爾未來的開發和改進中受益。
另外,用現有的基礎設施做實驗,可以拓展出令人驚喜的新的解決方案或者新的應用,這是更早時候的僅關注於問題本身的思考方式,所無法帶來的。
其次,這些構建在英特爾的統一軟硬體平台上的功能和解決方案,可以持續不斷地從英特爾未來的開發和改進中受益。
另外,用現有的基礎設施做實驗,可以拓展出令人驚喜的新的解決方案或者新的應用,這是更早時候的僅關注於問題本身的思考方式,所無法帶來的。
一個靈活的、模組化的棧,還能使用戶可以將傳統的自然語言處理方法,和基於深度學習的方法結合起來,並為不同的用戶群提供不同層次的抽象。許多不同的企業用例表示,自然語言處理和它的基本組件的潛力。下面,我們為您提供了幾個例子,但是顯然還有很多別的可能性。
主題分析
金融業面臨著巨大的知識管理挑戰,這是由每天必須處理和理解的文件的數量(太大)所造成的。從一頁又一頁的文本中,提取出諸如「某種特定產品的競爭力」,這樣的關鍵的見解,是十分困難的。
自然語言處理主題分析技術,現在可以被用來快速分析大量的文檔,並且辨識文檔中不同的部分所關聯的主題。不同的用戶會關注不同的話題,例如:某個公司的價值、競爭力、領導力或者宏觀經濟學。自然語言處理主題分析,讓用戶能夠篩選出特定的感興趣的主題,並且獲得更加濃縮的資訊。
為了利用大量未標記的數據,模型可以用內容類似的文本進行預訓練,之後這些數據表示可以被遷移至主題分析,或者其它附加的任務中。早前的一篇博客介紹了這種解決方案中,涉及到的一些方法的概述。
為了實現這種方案,從自然語言處理構建模組的角度來說,我們使用了序列到序列(seq2seq)的拓撲結構,長短期記憶網路(LSTM),詞嵌入來自遷移學習,而後進行精細調節(fine-tune),還可以與命名實體辨識等組件結合在一起。
為了實現這種方案,從自然語言處理構建模組的角度來說,我們使用了序列到序列(seq2seq)的拓撲結構,長短期記憶網路(LSTM),詞嵌入來自遷移學習,而後進行精細調節(fine-tune),還可以與命名實體辨識等組件結合在一起。
趨勢分析
諸如醫療保健、工業製造、金融業等行業,都面臨著從大量的文本數據中,辨識基於時間的趨勢的挑戰。透過將文本正則化、名詞短語分塊和抽取、語言模型、語料庫的詞頻-逆文本頻率指數(TF-IDF)算法,以及使用詞向量的分組等技術,我們可以快速的生成一個解決方案,它可以從一組文檔中抽取關鍵詞和重要性估計。
接著,隨著時間的推移,透過比較這些抽取出來的關鍵詞,我們能夠發現有用的趨勢,例如:天氣變化如何能夠造成庫存的短缺,或者哪些領域的學術研究隨著時間的推移,會吸引更多的貢獻和注意。
接著,隨著時間的推移,透過比較這些抽取出來的關鍵詞,我們能夠發現有用的趨勢,例如:天氣變化如何能夠造成庫存的短缺,或者哪些領域的學術研究隨著時間的推移,會吸引更多的貢獻和注意。
情感分析
情感分析功能通常被用於競爭力分析、溝通策略優化、以及產品或市場分析。一個提供了細粒度的情感分析的解決方案,能夠為企業用戶提供可行的見解。
例如:這種更有針對性的情感分析可以發現,關於一個特定商品的評論,普遍是對於它的能耗的正面看法,以及對它的可靠性的負面看法。
對於這種細粒度的情感分析,我們使用了諸如詞性標注(POS tagging)、文本正則化、依存分析和詞彙擴展等組件。對於不同的領域,相同的的那次可能傳遞不同的情感,所以允許領域自適應的機制也是十分關鍵的。
例如:這種更有針對性的情感分析可以發現,關於一個特定商品的評論,普遍是對於它的能耗的正面看法,以及對它的可靠性的負面看法。
對於這種細粒度的情感分析,我們使用了諸如詞性標注(POS tagging)、文本正則化、依存分析和詞彙擴展等組件。對於不同的領域,相同的的那次可能傳遞不同的情感,所以允許領域自適應的機制也是十分關鍵的。
多功能體系架構上靈活的構造模組
當我們看到巨大的自然語言處理市場中的種種規劃時,我們應該如何構建解決方案、軟體、硬體來利用這些機會,並使它們成為可能?
在英特爾,我們希望構建能夠持續創新和改進的技術,這能夠給我們一個用於研究、實踐並應用算法的開放的、靈活的平台,這種技術還能夠高效地擴展到多種應用程序中,最終形成影響深遠的商業見解。
在英特爾,我們希望構建能夠持續創新和改進的技術,這能夠給我們一個用於研究、實踐並應用算法的開放的、靈活的平台,這種技術還能夠高效地擴展到多種應用程序中,最終形成影響深遠的商業見解。
在英特爾人工智慧實驗室,我們的自然語言處理研究人員和開發者,正在構建一個開放的、靈活的自然語言處理組件庫,以便為我們的合作夥伴和客戶,實現多種自然語言處理用例。
它使我們能夠高效地將我們靈活、可靠高性能的英特爾架構為這些自然語言處理應用、其他的人工智慧和先進分析工作流程,提供了硬體、框架工具和軟體層。我們將繼續努力優化這些組件,以提高深度學習的能力。
它使我們能夠高效地將我們靈活、可靠高性能的英特爾架構為這些自然語言處理應用、其他的人工智慧和先進分析工作流程,提供了硬體、框架工具和軟體層。我們將繼續努力優化這些組件,以提高深度學習的能力。
沒有留言:
張貼留言