The Basics of Natural Language Processing
來源:
數據是推動AI發展的催化劑,但如果要收集有效的數據,這就需要AI專家富有創造性了。自然語言處理(NLP)是AI的一個子域,側重於教電腦如何解析人類語言。
NLP Fundamentals: Where Humans Team Up With Machines To Help It Speak |
1. 混合語言(Spanish+English=Spanglish)
微軟在多語種NLP的論文,提出了一種專注於處理「混合語言」的方法,即在夾雜不同語言的文本或語音中,自由切換,考慮到世界上超過一半的人口使用多語言,這個對此前未涉及領域的研究非常重要。
研究人員從西班牙語和英語著手,不過他們缺少足量的西班牙語文本來訓練機器。正如混合代碼,很少能找到包含多語言會話的文本,研究人員編寫了一個程序克服這個挑戰:把流行英語文本錄入到微軟的必應翻譯器,然後將以詞組為單位翻譯的西班牙語譯文轉入源文本,確保交換的單詞和短語,具備同樣的意思。透過這種方式,他們能夠創建出足夠多的西班牙式英語。
透過這種方式產生的NLP模型,明顯優於之前只用西班牙語,或只用英語訓練的模型。研究人員希望他們的工作,最終能幫助開發多語言聊天機器人。
2. 食譜
食譜以圖文並茂和循序漸進的方式,教人如何做菜,類似這種的方法,也可以被用來訓練機器:用結構數據教會機器,同時理解文本和圖像。
土耳其哈斯特帕大學的研究人員,匯編了一套涵蓋兩萬多本,插圖烹飪食譜的大型數據集,他們希望將此作為用於訓練機器文本-圖像理解性能的基準測試的新資源。
土耳其哈斯特帕大學的研究人員,匯編了一套涵蓋兩萬多本,插圖烹飪食譜的大型數據集,他們希望將此作為用於訓練機器文本-圖像理解性能的基準測試的新資源。
這個所謂的「食譜QA」的數據集,是建立在先前的研究基礎之上,此前的研究分別側重機器閱讀理解和視覺理解能力,對於前者,機器必須理解問題,和相關段落才能找到答案,而對於後者,機器只能在相關圖像中搜索答案。文本和圖像的並排增加了任務的複雜性,因為這會呈現出互補或多餘的資訊。
3. 短句
谷歌希望用AI潤色散文,研究人員為此創造了有史以來最大的數據集:將長句縮減成短句,但兩者具備相同意義。在哪裡才能找到大量的編輯數據呢?當然是維基百科了。
研究團隊從維基百科豐富的編輯歷史中,提取了拆分長句的實例,結果顯示,相比以前的基準數據集,這次任務中發現了60倍不同的句子拆分例子,和90倍的詞彙單詞,而且數據集跨越多種語言。
當研究人員用新的數據訓練機器學習模型時,其準確度(這裡的準確度是指句子被重寫後,其意義和語法保持正確的比例)高達91%,相比之下,用先前數據進行訓練的模型僅達到32%的準確度,最後,研究人員結合了兩個數據集,並用此對第三個模型進行了訓練,準確度達到了95%。因此,研究人員得出結論,可以透過尋找更多的數據來源,實現更好的效果。
4. 社交媒體的偏差
相關研究已表明,人類創造的語言是人類種族、性別和年齡很好的一個預測指標,即使這些資訊從未被明確地陳述過。因此,以色列巴伊蘭大學和艾倫AI研究所的研究人員,試圖利用AI,透過移除這些內嵌指標,來消除文本中的偏差。
為了獲取足夠數據,代表基於不同人口統計的語言模式,他們轉向了Twitter平台,收集了幾組不同用戶的推文,其中的對比組用戶包括非西班牙裔的白人,和非西班牙裔的黑人、男性和女性、18-34歲和35歲以上。
研究人員採用一種對抗方式,將兩個神經網路相互對立,查看其是否能自動除去推文中,內在的人口統計指標。其中一個神經網路,試圖預測人口統計學,而另一個試圖將文本,調整到完全中立的狀態,其目的是將第一個模型的預測準確度(或可能性)降低到50%。透過這種方式能顯著減低種族,性別和年齡的指標,但無法完全消除。
沒有留言:
張貼留言