什麼是 LSTM RNN 循環神經網絡 (深度學習)? What is LSTM in RNN (deep learning)?
Nx Witness v3.0 - 雲端影像平台解決方案 — |
【3S Market】安全監控不再是只有影像掛帥。延伸的圖像、影像技術應用,如臉型、指紋的生物辨識,還有本文介紹的自然語音辨識技術,都不斷融入到安全監控的應用中……
用行話說,是「算法應用」;用時髦名詞來說,就是—— 加入人工智慧……
循環神經網路(RNN,遞歸(本文譯作循環)神經網絡),已經在眾多自然語言處理中,取得了大量的成功以及廣泛的應用。但是,網上目前關於RNNs的基礎介紹很少,本文便是介紹RNNs的基礎知識,原理以及在自然語言處理任務中是如何實現的。文章內容根據雷鋒網AI研習社線上分享影片整理而成。
在近期雷鋒網AI研習社的線上分享會上,來自平安科技的人工智能實驗室的算法研究員羅冬日,為大家普及了RNN的基礎知識,分享內容包括其基本機構,優點和不足,以及如何利用LSTM網路實現語音辨識。
羅冬日,目前就職於平安科技人工智能實驗室,曾就職於百度、大眾點評,擔任算法研究員;中國科學院研究生院碩士,主要研究方向為語音辨識,自然語言處理。
分享主題:循環神經網路(RNN)基礎
主要内容:
‧ 普通RNN結構‧ 普通RNN的不足‧ LSTM單元‧ GRU單元‧ 採用LSTM實現語音辨識的例子
RNN和CNN的區別
普通卷積神經網路(CNN)處理的是「靜態」數據,樣本數據之間獨立,沒有關係。
循環神經網路(RNN)處理的數據是「序列化」數據。 訓練的樣本前後是有關聯的,即一個序列的當前的輸出,與前面的輸出也有關。比如語音辨識,一段語音是有時間序列的,說的話前後是有關係的。
總結:在空間或局部上,有關聯圖像數據,適合卷積神經網路來處理;在時間序列上,有關聯的數據適合用循環時間網絡處理。但目前也會用卷積神經網路處理語音問題, 或自然言語理解問題,其實也是把卷積神經網路的計算方法用到這上面。
RNN 的基本結構和結構展開示意圖:
普通RNN的不足之處
首先是神經網路裡面的計算,可以大致分為三類:函數合成,函數相加,加權計算。
在計算過程中,經常會用到啟動函數,比如Sigmoid啟動函數。殘差在往前傳播的過程中,每經過一個Sigmoid函數,就要乘以一個Sigmoid函數的導數值,殘差值至少會因此消減為原來的0.25倍。神經網路每多一層,殘差往前傳遞的時候,就會減少至少3/4。如果層數太多,殘差傳遞到前面已經為0,導致前層網路中的參數無法更新,這就是梯度消失。
LSTM單元和普通RNN單元的區別
主要大的區別是,採用一個叫「細胞狀態(state)」的通道貫穿了整個時間序列。
透過精心設計的稱作「門」的結構,來去除或增加資訊到細胞狀態的能力。
「忘記門」
「輸入門」的打開關閉,也是由當前輸入和上一個時間點的輸出決定的。
「輸出門」,控制輸出多少,最終僅僅會輸出確定輸出的那部分。
所有的公式匯總:
增加peephole的LSTM單元
讓幾個「門」的輸入數據除了正常的輸入數據,和上一個時刻的輸出以外,再接受「細胞狀態」的輸入。
GRU單元
它是各種變種之一,將「忘記門」和「輸入們」合成了一個單一的「更新門」,同時還混合了細胞狀態和隱藏狀態。
接下來用RNN做一個實驗,給大家介紹一個簡單的語音辨識例子:
關於LSTM+CTC背景知識
2015年,百度公開發佈的採用神經網路的LSTM+CTC模型大幅度降低了語音辨識的錯誤率。採用這種技術在安靜環境下的標準國語的辨識率接近97%。CTC是Connectionist Temporal Classification 的縮寫,詳細的論文介紹見論文「Connectionist Temporal Classification: Labelling Unsegmented Sequence Data with Recurrent Neural Networks」CTC的計算實際上是計算損失值的過程,就像其他損失函數一樣,它的計算結果也是評估網路的輸出值和真實差多少。
聲音波形示意圖
在開始之前,需要對原始聲波進行數據處理,輸入數據是提取過聲學特徵的數據,以幀長25ms、幀移10ms的分幀為例,一秒鐘的語音數據,大概會有100幀左右的數據。
採用MFCC提取特徵,默認情況下一幀語音數據,會提取13個特徵值,那麼一秒鐘大概會提取100*13個特徵值。用矩陣表示是一個100行13列的矩陣。
把語音數據特徵提取完之後,其實就和圖像數據差不多了。只不過圖像數據把整個矩陣,作為一個整體輸入到神經網路裡面處理,序列化數據是一幀一幀的數據放到網路處理。
如果是訓練英文的一句話,假設輸入給LSTM的是一個100*13的數據,發音因素的種類數是26(26個字母),則經過LSTM處理之後,輸入給CTC的數據要求是100*28的形狀的矩陣(28=26+2)。其中100是原始序列的長度,即多少幀的數據,28表示這一幀數據在28個分類上的各自概率。在這28個分類中,其中26個是發音因素,剩下的兩個分別代表空白和沒有標籤。
設計的基本網路機構
原始的wav文件經過聲學特徵提取變成N*13,N代表這段數據有多長,13是每一幀數據有多少特徵值。N不是固定的。然後把N*13矩陣輸入給LSTM網路,這裡涉及到兩層雙向LSTM網路,隱藏節點是40個,經過LSTM網路之後,如果是單向的,輸出會變成40個維度,雙向的就會變成80個維度。再經過全連接,對這些特徵值分類,再經過softmax計算各個分類的概率。後面再接CDC,再接正確的音素序列。
真實的語音辨識環境要複雜很多。實驗中要求的是標準國語和安靜無噪聲的環境。
如果對代碼講解(詳細代碼講解請點擊影片)感興趣的話,可以複製鏈接中的代碼:https://github.com/thewintersun/tensorflowbook/tree/master/Chapter6
運行結果如下:
0 comments:
張貼留言