Behind the Mic: The Science of Talking with Computers

開始保護您家裡與您的摯愛親人

本文是由來自谷歌語音團隊的科學家 Tara N. Sainath ，和來自谷歌大腦團隊的科學家 Yonghui Wu 共同撰寫的，文中簡單介紹了最新論文《State-of-the-art Speech Recognition With Sequence-to-Sequence Models》的主要思想與取得的成果，以及 Listen-Attend-Spell(LAS) 的端到端體系結構。 AI 科技評論根據原文進行了編譯。

MIT OpenCourseWare | Electrical Engineering and Computer Science ...

提升語音辨識的端到端模型

在谷歌各式各樣的語音搜索應用中，都是基於傳統的自動語音辨識（Automatic speech recognition, ASR）系統實現的。傳統的 ASR 系統由聲學模型（Acoustic model, AM）、發音模型（Pronunciation model, PM）和語言模型（Language model, LM）組成，所有這些系統都是分開單獨進行訓練的並且通常還針對各自不同的數據集進行了單獨的手工設計。

聲學模型採用了聲學特徵，用於預測一組子字單元（Subword units），它們通常是上下文無關或者上下文相關的音素。然後通過手動設計的詞庫（也即 PM）將由聲學模型預測產生的一系列音素映射到對應的單詞。

最終，由語言模型將概率賦予單詞序列。但是對這三個模型分開進行單獨訓練會增加訓練的複雜度，並且獨立訓練的效果不如將模型聯合訓練的效果好。

在過去的幾年裡，開發端到端（End-to-end）的系統越來越受到學者們的歡迎，而這些端到端系統試圖將這些獨立的組件作為一個單一系統進行聯合訓練。

Speech Recognition Using Language and Acoustic Model Modifications ...

雖然在文獻中這些端到端模型，已經展示出了頗為驚艷的結果，但是這種端到端的方法，是否可以被提升到趕上，甚至超越最先進的傳統方法，卻還仍然是一個未知數。

今天我們非常高興能夠與大家分享《State-of-the-art Speech Recognition With Sequence-to-Sequence Models》，它介紹了一種超越傳統生產系統性能的全新端到端模型。

論文中展示了，我們的端到端系統取得了 5.6% 的單詞錯誤率（Word error rate, WER），相比於強大的傳統系統（6.7% WER）取得了 16% 的提升。

此外，這個用於輸出初始單詞假設的端到端模型，由於沒有獨立的發音模型和語言模型，因此比傳統模型小了 18 倍。

我們的系統建立在 Listen-Attend-Spell(LAS) 的端到端體系結構的基礎上，該體系結構最先由提出。LAS 架構由三個組件構成。首先是聽者編碼器組件（Listener encoder component），聽者編碼器與標準的聲學模型相類似，它採用輸入語音信號 x 的時頻表示，並使用一組神經網絡將輸入映射到更高級的特徵表示 h^enc。

Is Pronunciation Important? | Found in Translation

然後聽者編碼器的輸出被輸入到第二個組件——參與者（Attender），參與者組件使用 h^enc 來學習輸入特徵 x 與預測的子字單元 {y_n, ... y₀} 之間的對應關係，其中每個子字通常是一個字素或者字片（Wordpiece）。

最終，注意力模塊（Attention module）的輸出將被輸入第三個組件——拼字者（Speller，例如，解碼器），拼字者組件類似於語言模型，它將輸出一組假設詞語的概率分布。

LAS 端到端模型組件圖

LAS 模型的所有組件都是被當做一個單一端到端神經網絡模型進行聯合訓練，這一點與傳統系統的分開訓練不同，同時也讓訓練過程變得更加簡單。

此外，由於 LAS 模型完完全全採用神經網絡模型，所以它不需要手動設計額外的組件（例如，有限狀態轉換器、詞庫和文本標準化模塊）。

最後，與傳統模型不同的是，訓練端到端模型不需要來自單獨訓練系統生成的決策樹或者時間對準的引導程序，並且可以訓練給定的文本副本（Text transcripts）對和相應的聲學對。

在論文[4]中，我們介紹了各種新穎的改進結構，包括改進了傳遞給解碼器的注意力向量（Attention vectors）和採用更長的子字單元（例如，字片）進行訓練。此外，我們還介紹了大量的訓練優化改進，包括使用最小誤碼率訓練[5]策略。這些結構和優化上的改進正是為何我們的模型相比起傳統模型能夠取得 16% WER 提升的原因。

Language Tests And Proficiency for Best MBA Results - NIBE

這項研究的另一項令人興奮的潛在應用是多方言（Multi-dialect）和多語言（Multi-lingual）系統，其中優化單個神經網絡的簡便性使得這樣的模型非常具有吸引力。

在這裡所有方言或者語言都可以結合起來訓練一個神經網絡，而不需要為每種方言或者語言去單獨設置聲學模型、發音模型和語言模型。

我們發現這些模型，在 7 個英語方言，和 9 個印度語上，取得了很好的效果，並且同時還超越了在每個方言或者語言上，進行單獨訓練的模型。

雖然我們為最終的結果感到非常高興，但是我們的工作卻還遠遠沒有完成。當前，這些模型還不能即時處理語音，而做到即時處理，這一點對於語音搜索等，對延遲敏感的應用而言卻是剛需。