Speech Recognition Using Python
任何顏色車牌——都拍攝的清清楚楚!
|
leiphone 作者:郭仁贤
據 Loup Ventures 不久前發佈的,2019 年語音助理智商測試的結果,透過對每個人工智慧系統的 800 個相同問題的測試,谷歌助手再次引領了這一潮流,與去年一樣,100% 完全理解了被問到的問題,並正確回答了其中的 92.9%,比去年的 85.5% 的正確率要高。
相比之下,蘋果的 Siri 在理解水準,和正確回答水準這兩方面的能力也都有提升,從去年的99%理解水準上升到今年的 99.8%,同時在正確回答水準方面,從 78.5% 上升到 2019 年的 83.1%。
儘管亞馬遜的 Alexa 再次位居第三,但今年也算是取得了重大進展,理解了 99.9% 的問題,並正確回答了 79.8% 的問題,比去年的 Siri 表現要好。
近日,據外媒報導,亞馬遜透過人工智慧,將即時語音辨識錯誤率降低了6.2%,可以算是一個不小的進步。
近日,據外媒報導,亞馬遜透過人工智慧,將即時語音辨識錯誤率降低了6.2%,可以算是一個不小的進步。
據瞭解,自動語音辨識系統是將語音轉換為文本,如 Alexa 的核心系統,其中一個組件是一個模型,它預測哪個單詞將出現在一系列單詞之後。它們通常是基於 N-Gram 語言模型,這意味著它們可以算出,給定過去 n-1 個單詞的,下一個單詞出現的概率。
N-Gram 是基於一個假設:第 n 個詞出現與前 n-1 個詞相關,而與其他任何詞不相關。(這也是隱馬爾可夫當中的假設)整個句子出現的機率,就等於各個詞出現的機率乘積,各個詞的機率可以透過語料中,統計計算得到。
但是,像遞歸神經網路這樣的體系結構,就比較難以融入即時系統,由於其學習長期依賴關係的能力,通常被用於語音辨識,並且常常難以從多個語料庫中獲取數據。
這就是為什麼亞馬遜 Alexa 科研人員,要研究能使得這種人工智慧模型,在語音辨識中更實用的技術的原因。
在奧地利格拉茨舉行的 2019 年 Interspeech 會議上,計劃發表的一篇博客和論文《ASR的可伸縮多語料庫神經語言模型》中,聲稱他們可以將單詞辨識錯誤率比基線降低 6.2%。
神經語言模型(NLM)在自動語音辨識(ASR),和其他任務中的表現,優於傳統的 N-gram 語言模型。然而,要在實際的大規模 ASR 系統中使用 NLM,還需要解決一些挑戰。在一些解決方案中,從異源語料庫中訓練 NLM,限制潛伏期影響和處理二次透過重測器中的個性化偏差。
研究人員透過建立領域內,和領域外訓練數據集的傳統模型,來解決數據稀缺的問題,這些模型是線性組合的,他們給每個語料庫分配了一個分數,來衡量其與域內數據的相關性,這決定了為補充數據集選擇樣本的可能性。
然後他們應用了遷移學習 Transfer learning,即機器學習的一種,就是把為任務 A 開發的模型作為初始點,重新使用在為任務 B 開發模型的過程中。
Automatic Speech Recognition (ASR) Software Market Major Competitors ... |
遷移學習是透過從已學習的相關任務中,轉移知識來改進學習的新任務,雖然大多數機器學習算法,都是為瞭解決單個任務而設計的,但是促進遷移學習的算法的開發,是機器學習人員持續關注的話題。
遷移學習對人類來說很常見,例如,我們可能會發現學習辨識蘋果,可能有助於辨識梨,或者學習彈奏電子琴,可能有助於學習鋼琴。
接下來,研究人員將數據透過一個帶有 N-gram 語言模型的語音辨識器傳遞,以使用人工智慧模型來改進其預測。
為了將傳統模型,拒絕人工智慧模型考慮的假設的風險,降到最低,他們使用人工智慧模型生成合成數據,為一次透過模型提供訓練數據。
ASR - Automatic Speech Recognition Blue Grey Blocks Stock Photograph |
訓練數據中的樣本是成對的詞彙,而不是單個詞彙,這是一個稱為噪聲對比估計的方案的一部分,其中一個成對詞彙是真正的目標,而另一個詞彙是隨機選擇的。該模型的任務是慧過直接估計目標詞彙的概率來學習區分。
最後,研究人員量化了人工智慧模型的權重,以進一步提高其效率。量化考慮特定變量可以接受的全部值範圍,並將其拆分為固定數量的間隔,這樣一個間隔內的所有值,都近似於一個數字。據研究人員透露,由於量化,人工智慧模型在 50% 的情況下,使得語音處理時間,增加不超過 65 毫秒,在90%的情況下增加不超過 285 毫秒。
AKD 寰楚專業級全系列監控設備 |
沒有留言:
張貼留言