AI: Smart CCTV Features Facial Recognition Voice Recognition & Security Algorithm

leiphone 大牛講堂

按：徐榮強（Kevin），地平線硬體音頻工程師。2011年11月畢業於英國愛丁堡大學通信與信號處理專業，曾任諾基亞，聯想，微軟高級音頻工程師。

現在Horizon-Robotics負責語音相關硬體件系統設計，涉及遠場高靈敏度麥克風陣列設計，高精度音頻硬體編解碼器評估驗證，遠場語音前處理算法的評估驗證，涉及聲源定位，波束形成，盲信號分離，回聲抑制及平穩降噪等相關技術算法。

麥克風陣列的語音信號處理技術

熟悉人工智慧的朋友一定明白，語音交互對於人機對話交互的重要意義，而一個完整的語音交互涉及到人的語音、語義，機器的麥克風、處理器、核心算法等多個部分，是一項看似簡單，實則複雜的龐大工程！當然這是以小編的粗淺理解寫成的總結，技術講解咱還得靠大牛！

前言

隨著人工智慧與人們的生活越來越近，語音技術的發展也備受關注。傳統的近場語音已經無法滿足人們的需求，人們希望可以在更遠的距離，更複雜的環境中語音控制智慧設備。因此，陣列技術成為遠場語音技術的核心。

陣列麥克風對人工智慧的意義

1.空間選擇性：通過電掃陣列等空間定位技術可以獲取聲源的有效位置，智能設備在獲取精准的聲源位置資訊，讓我們的語音更加智能，通過算法獲取高品質的語音信號質量。

2.麥克風陣列可以自動檢測聲源位置，跟蹤說話人，同時可以獲取多聲源，和跟蹤移動聲源的優勢，無論你走到任何位置，智慧設備都會對你的位置方向，進行語音增強。

3.陣列麥克風增加了空域處理，對多信號空時頻三維的處理彌補單信號在噪聲抑制，回聲抑制，混響抑制，聲源定位，語音分離方面的不足，讓我們的智慧設備在複雜的環境中，都可以獲取高質量的語音信號，提供更好的智慧語音體驗。

麥克風陣列技術的技術難點

傳統的陣列信號處理技術，直接應用到麥克風陣列處理系統中，往往效果不理想，其原因在於麥克風陣列處理，有不同的處理特點：

1.陣列模型的建立

麥克風主要應用處理語音信號，拾音範圍有限，且多用於近場模型，使得常規的陣列處理方法如雷達，聲吶等平面波遠場模型不再適用，在近場模型中，需要更加精準的球面波，需要考慮傳播路徑不同引起的幅度衰減不同。

2.寬頻信號處理

通常的陣列信號處理多為窄頻，即不同陣元在接受時延與相位差主要體現在載波頻率，而語音信號未經過調制也沒有載波，且高低頻之比較大，不同陣元的相位延時與聲源本身的特性關係很大—頻率密切相關，使得傳統的陣列信號處理方法不再完全適用。

3.非平穩信號處理

傳統陣列處理中，多為平穩信號，而麥克風陣列的處理信號多是非平穩信號，或者短時平穩信號，因此麥克風陣列一般對信號做短時頻域處理，每個頻域均對應一個相位差，將寬頻信號在頻域上分成多個子帶，每個子帶做窄帶處理，再合併成寬頻譜。

4.混響

聲音傳播受空間影響較大，由於空間反射，衍射，麥克風收到的信號除了直達信號以外，還有多徑信號疊加，使得信號被干擾，即為混響。在室內環境中，受房間邊界或者障礙物衍射，反射導致聲音延續，極大程度的影響語音的可懂度。

聲源定位

聲源定位技術在人工智慧領域應用廣泛，利用麥克風陣列來形成空間笛卡爾坐標系，根據不同的線性陣列，平面陣列和空間陣列，來確定聲源在空間中的位置。

智慧設備首先可以對聲源的位置，做進一步的語音增強，當智慧設備獲取你的位置資訊，可以結合其他的傳感器進行進一步的智能體驗，比如機器人會聽到你的呼喚走到你的身邊，視遜設備會聚焦鎖定說話人等等。瞭解聲源定位技術之前，我們需要瞭解近場模型和遠場模型。

近場模型和遠場模型

通常麥克風陣列的距離為1~3m，陣列處於近場模型，麥克風陣列接受的是球面波而不是平面波，聲波在傳播的過程中會發生衰減，而衰減因子與傳播的距離成正比，因此聲波從聲源到達陣元時候的幅度也各不相同。

而遠場模型中，聲源到陣元的距離差相對較小，可以忽略。通常，我們定義2L²/λ為遠近場臨界值，L為陣列孔徑，λ為聲波波長，因此陣元接受信號不僅有相位延時還有幅度衰減。

聲源定位技術

聲源定位的方法包括電掃陣列，超分辨譜估計和TDOA，分別將聲源和陣列之間的關係，轉變為空間波束，空間譜和到達時間差，並通過相應的資訊進行定位。

1.電掃陣列

通過陣列形成的波束在空間掃描，根據不同角度的抑制不同來判斷方向。通過控制各個陣元的加權系數，來控制陣列的輸出指向，進行掃描。

當系統掃描到輸出信號功率最大時所對應的波束方向就是認為是聲源的DOA方向，從而可以聲源定位。電掃陣列的方式存在一定的局限，僅僅適用於單一聲源。若多聲源在陣列方向圖的同一主波束內，則無法區分。

而這種定位精度和陣列寬度有關—在指定頻率下，波束寬度和陣列孔徑成反比，所以大孔徑的麥克風陣列在很多場合的硬件上很難實現。

2.超分辨譜估計

如MUSIC，ESPRIT等，對其協方差矩陣（相關矩陣）進行特徵分解，構造空間譜，關於方向的頻譜，譜峰對應的方向即為聲源方向。適合多個聲源的情況，且聲源的分辨率與陣列尺寸無關，突破了物理限制，因此成為超分辨譜方案。

這類方法可以拓展到寬帶處理，但是對誤差十分敏感，如麥克風單體誤差，通道誤差，適合遠場模型，矩陣運算量巨大。

3.TDOA

TDOA是先後估計聲源到達不同麥克風的時延差，通過時延來計算距離差，再利用距離差和麥克風陣列的空間幾何位置，來確定聲源的位置。分為TDOA估計和TDOA定位兩步：

（1） TDOA估計

常用的有廣義互相關GCC，Generalized Cross Correlation和LMS自適應濾波

(1) 廣義互相關

基於TDOA的聲源定位方法中，主要用GCC來進行延時估計。

GCC計算方法簡單，延時小，跟蹤能力好，適用於實時的應用中，在中等嘈雜強度和低混響噪聲情況下，性能較好，在嘈雜非穩態噪聲環境下定位精度會下降。

(2) LMS自適應濾波

在收斂的狀態下給出TDOA的估值，不需要噪聲和信號的先驗信息，但是對混響較為敏感。該方法將兩個麥克風信號，作為目標信號和輸入信號，用輸入信號去逼近目標信號，通過調整濾波器系數得到TDOA。

(2)TDOA定位

TDOA估值進行聲源定位，三顆麥克風陣列可以確定空間聲源位置，增加麥克風會增高數據精度。定位的方法有MLE最大似然估計，最小方差，球形差值和線性相交等。

TDOA相對來講應用廣泛，定位精度高，且計算量最小，實時性好，可用於實時跟蹤，在目前大部分的智慧定位產品中，均採用TDOA技術做為定位技術。

波束形成

波束形成可分為常規的波束形成CBF，Conventional Beam Forming和自適應波束形成ABF，Adaptive Beam Forming。CBF是最簡單的非自適應波束形成，對各個麥克風的輸出進行加權求和得到波束，在CBF中，各個通道的權值是固定的，作用是抑制陣列方向圖的旁瓣電平，以濾除旁瓣區域的干擾和噪聲。

ABF在CBF的基礎之上，對干擾和噪聲進行空域自適應濾波。ABF中，採用不同的濾波器得到不同的算法，即不同通道的幅度加權值，是根據某種最優準則，進行調整和優化。如LMS，LS，最大SNR，LCMV（線性約束最小方差，linearly constrained Minimum Variance）。

採用LCMV準則得到的是MVDR波束形成器（最小方差無畸變響應，Minimum Variance Distortionless Response）。LCMV的準則是在保證方向圖，主瓣增益保持不變的情況下，使陣列的輸出功率最小，表明陣列輸出的干擾加噪聲功率最小，也可以理解為是最大SINR準則，從而能最大可能的接收信號，和抑制噪聲和干擾。

CBF-傳統的波束形成

延時求和的波束形成方法用於語音增強，對麥克風的接收信號進行延時，補償聲源到每個麥克風的時間差，使得各路輸出信號在某一個方向同相，使得該方向的入射信號，得到最大的增益，使得主波束內有最大輸出功率的方向。形成了空域濾波，使得陣列具有方向選擇性。

CBF + Adaptive Filter 增強型波束形成

結合Weiner濾波來改善語音增強的效果，帶噪語音經過Weiner濾波得到基於LMS準則的純淨語音信號。而濾波器系數可以不斷更新迭代，與傳統的CBF相比，可以更有效的去除非穩態噪聲。

ABF-自適應波束形成

GSLC是一種基於ANC主動噪聲對消的方法，帶噪信號同時通過主通道和輔助通道，而輔助通道的阻塞矩陣將語音信號濾除，得到僅包含多通道噪聲的參考信號、各通道根據噪聲信號得到一個最優信號估計，得到純淨語音信號估計。

陣列技術的未來發展

麥克風陣列技術相對於單麥克風系統有很多優點，已成為語音增強及語音信號處理的重要部分。語音增強和聲源定位，已經成為陣列技術中不可缺少的部分，在視訊會議，智慧機器人，助聽器，智慧家電，通信，智慧玩具，車載領域都需要聲源定位和語音增強。

各種信號處理技術，陣列信號處理技術都陸續結合到麥克風陣列的語音處理系統當中，並逐漸得到算法改進和進一步的廣泛應用。在複雜的噪聲環境，混響環境，聲學環境下，強大的硬體處理能力，也使得複雜算法實時處理語音增強成為了可能。

在未來，語音和圖像的緊密結合，會成為人工智慧領域的新的突破口，在人工智慧的風口浪尖，是誰能將語音辨識，語音理解，陣列信號處理，遠場語音，圖像辨識，人臉辨識，虹膜辨識，聲紋辨識的技術巧妙並有機的結合在一起，並將技術的本質和與人為本的宗旨完美的結合，讓我們拭目以待。

以上就是Kevin的精彩分享，讓我們期待下一場語音盛宴！

按此回今日3S Market新聞首頁

即將登場、即將登場、即將登場

3S MARKET

．語音專題第一講，麥克風陣列的語音信號處理技術

AI: Smart CCTV Features Facial Recognition Voice Recognition & Security Algorithm

leiphone 大牛講堂

0 comments:

Recent Comments

Arsip Blog