．智慧語音技術中麥克風陣列的原理

Speech Recognition - Smart Microphone - NVIDIA Jetson

AKD 寰楚1080P 零售商店監控專用機

來源：爱电子

麥克風陣列(Microphone Array)，從字面上，指的是麥克風的排列。也就是說由一定數目的聲學傳感器(一般是麥克風)組成，用來對聲場的空間特性，進行採樣並處理的系統。

早在20世紀70、80年代，麥克風陣列已經被應用於語音信號處理的研究中，進入90年代以來，基於麥克風陣列的語音信號處理算法，逐漸成為一個新的研究熱點。而到了「聲控時代」，這項技術的重要性顯得尤為突出。

麥克風陣列能幹什麼?

任何一項技術的發生發展，都伴隨著問題的提出及解決，麥克風陣列也是如此。那麼它主要應用在哪些場景下呢？又有著怎樣的功能!

噪聲環境怎麼破？— 語音增強

語音增強是指，當語音信號被各種各樣的噪聲(包括語音)干擾甚至淹沒後，從含噪聲的語音信號中，提取出純淨語音的過程。所以Ding Dong在嘈雜環境下，也能準確辨識語音指令。

透過麥克風陣列波束形成，進行語音增強示意圖

從20世紀60年代開始，Boll等研究者先後提出了，針對使用一個麥克風的語音增強技術，稱為單通道語音增強。因為它使用的麥克風個數最少，並且充分考慮到了，語音譜和噪聲譜的特性，使得這些方法在某些場景下，也具有較好的噪聲抑制效果，並因其方法簡單、易於實現的特點，廣泛應用於現有語音通信系統與消費電子系統中。

但是，在複雜的聲學環境下，噪聲總是來自於四面八方，且其與語音信號在時間和頻譜上，常常是相互交疊的，再加上回波和混響的影響，利用單麥克風捕捉相對純淨的語音，是非常困難的。而麥克風陣列融合了語音信號的空時資訊，可以同時提取聲源並抑制噪聲。

目前科大訊飛已經實現了基於線性陣列、平面陣列，以及空間立體陣列的波束形成和降噪技術，效果均達到業界一流水平。

說話人老是變幻位置怎麼破？—聲源定位

現實中，聲源的位置是不斷變化的，這對於麥克風收音來說，是個障礙。麥克風陣列則可以進行聲源定位，聲源定位技術是指，使用麥克風陣列來計算，目標說話人的角度和距離，從而實現對目標說話人的跟蹤，以及後續的語音定向拾取，是人機交互、音視訊會議等領域，非常重要的前處理技術。

所以麥克風陣列技術，不限制說話人的運動，不需要移動位置以改變其接收方向，具有靈活的波束控制、較高的空間分辨率、高的信號增益，與較強的抗干擾能力等特點，因而成為智慧語音處理系統中，捕捉說話人語音的重要手段。

室內回聲太大怎麼破？—去混響

一般我們聽音樂時，希望有混響的效果，這是聽覺上的一種享受。合適的混響會使得聲音圓潤動聽、富有感染力。混響(Reverberation)現象，指的是聲波在室內傳播時，要被牆壁、天花板、地板等障礙物形成反射聲，並和直達聲形成疊加，這種現象稱為混響。

但是，混響現象對於辨識就沒有什麼好處了。由於混響則會使得不同步的語音相互疊加，帶來了音素的交疊掩蔽效應(Phoneme Overlap Effect)，從而嚴重影響語音辨識效果。

影響語音辨識的部分，一般是晚期混響部分，所以去混響的主要工作重點，是放在如何去除晚期混響上面，多年來，去混響技術抑制，是業界研究的熱點和難點。

利用麥克風陣列去混響的主要方法有以下幾種：

1、基於盲語音增強的方法(Blind signal enhancement approach)，即將混響信號作為普通的加性噪聲信號，在這個上面應用語音增強算法。

2、基於波束形成的方法(Beamforming based approach)，透過將多麥克風對收集的信號，進行加權相加，在目標信號的方向形成一個拾音波束，同時衰減來自其他方向的反射聲。

3、基於逆濾波的方法(An inverse filtering approach)，透過麥克風陣列估計房間的房間衝擊響應(Room Impulse Response, RIR)，設計重構濾波器來補償來消除混響。

現在科大訊飛，實現的基於麥克風陣列的去混響技術，能很好的對房間的混響情況，進行自適應的估計，從而很好的進行純淨信號的還原，顯著的提升了語音聽感和辨識效果，在測試對比中，多種混響時間下辨識效果，接近手機近講水準。

混響語音信號頻譜

說話人太多怎麼破？—聲源信號提取(分離)

家裡人說話太多，Ding Dong聽誰的呢？這個時候就需要Ding Dong聰明的辨別出哪個聲音才是指令。而麥克風陣列可以實現聲源信號提取，聲源信號的提取就是從多個聲音信號中，提取出目標信號，聲源信號分離技術，則是將需要將多個混合聲音全部提取出來。

透過麥克風陣列波束形成做語音提取和分離

利用麥克風陣列做信號的提取和分離，主要有以下幾種方式：

1、基於波束形成的方法，即透過向不同方向的聲源，分別形成拾音波束，並且抑制其他方向的聲音，來進行語音提取或分離：

2、基於傳統的盲源信號分離(Blind Source Separation)的方法進行，主要包括主成分分析(Principal Component Analysis，PCA)和基於獨立成分分析(Independent Component Analysis，ICA)的方法。

進擊的麥克風陣列

麥克風陣列技術，雖然已經可以達到相當的技術水準，但是總體上還是存在一些問題的，比如當麥克風和信號源距離太遠時(比如10m、20m距離)，錄制信號的信噪比會很低，算法處理難度很大；對於便攜設備來說，受設備尺寸以及功耗的限制，麥克風的個數不能太多，陣列尺寸也不能太大。

而分布式麥克風陣列技術，則是解決當前問題的一個可能途徑。所謂分布式陣列，就是將子陣元或子陣列，佈局到更大的範圍內，相互之間透過有線或者無線的方式，進行數據的交換和共享，並在此基礎上進行廣義上的聲源定位、波束形成等技術實現信號處理。

相對於目前集中式的麥克風陣列，分布式陣列的優勢，也是非常明顯的。首先分布式麥克風陣列(尤其無線傳輸)的尺寸的限制，就不存在了；另外，陣列的節點可以覆蓋很大的面積——總會有一個陣列的節點距離聲源很近，錄音信噪比大幅度提升，算法處理難度也會降低，總體的信號處理的效果，也會有非常顯著的提升，因此分布式陣列，有可能是未來智慧家庭和會議系統中的主流方案。

在萬物互聯的今天，麥克風陣列技術已經深刻的走進了我們的日常生活。在智慧車載、智慧家庭、機器人、可穿戴設備等應用熱潮正興起的時代，語音交互由於其便捷性，成了人機交互入口的第一選擇，麥克風陣列自然也成為其中非常重要的前端技術。

按此回今日3S Market新聞首頁