2016年10月26日 星期三

.智慧家居前景光明 但先得充充「智商」

Introducing Amazon Echo



RS-232/422/485串列設備立即連網



來源: i黑马 作者:杨洁


在物聯網和人工智慧時代,產品的智慧化已經成為趨勢。從電子產品、家電到家居用品,智慧的概念在前兩年大行其道。智慧家居和可穿戴的風口從2014年開始井噴,但這種勢頭在2015年下半年,卻開始放緩。

於是,我們能對比到,現在大多數人的智慧家居和硬體產品,還離我們想像中的「智慧」非常遙遠。只在硬體上加上一個WiFi、傳感器和APP,這並不是我們期待的「智慧化」的未來。

最像「智慧」的產品,或許是亞馬遜的Echo。

它整合了Alexa語音辨識技術,讓消費者用聲音上網、檢索資訊、控制家居生活,已經擁有300萬台的銷量,讓谷歌都為之眼饞。它體現的價值,也集中在搜索、伺服式語音辨識和人工智慧之上。

一個新的交互形態,在智慧家居和硬體之上正亟需提高。當我們使用上述的智慧化場景時,無論是可穿戴設備,還是家居、家電,如果仍然靠PC或智慧手機的界面來操作,這可能是很難想像的。

不依託於這些手動裝置,就能實現對它們的操控,無疑是這些設備最吸引人的便捷性所在。語音交互,也成為智能化過程中日益普遍的一項功能。

「交互的形態正在改變。」雲知聲CEO黃偉說。「行動網路和PC網路時代最大的區別是,我們現在是基於多點觸控的應用,用手機上網,用行動設備上網,而不是僅僅用PC,通過鍵盤。而到了IOT時代,我們又不再只是通過手機,我們可以通過更多的設備聯網,而它可能不再有觸摸屏。」

從家居到家電,從物流到駕駛,從醫療到娛樂,一個智能的趨勢正席捲而來。從Siri、小冰,到Echo,到搜狗的語音輸入,再到度秘。也許人工智能的發展進程我們還不能預判,但商業和生活的智慧化,卻已經是一個不可逆轉的過程。而其中,語音交互,或許會是一個新的智慧時代的新入口。

本站在雲知聲的體驗間裡,體驗了樂視超級電視X55和華帝抽油煙機,如何在家庭場景噪聲下喚醒和操控。通過語音的控制,窗簾可以自動開啓,燈光可以調節。創業4年,累計融資近億美元之後,雲知聲,也許在物聯網和人工智慧興起的浪潮中,也將面對一個更大的發展時機。

智能家居前景光明 但先得充充“智商”
雲知聲CEO黃偉/受訪者供圖

物聯網智慧硬體要和服務打通
2008年,科大訊飛上市,一度壟斷中國語音辨識市場的半壁江山。深度學習的發展,給了語音辨識新的驅動力,但在2012年,雲知聲初成立之時,在這片江湖中,玩家還是寥寥無幾。如何實現彎道超車?當時雲知聲,決心從開發者平台做起。

在當年,許多公司的創業方向都還是語音助手APP。「但我並不認為這個方向能夠成功,尤其說它根本不適合一個創業公司去做,做這個就是死路一條。」黃偉說。

黃偉的判斷來源於自己多年來的從業經驗。作為語音辨識的領軍人物之一,他先後就職於摩托羅拉和盛大創新院,曾成立盛大創新院語音分院,在2012年,黃偉離開盛大。

「我自己做過很多年的技術,我非常清楚,語音其實是技術,並不是產品。它是用來解決人跟設備的交互問題的,但交互本身不是目的,人們是要通過一種最便捷的方式,來獲得後面的服務。就像手機的多點觸控,你離不開螢幕,但你覺得只有這塊螢幕好玩嗎?

當然不是,吸引你的,是它背後的各種網路服務。」Echo之所以成功,不僅是它的語音交互,還是由於,它可以和亞馬遜電商打通,可以直接提供服務。

但是,對於創業公司而言,它也往往只限於提供這種交互方式本身,是很難具備連接交互後面服務的能力的。「當時選擇做平台,是因為這樣至少我們是有技術價值的。」黃偉總結。2012年9月,雲知聲語音平台發佈,當時的精確度只有85%。

但是,語音平台也為雲知聲源源不斷積累了語音數據。2013年初,準確度提高到了91%;而到了2013年底,雲知聲的語音數據已經積累到3000小時,精確度提高到95%,平台上開發者超過8000家。

從那時起,數據+算法就成為雲知聲「雙門驅動」的引擎。從一開始,雲知聲就和深度學習結合在一起。當時的深度學習還主要是停留在學術界,很多人對此瞭解並不多,而深度學習,也需要超過以往不同數量級的數據支撐。

但在2011年,在一個語音辨識的國際會議上,黃偉遇到了微軟首席研究員俞棟,對方告訴黃偉,這是「確確實實進展非常快、能夠取得非常大的成就」的。

這堅定了雲知聲做深度學習的決心。當時公司剛剛拿了天使輪,錢還不多,就在淘寶上買顯卡、買機器,在9月平台發佈後,10月份就投入了對深度學習算法的學習。2013年1月,雲知聲深度學習系統對外開放。搜狗雲助手、樂視電視,都成為這個系統的首批服務對象。

而2012年和搜狗的合作,則是讓雲知聲一戰成名。

「當時中國大的公司,百度、搜狗,都想發佈自己的語音助手產品,想搶2012年底前這個時間點。搜狗自己沒有語音能力,就去找合作。」黃偉說。語音辨識當年的圈子本來就不大,雲知聲就進入了搜狗的視線。「他們肯定也評估了很多家,但我記得很清楚,我們跟搜狗從第一次見面到最後達成合作協議,一周時間。」黃偉言及於此,頗有些得意。

從2012年中到2013年底,雲知聲沒有做過多的商業化的嘗試。在這段時間內,雲知聲通過算法和平台的搭建,逐漸打通了自己數據驅動的路。而到了2014年,黃偉覺得,公司到了一個新的階段,是時候開始仔細思考公司的定位問題了。
黃偉把當時市場上的主流公司做了分類。

科大訊飛和BAT作為先發者,佔據了市場和資源的優勢,但是,它們都是從PC互聯網時代遷移過來的,那麼,新的時代轉折,是否可以給雲知聲提供機會?

「在IOT領域,它們也沒有積累,或者說足夠的壁壘,那麼我們就在IOT切入。」

這個新的機會就像黃偉在開始所說的,IOT時代改變了交互的形態。同時,這些新的設備和人是有距離的,那麼,在交互時就必須加入新的能力,而晶片就是解決它的方法。因此,2014年,雲知聲提出了「雲端晶」,要把自己的能力從雲端擴展到終端、再到晶片端。
智能家居前景光明 但先得充充“智商”
雲知聲遠場語音辨識技術/受訪者供圖
5米之外能語音喚醒和操控家電嗎?
「這個端,你可以把它理解成帶介面或者不帶界面的一個虛擬UI。」

黃偉解釋說。「我們把端定位成一個AI-UI,是一個基於人工智慧的交互系統。我們也會把很多AI技術植入到晶片裡面去。比方說,距離比較遠的時候,如何實現設備的辨識、喚醒、打斷;再比如說,在房間裡或空曠地段,會有回響,怎麼把這個回響給消除掉……我們要把這些新能力不斷地補充進來。」

雲上是數據的積澱,端是入口,晶片承載了雲知聲的服務,這也是在這一波物聯網智慧硬體和人工智慧的浪潮中,黃偉對雲知聲在競爭中,脫穎而出的期望所在。

雲知聲拿著demo去和客戶演示,一個個說服他們接受這種交互形態。2014年底,雲知聲獲得高通的5000萬美元B輪融資,開始發力晶片。

但這是比之前的研發要困難得多的一件事,要想做好它,困難重重。「我一直自信我們在技術領域,算是做得比較好的,但我們從來沒有在任何一個技術點上,花過這麼大精力來解決問題。」黃偉對本站感慨。

一方面是性能問題要解決,另一方面,要實現芯片工業化量產,需要有太多算法之外的問題需要解決,比如功耗、散熱、熱高溫、防摔……
「做demo容易,做產品真是太難,太難了。」

2016年,雲知聲的晶片開始出貨,其中花費了一年半的時間。但黃偉覺得,這些是有價值的。

「因為這些能力的補充,包括這些新的產品形態,使得我們的交互方式從行動網路時代時只能對著手機、做距離比較近的講話,到今天我們可以實現在3-5米之外,通過聲音遙控。」

或許很多人還並不理解,這會有什麼樣的意義。但實際上,智慧手機之後,下一個人和資訊溝通的方式將會是什麼形態,是很多科技公司一早就在設想的事情。

Google Glass儘管是個失敗的產品,但它卻是科技界為此做出的大膽嘗試。智慧化的趨勢必不可逆,而手機APP,也不會永遠都是控制眾多智慧設備的方式。

但是「去手機化」的過程,需要邁過高高的技術門檻。至今為止,較為成功的產品,也只有一個Echo。

雲知聲和樂視電視有著長期的合作。從第一代到現在第三代樂視超級電視,從語音操控到語音交互,都是雲知聲提供語音交互技術。

2016年8月,美的智慧空調發佈,它搭載了雲知聲的AI晶片,使用者可以在家庭環境中5米內通過語音控制空調的開關和溫度,空調能結合關鍵詞分析、理解用戶意圖。

但這款產品的問世也是歷經挑戰。要想獲得廠商的合作支持,就必須能夠消除噪聲環境影響,實現語音控制;空調一般都是壁掛式,所以要實現遠場交互;且成本可控。

「Echo是7+1個麥克風,外圈7個和中間1個,所以它效果不錯。但我不行,家電廠商對成本是非常在意的。」黃偉說。

「麥克風多了,資訊源多,就需要更強的CPU,成本功耗就要提升。其次,家電大多是靠牆安裝的,麥克風怎麼放?」

雲知聲最後採用的是雙麥克解決方案,兩個麥克風,間距不超過3釐米。但問題又來了,只有兩個麥克,如何達到性能?雲知聲花了一年多時間解決這個技術問題,終於在2015年這款產品開始生產。現在,市場上的大多數智慧家電產品,華帝、格力、海爾、美的等,都是和雲知聲合作的。

但軟體可解決,硬體還是讓黃偉覺得比較麻煩的一件事。比如麥克風。「現在手機上的麥克風,對電話場景下的噪音意識,已經做得非常好了。但在家居市場上,硬體廠商還沒有這個意識。比如他們以前從來不會想到,一台電冰箱上會需要一個麥克風。所以,現在對我們軟體的要求就更高了。」

除了智慧家電和家居,車載以及醫療、教育等行業,也是雲知聲商業化落地的主要領域。比起智慧家居來,車載的應用場景更好想象。當人們在駕駛時,雙手都被佔用,語音交互就成了最佳選擇。

但黃偉認為,車載前端產品週期非常長,「從接觸到產品要出來差不多要用5年左右時間,不適合一個創業公司」。

因此,雲知聲選擇從後裝市場切入。而2014年,黃偉認為是一個新的契機正在出現:「當時已經有10%的設備開始使用安卓平台了。我們判斷,安卓在車載系統裡,將是未來的趨勢。」經過了半年多的研發,到2015年中,雲知聲開始和廠商對接。

到現在,安卓系統已經佔據了市場上90%的市佔率,而目前,搭載雲知聲智慧語音SDK的車機產品出貨量已超過150萬台。

在醫療方面,協和醫院已經和雲知聲合作,使用醫療語音辨識系統,對病歷、醫囑等進行錄入。而且,這也有助於未來的醫療大數據挖掘工作。

在商業化的策略上,雲知聲一直選擇的是B2B2C。這也是很多AI公司的選擇。當一種新技術仍在發展和完善過程中,通過與B端的合作,不斷獲取用戶的需求,瞭解行業,通過反覆迭代來完善技術,是看似必然的選擇。而B端的企業,也是在技術投入成本較大的現階段,比C端更具備付費與創新的動力。

之前,雲知聲的合作公司還多數是網路公司的中小型企業,而從2016年開始,公司的商業重心開始向大B傾斜。

「對於中小型公司而言,新的技術和交互形態它們更樂於去嘗試。而大企業的推動進程也比較慢。而今年,很多大的企業的生產計劃也可以排好了。」

而和大型企業合作,對雲知聲而言,既能擴大市場規模,又能樹立起行業中的標桿。

「做商業公司,一定得回歸到商業本質上,那就是收入。尤其是像今天資本市場並不是特別好的情況下,大家更看重收入。但我們並不是到B為止了,我們還會到C。我們為什麼要做平台?C端對我們具有用戶價值,這能幫助我們的後台不斷提升,在B端會更有持續的競爭力。」黃偉說。

智能家居前景光明 但先得充充“智商”
雲知聲醫療語音辨識系統的應用/受訪者供圖

讓機器去理解人類
而這樣用語音操控機器,或者機械的一問一答,還是遠遠達不到「智慧」的程度的。開發者們需要去做的,是讓它們更加聰明。

如果你坐進自己的愛車,感覺到今天的溫度有些低,於是你說:今天有些冷。而這時,你車內的系統會自動將空調溫度調高。再或者,當你和你的機器人在戶外,你仍然隨口表示:今天有些冷。

而機器人,會自動理解你的意思,但此時,它不會去尋找空調,而是提示你:披上外套吧。這樣的,是不是更令人嚮往的一個美好未來?

今年7月,雲知聲宣佈,完成了技術引擎3.0版本的升級,並提出了「語用計算」的概念。關於這個概念,你可以簡單地理解成,機器可以理解我們對話的語境,聯繫上下文進行回答。

調戲過Siri和小冰的人,或許瞭解要達到這一場景有多麼困難。「我們推出語用計算是為了產品落地。」黃偉坦率地說。

「現在很多聊天機器人,我覺得就是個學術命題。我們對聊天沒有強需求,聊天也不是產品。作為創業公司,我希望能解決當下的問題。在智能產品裡,我和機器聊天說上好幾輪,技術上是很厲害,但用戶會不耐煩。我們更多地是把多人對話管理技術,和當前狀態資訊結合在一起,把語音辨識、實體環境,以及之前的對話資訊等結合在一起,讓機器做出對應的回答。」

而前面提到過的場景,也正在逐漸向現實轉化。例如,在應用了雲知聲語音技術的格力金貝空調中,如果你說有點兒冷,它就會自動把溫度調高一度。  

「IOT時代產生的經濟規模和經濟價值,我認為應該會遠遠超過行動網路時代。」黃偉說。

「智慧手機(Smart phone)和功能手機(Feature phone)的區別是什麼?是它通過交互改變了產品本身的屬性。而我相信,就像我們家裡的冰箱、空調,今天它是Feature divace,未來它一定會成為Smart divace。」 

                                                                                                                                                                                                                            



.索尼發佈新款電子墨水螢幕手錶,但是只能和 iPhone 相連




想買一塊極客向兼藝術向的表?

瑞士名表不夠極客,且太貴。

Apple Watch 太常見,且難說酷。

Android Wear 大軍水準參差不齊。

這時有人會想起沒有「SONY」Logo 的索尼 FES Watch。是的,這款由電子墨水屏打造的手錶,簡潔、優雅、充滿格調。借著這樣的標籤,FES Watch 讓人印象深刻。

IMG_7953

但即使再有特點,「不智慧」或者說不能連手機,這讓 FES Watch 顯得有些落伍。

好在索尼似乎也意識到了這一點,最近推出了 FES Watch 的後續產品 FES Watch U。FES Watch U 在前作的基礎上,加入了更多的圖案和錶盤。

main-visual_03 (1)

這樣看起來確實多了幾分年輕和潮流的氣息。

不過,而 FES Watch U 相比 FES Watch 最大的改變其實是可以和智慧手機相連了。通過 app,用戶可以給 FES Watch U 添加 12 款錶盤。

img_01

嗯,讓人略感意外的是,這款索尼出品的 FES Watch U 搭配的 app 只有 iPhone 版……當然,有人也表示,作為蘋果的知名配件生產商,不錯,這很索尼。

img_02

目前 FES Watch U 正在索尼自有的眾籌平台 First Flight 上進行眾籌。目前最便宜的眾籌版本為 49680 日元,這個眾籌價格可謂相當不便宜,比起 FES Watch 當初登陸中國大陸的 1990 元,也高出很多。目前並不清楚索尼是否有讓這款電子墨水螢幕手錶進軍海外市場的打算,如果真有這一步,定價可能得好好斟酌一下。

最後提一下 First Flight。

這是一個由平井一夫主導的眾籌平台。去年 7 月份的時候上線。這個平台旨在將索尼內部員工設想的產品創意展現給消費者,讓消費者通過真金白銀,決定是否要將這個項目量產化。


FES Watch 就是最早在 First Flight 平台上孵化的產品之一,同期開始眾籌的還有應用了電子墨水螢幕的 HUIS 智慧遙控器、將錶帶作為智慧模塊的智慧手錶 wena wrist。

                                                                                                                                                                                                                            



.語音專題第一講,麥克風陣列的語音信號處理技術



AI: Smart CCTV Features Facial Recognition Voice Recognition & Security Algorithm




RS-232/422/485串列設備立即連網



leiphone 大牛講堂


按:徐榮強(Kevin),地平線硬體音頻工程師。2011年11月畢業於英國愛丁堡大學通信與信號處理專業,曾任諾基亞,聯想,微軟高級音頻工程師。

現在Horizon-Robotics負責語音相關硬體件系統設計,涉及遠場高靈敏度麥克風陣列設計,高精度音頻硬體編解碼器評估驗證,遠場語音前處理算法的評估驗證,涉及聲源定位,波束形成,盲信號分離,回聲抑制及平穩降噪等相關技術算法。

麥克風陣列的語音信號處理技術
熟悉人工智慧的朋友一定明白,語音交互對於人機對話交互的重要意義,而一個完整的語音交互涉及到人的語音、語義,機器的麥克風、處理器、核心算法等多個部分,是一項看似簡單,實則複雜的龐大工程!當然這是以小編的粗淺理解寫成的總結,技術講解咱還得靠大牛!

大牛讲堂 | 语音专题第一讲,麦克风阵列的语音信号处理技术


前言
隨著人工智慧與人們的生活越來越近,語音技術的發展也備受關注。傳統的近場語音已經無法滿足人們的需求,人們希望可以在更遠的距離,更複雜的環境中語音控制智設備。因此,陣列技術成為遠場語音技術的核心

陣列麥克風對人工智慧的意義

1.空間選擇性:通過電掃陣列等空間定位技術可以獲取聲源的有效位置,智能設備在獲取精准的聲源位置資訊,讓我們的語音更加智能,通過算法獲取高品質的語音信號質量。

2.麥克風陣列可以自動檢測聲源位置,跟蹤說話人,同時可以獲取多聲源,和跟蹤移動聲源的優勢,無論你走到任何位置,智慧設備都會對你的位置方向,進行語音增強。

3.陣列麥克風增加了空域處理,對多信號空時頻三維的處理彌補單信號在噪聲抑制,回聲抑制,混響抑制,聲源定位,語音分離方面的不足,讓我們的智慧設備在複雜的環境中,都可以獲取高質量的語音信號,提供更好的智慧語音體驗。

麥克風陣列技術的技術難點
傳統的陣列信號處理技術,直接應用到麥克風陣列處理系統中,往往效果不理想,其原因在於麥克風陣列處理,有不同的處理特點:

1.陣列模型的建立
麥克風主要應用處理語音信號,拾音範圍有限,且多用於近場模型,使得常規的陣列處理方法如雷達,聲吶等平面波遠場模型不再適用,在近場模型中,需要更加精準的球面波,需要考慮傳播路徑不同引起的幅度衰減不同。

2.寬頻信號處理
通常的陣列信號處理多為窄頻,即不同陣元在接受時延與相位差主要體現在載波頻率,而語音信號未經過調制也沒有載波,且高低頻之比較大,不同陣元的相位延時與聲源本身的特性關係很大—頻率密切相關,使得傳統的陣列信號處理方法不再完全適用。

3.非平穩信號處理
傳統陣列處理中,多為平穩信號,而麥克風陣列的處理信號多是非平穩信號,或者短時平穩信號,因此麥克風陣列一般對信號做短時頻域處理,每個頻域均對應一個相位差,將寬頻信號在頻域上分成多個子帶,每個子帶做窄帶處理,再合併成寬頻譜。

4.混響
聲音傳播受空間影響較大,由於空間反射,衍射,麥克風收到的信號除了直達信號以外,還有多徑信號疊加,使得信號被干擾,即為混響。在室內環境中,受房間邊界或者障礙物衍射,反射導致聲音延續,極大程度的影響語音的可懂度。

聲源定位
聲源定位技術在人工智慧領域應用廣泛,利用麥克風陣列來形成空間笛卡爾坐標系,根據不同的線性陣列,平面陣列和空間陣列,來確定聲源在空間中的位置。

智慧設備首先可以對聲源的位置,做進一步的語音增強,當智慧設備獲取你的位置資訊,可以結合其他的傳感器進行進一步的智能體驗,比如機器人會聽到你的呼喚走到你的身邊,視遜設備會聚焦鎖定說話人等等。瞭解聲源定位技術之前,我們需要瞭解近場模型和遠場模型。

近場模型和遠場模型
大牛讲堂 | 语音专题第一讲,麦克风阵列的语音信号处理技术

通常麥克風陣列的距離為1~3m,陣列處於近場模型,麥克風陣列接受的是球面波而不是平面波,聲波在傳播的過程中會發生衰減,而衰減因子與傳播的距離成正比,因此聲波從聲源到達陣元時候的幅度也各不相同。

而遠場模型中,聲源到陣元的距離差相對較小,可以忽略。通常,我們定義2L²/λ為遠近場臨界值,L為陣列孔徑,λ為聲波波長,因此陣元接受信號不僅有相位延時還有幅度衰減。

聲源定位技術
聲源定位的方法包括電掃陣列,超分辨譜估計和TDOA,分別將聲源和陣列之間的關係,轉變為空間波束,空間譜和到達時間差,並通過相應的資訊進行定位。

1.電掃陣列
通過陣列形成的波束在空間掃描,根據不同角度的抑制不同來判斷方向。通過控制各個陣元的加權系數,來控制陣列的輸出指向,進行掃描。

當系統掃描到輸出信號功率最大時所對應的波束方向就是認為是聲源的DOA方向,從而可以聲源定位。電掃陣列的方式存在一定的局限,僅僅適用於單一聲源。若多聲源在陣列方向圖的同一主波束內,則無法區分。

而這種定位精度和陣列寬度有關—在指定頻率下,波束寬度和陣列孔徑成反比,所以大孔徑的麥克風陣列在很多場合的硬件上很難實現。

2.超分辨譜估計
如MUSIC,ESPRIT等,對其協方差矩陣(相關矩陣)進行特徵分解,構造空間譜,關於方向的頻譜,譜峰對應的方向即為聲源方向。適合多個聲源的情況,且聲源的分辨率與陣列尺寸無關,突破了物理限制,因此成為超分辨譜方案。

這類方法可以拓展到寬帶處理,但是對誤差十分敏感,如麥克風單體誤差,通道誤差,適合遠場模型,矩陣運算量巨大。

3.TDOA
TDOA是先後估計聲源到達不同麥克風的時延差,通過時延來計算距離差,再利用距離差和麥克風陣列的空間幾何位置,來確定聲源的位置。分為TDOA估計和TDOA定位兩步:

(1) TDOA估計
常用的有廣義互相關GCC,Generalized Cross Correlation和LMS自適應濾波
大牛讲堂 | 语音专题第一讲,麦克风阵列的语音信号处理技术
(1)  廣義互相關

基於TDOA的聲源定位方法中,主要用GCC來進行延時估計。

GCC計算方法簡單,延時小,跟蹤能力好,適用於實時的應用中,在中等嘈雜強度和低混響噪聲情況下,性能較好,在嘈雜非穩態噪聲環境下定位精度會下降。

大牛讲堂 | 语音专题第一讲,麦克风阵列的语音信号处理技术
(2) LMS自適應濾波

在收斂的狀態下給出TDOA的估值,不需要噪聲和信號的先驗信息,但是對混響較為敏感。該方法將兩個麥克風信號,作為目標信號和輸入信號,用輸入信號去逼近目標信號,通過調整濾波器系數得到TDOA。

(2)TDOA定位
大牛讲堂 | 语音专题第一讲,麦克风阵列的语音信号处理技术

TDOA估值進行聲源定位,三顆麥克風陣列可以確定空間聲源位置,增加麥克風會增高數據精度。定位的方法有MLE最大似然估計,最小方差,球形差值和線性相交等。

TDOA相對來講應用廣泛,定位精度高,且計算量最小,實時性好,可用於實時跟蹤,在目前大部分的智慧定位產品中,均採用TDOA技術做為定位技術。

波束形成
波束形成可分為常規的波束形成CBF,Conventional Beam Forming和自適應波束形成ABF,Adaptive Beam Forming。CBF是最簡單的非自適應波束形成,對各個麥克風的輸出進行加權求和得到波束,在CBF中,各個通道的權值是固定的,作用是抑制陣列方向圖的旁瓣電平,以濾除旁瓣區域的干擾和噪聲。

ABF在CBF的基礎之上,對干擾和噪聲進行空域自適應濾波。ABF中,採用不同的濾波器得到不同的算法,即不同通道的幅度加權值,是根據某種最優準則,進行調整和優化。如LMS,LS,最大SNR,LCMV(線性約束最小方差,linearly constrained Minimum Variance)。

採用LCMV準則得到的是MVDR波束形成器(最小方差無畸變響應,Minimum Variance Distortionless Response)。LCMV的準則是在保證方向圖,主瓣增益保持不變的情況下,使陣列的輸出功率最小,表明陣列輸出的干擾加噪聲功率最小,也可以理解為是最大SINR準則,從而能最大可能的接收信號,和抑制噪聲和干擾。

CBF-傳統的波束形成
大牛讲堂 | 语音专题第一讲,麦克风阵列的语音信号处理技术

延時求和的波束形成方法用於語音增強,對麥克風的接收信號進行延時,補償聲源到每個麥克風的時間差,使得各路輸出信號在某一個方向同相,使得該方向的入射信號,得到最大的增益,使得主波束內有最大輸出功率的方向。形成了空域濾波,使得陣列具有方向選擇性。

CBF + Adaptive Filter 增強型波束形成
大牛讲堂 | 语音专题第一讲,麦克风阵列的语音信号处理技术

結合Weiner濾波來改善語音增強的效果,帶噪語音經過Weiner濾波得到基於LMS準則的純淨語音信號。而濾波器系數可以不斷更新迭代,與傳統的CBF相比,可以更有效的去除非穩態噪聲。

ABF-自適應波束形成
大牛讲堂 | 语音专题第一讲,麦克风阵列的语音信号处理技术

GSLC是一種基於ANC主動噪聲對消的方法,帶噪信號同時通過主通道和輔助通道,而輔助通道的阻塞矩陣將語音信號濾除,得到僅包含多通道噪聲的參考信號、各通道根據噪聲信號得到一個最優信號估計,得到純淨語音信號估計。

陣列技術的未來發展
麥克風陣列技術相對於單麥克風系統有很多優點,已成為語音增強及語音信號處理的重要部分。語音增強和聲源定位,已經成為陣列技術中不可缺少的部分,在視訊會議,智慧機器人,助聽器,智慧家電,通信,智慧玩具,車載領域都需要聲源定位和語音增強。

各種信號處理技術,陣列信號處理技術都陸續結合到麥克風陣列的語音處理系統當中,並逐漸得到算法改進和進一步的廣泛應用。在複雜的噪聲環境,混響環境,聲學環境下,強大的硬體處理能力,也使得複雜算法實時處理語音增強成為了可能。

在未來,語音和圖像的緊密結合,會成為人工智慧領域的新的突破口,在人工智慧的風口浪尖,是誰能將語音辨識,語音理解,陣列信號處理,遠場語音,圖像辨識,人臉辨識,虹膜辨識,聲紋辨識的技術巧妙並有機的結合在一起,並將技術的本質和與人為本的宗旨完美的結合,讓我們拭目以待。

以上就是Kevin的精彩分享,讓我們期待下一場語音盛宴!