999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

智能語音機器人前端語音處理系統的設計及實現

2021-03-24 08:22:02劉生
現代計算機 2021年3期
關鍵詞:檢測系統

劉生

(南京熊貓電子裝備有限公司,南京210033)

0 引言

近幾年來,人工智能技術的興起,推動了語音識別技術的發展,涌現出越來越多的智能語音類產品。語音已成為基于云的語音助手和語音物聯網設備的主要人機交互接口。這些設備要求在任何給定的環境中都能接收到干凈的語音信號,以確保智能揚聲器、耳機、移動電話、可穿戴設備、信息娛樂和智能家居系統的語音處理的準確性。

語音前端處理[1]部分會在語音信號進行語音識別之前,對語音原始信號進行處理,實現降噪、回聲消除、聲源定位[2]及波束形成[3]等功能。訊飛、云知聲等相關的語音處理產品供應商提供了麥克風陣列處理模塊,市面上大部分模塊是使用DSP 或專用芯片來完成前端語音處理的,雖然該方案能保證前端語音處理的性能,但是對于一些產品進行集成并不是特別方便,開放的接口也不是很豐富。同時提高了產品的復雜度,增加了系統的成本。針對該問題,提出基于WebRTC[4]、Snowboy[5]等開源庫,設計并開發了語音前端處理系統。

1 語音前端處理

語音前端處理系統的目標是將麥克風接收到的用戶發出的聲音,進行降噪處理,更加突出語音識別用到的特定語音信號。去除的噪音包括外界的背景噪聲,也包括自身設備播放的音頻。噪音去除的越干凈,語音信號就越接近于聲源信號,能提高語音識別的精確度。

語音前端處理主要包括語音活動檢測(Voice Ac?tivity Detection,VAD)[6]、噪聲抑制(Noise Suppression,NS)、回聲消除(Acoustic Echo Cancellation,AEC)、關鍵詞識別(Keyword Detection,KWD)聲源定位(Direction Of Arrival,DOA)、波束成形(Beamforming,BF)等關鍵功能。

語音活動檢測技術主要用于語音編碼和語音識別,目的是檢測語音信號是否存在。語音活動檢測技術通過識別音頻流中的語音片段并對有效語音數據進行處理來簡化語音處理。該處理結果也是前端語音處理系統進行流程控制的一項關鍵信號。噪聲抑制技術可以將音源中的噪音部分去除,提高語音信號的信噪比。噪聲可以是隨機噪聲或具有均勻頻率分布的白噪聲,也可以是由設備的機械裝置或收音過程中通過麥克風引入的頻率相關噪聲。回聲消除可以把語音信號中由設備本身播放設備發出的聲音剔除,只留下從外界收到的聲音。關鍵詞識別技術用來識別聲音中是否出現了所關注的關鍵詞,常被用來當作喚醒詞,用來激活與設備的交互。在信號處理中,聲源定位用來確定波到達信號接收點的方向,通常會使用多個傳感器來組成傳感器陣列,并進行信號的接收及處理。在前端語音處理中,使用麥克風陣列進行收音,確定音源方向。常用的聲源定位技術有波達角(AOA)、時間差定位(TDOA)、到達頻率差(FDOA)等。波束成形利用麥克風陣列的多路語音信號,可以對特定方向的音源進行增強,對其他方向的信號進行削減。一般使用聲源定位的音源判定結果作為波束成形的語音增強方向。

2 系統設計及實現

2.1 系統結構

整個語音處理系統主要由音源獲取、語音前端處理、語音識別及交互三部分構成。在Linux 系統中,音源獲取部分通過系統提供的ALSA(Advanced Linux Sound Architecture)接口[7],可以讀取麥克風陣列錄制的聲音以及系統播放的聲音。由于使用的是6 麥克風陣列,所以獲得的音頻為6 通道數據。同時獲取1 個通道的系統播放聲音,在自動回聲消除中使用。語音前端處理模塊首先對6 通道的數據進行降噪處理,隨后利用獲得的1 通道的放音數據進行回聲的消除。此時已經獲得了比較純凈的聲音,對該聲音進行語音活動檢測。語音活動檢測會配合關鍵詞檢測使用,當語音活動檢測有效后進行關鍵詞檢測,關鍵詞有效后會進行聲源定位以及波束成形的處理,最終將獲得的音源方向以及通過波束成形獲得的1 通道最終的處理結果通過庫接口的形式提供給語音識別及交互部分。系統結構圖見圖1。

圖1 系統結構圖

2.2 處理流程

在音頻處理過程中,為了提高處理效率,采用單幀依次處理的方式。對數據幀進行劃分,幀的長度為10ms,若采用16Khz 的采樣率,單通道有160 組數據。對單幀數據的處理流程圖如圖2 所示。

圖2 單幀數據處理流程圖

首先語音信號進行噪聲抑制以及回聲消除處理。在進行KWD 檢測前,需要對音頻流進行VAD 的標記及劃分,以獲得有效數據。及當關鍵詞結束之后,才對緩存的數據進行KWD 的處理。具體實現方法為當VAD 有效時,對當前處理的幀做緩存并對當前有效數據的長度做計時。當VAD 無效時,即出現了語音間隔,對VAD 有效數據進行長度判定。如果大于500ms,則認為收音長度是足夠的,進行KWD 處理,如果小于500ms,則重新統計時間。在KWD 處理之后,如果KWD 識別成功,則對關鍵詞部分進行DOA 處理,獲得音源方向,并以此為定向波束形成的參數,進行BF 的處理,最后將BF 的處理結果傳遞給上層應用。當進入BF 的處理流程后,由于DOA_Flag 會持續有效,后續的數據流會直接進入BF 處理,不需要再次進行KWD 以及DOA 的檢測。當外界的語義停止后,如果持續時間大于10 秒,需要將系DOA_Flag 置為無效,重新進行VAD、KWD 以及DOA 的檢測。即如果用戶如果持續10 秒不進行對話,則認為對話終止,需要重新通過關鍵詞喚醒。

前端語音模塊的主處理函數對數據幀逐幀處理,關鍵代碼如下:

2.3 各功能組件的實現

對于前端語音各個功能組件,主要使用了We?bRTC、Snowboy 等開源庫,DOA 部分基于SRP-PHAT實現。WebRTC(Web Real-Time Communication)是基于網頁瀏覽器進行實時語音或視頻對話的開源庫。主要使用了其中的語音引擎部分。Snowboy 是一款高度可定制的喚醒詞檢測引擎,可以用于實時嵌入式系統,并且始終監聽(即使離線)。使用Snowboy 提供的關鍵詞訓練方法,在線訓練了定制的關鍵詞。DOA 部分使用了基于相位變換加權可控響應功率(SRP-PHAT:Steered Response Power-Phase Transform)[8]的聲源定位算法,基于Xtensor、Xtl、OpenBLAS 等庫實現。關鍵代碼如下:

3 實驗驗證

本文使用ReSpeaker Core v2.0 作為實驗平臺。Re?Speaker Core v2.0 基于四核ARM Cortex A7 的Rock?chip RK3229,運行頻率為1.5GHz,具有1GB RAM,集成六個麥克風陣列,如圖3 所示。軟件環境為Linux Debian-9。通過使用alsa-lib 庫讀取麥克風采集到的音頻信號。采集到的音頻信號如圖4 所示。實驗中,從麥克風陣列的mic1 方向說出“小貝小貝,天氣”,重復兩次。其中關鍵詞為小貝小貝,指令詞為天氣。使用ReSpeaker 連接喇叭在同樣的方向播放音樂。在偏移90°方向利用放音裝置播放一段語音。在靠近時長約為6 秒,音頻波形圖見圖4。

圖3 ReSpeaker Core v2.0麥克風陣列板

圖4 測試音頻波形圖

圖4 中自上而下依次為:從麥克風采集到的數據6個通道中的一路數據;經過降噪以及回聲消除之后的數據;經過關鍵詞檢測、聲源定位以及波束形成處理后的音頻數據。可以看到,經過降噪處理,數據的背景噪音得到了較好的抑制,同時對音頻中干擾比較大的通過喇叭播放的音樂數據,基本以及過濾干凈,主要留下發音人以及外界放音裝置播放的一段語音。由于在最初的約200ms 時間,系統降噪功能需進行采樣初始化,所以最初約200ms 時間并未得到有效的降噪處理,但這對系統整體功能,并無太大影響。

對比中間以及最下面的音頻波形圖,觀察3 秒附近以及5 秒之后的數據,可以明顯看到通過波束形成處理,將干擾源方向的數據進行了有效過濾,最后只剩下關注方向的音源數據。但是同時,經過波束成形處理之后,音頻整體的增益有所下降,如果有必要,可以實時自動增益控制(AGC)的處理。

波形圖中的第一段為關鍵詞(約1 秒到2 秒間數據),在進行聲源定位及波束形成前,音頻數據并不輸出,所以關鍵詞部分的音頻數據并不會通過調用接口傳給上層應用。當語音活動檢測以及關鍵詞檢測都有效之后,會進行聲源定位以及波束形成的處理,同時將輸出的數據發送到上層應用。所以在最后的音頻數據中,是將首次進行關鍵詞喚醒的音頻去除了的。第二次關鍵詞數據(約3.3 秒到4.3 秒間數據),由于系統未達到VAD 無效時間大于10 秒的條件,所以不會重啟關鍵詞識別功能,會利用上次關鍵詞喚醒階段獲得的音源定位方向進行波束成形的處理。

需要指出的是,在實驗中,如果偏移90°方向的放音裝置播放的語音聲音太大,或者在和關鍵詞數據重合的時候,容易造成關鍵詞識別無效。對于該問題可以通過進一步訓練關鍵詞識別庫,提高關鍵詞的識別能力,另外需要盡量加大音源與干擾源間的功率差來提高聲源定位的精度。

4 結語

本文結合智能語音機器人對語音前端處理的功能需求,對語音前端處理系統做了系統設計,利用開源的庫進行了實現。通過實現結果驗證,系統的降噪、回聲消除、聲源定位以及波束形成等功能可以正常運行,該語音前端處理系統能滿足語音機器人的基本要求。由于整個系統都是使用C 及C++語言實現,對于基于嵌入式ARM 系統來實現智能語義對話機器人的實現,具有重要意義。

猜你喜歡
檢測系統
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
WJ-700無人機系統
“幾何圖形”檢測題
“角”檢測題
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
基于PowerPC+FPGA顯示系統
半沸制皂系統(下)
主站蜘蛛池模板: 91免费片| 免费无码AV片在线观看中文| 国产呦视频免费视频在线观看 | 99视频精品全国免费品| 538精品在线观看| 国模视频一区二区| 精品国产成人av免费| 99久久精品免费看国产电影| 老司机久久99久久精品播放| 亚洲中文字幕23页在线| 免费看的一级毛片| 亚洲欧美一区二区三区图片| 国产亚洲精品资源在线26u| 国产午夜精品鲁丝片| 国产成本人片免费a∨短片| 国产欧美精品一区二区| 免费在线看黄网址| 国产精品内射视频| 中文字幕亚洲第一| 国产99视频精品免费观看9e| 五月婷婷综合在线视频| 国产麻豆精品手机在线观看| 无码在线激情片| 国产麻豆精品在线观看| 97国产成人无码精品久久久| 久久中文字幕av不卡一区二区| 日本午夜影院| 日韩A∨精品日韩精品无码| 九九线精品视频在线观看| 丁香亚洲综合五月天婷婷| 91精品国产综合久久香蕉922| 国内精品小视频福利网址| 中文字幕永久在线看| 国产精品太粉嫩高中在线观看 | 色综合成人| 国产精品福利在线观看无码卡| 鲁鲁鲁爽爽爽在线视频观看| 中国成人在线视频| 亚洲成年人网| 久久超级碰| 中文字幕丝袜一区二区| 国产精品欧美在线观看| 毛片免费观看视频| 亚洲欧洲国产成人综合不卡| 国产亚洲精品91| 麻豆精品在线播放| 欧美专区日韩专区| 啊嗯不日本网站| 国产一区二区三区免费| 香蕉久久永久视频| 午夜国产精品视频黄| 久久精品人人做人人| 韩国自拍偷自拍亚洲精品| 国产三级国产精品国产普男人| 欧美人人干| 精品国产美女福到在线不卡f| 中文字幕精品一区二区三区视频| 亚洲欧州色色免费AV| 国产精品美人久久久久久AV| 亚洲男人在线天堂| 亚洲精品视频免费看| 亚洲成a人片77777在线播放| 国产三级精品三级在线观看| 亚洲一区毛片| 免费一级无码在线网站 | 狠狠色综合网| 国产精品太粉嫩高中在线观看 | 香蕉色综合| 国内丰满少妇猛烈精品播| 色综合激情网| 欧美午夜在线视频| 久久精品亚洲中文字幕乱码| 国产精品福利尤物youwu| 亚洲天堂网在线观看视频| 国产精品成人AⅤ在线一二三四 | 三区在线视频| 久青草国产高清在线视频| 最新日韩AV网址在线观看| 欧洲在线免费视频| 第一区免费在线观看| 日韩天堂视频| 2021精品国产自在现线看|