999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向人工耳蝸的改進Wave-U-Net算法

2024-03-09 01:34:02鞏瑾琪葉萍吳逸凡常兆華樊偉許長建
生物醫學工程研究 2024年1期
關鍵詞:效果模型研究

鞏瑾琪,葉萍△,吳逸凡,常兆華,樊偉,許長建

(1.上海理工大學 健康科學與工程學院,上海 200093;2.上海微創天籟醫療科技有限公司,上海 200120)

0 引言

聽力損失是一種嚴重的感覺障礙,對人類健康構成重大威脅。在臨床上,聽力損失被分為傳導性、感音神經性和混合性三類,其程度又被進一步劃分為0級、輕度、中度、重度和極重度[1-2]。根據世界衛生組織的統計數據,中國是全球聽力障礙人口最多的國家,殘疾性聽力障礙患者高達2 780萬,聽障兒童超過460萬。近年來,由于環境污染等因素的影響,患者人數每年大約增加30萬人[3-4]。

人工耳蝸(cochlear implant)被譽為目前世界上最成功的神經假體,能幫助患有傳導性聽力損失[5]和重度感音神經性聽力損失[6]的患者獲得或恢復聽覺。人工耳蝸在安靜環境中,其語音感知效果與正常人群相當,但在噪聲環境中的語音感知效果較差[7-8]。通過將同一語音在噪聲環境和安靜環境下輸入人工耳蝸,獲得人工耳蝸的電信號,然后通過逆信號處理,可獲取人工耳蝸的語音波形圖[9]。由圖1可知,噪聲環境下的語音波形更加雜亂,可影響患者的語音感知效果。因此,通過語音增強和降噪,將噪聲環境變為安靜環境,可提高人工耳蝸佩戴者的語音感知效果。

圖1 逆處理后的語音波形

近年來,人工智能(artificial intelligence ,AI)[10]和硬件設備的性能得到了迅速發展,基于AI算法提高人工耳蝸在噪聲環境中的語音感知效果成為研究熱點。AI算法在人工耳蝸語音處理模塊的應用主要分為兩類。第一類是AI環境分類結合降噪算法應用于人工耳蝸,Cochlear、Advanced Bionics和MED-EL等公司已經實現了這類方法的商業化[11]。降噪算法主要包括log-MMSE[12]、Wienerfiltering[13]和KLT[14]等傳統降噪方法。這些算法在一致的環境下可在一定程度上提高語音感知效果,但算法的魯棒性較差[15]。因此,目前人工耳蝸通過降噪算法結合AI環境分類,僅針對分類結果一致的環境進行降噪。然而,自然界中的環境復雜多變,基于語音進行環境分類的準確率難以保證,而且將復雜的自然環境簡單分類,也會影響信號處理效果。

第二類是利用AI算法強大的非線性擬合能力,直接對語音信號進行降噪處理,實現語音增強。這類算法已經非常成熟,但受限于人工耳蝸的硬件,目前市面上仍無相應產品,人工耳蝸產品的AI降噪仍僅限于AI環境分類結合降噪算法。Lai等[16]提出了一種將深度降噪自動編碼器(deep denoising auto-encoder,DDAE)應用于人工耳蝸的語音處理模塊,進行語音增強,實驗結果表明,DDAE算法在STOI[17]和NCM[18]上均顯著優于傳統算法。Wang等[19]在Lai的研究基礎上加入分類模塊,進一步驗證了DDAE在人工耳蝸中的降噪效果。在兩個女性爭吵說話的情況下,對人工耳蝸植入者的言語識別研究表明,DDAE相比傳統算法的言語識別率高出約20%。為進一步優化人工耳蝸的語音增強網絡,Fu等[20]將一種端到端全卷積網絡(fully convolutional neural networks,FCN)用于人工耳蝸的語音處理模塊,結果顯示,FCN的STOI指標優于log-MMSE和DDAE。

針對現有人工耳蝸的語音處理模塊在噪聲環境下的語音感知能力較弱,傳統降噪算法的魯棒性不足,以及AI環境分類結果不理想的問題,本研究提出了一種改進的Wave-U-Net算法。該算法代替了AI環境分類算法和傳統降噪算法的結合,實現了純AI化處理。通過編碼器-解碼器結構,模型能夠挖掘不同尺度的信息,以更全面地理解語音信號[21]。本研究采用了輕量化卷積來降低模型復雜度,并引入了Transformer部分,通過分析語音和噪聲信息的相關性,區分語音和噪聲,實現降噪,并通過優化數據集增強模型的魯棒性。

1 實驗方法及原理

對使用人工耳蝸的患者,本研究的首要目標是建立一個有效的言語感知系統,使他們能夠像聽力健康者一樣進行交流。本研究的目的是人工耳蝸在安靜環境下的言語感知效果優良。因此,采用改進的Wave-U-Net模型,將嘈雜的環境轉化為安靜的環境,以提高人工耳蝸患者在噪聲環境下的言語感知能力。本研究流程見圖2:第一部分是語音預處理階段;第二部分是使用改進的Wave-U-Net模型進行語音降噪,尋找最優解,以增強人工耳蝸在復雜噪聲環境下的語音感知效果;第三部分是使用評估指標對處理后的語音信號進行評估,以驗證模型性能。

圖2 研究流程圖

1.1 方法

Wave-U-Net網絡結構具有整合并學習語音中低層次和高層次信息的能力,能對語音信號進行多尺度處理,即使在小數據集上也能取得良好效果[22]。低層次信息主要包括語音信號的原始波形數據,如音頻信號中的基本特征和頻率等局部特征。相反,高層次信息則是對聲音更高級別的理解,例如語音中的語調、語速、音調等整體特征。Wave-U-Net網絡結構通過層次化結構可實現低層次和高層次信息的分離和整合。網絡底層主要負責捕捉低層次細節,隨著網絡層次的提高,逐漸學習到更抽象和高層次的語音表示。通過跨層連接和注意力機制,結合低層次和高層次特征,以綜合全局和局部信息,提高對語音信號的整體理解。然而,Wave-U-Net的卷積模塊對噪聲與語音的差異敏感度不高,無法很好地區分語音和噪聲[23]。因此,本研究將Wave-U-Net作為基本框架,引入Transformer模塊,以增強模型在分離語音和噪聲方面的能力。然而,直接使用改進模型會導致參數量大、計算成本高,增加處理模塊的運算成本。因此,本研究選擇使用輕量型卷積模塊替代原模型的標準卷積塊。

1.2 輕量化卷積

本研究采用輕量化卷積替代標準卷積,以降低模型的復雜性,輕量化卷積的核心是深度可分離卷積(depthwise separable convolution,DWConv)[24]。Li等[25]提出了一種新型的輕量化卷積技術,名為GSConv,在精度和計算成本之間取得了良好的平衡。盡管GSConv主要應用于二維圖像領域,但本研究對其進行了調整,將其轉化為Wave-GSConv,使其適用于一維語音數據,該卷積模型由標準卷積和DWConv兩部分組成,將標準卷積和DWConv的輸出特征圖在通道維度上進行拼接(Concat)操作,最后進行通道混洗(Shuffle)然后輸出,見圖3。

圖3 Wave-GSConv結構圖

1.3 Transformer掩模估計模塊

帶噪聲的語音由噪聲信號和清晰的語音信號組成。由于一維卷積受感受野的限制,對語音和噪聲區分不敏感[26]。因此,本研究引入了Transformer模塊進行加權計算,通過放大兩者的特征信息,提高模型的收斂速度[27]。

圖4 Transformer模塊

(1)

(2)

1.4 改進 Wave-U-Net 結構

本研究提出的改進的Wave-U-Net結構,見圖5。該結構由編碼器和解碼器組成,無需進行預處理和后處理(如特征提取和語音恢復),減少了冗余步驟,實現了語音增強。首先,語音數據輸入到編碼器中,通過Wave-GSConv和下采樣進行特征提取。每一層的跳躍連接可整合不同層次的信息。然后,編碼器的特征輸入到解碼器中,通過Transformer模塊和上采樣,對噪聲數據進行抑制。最后,通過一個1*1的卷積層和tanh激活層,輸出增強后的語音信號。此外,本研究將改進的算法應用于人工耳蝸的語音處理模塊,并與策略編碼相連;設置算法的通道數與電刺激的通道數相匹配,以提高語音算法在人工耳蝸中的適應性,使得后續的策略編碼通道篩選更加清晰[28]。

圖5 改進Wave-U-Net 結構

1.5 損失函數

在語音增強研究中,模型的損失函數是一個關鍵因素,可有效指導模型快速且高效地收斂。本研究最初采用均方誤差(mean-square error, MSE)[29]作為損失函數來驅動模型的收斂過程。MSE的定義見式(3):

(3)

本研究采用了STOI[30]作為評估語音感知效果的指標。STOI是基于人類聽覺感知原理設計的指標,其目標是盡可能地模擬人類對語音可懂度的主觀感知。STOI的計算見式(4)。STOI的取值范圍在0~1之間,值越接近1,表示處理后的語音的可懂度越高。

(4)

然而,在模型收斂過程中,尤其是當損失函數趨于穩定時,雖然每輪測試集的平均MSE在減小,但平均STOI卻出現了降低。處理后數據的語譜圖見圖6。圖中的上行和下行分別表示兩條語音訓練過程中的MSE、STOI和語譜圖的變化。圖6(a)代表干凈的語音語譜圖;圖6(b)是經過n輪訓練后的MSE、 STOI和語譜圖;圖6(c)表示經過2n輪訓練后的MSE、 STOI和語譜圖。由圖6可知,隨著訓練輪次的增加,語音信號的均方誤差(MSE)呈現下降趨勢,表明處理后的語音信號在數值上更接近于原始語音。理論上,STOI值應隨之增大,然而,實際觀察到的情況卻是STOI值減小。盡管經過更多輪次訓練,語音信號的可懂度出現了降低現象。該發現顯示,在數值上接近原始語音,并不一定意味著語音的可懂度提高。因此,在主觀聽覺系統中,STOI和MSE兩種評估方法對語音清晰度的感知效果并不等效。換言之,采用MSE作為損失函數并不能確保模型向最優的語音感知效果方向收斂。然而,如果將損失函數替換為STOI,模型的收斂速度會變慢,且容易陷入局部最優值。

圖6 處理后數據的語譜圖

為此,本研究提出了一種結合STOI和MSE的方法,見式(5)。在訓練開始時,通過調節權重α和β控制模型收斂速度。首先,增加MSE的權重α,以使模型快速收斂。隨后,逐步增加STOI的權重,同時降低MSE的權重,以使模型趨向于最優解。值得注意的是,α的增長和β的減少都是指數級的。兩個參數每5輪變化一次,且每次變化的指數相同。

loss=α(1-STOI)+βMSE

(5)

2 實驗結果與討論

2.1 數據集

本研究的語音數據來自清華中文語音數據集(THCHS-30)[30]。鑒于U-Net網絡在小數據集上的優秀表現[31],本研究改進的Wave-U-Net模型從數據集中隨機挑選了6 975條清晰的語音樣本進行實驗。

本研究的噪聲數據來自文獻[32-33]和上海某公司的室內噪聲數據。這些噪聲數據包括Babble、語譜噪聲(speech-shaped noise,SSN)、white、粉紅噪聲、交通噪聲、公司噪聲和風噪。在-5、0、5、10 dB四種信噪比下,本研究將干凈的語音與隨機選擇的三種噪聲混合,生成包含噪聲的數據集。同時,采用了動態掩模,隨機掩蔽帶噪語音中15%的噪聲信號。由于實際生活中的噪聲復雜多變,本研究并未對單一噪聲進行測試,而是選擇了隨機混合,并進行動態掩模噪聲,以增強模型的魯棒性。最后,將數據集分為訓練集(5 580條)和測試集(1 395條)。

2.2 實驗平臺和參數設置

本研究使用Windows 10操作系統;處理器是Intel(R) Core(TM) i7-10870H CPU;運行速度為2.20 GHz,內存為16 GB;使用的GPU是NVIDIA GeForce RTX 2060;編程語言為Python 3.9;深度學習平臺為Torch。

在模型對比評估過程中,本研究對所有模型的超參數進行統一配置(初始學習率設定為1×10-4,每個批次的訓練樣本數為4,設置300個訓練周期,每5個訓練周期后,學習率將降為原來的90%),旨在確保公平的比較基準,并優化模型性能。

2.3 評價指標

由于人工耳蝸對模型的復雜度有特定要求,因此,本研究選擇計算量(GFLOPs)和參數量(Params)綜合評估模型復雜度。GFLOPs常用于衡量模型的計算復雜度,而Params則用于評估模型的空間復雜度,即模型占用顯存的大小。

此外,本研究基于噪聲環境和安靜環境下的語音感知效果,將降噪效果視為語音感知的評估。語音感知質量評價(PESQ)是由國際電信聯盟推薦并制定為一種客觀質量評估標準(P.862.2標準)[34]。一般來說,PESQ的取值范圍為1.0(語音質量差)至4.5(語音質量最佳)。為提高模型評估的準確性和可信度,本研究采用了STOI和PESQ兩個指標對不同模型處理后的語音數據進行評估。

2.4 增強結果及評估

為提升模型在區分語音和噪聲方面的能力,本研究引入了Transformer模塊,并進行了對比實驗。記錄了初始的STOI值,并每隔5輪記錄一次STOI的變化值,以此對比分析是否包含Transformer模塊的STOI值變化情況,見表1。結果表明,引入Transformer模塊后,包含Transformer模塊組別的STOI值變化更快。因此,改進后使得模型在區分噪聲方面的能力更強,收斂速度更快,更適用于人工耳蝸的語音增強。

表1 Transformer模塊的效果對比表

由圖7可知,所有評估指標中,傳統降噪算法的離散程度最大,表明算法的測試結果較為分散、個體差異大,算法的魯棒性較低。通過對圖表的綜合分析,可發現本研究改進Wave-U-Net網絡的效果最優。

圖7 測試集箱型圖

為評估模型性能并確保結果的可靠性,本研究使用訓練集對所有模型進行了重新訓練,并在測試集上評估。將人工耳蝸常用的傳統降噪算法(如維納濾波和譜減法),以及文獻中已在人工耳蝸中應用的DNN[16]、CNN[20]和降噪效果優異的Sudo rm-rf[35]算法與本研究算法進行了對比。由表2可知,本研究算法在測試集上的STOI均值為0.81,PESQ均值為2.75,明顯優于傳統算法。與已應用在人工耳蝸中的DNN、CNN算法相比,性能也有明顯提高。然而與Sudo rm-rf算法相比,仍存在一定差距。但當本研究增加了改進Wave-U-Net的編碼器和解碼器的層數后,發現改進算法可達到與Sudo rm-rf相近的效果。

表2 7種降噪算法在測試集中對應STOI和PESQ值

人工耳蝸對模型的大小和運行時間有特定要求,因此,模型復雜度是一個重要的參考標準。在輸入相同數據的情況下,本研究計算了模型的GFLOPs和Params,見表3。與Wave-U-Net相比,本研究改進的Wave-U-Net模型顯著降低了計算復雜度。此外,與Sudo rm-rf的復雜度相比,也有很大的降低,且遠低于CNN和DNN模型的復雜度。因此,改進的Wave-U-Net模型在降低模型復雜度方面取得了顯著效果。

表3 模型復雜度對比

總之,改進后的Wave-U-Net在模型復雜度上滿足了人工耳蝸的需求。盡管在降噪效果評分上,不如Sudo rm-rf模型表現出色,這主要是由于模型規模較小所致。隨著模型層數的增加,其效果逐漸接近Sudo rm-rf模型,且效果接近時,算法復雜度遠低于Sudo rm-rf。此外,與傳統算法相比,本模型具有更好的魯棒性,其降噪效果的離散程度也較低。

3 討論與結論

本研究針對人工耳蝸在噪聲環境下言語感知能力差的問題,提出了一種改進的Wave-U-Net模型。通過采取輕量化卷積,引入注意力機制,改進損失函數,優化數據集結構,面對復雜的噪聲環境,實現了STOI為0.81、PESQ為2.75的降噪效果。該結果表明,人工耳蝸在噪聲環境下的言語感知效果得到了顯著的提升。

然而,本研究仍存在一些局限性。首先,本研究基于噪聲環境和安靜環境的言語感知效果,將降噪效果作為人工耳蝸言語感知的評估指標。但是,本研究缺少患者真實的言語感知效果,因此,后續需要進行臨床實驗研究。其次,本研究算法受人工耳蝸硬件系統的限制,并未采取優異的語音增強算法,因此,在算法方面仍有進步空間。盡管如此,本研究成果仍具有重要的參考價值。研究結果可為后續人工耳蝸的語音處理模塊提供一定的參考價值。此外,隨著研究的深入,未來希望可以融合電極端,真正實現人工耳蝸的端到端AI算法,進一步推動人工耳蝸技術的發展,為聽力損傷患者帶來更大的福音。

猜你喜歡
效果模型研究
一半模型
FMS與YBT相關性的實證研究
按摩效果確有理論依據
遼代千人邑研究述論
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系統研究
迅速制造慢門虛化效果
抓住“瞬間性”效果
中華詩詞(2018年11期)2018-03-26 06:41:34
主站蜘蛛池模板: 国产久操视频| 精品国产自在在线在线观看| 91精品网站| 中文字幕资源站| 一本综合久久| 国内精品免费| 少妇高潮惨叫久久久久久| 黑色丝袜高跟国产在线91| 全裸无码专区| 免费无码又爽又刺激高| а∨天堂一区中文字幕| 2021国产v亚洲v天堂无码| 欧美性爱精品一区二区三区| 国产欧美性爱网| 国产欧美精品一区二区| 18禁黄无遮挡网站| 中文字幕第1页在线播| 伊在人亚洲香蕉精品播放| 欧美日韩亚洲国产| 婷婷色一区二区三区| 色婷婷成人网| 色成人亚洲| 国产一级做美女做受视频| 性欧美久久| 久草性视频| 国产在线一区二区视频| A级毛片无码久久精品免费| 伊人婷婷色香五月综合缴缴情| 国产精品自拍合集| 国产成人综合亚洲网址| 婷婷综合缴情亚洲五月伊| 99爱视频精品免视看| 国产乱人免费视频| P尤物久久99国产综合精品| 久久综合丝袜长腿丝袜| 中文字幕啪啪| 久久精品国产亚洲麻豆| 国产美女无遮挡免费视频网站 | 91精品久久久无码中文字幕vr| 91在线精品麻豆欧美在线| 美女视频黄频a免费高清不卡| 日韩国产高清无码| 伊人色婷婷| 中国一级特黄视频| 91成人在线观看| 国产成人精品亚洲日本对白优播| 美女一区二区在线观看| 久久久久久久蜜桃| 老司机精品一区在线视频| 成人综合网址| 国产精品一区二区国产主播| 亚洲国产成人精品无码区性色| 亚洲色欲色欲www在线观看| 亚洲精品在线影院| 天天综合色天天综合网| 国产69囗曝护士吞精在线视频| 91欧美在线| 影音先锋亚洲无码| 国产丝袜91| 欧美精品亚洲二区| 国产成人高精品免费视频| 五月天天天色| 亚洲色图在线观看| 玩两个丰满老熟女久久网| 高清无码不卡视频| 国产a在视频线精品视频下载| 手机精品视频在线观看免费| 无码中字出轨中文人妻中文中| 日韩av高清无码一区二区三区| 免费中文字幕在在线不卡| 97se亚洲| 秋霞午夜国产精品成人片| 热久久国产| 色悠久久久| 亚洲成a人片77777在线播放| 欧美福利在线| 国产精品黑色丝袜的老师| 色AV色 综合网站| 国产欧美日韩综合在线第一| 国产主播一区二区三区| 久久久久免费看成人影片| 免费不卡视频|