999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

語音分離技術在阿爾茲海默癥識別中的應用

2022-07-26 01:28:56王學健王杰王小亞袁旻忞桑晉秋蔡娟娟
關鍵詞:特征模型

王學健,王杰*,王小亞,袁旻忞,桑晉秋,蔡娟娟

(1.廣州大學電子與通信工程學院,廣州市 510725;2.廣州市婦女兒童醫療中心,廣州市 510168;3.交通運輸部公路科學研究院,北京 100088;4.中國科學院聲學研究所,北京 100049;5.中國傳媒大學媒體融合與傳播國家重點實驗室,北京 100024)

1 引言

阿爾茲海默癥是一種神經系統退行性疾病,在老年人群中具有較高的發病率[1][2]。該疾病會導致記憶衰退和語言能力損失,在患病中后期會出現生活無法自理等情況,這極大地增加了家庭和社會負擔。由于患者與正常人大腦之間存在差異,目前該疾病的診斷需要經歷以下幾個階段:1)核磁共振成像(Magnetic Resonance Imaging,MRI)檢查;2)正電子發射性計算機斷層顯像(Positron Emission Computed Tomography,PET)檢查;3)腦脊液檢測特定蛋白質;4)認知障礙檢測,如簡易智力狀態檢查量表(Mini-mental State Examination,MMSE)和蒙特利爾認知評估量表(Montreal cognitive Assessment,MoCA),最后在醫生分析所有檢測結果后,才能給出明確的診斷結論。這一過程無疑將花費大量的時間以及精力,同時對醫生的職業技能和臨床經驗也有著較高的要求。為了緩解醫學診療的壓力,學者們也在積極尋求便捷的方法實現阿爾茲海默癥的診療,得益于公開的MRI數據集,以機器學習為代表的分析方法在診斷患者病情方面取得了不錯的效果,該類方法需要挑選出患者與正常人大腦之間差異較大的區域如海馬體,杏仁核等感興趣區(regions of interests,ROI),然后使用支持向量機[3],Ada boost[4]等算法進行分類與預測,研究者也會將受試者的認知障礙評判分數結合起來,做到更為準確的判斷[5]。除此之外,PET影像數據和CSF檢測結果也是診斷患者的重要依據,文獻[6]將MRI、PET和CSF數據結合,實現阿爾茲海默癥患者與認知障礙患者二者的區分。隨著深度學技術的發展,研究者也嘗試使用二維卷積網絡和三維卷積網絡進行識別,直接對病患的三維影像結果進行建模并輸出最終判斷結果[7][8][9]。影像數據雖然可以直觀反映出病人腦部病理結構的改變,但是在患病初期,患者與正常人的影像結果差異并不明顯,針對這一問題,從患者的語言能力進行判斷便成為一種重要途徑。研究人員讓患者對某一特定的圖片進行描述,并記錄他們的語音數據。在此基礎上將語音的頻譜信息或者MFCC信息作為特征輸入,使用支持向量機,人工神經網絡等算法進行識別[10][11],在文獻[12][13]中,研究人員對患者的語音進行聲學特征和語言特征的提取,如獲取說話人語音的韻律特征,統計患者在描述中的停頓情況等,并將其應用到病癥的識別上。在文獻[14][15]中,研究人員使用自動語言識別系統,將病人的語音信息轉為文本信息,并將該文本信息作為輸入,送入到自然語言處理模型中,實現對阿爾茲海默癥的識別。

因為對于醫療設備的要求有所降低,從患者語言能力進行疾病診斷的方法更為簡便,同時得益于深度學習強大的分類功能,利用深度學習網絡結合患者的語音信息來輔助醫生對人群進行阿爾茲海默癥的快速識別和初步診斷是值得研究和探索的。使用深度學習方法進行語音分類或識別往往需要獲取說話人合適的發聲特征,由于語音信息為長序列信息,所以獲取該類特征需要構建恰當的長序列模型,相較于傳統建模方法,深度學習網絡更為復雜的結構能更好地利用語音長序列的邏輯關系,如Dual Path Recurrent Neural Network(DPRNN)[16]將長語音序列通過分塊操作,使用循環神經網絡分別對語音塊內部信息和不同語音塊之間的外部信息進行建模,在語音分離任務上表現出了優異的性能,也有學者將其與Transformer[17]相結合,創造出Dual Path Transformer Network(DPTNet)[18];而在語音識別任務上,學者利用Transformer提取長語音全局信息的交互規律并結合卷積神經網絡進行語音局部特征的學習,創造出Conformer[19],Conformer在 LibriSpeech[20]數據集上的錯詞率(word error rate,WER)已經降到了2.1。深度學習模型強大的分類與識別能力在阿爾茲海默癥的識別上已經取得了一定成就[14][15],但是現階段對語言能力的判斷方法往往需要結合語音識別模型和自然語言處理模型,在實現步驟上較為繁瑣,且語音識別模型和自然語言處理模型需要較高的計算復雜度和較大的計算參數量,例如語音識別模型Conformer[19]的參數量達到了118.8M。所以設計一種既兼顧計算資源同時可以簡化判斷流程的方法是很有必要的。

針對以上問題,本文的研究需選擇一種兼顧性能與計算資源的端到端深度學習語音分類模型,SuDo-RM-RF[21][22]模型是近年來在語音分離領域較為成功的一種基于口語發聲特征掩碼估計的語音分離模型,在使用少量參數的情況下,仍可取得良好的特征分類效果,同時相較于 DPRNN[16],Time-domain Audio Separation Network(TasNet)[23],DPTNet[18]等語音分離模型,其所需的訓練時間大幅度減少。本文在SuDoRM-RF模型的基礎上進行改進,設計了一種語言障礙情況鑒別器加入到解碼器中,實現對說話人語言能力的分類,以區分出正常人(HC,Healthy Control),阿爾茲海默癥初期認知障礙患者(MCI,Mild Cognitive Impairment),阿爾茲海默癥患者(AD,Alzheimer disease)三類人群。改進后的模型被命名為SuDoRM-RF-AD。

本文的結構如下:第2節介紹SuDoRM-RF-AD模型及其參數配置,第3節為實驗部分,第4節為本文的結論。

2 SuDoRM-RF-AD架構

SuDoRM-RF-AD結構如圖1所示,該模型由編碼器、分離器和解碼器三部分組成。相較于SuDoRM-RF架構,SuDoRM-RF-AD在前者的解碼器中增加了一個語言障礙情況鑒別器(圖1虛線所示),以實現對三類不同的人群的區分。為了更生動形象地進行描述,本文將鑒別器的鑒別法則稱作為“專家”。“專家”是領域內的翹楚,對自身所處的領域擁有完備的專業知識以及專業技能素養。基于這一思想,SuDoRM-RF-AD的三位“專家”便需要依靠自身的經驗以及知識,從語音信號或語音信號特征中判斷說話人的所屬類別。選擇三位“專家”是依照職能確定的,“專家1”擅長判斷說話人是否健康,即用來判斷說話人屬于HC的概率大小;“專家2”對于阿爾茲海默癥早期認知障礙患者具有很強的判斷能力,即可以依靠“專家2”得到說話人是否確診MCI的概率;類似地,“專家3”用來判斷說話人是否屬于AD。這是一個多標簽分類的過程,輸出的結果分別表示被試者屬于HC、MCI和AD的概率,為了明確被試者所處的類別,Su-DoRM-RF-AD最終會選擇輸出概率最大值所對應的類別作為被試者的類別。

圖1 SuDoRM-RF-AD結構

2.1 編碼器

編碼器將輸入信息進行壓縮,便于在后續的分離器中分離出重要特征。假設原始輸入信息為x∈RT,其中T表示長度。原始信號在編碼器內經過一次一維卷積操作,并通過ReLU函數激活[24],輸出結果即為編碼器輸出結果vx。編碼器的表達式如下:

2.2 分離器

由分離器接受來自編碼器的輸出結果,對其進行特征的提取。如式(2)所示,vx在經過一次一維卷積和層歸一化(LayerNorm)[25]操作之后會送進U-ConvBlock中。可以依次通過多個U-ConvBlock結構,其中UConvBlocki表示輸入需要通過i個U-ConvBlock結構,其中i∈[1,B]。

U-ConvBlock是分離器的主要組成部分,結合了U-Net[26]和Convtasnet[27]的優點,結構示意如圖2所示。Y(i)經過通道擴展、下采樣、上采樣以及通道壓縮一系列操作之后可以獲取信息的多尺度特征,而后通過跳躍連接將相同維度的特征信息進行融合,以避免特征信息在提取過程中的丟失,假設共計通過B個U-ConvBlock結構的輸出,計為Y(B),如式(3)所示。

圖2 U-ConvBlock結構(深度為3)

2.3 解碼器

解碼器通過y?i做出判斷,得到所屬類別的概率。首先對每個特征的潛在表達式y?i進行一維轉置卷積操作,這里的一維轉置卷積操作是編碼器一維卷積的逆過程,便得到了各個特征完整的表達式Si,如式(6)所示。

為了從Si得到最終的判斷概率,SuDoRM-RF-AD會首先通過第一層全連接層篩選出更適用于判斷說話人所屬類別的特征。由于全連接層的節點權重不一致,對于權重較小的節點,可以采用Dropout策略[28]來減少小權重特征對最終判斷的影響。在經過第一層全連接層篩選出所需要的特征之后,為了方便最終的判斷,需要統一輸出格式,采用ReLU激活函數,實現判斷概率位于區間[0,1]內。最后通過第二層線性全連接層,三位“專家”給出各自最終的判斷結果,記第i位“專家”給出的判斷概率為pi,表達式如式(7)所示。

2.4 SuDoRM-RF-AD網絡配置

本次任務的網絡參數設置如下,對于編碼器的一維卷積操作,其卷積核大小為21,步長為10,填充為10,為了更好地學習輸入特征,輸出的通道數設置為32。對于分離器,其一維卷積操作使用卷積核大小為1*1,步長為1,填充為0。U-ConvBlock的個數為3,每一個U-ConvBlock需要進行3次連續時間下采樣,同理為恢復數據維度,也需要進行3次上采樣。解碼器的一維轉置卷積為編碼器一維卷積的逆操作,其卷積核大小為21。鑒別器的第一層全連接層輸出節點個數為128,第二層輸出格式為1,輸出通道數為3,分別得到HC、MCI、AD的預測概率。

3 實驗設置及分析

3.1 數據集與基線系統

本文數據集采用江蘇師范大學的《阿爾茲海默綜合癥競賽數據集》,每段語音長度為6秒鐘,AD人群樣本共計158條,MCI樣本共計186條,HC樣本共計216條,總計樣本560條。其中70%的樣本用于訓練集,10%的樣本用于驗證,20%的樣本用于測試,每次訓練開始之前均會重新將數據進行隨機劃分。針對頻譜特征,梅爾頻譜特征以及MFCC特征,采用兩種基線系統[29]:對于MFCC特征,基線系統模型將輸入信息經過不同規格的一維卷積層處理之后,送入密集連接層,輸出所屬類別;對于頻譜或梅爾頻譜特征,基線系統則將輸入信息經過不同規格的二維卷積層處理之后,送入密集連接層,輸出所屬類別。

3.2 訓練及評估

本文優化器使用Adam優化器,學習率初始為0.001。對于多分類任務,采用交叉熵損失作為模型的損失函數。其中交叉熵損失定義的公式如公式(8),n為樣本數量,m為類別數量,yiC表示符號函數,樣本i屬于C則為1,否則為0,PiC表示觀測樣本i屬于類別C的預測概率。

為了更好地篩選出最佳性能的模型參數,本文使用了動態學習率策略,用驗證集調整模型的最優參數,模型每經過2次迭代之后若在驗證集上的識別正確率未提升,則學習率衰減10%;如果模型迭代10次之后,性能仍未提高,則訓練結束,同時保留最優模型參數。

同時選擇準確率,召回率,精確率以及F1值作為模型的衡量標準,其中準確率(accuracy)表示分類正確的數量占總分類數量中的比重,精確率(precision)表示預測為正類的樣本中有多少是真正的正類樣本,召回率(recall)表示樣本中的正例有多少被預測正確,而F1值是精確率和召回率的調和平均,兼顧了精確率與召回率二者的衡量特點。四個指標的取值范圍均在0到1之間,數值趨近1表示模型的衡量性能越好,四個指標的定義如下:

其中,TP、TN、FP、FN分別表示樣本正類判定為正類的數量,負類判定為負類的數量,負類判定為正類的數量,正類判定為負類的數量。

3.3 實驗及結果分析

3.3.1 MFCC特征訓練及分析

為了驗證本題模型的性能優勢,實驗將分別采用MFCC特征,頻譜特征以及梅爾頻譜特征作為輸入,驗證模型的分類能力。MFCC特征數據維度為20,在訓練開始之前被轉變為一維序列數據進行輸入,輸入格式為張量(tensor),格式大小為[批次(batch),數據長度(length)]。

實驗結果如表1所示,正確率、精確率、召回率和F1值最大為1,最小為0,Flops表示模型計算所需的浮點運算單元,該值越小,就表明模型所需的計算復雜度越低,對于模型的參數量,該值越小,表示模型所需的存儲空間越小,所有結果保留小數點后三位。其中SuDo-RM-RF-ADm*n表示模型經過m個U-ConvBlock,每個U-ConvBlock經過n次連續時間采樣。從表1可以看出,使用本文模型,其結果在正確率、精確率、召回率以及F1值四個指標上均優于基線系統,這就表明,本文提出的模型能給HC、AD、MCI三類人群的正確識別結果帶來穩定的提升。此外,如果省去分離模塊中的U-ConvBlock結構,那么最終的性能相較于使用U-ConvBlock結構會有所降低,雖然使用U-ConvBlock結果會使計算復雜度和參數量略微提升,但是對正確識別HC、AD、MCI三類人群是很有幫助的。值得注意的是,在使用MFCC特征對SuDoRM-RF-AD模型進行訓練時,SuDoRM-RF-AD的參數量約為0.54M,這與其他經典的深度學習模型結構的參數量相比,如ResNet50[30]的23.5M,VGG-16[31]的138M,DeiT-Tiny[32]的5.7M,幾乎可以忽略不計,Su-DoRM-RF-AD的輕量化也成為它的優勢之一。

表1 MFCC特征模型訓練結果

3.3.1 頻譜特征和梅爾頻譜特征訓練及分析

與處理MFCC特征不同的是,基線系統處理頻譜特征和梅爾頻譜特征均使用的是二維卷積操作[29],而本文針對MFCC特征處理使用一維卷積操作進行處理。二維卷積會兼顧周邊范圍內的信息量,而一維卷積則只能利用卷積核前后位置的信息。但是為了便于擴展本模型在不同特征上的學習能力,本模型在頻譜特征和梅爾頻譜特征上的訓練依然采用一維卷積方式,這樣可以無需改變模型的基礎架構,而僅對語言障礙情況鑒別器作進一步的改進即可,如圖3所示,在原有鑒別器前額外增加兩層一維Depth-wise卷積層[33]進行特征的篩選,這樣做的目的是篩選出可用特征并進一步克服全連接層使用參數較多這一問題。

圖3 增加Depth-wise卷積層后的鑒別器

針對頻譜的參數設定如下:第一層卷積層的輸入輸出通道數均為3,卷積核大小為64,步長為32。第二層的輸入輸出通道數也為3,卷積核大小為32,步長為16。針對梅爾頻譜的參數設定如下:第一層卷積層的輸入輸出通道數均為3,卷積核大小為32,步長為16。第二層的輸入輸出通道數也為3,卷積核大小為16,步長為8。其余訓練設置不變,將輸入的頻譜特征和梅爾頻譜特征數據轉變為一維序列數據進行輸入,輸入格式為張量(tensor),格式大小為[批次(batch),數據長度(length)]。

從表2中可以看出,本文使用的模型雖然采用一維卷積操作,將頻譜特征和梅爾頻譜特征當作序列信息進行處理,但是正確率、精確率、召回率、F1值相較于基線系統依然得到提升,以正確率而言,本文模型在頻譜特征上提升約1.4%,在梅爾頻譜上的提升約4.4%,同時從實驗結果可以看出,使用了U-ConvBlock的模型相較于不使用的模型其各項參數均有細微提升,這也表明使用了U-ConvBlock的模型在區分HC、AD、MCI三類人群時可以給識別正確率帶來提升,這一結論與使用MFCC特征進行訓練時所得結論一致。

表2 梅爾頻譜和頻譜特征模型訓練結果

4 結論

本文在語音分離SuDoRM-RF模型基礎上,通過設計并加入語言障礙情況鑒別器,構建出適用于阿爾茲海默癥說話人識別的端到端網絡SuDoRM-RF-AD。該模型可以基于阿爾茲海默癥早期認知障礙患者和阿爾茲海默癥患者與正常人語言能力的差異,實現對三類人群的識別,相較于使用MFCC特征的基線系統,當模型使用3層U-ConvBlock結構,每層進行三次連續時間采樣后,模型平均識別正確率可達84.8%,相較于基線系統提升約20%,且參數量僅為0.54M;對于使用頻譜特征的基線系統,識別正確率提高了約1.4%,模型參數量約為0.23M;而較之梅爾頻譜基線系統則提高了4.4%,模型參數量僅為0.22M。這表明本文提出的模型是一種識別性能較好的輕量化架構。

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學特征認識
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 日韩国产高清无码| 日韩av无码精品专区| www亚洲精品| 国产在线精品香蕉麻豆| 亚洲综合色在线| 国产精品精品视频| 亚洲无码日韩一区| 欧美专区日韩专区| 亚洲福利一区二区三区| 一本大道无码日韩精品影视| 国产精品自在线拍国产电影| 久久伊伊香蕉综合精品| 国产精品女同一区三区五区| 午夜精品一区二区蜜桃| 国产91导航| 无码aaa视频| 日本午夜影院| 国产亚洲美日韩AV中文字幕无码成人| 欧洲成人在线观看| 色久综合在线| 日本www在线视频| 国产欧美高清| 久久黄色免费电影| 亚洲视频一区在线| 亚洲av无码人妻| 国产99精品视频| 在线观看亚洲精品福利片| 日韩一区二区三免费高清 | 巨熟乳波霸若妻中文观看免费| 在线看免费无码av天堂的| 国产美女91呻吟求| 免费一看一级毛片| 国产成人精品亚洲日本对白优播| 国产网友愉拍精品视频| 成人福利在线免费观看| 精品国产黑色丝袜高跟鞋| 亚洲美女操| 好久久免费视频高清| 婷婷伊人久久| 久久亚洲中文字幕精品一区| 国产麻豆精品在线观看| 国产成人精品一区二区秒拍1o| 亚洲美女一级毛片| 人人爽人人爽人人片| 欧美亚洲国产视频| a毛片免费看| 日本人妻一区二区三区不卡影院| 91免费观看视频| 亚洲欧美日韩精品专区| 久久人与动人物A级毛片| 超清无码一区二区三区| 国产成人在线小视频| 人妻少妇乱子伦精品无码专区毛片| 成人一区在线| 精品国产一区二区三区在线观看| 婷婷久久综合九色综合88| 亚洲va在线∨a天堂va欧美va| 久久一本日韩精品中文字幕屁孩| 国产凹凸视频在线观看| 久热re国产手机在线观看| 亚洲一区免费看| 自拍亚洲欧美精品| 国产成人精品无码一区二| 青青操国产视频| 亚洲美女视频一区| 国产日韩久久久久无码精品| 91丨九色丨首页在线播放 | 国产三级成人| 国产网站一区二区三区| 亚洲精品图区| 人人澡人人爽欧美一区| 亚洲品质国产精品无码| 国产大全韩国亚洲一区二区三区| 91人人妻人人做人人爽男同| 精品国产一区91在线| 国产精品手机在线观看你懂的| 91成人在线免费观看| 美女潮喷出白浆在线观看视频| 免费人成又黄又爽的视频网站| 亚洲国产亚洲综合在线尤物| 欧美午夜理伦三级在线观看| 欧美a在线视频|