摘 要:PD (Parkinson’s disease) 的運動障礙會累及口、咽、腭肌以及面部肌肉,引起聲帶震顫和面部運動遲緩,為利用聲紋和面部特征識別PD患者提供了可能。為了有效利用以上兩種特征以提高PD 識別率,提出了基于多尺度特征與動態注意力機制的多模態循環融合模型對患者進行識別檢測。首先,設計了多尺度特征提取網絡,將高、低層級特征的語義信息融合以得到完整的特征信息;其次,在多尺度特征融合過程中為了充分考慮模態間的相關性和互補性,提出了以不同模態信息互為輔助條件生成注意力特征圖的動態注意力機制算法,降低特征融合時信息的冗余;最后設計了多模態循環融合模型,通過計算循環矩陣的每個行向量與特征向量間的哈達瑪積得到更有效的融合特征,提高了模型性能。在自建數據集上進行的多組實驗結果表明,提出的方法識別準確率高達96.24%,優于當前流行的單模態和多模態識別算法,可以有效區分PD患者和HP (healthy people),為高效識別PD患者奠定了基礎。
關鍵詞:帕金森氏癥;多模態循環融合;多尺度特征;動態注意力機制
中圖分類號:TP391.4 文獻標志碼:A 文章編號:1001-3695(2023)02-028-0481-07
doi: 10.19734/j.issn.1001-3695.2022.06.0304
Detection of Parkinson’s disease based on dynamic attention mechanism and multimodal circulant fusion
Zhu Jiaying, Xu Zhijing
(College of Information Engineering, Shanghai Maritime University, Shanghai 200135, China)
Abstract:Dyskinesia of Parkinson’s disease (PD) can affect oral, pharynx, palatine muscles, and facial muscles, causing vocal cord tremor and facial dyskinesia, which makes it possible to identify PD patients by using voiceprints and facial features. To effectively utilize the above two features to improve PD detection rate, this paper proposed a multimodal circulant fusion model based on multiscale features and dynamic attention mechanism. Firstly, this paper designed a multi-scale feature extraction network to fuse semantic information of high and low level features to obtain complete feature information. Secondly, considering the correlation and complementarily between modalities in the process of multi-scale feature fusion, it proposed a dynamic attention mechanism algorithm to generate attention feature maps with different modal information as auxiliary conditions to each other, which could reduce the redundancy of information during feature fusion. Finally, multimodal circulant fusion model could obtain more efficient fusion features by calculating the Hadamard product between each row vector of circulant matrix and feature vector. The results of several sets of experiments on the self-built dataset show that the detection accuracy of the proposed method is as high as 96.24%, better than state-of-the-art unimodal and multimodal recognition algorithms. The method can effectively distinguish PD patients from healthy people and lay the foundation for efficient identification of PD patients.
Key words:Parkinson’s disease; multimodal circulant fusion; multi-scale feature; dynamic attention mechanism
0 引言
PD是一種神經退行性疾病,嚴重時會影響人體的控制機制[1]。目前主要采用藥物控制和手術治療的方式應對PD,可以適當減慢患者病情發展,但暫時無法治愈和恢復。PD患者的特征是身體隨機無意識或無節奏地運動[2~4],大多數患者只表現出輕微的震顫跡象,到后期才出現較為明顯的特征[5]。因此,很難在早期實現精確診斷,導致大多數患者錯過了最佳的治療時間和機會,對身體機能造成了不可逆的損害,所以早診斷、早治療對于PD患者顯得尤為重要。
現有的PD診斷方法大多依據病史、臨床癥狀及步態體征和腦CT檢查等[6],這些方法需要耗費大量的時間,且腦CT具有侵入性、價格昂貴、人們的接受度低。因此尋找一種具備便捷性、非侵入性、成本低且準確率高等特點的檢測方法顯得非常有意義。
醫學研究顯示,90%的PD患者在早期都會出現聲帶損傷,這被認為是PD最早的疾病征兆之一,表現為說話刺耳、氣流不足和口吃[7~9];PD患者早期的另一明顯癥狀是“面具臉”,表現為面無表情,雙目凝視,眨眼減少[10~12]。正是由于患者在聲紋和面部特征與普通人存在差異,本文設計了多模態循環融合模型對PD患者進行檢測,通過一種低成本、便利且無侵入性的方法,為PD的早期發現和輔助診斷提供了多種選擇。本文的主要創新和貢獻如下:a)建立了PD患者面部表情與語譜圖相對應的多模態數據集,并針對面部表情大小不一的問題,將其轉換成熱點圖;b)針對現有PD檢測模型提取特征單一、模態單一等問題,提出了基于多尺度特征和動態注意力機制的多模態循環融合模型,即MCF-MFDAM (multimodal circulant fusion based on multi-scale features and dynamic attention mechanism),可以同時解決單一尺度下特征提取不足以及單模態的局限性;c)在多尺度特征融合過程中,設計了動態注意力機制融合方法,以不同模態信息互為輔助條件生成注意力特征圖,充分考慮兩個模態之間關聯性和互補性的問題并降低了特征融合時信息的冗余。
1 相關工作
1.1 PD聲紋檢測
PD患者由于腦中缺少多巴胺,使得神經元無法穩定有效地控制發聲器官,聲音相比健康人群(heathy people,HP)會發生變化,這使得用聲紋區分PD患者和HP成為可能。國內外學者針對基于聲紋的PD檢測做了一系列研究。2013年,Sakar等人[13]采集了PD患者的語音樣本,并對其中不同的語音類型進行分析,用做PD的輔助診斷。Benba等人對文獻[13]建立的數據集開展進一步的研究,采用三種方法來提取聲紋的特征,分別是MFCC(Mel frequency cepstrum cofficient)及其一階和二階導數、壓縮提取的MFCC的平均值、人因倒譜系數[14~16],并對比了這三種方法的優缺點,最后運用支持向量機進行分類,獲得了理想的分類效果。
但是隨著機器學習和深度學習的發展,傳統的方法展現出很多弊端,例如對特征的表征能力差及特征冗余或缺失等問題[17,18]。因此更多的研究者選擇借助神經網絡來實現對PD的語音識別檢測。張穎等人[19]利用加權MFCC結合深度神經網絡進行PD患者檢測,準確率為87.5%;徐志京等人[20]設計了加權全序列卷積神經網絡,在MFCC基礎上提取PD患者聲紋中的高頻梅爾頻率倒譜小波系數特征,提升了識別精度,證明了利用深度學習方法進行PD檢測的可行性。但直接處理語音信號較為復雜,一定程度上會影響準確率,師浩斌[21]將文獻[13]采集的PD患者和HP的語音信號轉換成語譜圖,在AlexNet模型中進行訓練并分類,達到了86.67% 的準確率。將語音轉換成語譜圖之后可以減少信號處理時的復雜度,但由于AlexNet相較于其他卷積神經網絡,其深度只有8層,在特征提取上還有很大的上升空間。王娟等人[22]提出的HR-DCGAN-VGG16以及Xu等人[23]提出的S-DCGAN-ResNet50模型加深了網絡層級并擴充語譜圖樣本,分別將準確率提高到了90.5%和91.25%。
1.2 PD面部特征研究
PD患者的運動障礙所引起的面部肌肉運動遲緩是另一個PD較為明顯的癥狀,主要包括面部運動的減慢以及減少。在面部的上部主要表現為眨眼幅度和眨眼率的下降,在面部的下部主要表現為頜骨和上唇位移幅度減小。目前對于PD患者面部表情的研究大部分都集中于特定的面部區域,比如眨眼率及振幅、頜和上唇運動幅度的下降、眼瞼變寬等癥狀[24~26]。
很多研究者基于以上特征展開了對PD患者面部表情變化的研究。Ozcift等人[27]注意到PD的情緒表達能力下降,并通過實驗證明了這一觀點,共有18名PD患者和16名HP參與了實驗,面部記錄是使用3D光學系統和應用于面部的特殊標記進行的,最終通過實驗發現PD患者對開心、厭惡、悲傷和恐懼情緒表達的速度和幅度均降低。Bandini等人[28]證明了PD患者對六種基本面部表情的識別受到損害,同時對負面表情,如憤怒、恐懼和厭惡等的識別受損更為嚴重。Wang等人[29]在一項基于PD患者非自發性面部表情變化的研究中表明,憤怒和厭惡為PD患者受損最嚴重的兩種情緒表達。研究人員通過要求 17名PD患者和17名HP模仿所提示的面部表情,并量化任務過程中面部表情的變化。結果顯示HP在擺拍和模仿面部表情時的動作幅度均高于PD患者,說明PD患者面部運動遲緩、表情僵硬,表現出較差的行為表達能力。這為PD檢測的研究提供了一種新的思路,可以通過PD患者與HP在面部特征上的差別對其進行檢測。
1.3 多模態融合
目前,大多數關于PD識別的研究都只考慮一種模態,但由于單模態情況下采集到的數據在噪聲的影響下會導致識別結果不可靠,如語音信號非常容易受到環境噪聲的污染而影響檢測結果。多模態融合系統可以利用不同模態之間的互補信息,有效克服單模態的局限和缺點。因此,多模態方法對補充疾病模式和更好地分析疾病具有重要意義。Pham等人[30]提出了一種結合語音測試和螺旋測試的多模態方法,通過分析PD患者的語音特征以及患者在書寫阿基米德螺旋線時的筆跡特征來評估病情,但最終的分類仍然依賴于專家的專業知識。Vasquez-Correa等人[31]考慮到PD患者開始/停止運動的困難,利用卷積神經網絡分別對語音中濁音和無聲段之間的轉換、患者開始或停止新筆劃時的動作、患者開始或結束行走過程時的動作進行建模,之后將不同模態的特征向量通過級聯的方式融合得到多模態特征向量,實現對患者和健康受試者的分類識別。為了更好地評估PD患者的神經狀態,他們將步態、書寫和語音結合在一個低維的特征空間中,使用高斯混合模型對這三個模態進行建模,然后根據簡單的線性回歸假設,使用巴氏距離來預測患者的MDS-UPDRS-Ⅲ量表[32],但對于步態信息的收集需要依賴傳感器,設備較為復雜。Archila等人[33]直接在無標記視頻序列中提取步態和眼睛運動的運動特征和深度特征,計算特征的黎曼平均值,最后利用隨機森林實現分類,簡化了收集患者多模態數據的方式。
本文考慮到講話時一定會帶動面部肌肉運動,從而影響面部表情,同時PD患者面部運動遲緩幾乎會影響面部運動的所有功能,從而使PD患者出現言語障礙,因此語音特征和面部表情特征之間的相關性要強于步態和眼睛運動之間的相關性。利用視頻中PD患者講話時的語音特征和對應的面部表情作為研究對象,本文將兩種特征進行融合,實現對PD患者的分類識別。但多數特征融合方法都是分別提取各個模態的特征,然后將多組特征向量拼接組合成一個向量[34,35],這些方法忽略了特征提取時不同模態特征之間的關聯性,同時缺乏對多模態特征融合的深入分析,因此本文在特征提取時設計了動態注意力機制,最后通過循環融合充分利用不同模態特征元素之間的相互作用,得到更有效的融合特征。
2 MCF-MFDAM模型
MCF-MFDAM模型框架如圖1所示,主要包括數據預處理、多尺度特征提取、動態注意力機制模塊以及多模態循環融合與分類四個部分。
2.1 數據預處理
數據預處理主要包括將語音轉換成語譜圖以及將面部表情圖轉換成熱點圖。語音轉換部分在文獻[23]中已有詳細的介紹,此處不再贅述。
由于人在講話時,五官中變化最為明顯的部位就是嘴巴和眼睛,同時視頻中截取的面部圖像會因為鏡頭的遠近而有大有小,這會對網絡學習圖像中眼睛和嘴部區域的特征造成影響。本文使用Python中的OpenCV庫和Dlib庫將不同位置的人臉圖片進行對齊,首先定位出人臉的位置,然后再定位出面部的關鍵點特征。圖2為視頻中截取的PD患者和HP面部表情圖像以及生成的面部表情熱點圖,可見,PD患者的面部運動障礙會導致眼神呆滯、表情木訥,但最明顯的為嘴部區域,如說話時難以完全張開嘴巴和難以作出夸張表情。患者在說話時,嘴巴只能張開到HP所能張開最大限度的一半或是更小。通過將面部表情圖轉換成熱點圖后,不同圖片中不同位置的五官對齊到相同的位置,且在熱點圖中嘴巴和眼睛變化的大小更為明顯。
2.2 多尺度特征提取
多尺度特征提取包含特征的提取及融合兩個部分。由于單一尺度的特征缺乏局部特征與全局特征的關聯性,不能提供完整的特征信息,會導致兩個模態融合時相關特征的缺失。通過融合多尺度特征,將低層細節信息引入到高層特征中可以得到完整的特征信息,同時實現對微小細節的精確檢測[36]。
由于講話時有些發音嘴部變化不大,所以很難區分PD患者和HP。為了提取在嘴部區域變化不大時的微小細節,本文設計了多尺度特征提取與融合的網絡模型,如圖3所示。
VGG16網絡由五組卷積層和池化層、三個全連接層以及一個softmax分類器組成。本文利用VGG16作為主干網絡提取不同尺度的特征,同時本文在每組池化層后再加入卷積核大小為1×1、步長為1的卷積層對特征圖進行降維,最后加入3×3的卷積層消除融合后特征圖中的混疊效應。
多尺度特征提取與融合的具體過程如下。
a)特征提取。使用VGG16的五組卷積和池化提取不同尺度的特征圖,記為C1~C5,計算過程如式(1)~(3)所示。
式(1)中:ai, j為特征圖中第i行j列的元素;xi, j為原圖中第i行j列的元素;wm,n為第m行第n列的權重;wb為卷積核的偏置項; f為ReLU激活函數。式(2)(3)分別為卷積和池化之后輸出的圖像大小,其中Wout、Hout為輸出特征圖的寬和高;Win、Hin為輸入圖像的寬和高;Wfilter、Hfilter為卷積核的尺寸大小;S為步長;P為圖像邊緣填充的邊界像素層數。
b)特征融合。多尺度特征融合的過程主要包含兩條支路。如圖3所示,橫向通過上采樣從空間上低分辨率、高語義信息的特征圖中獲取高分辨率特征;縱向將多尺度特征圖與相應的低層特征進行融合,最終得到多尺度融合特征圖。
多尺度特征融合是將圖像中不同尺度的特征通過上采樣及加和后進行融合,如將特征圖C4通過1×1卷積降維后得到C4′,但此時C4′與特征圖P5的大小不一致,對P5進行2倍上采樣后即可與C4′利用式(4)進行加和,最后得到特征圖P4。以同樣的方式繼續融合,最終可得到P2。
其中:xi、yi為加和雙方的通道;ki為第i個通道卷積核。
為消除上采樣過程中產生重疊效應[37],本文利用3×3卷積對P2進行處理,得到本文最終所需的多尺度特征融合圖F:
其中:f3×31為卷積核大小為3×3、步長為1的卷積層;S2×up為兩倍上采樣;Pi+1、Ci+1為融合的輸入。
2.3 動態注意力機制
MCF-MFDAM模型的最終目的是將兩種模態的特征融合之后進行分類識別,將單模態多尺度特征融合時需要考慮不同模態特征間的相關性和互補性。因此,在多尺度特征融合過程中設計了動態注意力機制,如圖4所示,將不同模態信息互為輔助條件生成注意力特征圖,避免造成模態間的特征冗余。
其中:Pij為特征f中第i維元素對特征g中第j維元素的作用。
c)將注意力映射圖P和特征h及權重因子α相乘再與輸入特征圖的特征x相加,得到注意力特征圖Y,如式(11)所示。
在得到D1條件下C1的注意力特征圖Y 后,將Y返回輸入端,以D2為條件繼續生成注意力特征圖,不斷循環,當Dn為條件時輸出關于C1最終的注意力特征圖。C2~Cn以同樣的方式生成注意力特征圖,再用2.2節中的方式將其融合得到最終的特征圖F。
2.4 多模態循環融合
多模態循環融合是一種同時使用特征和矩陣的融合方法。由于不同模態的特征向量會位于不同的特征空間,若將不同模態特征向量進行拼接、相加或相乘等簡單操作,則只能探索部分多模態特征之間的相互作用。循環融合通過將一個模態的特征向量與另一個模態循環矩陣的每一行向量做哈達瑪積,可以充分利用多模態特征元素之間的相互作用,提高模型的性能。多模態循環融合模型如圖5所示。
3 實驗結果與分析
3.1 數據集介紹
本文實驗一共采用了三個數據集,分別為M-dataset、F-dataset以及V-dataset。
M-dataset是聲紋和面部表情熱點圖的多模態數據集。PD 患者數據來源于33段視頻,其中包含45位PD患者(24位男性和21位女性),患者的確診時間在1~8年,年齡在 41~79歲。HP的數據來源于27段視頻,其中包含13名男性和14名女性,年齡在35~73歲。本文以2 s為單位截取視頻中的語音,同時為了滿足特征融合時模態間相關性的要求,對應語音部分按中心幀截取視頻中的面部圖像并轉換成面部熱點圖;再將語音部分轉換成語譜圖。F-dataset為單模態面部表情熱點圖數據集,主要來源于M-dataset,并通過GAN擴充了樣本。V-dataset為單模態的聲紋數據集,一部分來源于M-dataset,另一部分來源于文獻[13]收集的具有多種錄音類型的PD語音數據集(Parkinson speech dataset with multiple types of sound recordings),收錄于UCI公開數據庫中(http://archive.ics.uci.edu/ml/datasets.php),可用于科學研究,本文將其轉換成語譜圖。數據集的分布情況如表1所示。
3.2 實驗設計
本文所有實驗都是在CPU為Intel i7-7800x、顯卡為NVIDIA GeForce GTX1080i的實驗環境中進行,深度學習框架為Keras和TensorFlow。本文訓練集和測試集的比例為7∶3;在訓練模型時,選擇交叉熵損失作為分類損失函數。模型分類性能的評價指標采用accuracy、sensitivity及specificity,其計算表達式如式(18)~(20)所示。
其中:accuracy為準確度,代表分類器區分PD患者和HP的優劣程度;sensitivity為敏感性,代表在所有PD患者中診斷正確的比例;specificity為特異性,代表在所有HP中診斷正確的比例。其中,TP為PD患者分類正確,TN為HP分類正確、FP為PD患者分類錯誤,FN為HP分類錯誤。
本文設計了不同的實驗進行對比:a)將單尺度語譜圖和面部表情熱點圖特征的檢測結果與多尺度特征融合后的情況進行對比,證明提取多尺度特征可以有效解決單一尺度的特征缺乏局部特征與全局特征關聯性等問題;b)通過改進多模態模型,證明MCF-MFDAM為最優模型;c)將MCF-MFDAM模型與其他文獻中的最優模型對比,證明MCF-MFDAM模型性能優異且具有較強的泛化能力。
3.3 實驗結果分析
本文中每組實驗的參數設定如下:batch_size為16,lr學習率為0.000 1,dropout的失活率為0.5,迭代次數epoch為100,添加了交叉熵損失函數并采用了Adam的方法優化模型,并通過 k-fold交叉驗證法來衡量模型的預測性能。
實驗1 單尺度特征缺乏局部特征與全局特征的關聯性,多尺度特征可以很好地克服特征提取不足的問題得到完整的圖像信息,提高模型的識別準確率。圖6為單尺度下語譜圖和面部熱點圖與多尺度下語譜圖和面部熱點圖的學習曲線對比。在相同數據量,相同 batch_size下,單尺度時loss函數較為振蕩、收斂慢;而多尺度時學習曲線平穩、loss收斂快,證明模型效果更好。圖7為四種單模態模型預測結果的混淆矩陣,可以更直觀地分析模型的分類效果。其中0代表HP,1代表PD。
實驗2 目前有關PD患者語譜圖檢測的文獻中,最高的準確率為91%左右,本文通過提取多尺度特征融合之后進一步提高了識別精度。但若想大幅提升準確率,僅憑單個模態很難達到,因此本文提出將患者的語音同面部圖像的特征融合之后進行分類識別。圖8為不同多模態模型的學習曲線。在模型加入動態注意力機制前,學習曲線較為振蕩,loss收斂較慢,而加入動態注意力機制后,模型在60個epoch之后就趨于穩定,可見加入動態注意力機制可以降低特征的冗余,提高模型性能。同時,本文在多模態特征融合時使用循環融合方法,充分考慮多模態特征元素之間的相互作用,由此可見MCF-MFDAM模型的學習曲線最為平穩,證明MCF-MFDAM模型要優于其他模型。圖9為四種多模態模型預測結果的混淆矩陣,通過混淆矩陣可以直觀地看到四種模型分類效果,其中MCF-MFDAM模型的分類效果最好。
圖10為實驗1和2中四種單模態模型和四種多模態模型在5倍和10倍交叉驗證后的分類精度。k-fold交叉驗證是將原始數據集分成k組,每一組都做一次測試集,其余k-1組作為訓練集,最后求k組結果的平均值來評估模型性能。k-fold驗證方法可以在有限的樣本中提取更多信息從而減小過擬合。前四組為單模態情況下的結果,實驗證明5-fold交叉驗證在單模態中取得更好的效果,相較于10-fold驗證法,精度高出了一個百分點。而后四組多模態情況下可以很明顯的看到10-fold交叉驗證的效果更好,由于多模態數據集的樣本量小于單模態的樣本量,所以k值大時效果更好,在MCF-MFDAM模型中10-fold驗證法比5-fold驗證法精度高出了兩個百分點。
表2為單模態時提取不同尺度特征的模型在5-fold驗證后的準確率以及模型的訓練時間。由于多尺度特征融合后可以得到完整的特征信息有助于提高模型的性能,所以,在多尺度特征情況下,模型的訓練時間要低于單尺度特征情況下且識別率更高。融合面部表情熱點圖的多尺度特征后進行分類識別的精度要比單尺度情況下的精度高兩個百分點。融合語譜圖的多尺度特征后進行分類識別的準確度相較于以往文獻中關于PD語譜圖的檢測也有所提高。由此證明本文提出的融合多尺度特征的方法可以有效優化模型的分類效果。
表3為不斷改進后的多模態模型在10-fold驗證后的實驗結果,MCF-MFDAM模型相較于傳統融合模型的準確度有大幅提升,對比上文改進后的單模態模型同樣也有大幅提升。同時,在MCF-MFDAM模型中設計了動態注意力機制,降低了多尺度特征融合時特征的冗余,大大降低了模型的訓練時間。實驗證明本文方法具有極大的優勢。
實驗3 為驗證本文提出的MCF-MFDAM模型的有效性及性能,本文對比了當前SOTA算法,具體內容如下:
a)利用文獻[31]的方法,使用CNN對語譜圖和面部表情熱點圖分別建模,提取兩個模態的特征,然后將兩個特征向量級聯成一個,最后使用SVM識別分類。
b)根據文獻[33]的模型,本文直接在視頻序列中提取語音和面部運動特征,然后計算特征的幀級空間協方差,再將信息結合成完整協方差矩陣(covariance matrix,CM)即黎曼平均值,最后通過隨機森林(random forest,RF)算法實現分類。
c)參考文獻[35]的模型,設計不同深度的CNN,分別提取語譜圖和面部表情熱點圖中不同層級的特征,并將其作為輸入傳遞給MLP進行融合,然后將softmax激活函數層添加到MLP方法中,實現分類效果。
圖11為三種多模態模型在自建數據集上的ROC曲線,橫坐標為假陽性率,縱坐標為真陽性率。通過計算ROC曲線下方的面積大小可以得出該模型的分類準確率。從圖中可以直觀地看到三個模型的ROC曲線的面積都接近于1,為0.93~0.96,表明三種模型在本文自建數據集上取得了突出的分類效果,準確率為95%左右,證明了本文自建數據集的有效性。表4為三種多模態模型在自建數據集上的分類準確率以及模型的訓練時間,可見MCF-MFDAM的準確率比當前SOTA算法高出1個百分點左右,且模型的訓練時間也大大減少了。
綜上,所有實驗結果如表5所示,MCF-MFDAM模型相較于單模態語譜圖提高了 4 個百分點;對于單模態面部圖像則大幅提高了7個百分點;而對于傳統的直接提取特征進行多模態融合的方法也提高了5個百分點;對比當前SOTA算法也提高了1個百分點。實驗證明MCF-MFDAM模型在各個方面都有所提升,可以更好地區分 PD 患者和HP。
4 結束語
PD患者的運動障礙會影響面部肌肉,面部僵硬又會造成舌頭運動障礙從而影響到發音。考慮到這兩種特征之間的關聯性,本文提出了基于多尺度特征和動態注意力機制的多模態循環融合方法來識別PD。首先提取語譜圖和面部熱點圖的多尺度特征,可以有效解決單尺度缺乏局部特征與全局特征關聯性的問題;其次在融合多尺度特征時設計了動態注意力機制,以不同模態信息互為輔助條件生成注意力特征圖,充分考慮了不同模態特征的相關性和互補性,降低了融合時特征的冗余;最后選擇多模態循環融合方法可以充分利用多模態特征元素之間的相互作用,進一步提高了模型性能。通過在自建數據集上進行多組對比實驗,驗證了MCF-MFDAM方法的有效性,準確率高達 96.24%,高于單模態以及其他多模態融合方法。本文的 PD 檢測方法具有便利性、非侵入性、高準確率且成本低等優點,具有較重要的研究價值。未來可以在數據集擴充、模型優化以及樣本視頻實時性檢測等領域做進一步的研究。
參考文獻:
[1]Viswanathan R,Khojasteh P,Aliahmad B,et al. Efficiency of voice features based on consonant for detection of Parkinson’s disease [C]// Proc of IEEE Life Sciences Conference. Piscataway,NJ: IEEE Press,2018: 49-52.
[2]Caproni S,Colosimo F C. Diagnosis and differential diagnosis of Parkinson’s disease [J]. Clinics in Geriatric Medicine,2020,36(1): 13-24.
[3]Benba A,Jilbab A,Sandabad S,et al. Voice signal processing for detecting possible early signs of Parkinson’s disease in patients with rapid eye movement sleep behavior disorder [J]. International Journal of Speech Technology,2019,22(1): 121-129.
[4]Agarwal A,Chandrayan S,Sahu S S. Prediction of Parkinson’s di-sease using speech signal with Extreme Learning Machine [C]// Proc of International Conference on Electrical,Electronics,and Optimization Techniques. Piscataway,NJ: IEEE Press,2016: 3776-3779.
[5]Sztahó D,Tulics M G,Vicsi K,et al. Automatic estimation of severity of Parkinson’s disease based on speech rhythm related features [C]// Proc of the 8th IEEE International Conference on Cognitive Infocommunications. Piscataway,NJ: IEEE Press,2017: 11-16.
[6]Goetz C,Poewe W,Rascol O,et al. The unified Parkinson’s disease rating scale (UPDRS): status and recommendations [J]. Movement Disorders,2003,18(7): 738-750.
[7]Tsanas A,Little M A,McSharry P E,et al. Accurate telemonitoring of Parkinson’s disease progression by noninvasive speech tests [J]. IEEE Trans on Biomedical Engineering,2010,57(4): 884-893.
[8]Gyuryuler H. A novel diagnosis system for Parkinson’s disease using complex-valued artificial neural network with K-means clustering feature weighting method [J]. Neural Computing amp; Applications,2017,28(7): 1657-1666.
[9]Peker M. A decision support system to improve medical diagnosis using a combination of K-medoids clustering based attribute weighting and SVM [J]. Journal of Medical Systems,2016,40(5): 116.
[10]Bandini A,Orlandi S,Escalante H J,et al. Analysis of facial expressions in Parkinson’s disease through video-based automatic methods [J]. Journal of Neuroscience Methods,2017,281(4): 7-20.
[11]劉一凡,李廣,陳俊男,等. 帕金森病面具臉發病機制及其與疾病進程相關性的研究進展 [J]. 成都醫學院學報,2021,17(1): 133-136. (Liu Yifan,Li Guang,Chen Junnan,et al. Research progress on the pathogenesis of Parkinson’s disease and its correlation with disease progression [J]. Journal of Chengdu Medical College,2021,17(1): 133-136.)
[12]Wu Peng,Gonzalez I,Patsis G,et al. Objectifying facial expressivity assessment of Parkinson’s patients: preliminary study [J]. Computational and Mathematical Methods in Medicine,2014,2014: article ID 427826.
[13]Sakar B E,Isenkul M M,Sakar C O,et al. Collection and analysis of a Parkinson speech dataset with multiple types of sound recordings [J]. IEEE Journal of Biomedical amp; Health Informatics,2013,17(4): 828-834.
[14]Benba A,Jilbab A,Hammouch A,et al. Voiceprints analysis using MFCCs and SVMs for detecting patients with Parkinson’s disease [C]// Proc of the 1st International Conference on Electrical and Information Technology. Piscataway,NJ: IEEE Press,2015: 300-304.
[15]Benba A,Jilbab A,Hammouch A. Analysis of multiple types of voice recordings in cepstral domain using MFCC for discriminating between patients with Parkinson’s disease and healthy people [J]. International Journal of Speech Technology,2016,19(9): 449-456.
[16]Benba A,Jilbab A,Hammouch A. Using human factor cepstral coefficient on multiple types of voice recordings for detecting patients with Parkinson’s disease [J]. Innovation and Research in BioMedical Engineering,2017,38(6): 346-351.
[17]Bourouhou A,Jilbab A,Nacir C,et al. Comparison of classification methods to detect the Parkinson disease [C]// Proc of International Conference on Electrical and Information Technologies. Piscataway,NJ: IEEE Press,2016: 421-424.
[18]Chen Tianhua,Shang Changjing,Su Pan,et al. A decision tree-initialised Neuro-fuzzy approach for clinical decision support [J]. Artificial Intelligence in Medicine,2021,111(1): 101986.
[19]張穎,徐志京. 基于深度學習的帕金森患者聲紋識別 [J]. 計算機工程與設計,2019,40(7): 2039-2045. (Zhang Ying,Xu Zhijing. Voiceprint recognition of Parkinson’s patients based on deep learning [J]. Computer Engineering and Design,2019,40(7): 2039-2045.)
[20]徐志京,張鐵海. 加權全序列卷積神經網絡方法的帕金森聲紋識別研究 [J]. 小型微型計算機系統,2020,41(12): 2683-2688. (Xu Zhijing,Zhang Tiehai. Parkinson voiceprint recognition based on weighted deep full sequence convolutional neural network [J]. Journal of Chinese Computer Systems,2020,41(12): 2683-2688.)
[21]師浩斌. 基于卷積神經網絡的帕金森病語音障礙診斷研究 [D]. 秦皇島: 燕山大學,2017. (Shi Haobin. Convolutional neural network method for Parkinson’s disease based on dysphonia [D]. Qinhuangdao: Yanshan University,2017.)
[22]王娟,徐志京. HR-DCGAN方法的帕金森聲紋樣本擴充及識別研究[J]. 小型微型計算機系統,2019,40(9): 2026-2032. (Wang Juan,Xu Zhijing. Study on augmentation and recognition of Parkinson’s voiceprint samples by HR-DCGAN method [J]. Journal of Chinese Computer Systems,2019,40(9): 2026-2032.)
[23]Xu Zhijing,Wang Rongfei,Wang Juan,et al. Parkinson’s disease detection based on spectrogram-deep convolutional generative adversarial network sample augmentation [J]. IEEE Access,2020,8: 206888-206900.
[24]Marneweck M,Hammond G. Voluntary control of facial musculature in Parkinson’s disease [J]. Journal of the Neurological Sciences,2014,347(1-2): 332-336.
[25]Mota I A,Coriolano M D G,Lins O G. Bereitschaftspotential prece-ding eyelid blinks in Parkinson’s disease [J]. Arquivos de Neuro-Psiquiatria,2017,75(8): 539-545.
[26]Bologna M,Fasano A,Modugno N,et al. Effects of subthalamic nucleus deep brain stimulation and L-DOPA on blinking in Parkinson’s di-sease [J]. Experimental Neurology,2012,235(1): 265-272.
[27]Ozcift A,Gulten A. Classifier ensemble construction with rotation forest to improve medical diagnosis performance of machine learning algorithms [J]. Computer Methods and Programs in Biomedicine,2011,104(3): 443-451.
[28]Bandini A,Orlandi S,Escalante H J,et al. Analysis of facial expressions in Parkinson’s disease through video-based automatic methods [J]. Journal of Neuroscience Methods,2017,281(4): 7-20.
[29]Wang Yin,Wang Weiwei,Hua Xuyun,et al. Patterns of cortical reorganization in facial synkinesis: a task functional magnetic resonance imaging study [J]. Neural Regeneration Research,2018,13(9): 1637-1642.
[30]Pham H N,Do T,Chan K,et al. Multimodal detection of Parkinson disease based on vocal and improved spiral test [C]// Proc of International Conference on System Science and Engineering. Piscataway,NJ: IEEE Press,2019: 279-284.
[31]Vasquez-Correa J C,Arias-Vergara T,Orozco-Arroyave J R,et al. Multimodal assessment of Parkinson’s disease: a deep learning approach [J]. IEEE Journal of Biomedical and Health Informatics,2019,23(4): 1618-1630.
[32]Vasquez-Correa J C,Bocklet T,Orozco-Arroyave J R,et al. Comparison of user models based on GMM-UBM and I-Vectors for speech,handwriting,and gait assessment of Parkinson’s disease patients [C]// Proc of IEEE International Conference on Acoustics,Speech and Signal Processing.Piscataway,NJ:IEEE Press 2020:6544-6548.
[33]Archila J,Manzanera A,Martínez F. A multimodal Parkinson quantification by fusing eye and gait motion patterns,using covariance descriptors,from non-invasive computer vision [J]. Computer Me-thods and Programs in Biomedicine,2022,215(3): 106607.
[34]李昕,蔡二娟,田彥秀,等. 一種改進腦電特征提取算法及其在情感識別中的應用 [J]. 生物醫學工程學雜志,2017,34(4): 510-528. (Li Xin,Cai Erjuan,Tian Yanxiu,et al. An improved electroencephalogram feature extraction algorithm and its application in emotion recognition [J]. Journal of Biomedical Engineering,2017,34(4): 510-528.)
[35]Amin S U,Alsulaiman M,Muhammad G,et al. Deep learning for EEG motor imagery classification based on multi-layer CNNs feature fusion [J]. Future Generation Computer Systems,2019,101(12): 542-554.
[36]劉秀玲,戚帥帥,熊鵬,等. 融合多尺度信息的肺結節自動檢測算法 [J]. 生物醫學工程學雜志,2020,37(3): 434-441. (Liu Xiu-ling,Qi Shuaishuai,Xiong Peng,et al. An automatic pulmonary nodules detection algorithm with multi-scale information fusion [J]. Journal of Biomedical Engineering,2020,37(3): 434-441.)
[37]Qin Jia,Bai Huihui,Zhao Yao. Multi-scale attention network for image inpainting [J]. Computer Vision and Image Understan-ding,2021,204(3): 103155.
收稿日期:2022-06-30;修回日期:2022-08-18 基金項目:國家重點研發計劃資助項目(2019YFB1600605);上海市揚帆計劃資助項目(20YF1416700)
作者簡介:朱家英(1997-),女(通信作者),上海人,碩士研究生,主要研究方向為深度學習、圖像處理、多模態融合(2556461924@qq.com);徐志京(1972-),男,山東臨沂人,副教授,博士,主要研究方向為無線通信和導航技術、人工智能、深度學習.