999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于隨機森林的帕金森疾病診斷模型構建研究

2023-04-21 13:10:44王小科晏峻峰
計算機技術與發展 2023年4期
關鍵詞:特征信息模型

王小科,晏峻峰

(湖南中醫藥大學 信息科學與工程學院,湖南 長沙 410208)

0 引 言

帕金森疾病(Parkinson’s disease,PD)為慢性進展性運動障礙病癥,可受諸多復雜因素導致錐體外系功能性障礙,且隨著人類壽命的延長,PD患者的數量也在不斷增加[1]。PD具有持續靜止性顫動、肌肉強直、運動障礙等臨床表現,同時還伴有語言和發聲受限的問題[1-2]。目前新型的帕金森診斷方法包括:基于手繪圖特征診斷帕金森病、步態分析和面部表情分析診斷PD,這些研究取得了一定的成果,但是也存在檢測過程復雜,對病人身體產生物理損傷等問題,不易進行大范圍的PD檢測。近年來,大量研究學者提出了各種非侵入性的方法來檢測帕金森病的癥狀。其中在PD的病癥表現中,發現幾乎所有的PD患者會出現并發癥引起的聲帶損傷,從而出現某種程度的語音障礙[3],因此,檢測語言障礙是實現高準確率的PD疾病診斷的可靠手段。

該文采用UCI公開的Speech帕金森語音數據集,首先針對數據集中存在噪聲樣本以及非均衡數據的問題,使用SVM SMOTE過采樣技術均衡數據集,接著采取信息增益特征選擇數據集中的八個特征作為最優特征組合并構建RF模型。為進一步提升算法的性能,使用網格搜索與交叉驗證相結合的方式尋找RF最優參數,進一步提高了模型的分類準確率。

1 相關研究

近年來在基于語音信息的PD診斷方面的研究,首先是對語音數據提取特征,然后采用機器學習建模的方式進行分類。B.E.Saker等人設計了一個用于數據收集的計算機輔助系統,將參與實驗人員的發聲數據采集出來,并設計合理的實驗方法,從中分析提取出具有較大PD信息的屬性特征。Little等人[4]對語言障礙的檢測則是通過提取其中的非線性特征,進一步對患者病情的發展情況做出判斷。目前國內外從事基于語音信息PD診斷的學者,數據大部分來自這兩位研究人員。在特征提取和特征壓縮方面,主要研究方法為:主成分分析(Principal Component Analysis,PCA[5])、窮舉法[6]、基于局部學習的特征選擇法[6]、啟發式特征選擇等[6]。在疾病診斷模型方面,主要研究方法為:最鄰近節點算法(K-Nearest Neighbor,KNN[6])、貝葉斯網絡(Naive Bayes,NB[7])、隨機森林(Random Forest,RF[7])、最小均方誤差回歸[8]、BP神經網絡[8]、支持向量機(Support Vector Machine,SVM[5,9])等。Kursun等[10]通過基于信息的方法進行排列分析,以得到最佳數據,文獻中采用皮爾遜相關系數方法來優選數據;Chen[11]等人使用PCA降維方法,然后再采用模糊K近鄰方法進行重新采樣的估計方法;通過生物啟發算法,如Olivares等基于蝙蝠算法設計的生物極限學習機可以進行分類試驗,但是,該方法只能采用梅爾頓倒譜系數,并沒有考慮到數據遺漏的問題;李勇明等提出了基于語音樣本重復剪輯和隨機森林的帕金森診斷算法對帕金森數據樣本進行分類診斷,達到了較好的分類準確度,但該方法語音特征較多,效率低下;張瓊等人[12]采用改進PSO-SVM算法對不同性能的粒子動態分配慣性權重和學習因子,提高支持向量機模型的學習能力和泛化能力,提高了對疾病的識別精度;郭東偉[13]采用樣本約簡算法和3種特征降維算法分別結合3種機器學習分類算法對樣本分類,得出ELM+NNGIR+KPCA的最佳組合模型;譚言丹[14]設計基于AdaBoost的特征篩選方法并開發基于正則化損失函數的XGBoost來實現最終病情診斷;羅正潮[15]通過中文語音識別PD患者情況,通過發聲分析、韻律分析和輪替運動分析提取出患者身體狀況的語音特征,使用XGBoost算法提高了中文PD識別的優勢;馬超等人[16]利用混沌理論和高斯變異方法改進樽海鞘算法,有效地解決了模型的參數設定和最優特征選擇問題;張小恒等人[17]提出兩步式稀疏遷移學習算法:采用語音段特征同時優選的快速卷積稀疏編碼算法和采用聯合局部結構信息分布對齊算法,在保持各自樣本結構信息的同時最小化分布誤差,從而顯著提高了算法的準確率。

2 研究方法

2.1 方法總述

算法整體流程如圖1所示。

圖1 算法整體流程

由于該文所使用的數據集存在非均衡數據和樣本噪聲的問題,使用SVM SMOTE過采樣技術在沒有引入更多數據的情況下平衡二分類數據;使用信息增益特征提取根據信息增益大小排序選取得到8個特征作為最優特征組合;構建RF帕金森疾病診斷模型,并使用網格搜索和交叉驗證相結合的方式進行參數調優;最后使用該模型對測試集進行樣本分類。

2.2 SVM SOMTE

(1)輸入整個數據集,SVMs-K的數量,Extrapolation Borderline-SMOTE的過采樣率α%。

(3)將t從1到K循環。

(7)輸出支持向量機的集合F(x)=sgn(∑tf(x))。

2.3 信息增益特征選擇

信息增益通過計算信息熵而來,量化了信息去除不確定性的程度,可以通過信息增益的大小為變量排序進行特征選擇。信息量與概率兩者之間呈單調遞減關系,概率越小,信息量越大。

2.3.1 信息量

其中,u表示發送的消息,ui表示發送信息u的一種類型。

2.3.2 先驗熵

信息熵表示信息量的數學期望,是信源發出信息前的平均不確定性,也稱為先驗熵。信息熵的定義如下所示:

當ui中某一種類型的概率為1時,即沒有發送消息的不確定性,信息熵Ent(U)=0;

當ui對應的概率相同時,即概率都為1/k,信息熵Ent(U)=log2k。

2.3.3 后驗熵

信息熵Ent(U)表示在發出信息U之前存在的不確定性,在接收搭配信息V之后,信息U的不確定性會發生改變,即后驗熵,它是接收到一定的信息后,對信息U進行的后驗判斷,定義如下:

考慮所有信息V時,得到的后驗熵的期望(又稱條件熵)如下,Ent(U|V)是指在V結束之后存在對信息U的平均不確定性,通常由隨機干擾引起。

2.3.4 信息增益

信息增益是指先驗熵與后驗熵差值部分,表示信息消除不確定性的程度,定義如下:

Gains(U,V)=Ent(U)-Ent(U|V)

特征選擇原理:對數據集選擇特征時,以目標標量作為信息U,由特征變量作為信息V,代入公式計算信息增益,以信息增益的值按照大小順序來確定特征的順序,以此進行特征選擇。信息增益越大,表示變量消除不確定性的能力越強。

2.4 隨機森林

隨機森林(Random Forest,RF)主要思想是在原始的數據集上隨機挑選P個樣本作為訓練集以生成相應數量的決策樹,在挑選最佳屬性時,RF并非像決策樹一樣讓所有的屬性都參與選擇,而是隨機選擇Q個屬性用于構建決策樹,然后將這些決策樹構成一個森林,RF中每一棵決策樹之間是獨立無關聯的。當RF構建完成之后,輸入新的數據樣本,決策森林中的所有決策樹均會做出判斷并將輸出最多的類別作為最終的模型診斷類別。

具體實現過程如下:

(1)對原始訓練集M使用bootstrap方法,在M中有放回隨機選取X個樣本集合,構成X個分類樹,每次沒有被選中的數據樣本構成K個袋外數據;

(2)假設有ma個變量,在決策樹的所有節點處均隨機抽取mt變量(mt,n,ma),然后在mt挑選分類能力最強的變量,最后通過測量每一個分類點確定變量分類的閾值;

(3)所有決策樹均可以得到最大限度的生長,也無需任何修剪;

(4)將生成的所有分類樹構成RF并輸入新的數據進行分類判斷,根據樹分類器的投票結果作為輸出類別的判別。

3 實驗過程及分析

實驗總共包括三個部分:(1)針對數據集中存在噪聲樣本以及非均衡數據的問題,使用SVM SMOTE過采樣技術對數據進行均衡處理。(2)使用信息增益特征提取算法對該數據集進行特征提取,選取八個特征作為最優特征組合,將樣本映射到更加低維的特征空間,減少了系統的計算時間,同時提高了模型的準確率。(3)構建RF帕金森疾病診斷模型,由于RF參數n_estimators的取值范圍過大,首先使用學習曲線的方式學習參數n_estimators的大致范圍,接著使用網格搜索和交叉驗證相結合的方式尋找RF模型的最佳參數組合,進一步提升了診斷模型的準確率。

3.1 數據集及預處理

3.1.1 實驗數據

該數據集是由英國牛津大學的Max Little[4]與科羅拉多州丹佛市的國家語音和語音中心聯合建立。由三十一個患者發送固定的元音‘a’,其中二十三人屬于PD患者,八人健康,從而得到一組生物醫學語音檢測信息,總計197條信息,23個屬性特征以及1個標簽。屬性分別為:平均聲部基頻MDVP:Fo(Hz),最大聲部基頻MDVP:Fhi(Hz),最小聲部基頻MDVP:Flo(Hz),基頻變化的幾個度量MDVP:Jitter(%)、MDVP:Jitter(Abs)、MDVP:RAP、MDVP:PPQ、Jitter:DDP,振幅變化的幾個度量MDVP:Shimmer、MDVP:Shimmer(dB)、Shimmer:APQ3、Shimmer:APQ5、MDVP:APQ、Shimmer:DDA,語音狀態中噪聲與音調分量之比的兩種測量NH、HNR,兩種非線性動態復雜性測量RPDE、D2,信號分形縮放指數DFA,基頻變化的三種非線性測量spread1、spread2、PPE,姓名name。標簽為status,1表示患者,0表示健康。

3.1.2 數據預處理

在該數據集中姓名name屬性列描述患者的姓名,對實驗沒有實質的用途和意義,所以在數據集中將姓名屬性列移出,即所使用的數據集為22個屬性列,1個標簽列。另外,由于數據集的特征取值范圍各不相同,該文將數據做歸一化處理,將數據映射到0-1之間,使得特征之間持有相同的度量尺度。公式如下:

其中,xmin和xmax是指要歸一化數據的最小邊界和最大邊界。x為原始數值,xscale為歸一化處理之后的數值。

3.1.3 SVM SMOTE均衡數據集

該語音數據樣本標簽嚴重不平衡,其中標簽為1的樣本數量為147,標簽為0的樣本數量為48。從數據角度來看,造成數據稀疏問題:數據的缺失導致模型對稀疏數據刻畫能力不足,無法對此類樣本進行分類;從分類器的角度看,會造成決策邊界偏移問題:因為多數類樣本數量遠大于少數類樣本數量,導致學習的分類界限更偏向于多數類,造成決策邊界的偏移,最終使得模型的分類性能下降。SVM SOMTE算法的核心思想是聚合各種支持向量機,通過向正確的方向構建合成少數樣本來修正初始決策邊界,再以插值的方式為少數樣本生成合成樣本以達到均衡數據集的目的。圖2為數據集均衡前數據集各屬性和標簽的數據分布直方圖,圖3為數據集均衡后各屬性和標簽的數據分布直方圖,兩圖中最后一個直方圖為標簽數據分布圖。

圖2 SVM SMOTE均衡前數據分布直方圖

圖3 SVM SMOTE均衡后數據分布直方圖

3.2 實驗環境與參數設置

3.2.1 實驗環境

PD診斷模型運行在windows10系統PyCharm2021.3.2平臺下,基于Anaconda開發環境下Python3.8編寫運行。實驗以70%的PD數據集作為訓練集,30%作為測試集,根據測試集的分類結果對模型進行評估。

3.2.2 信息增益特征選擇選取最優特征組合

該文采用的語音數據集包含196個樣本,22個特征,1個標簽。與樣本量相比,特征數量相對較多,大膽假設這些特征中必然存在無關特征和冗余特征,這些特征對算法毫無意義,無法提升算法的性能。另外。還存在一些冗余特征可以由其他特征推斷而來,這種情況下,可以通過特征選擇減少數據的特征維度,過濾數據噪聲提高模型精度,同時降低學習任務的難度。信息增益特征選擇通過比較特征值劃分數據集所獲取的信息增益,選取信息增益最高的特征劃分數據集。具體流程為:(1)根據公式計算原始信息熵H;(2)選取一個特征,用特征值進行分類并計算類別的信息熵,以一定的比例加和得出該劃分方式下的信息熵H';(3)計算信息增益,即H-H';(4)根據(2)、(3)計算所有特征屬性對應的信息增益,保留信息增益較大的特征屬性。經過算法選擇后選取出的最優特征數量為8,分別為MDVP:Fo(Hz),MDVP:Fhi(Hz),MDVP:Flo(Hz),Shimmer:DDA,HNR,spread2,PPE,D2。

3.2.3 隨機森林參數優化

構建RF模型,使用網格搜索[13-14]參數尋優尋找RF全局最優參數組合時,由于參數n_estimators搜索的范圍較大,倘若網格搜索遍歷的步長較小且要包含最優解,那么會出現計算量過大而降低電腦運行速度等問題。通過刻畫參數n_estimators學習曲線的方式編碼繪制RF參數的學習曲線,確定參數大致取值范圍,再使用網格搜索在該范圍內進行精細搜索,進一步獲得包括參數n_estimators在內的參數的最優組合。圖4為參數n_estimators的學習曲線,由圖可知參數的最優值大致在25左右,因此確定網格搜索該參數的范

圖4 參數n_estimators學習曲線

圍為20到30。對于其他參數由于在參數n_estimators確定后的取值范圍較小,可直接使用網格搜索尋找最佳值。經網格搜索計算,該參數的最優組合為n_estimators=25,criteriion=“gini”。

3.3 評價指標

使用準確率(Accuracy)、靈敏度(Sensitivity)、特異度(Specificity)作為算法的判斷指標,以此來檢驗文中模型的合理性。準確率指數據中被正確診斷的病人數量與總樣本數的比例;而靈敏度又叫真陽性比例,即實際發病且被準確診斷的病人所占比例;特異度又稱為真陰性率,是指實際無病并能準確檢測的病歷所占比例。具體包括:

其中,TP為真陽性例數,TN為真陰性例數,FP為假陽性例數,FN為假陰性例數。

3.4 結果分析

表1分別為經過SVM SMOTE算法均衡數據集、通過特征提取以及網格搜索交叉驗證優化RF參數后的模型評估指標。由表可知,原始RF算法的準確率、靈敏度和特異度分別為92.38%、96.54%、80.17%;經過SVM SMOTE算法均衡數據之后,準確率提升至94.76%,靈敏度和特異度也分別提高至94.37%和97.33%;特征提取獲取最優參數組合后,模型的準確率、靈敏度和特異度分別為96.02%、94.93%和95.42%;利用網格搜索尋得RF的最佳參數之后,RF模型的準確率、靈敏度和特異度分別為96.59%、94.81%和95.49%。

表1 RF診斷模型結果對比 %

為了驗證所提出方法的有效性和先進性,基于SVM SMOTE和信息增益提取目標特征子集之后構建的RF模型,就多項指標與現有研究中具有代表性的模型,如SVM、KNN、NB、XGBoost、DT進行了詳細對比,表2展示了對比結果。

表2 不同分類器性能對比 %

從表中可以看出,RF模型實現了最佳的準確率,其靈敏度稍低于DT,其特異度低于KNN,然而當指標數值在85%到95%的范圍時,即可判定該指標性能良好。可見,文中模型具備較好的泛化性能。

4 結束語

文中數據來源于kaggle官網,由英國牛津大學的Max Little[6]與科羅拉多州丹佛市的國家語音和語音中心合作創建。通過使用SVM SMOTE均衡算法均衡數據集使得樣本達到平衡,特征選擇根據信息增益的大小排序選取得到8個特征,進而建立了基于RF的PD疾病診斷模型,并使用網格搜索和交叉驗證相結合的方式進行參數調優進一步提高模型的準確率。與傳統RF相比,PD診斷模型在準確率、靈敏度和特異度上的表現均有提高,實驗的有效性得以證明。

猜你喜歡
特征信息模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
3D打印中的模型分割與打包
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 波多野结衣的av一区二区三区| 996免费视频国产在线播放| 欧美中文一区| 永久成人无码激情视频免费| 亚洲va在线∨a天堂va欧美va| 999国产精品永久免费视频精品久久| 日日拍夜夜操| 亚洲色欲色欲www网| 日韩中文无码av超清| 人妻丰满熟妇AV无码区| 中国成人在线视频| 国产日韩丝袜一二三区| 强奷白丝美女在线观看| 中文无码精品a∨在线观看| 无码精油按摩潮喷在线播放| 波多野结衣视频网站| 国产黑丝视频在线观看| 久久亚洲欧美综合| 亚洲三级a| 国产精品19p| 妇女自拍偷自拍亚洲精品| 狠狠色香婷婷久久亚洲精品| 色偷偷一区| 偷拍久久网| 性欧美久久| 国产麻豆精品在线观看| 国产一国产一有一级毛片视频| 午夜精品国产自在| 黄色污网站在线观看| 欧美在线网| 亚洲乱码在线播放| 色悠久久综合| 日韩中文精品亚洲第三区| 她的性爱视频| 在线国产资源| 亚洲日产2021三区在线| 欧洲高清无码在线| 中国毛片网| 国产福利影院在线观看| 中美日韩在线网免费毛片视频| 综合亚洲色图| 亚洲三级色| 成人在线观看一区| 中文字幕无码中文字幕有码在线| 成人免费网站久久久| 欧美成人一级| 国产主播在线观看| 在线播放真实国产乱子伦| 免费一极毛片| 免费看美女毛片| 精品人妻AV区| 久久精品亚洲专区| 欧美性色综合网| 亚洲高清中文字幕在线看不卡| 亚洲视频四区| 国产精品成人一区二区| 波多野结衣中文字幕一区二区| 亚洲一级毛片免费观看| 国产玖玖玖精品视频| 97久久精品人人| 国产欧美日韩另类精彩视频| 亚洲狠狠婷婷综合久久久久| 日本一本正道综合久久dvd| 久久这里只有精品2| 亚洲va精品中文字幕| 毛片在线看网站| 亚洲无码91视频| 夜夜操狠狠操| 凹凸精品免费精品视频| 香蕉蕉亚亚洲aav综合| 欧美日韩精品在线播放| 午夜限制老子影院888| 久久亚洲美女精品国产精品| 91美女视频在线观看| 日韩av在线直播| 日本不卡在线| 国产男人天堂| 激情综合五月网| 在线中文字幕网| 色噜噜在线观看| 欧美一级黄色影院| 精品国产乱码久久久久久一区二区|