999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

中醫臨床不均衡數據疾病分類方法研究

2018-01-17 09:10:34潘主強張林張磊李國正顏仕星
智能系統學報 2017年6期
關鍵詞:亞健康分類特征

潘主強,張林,張磊,李國正,顏仕星

數據挖掘在中醫輔助診斷中受到日益重視,而計算機輔助診斷本質上是一個數據挖掘分類任務[1],分類性能的好壞直接影響到了輔助診斷的能力。在現實生活中,經常出現不均衡數據。例如在醫學中的醫療診斷問題,患有某種病的個體往往是少數的;機械方面的故障檢測[2]中有研究表明,在旋轉機械中齒輪故障占其故障的10%左右。類似的問題也存在于圖像檢測、通信領域客戶流失預測[3]等領域中。對于不均衡數據分類,傳統的數據挖掘分類方法上往往傾向于多數類(較多的一類數據),而對于少數類(較少的一類數據)的分類效果較差。但在實際生活中,人們更加關注少數類的分類情況。例如對中醫臨床數據進行的疾病分類過程中,人們更加關注有病個體的分類情況。少數類的分類性能直接影響到了計算機的輔助診斷能力,同時也關系到醫生的診斷效率。在不均衡數據的分類中,少數類錯分為多數類的代價遠遠高于多數類錯分為少數類的代價,一些“偏愛”多數類的傳統分類方法就不再適用。

不均衡數據引起了人們的重視。近年來,針對不均衡數據分類提出了很多算法,已有的算法主要是從數據集的層面、分類器層面以及分類器和數據相結合的這3種方式[4]來處理使不均衡數據分類。數據集的層面主要有欠采樣和過采樣,但是這兩種方法并沒有針對數據的實際特點,因此分類效果有待進一步提高。在中醫臨床的不均衡數據中,如果僅僅使用欠采樣,可能會丟失很多有重要信息的數據;使用過采樣簡單復制又會出現過于擬合的現象。中醫臨床數據很多特征來自于人體相關參數的測量,但是對于某類疾病,某些特征是不相關的或者是冗余的,甚至某些特征會影響分類器的性能[5]。實際上對于某類疾病而言,有些特征沒有包含或者包含極少的疾病狀態信息,它們對分類結果幾乎沒有影響,因此需要使用特征選擇移除冗余特征[6]。

本文結合中醫臨床不均衡數據的實際情況,在已有研究的基礎上結合欠采樣和特征選擇提出了不均衡的裝袋算法(asymmetric bagging, AB)[12]的改進算法,基于預測風險的最遠病例不均衡裝袋算法(prediction risk based feature selection for FPUSAB,PRFS-FPUSAB)來處理不均衡分類問題和特征選擇問題。

1 不均衡數據分類性能評價

傳統分類的性能評價是從分類器的整體分類情況來考慮,即考慮所有樣本的分類精度。缺乏類別的針對性,特別是比較受關注的少數類。在不均衡數據中,少數類樣本更容易錯分并且所占比例不大,所以對少數類的誤分在總體分類性能上指標變化也不大。如果以準確度作為衡量指標,往往可能具有欺騙性,并且對數據的變化很敏感。例如,一個數據集中只有10%的少數類樣本,有90%的多數類樣本。一個最簡單的分類方法就是將所有少數類均分類為多數類,那么可以得到90%的準確度。雖然表面來看,準確度值很高,但是實際上此分類方法是失敗的,因為少數類未得到正確分類。因此準確度作為性能評價指標不能全面體現分類算法的分類能力。

針對傳統的性能指標存在的缺陷,很多學者在研究不均衡數據分類時使用以下幾個性能指標。表1為二類分類混淆矩陣,TP、FP、FN、TN分別代表真正、真負、假正、假負。

表1 二類分類混淆矩陣Table 1 Confusion matrix

表1中將少數類稱為正性或者陽性,多數類稱為負性或者陰性,第1行與第2行分別表示實際的少數類和多數類數量。TN與TP分別表示分類后被正確分類的多數類和少數類。FP表示實際是少數類而被誤分為多數類的數量,FN表示實際為多數類而被誤分為少數類的數量。根據表1中內容,相關定義如下。

靈敏度(Sensitivity):亦稱真陽性率(TPR)、召回率(Recall),表示所有正類樣本中被正確分類的樣本比例,可用來衡量對正類樣本的分類能力,計算如式 (1),即

特異度(Specificity):亦稱真陰性率,與真陽性率相對,它表示所有負類樣本中被正確分類的樣本比例,可用來衡量對負類樣本的分類能力,計算如式 (2),即

平均準確度(balanced accuracy):

陽性預測值PPV(positive predictive value):

陰性預測值NPV(negative predictive value):

整個數據集被正確分類的正確率Correction:

以上幾個分類指標雖然在一定程度上能夠比較準確地衡量模型的性能,但是在更一般的分類問題中它們仍然是有局限性。為了解決這個問題,人們從醫療分析領域引入了一種新的模型性能評判方法:受試者工作特征曲線分析(receiver operating characteristic,ROC)[7],ROC 分析的主要內容是二維平面上的ROC曲線,平面以false positive rate(FPR)為橫坐標,以true positive rate(TPR)為縱坐標。對于某個分類器,可以基于其在測試樣本上的TPR和FPR性能來獲得二維點。以這種方式,分類器可以映射到ROC平面上的點。調整此分類器使用的閾值以獲取多個不同的點,連接這些點最終可以得到一個經過(0,0),(1,1)的曲線,這就是此分類器的ROC曲線。引入ROC后,衡量不同分類算法的性能可以用曲線下面積(area under the curve, AUC)作為評價指標,AUC就是處于ROC曲線下方的那部分面積的大小。面積越大,模型分類性能越強,模型性能越好,ROC曲線越接近左上角。

2 數據層面解決不均衡數據分類方法

從數據出發,在對數據集進行重構的過程中使用某種機制來獲得更均衡的數據分布,這種方式稱為重采樣,其實質相當于一種預處理數據均衡化方法。研究者先后提出多種采樣技術,歸納起來可分為3種:欠采樣、過采樣、基于前二者的混合采樣[8]。

欠采樣是從原數據集中移除一些多數類樣本,以實現類別樣本數目相同。最基本的隨機欠采樣是隨機地從原始數據集中移除多數類樣本,縮小多數類的規模,以實現具有和少數類樣本數量相同。但該方法在將多數類樣本刪除的同時有可能會丟失具有代表性意義的樣本信息,造成信息丟失影響分類效果。而過采樣是使用某種機制來往原始數據集添加樣本,使得多數類和少數類均衡分布。最基本的隨機過采樣通過隨機復制少數類樣本使數據均衡分布,由于只是簡單地將少數類復制后添加到原始數據集中,會出現很多“重復”樣本,進而出現過于擬合現象[9]。

趙自翔等[10]指出了欠采樣和過采樣的優缺點并基于欠采樣提出了一種新的采樣方式并取得了較好的效果,但是這種采樣方式主要是盡量往均衡靠近,沒有從根本上解決不均衡。同時針對已有采樣方式的問題,已有的研究嘗試將欠采樣與過采樣相結合。例如朱明等[11]提出了RU-SMOTE-SVM算法,該算法結合了隨機欠采樣方法和人工合成少數類樣本的SMOTE算法;李等[12]結合混合抽樣策略和Bagging提出了不均衡裝袋算法,在生物信息學上的不均衡數據分類上取得了較好的效果。

中醫臨床數據采集的是來自病人身體體征相關的實際數據,由于對合成樣本的真實性的質疑,所以中醫臨床數據較少使用SMOTE人工合成少數類樣本的方法進行疾病分類。在欠采樣和過采樣在對不均衡數據分類的效果上,DRUMMOND等[13]為欠采樣在性能上優于過采樣。

3 PRFS-FPUSAB算法

在中醫臨床數據中,每一個樣本都是個體的生命體征數據,當把它們放到樣本空間時,每一個樣本就是樣本空間的一個樣本點。在隨機欠采樣過程中,如果保留某一個有限區域中的樣本點時,可能有大量的有價值樣本點被丟棄;如果隨機選取的樣本都集中在某一個區域,那么會造成過于擬合的現象。對應實際情景:如果在選取病人病例時選取了很多具有同樣特征且未患病的人,那么根據他們的情況來判斷其他不具有這些特征的人的患病情況時,往往不會得到想要的結果,或者判斷趨于隨機。如果能在樣本的每一區域均保留一定量的樣本,則能夠預防最壞的“失真”情況發生。對于某一區域樣本來講,它們到一個定點的距離應該是相差不大的。對應的臨床實際:在一個具有相似特征的病人群體中選取具有一個來代表這個群體,每一個群體選取一個,那么遇到新病患的時候,我們判斷的依據就多了,就能夠更有效地對疾病進行分類。

因此,為了在一次欠采樣過程中盡可能保持多數類樣本本來的類別特點,采用如下的方法:如圖1(a)中黑色圓點為多數類樣本的均值點,計算所有多數類樣本與該均值點的距離,在距離相近的每個小區域中,保留一個點而去掉余下的點,并將保留下的所有多數類樣本作為新的多數類樣本集和原有的正類樣本一起組成新訓練集,如圖1(b)所示。

圖1 最遠病例抽樣方式Fig. 1 Furthest patient sampling method

傳統的分類算法在均衡的數據集上具有很好的效果。不均衡的裝袋算法(asymmetric bagging,AB)算法基于均衡的思想運用隨機欠采樣,每次從多數類中隨機選取與少數類等量的樣本,再將這部分樣本和少數類合并在一起構成新的數據集,然后反復多次構成多個訓練子集。基于在均衡數據的分類中SVM取得了比較好的分類效果[14],AB算法將構成的新的若干個均衡數據集交由SVM進行訓練,最后由訓練成的若干個模型集成決策獲得測試樣本的分類結果。但是AB使用的是隨機欠采樣,就不能避免出現“失真”情況。

3.1 Asymmetric Bagging算法

輸入 測試數據集(Training data set Sr), 子集的特征數F;

輸出 集成的模型。

1) 數據的預處理。刪除缺失比較嚴重的數據,并對缺失較少的數據進行填充。

2) 將Training data set分為有病的數據子集和無病的數據子集。

3) 根據循環抽樣的次數,產生訓練小模型:

FOR i = 1 to M

② 用SVM的方法訓練Sk并計算這個子集的fauc。

FOR j = 1 to F

③ 使用SVM分類器訓練較小的子集Sk得到模型NK。

End for

4)集成獲得的模型NK,通過最大投票法來決定分類問題。

中醫臨床數據癥狀的模糊性的一個重要表現是中醫臨床數據的特征繁多,可能會出現多個特征用于記錄同一癥狀,或者某些特征數據與疾病是不相關的,甚至某些特征會影響分類器的性能[5]。這些情況會帶來干擾,降低分類性能。由于中醫臨床數據中存在著這些問題結合數據挖掘,在針對某類疾病進行分類研究時,需要特征選擇去除不相關特征和冗余特征,力求以最少的特征來表達原始信息,并達到最優的預測或分類精度。特征選擇對應現實意義相當于中醫辨證論治過程中講究的抓主癥。在中醫臨床診斷過程中,抓主癥需要醫生具有豐富的經驗,而這些經驗需要經過很長的時間才能培養起來。如果能通過使用特征選擇來輔助醫師進行抓主癥,那么對于推動中醫的發展具有非常重要的意義。

在已有研究[15]的基礎上,使用預測風險標準來處理中醫臨床不均衡數據疾病分類特征選擇的問題。PRFS(prediction risk based feature selection)是一種以prediction risk為特征重要性評價準則的特征選擇算法。評價準則prediction risk由Moody和Utans[16]首先提出,通過計算數據中某個特征在所有樣本上的取值都替換成均值后評價指標的變化,來評價該特征的價值。由于所分類的數據是不均衡數據,結合不均衡分類數據評價指標,基于不均衡數據的預測風險標準相應的公式為

式中:fauc是應用整個訓練集分類計算出來的曲線下面積,fauc(i)是當訓練集第i個特征用它的平均值替換后計算出來的曲線下面積。如果第i個特征引起的面積變化是最小的,那么第i個特征將會被刪除。

結合上面敘述基于欠采樣的數據采樣方法,Bagging算法、SVM提出了AB的改進算法基于預測風險的最遠病例不均衡裝袋算法(全稱PRFSFPUSAB)。在PRFS-FPUSAB算法中,首先通過計算多數類樣本的中心點(多數類樣本均值點),然后計算多數類中所有樣本和中心點的距離,根據距離從大到小排列多數類樣本。再根據設定的Bagging中的袋數bagnumber、少數類樣本數量,從已按照距離從大到小排列的數據集中移出多數類樣本,構成bagnumber個小的數據子集。在每次生成數據子集后,首先使用預測風險標準進行特征選擇,然后將經過特征選擇后的數據交由SVM進行訓練,待所有數據子集訓練完成后構成若干個小的模型,最后對測試集分類的結果由這些小模型投票決定。在對數據子集進行特征選擇的過程中,仍然使用SVM分類器計算fauc(i),然后使用式對特征i進行判斷是否保留,如果不滿足條件,移除特征i。同時記錄對于每次選擇的特征,這部分在算法中沒有說明。

3.2 PRFS-FPUSAB算法

輸入 測試數據集(Training data set Sr), 循環抽樣次數(number of circles M), 子集的特征數F。

輸出 集成的模型。

1) 數據的預處理。刪除缺失比較嚴重的數據,并對缺失較少的數據進行填充。

2) 將Training data set分為有病的數據子集和無病的數據子集,并統計二者的數量Countpo和Countne。

5) 根據循環抽樣的次數,產生訓練小模型:

6) 判斷M是否大于Countne%Countne,如果大于則終止程序。

FOR i = 1 to M

FOR j = 1 to Countpo

① 置 count為 0;

End for

FOR i = 1 to F

⑤ 用SVM方法訓練St并計算這個子集的fauc。將訓練子集中第i個特征值置為平均值,計算fauc(i),根據式(7)計算預測風險Pj,如果Pj大于0,就選中第j個特征。

End for

⑥ 根據訓練St選中的特征子集構成較小的子集Srt,同時記錄所選擇的特征。

⑦ 使用SVM分類器訓練較小的子集Srt得到模型 Nk。

End for

7) 集成獲得的模型Nk,通過最大投票法來決定分類問題。

在PRFS-FPUSAB算法中,由于在一個群體中選取一個并且選取的樣本只出現一次,因此對集成模型的規模也有限制,集成規模bagnumber最多不能超過不均衡程度Ratio(多數類數量和少數類數量之比)。

4 數據集來源與預處理

實驗采用臨床采集的經絡電阻值數據,共3 053例樣本。本文中選取其中的原穴經絡電阻數據,數據包含左右各十二原穴、性別、身高、體重、年齡等28個特征。

在采集的3 053例樣本中,不同類別疾病數據缺失情況不同,如表2。在刪除嚴重缺失的數據并對不嚴重的數據并填充后,我們發現對于健康與亞健康類疾病較為完整樣本534例,其中健康類數據439例,亞健康類數據95例;對于睡眠情緒類疾病剩余2 214例樣本,睡眠情緒類疾病具體有睡眠障礙、焦慮癥、抑郁癥3種亞型。在使用數據進行實驗時,我們對數據集的樣本類別作了一些歸并,全部歸并為為二類問題。其中患有睡眠情緒類疾病206例,未患睡眠情緒類疾病數2 008例。需要注意的是,傳統中醫并沒有亞健康這個概念,也沒有歸納出睡眠情緒類疾病這個病種。亞健康、睡眠情緒類疾病都是西醫的診斷。我們的研究工作基礎是結合中醫的臨床數據對于西醫的疾病進行分類。

表2 實驗所用數據集信息Table 2 The dataset for the experiment

針對收集的中醫臨床數據可以發現健康與亞健康數據中健康個體超過了亞健康個體,在睡眠情緒類疾病未患病人數遠超過患病人數,而在臨床過程中往往更加關注少數類個體。在針對收集的中醫臨床數據可以發現健康與亞健康數據中健康個體超過了亞健康個體,在睡眠情緒類疾病未患病人數遠超過患病人數,而在臨床過程中往往更加關注少數類個體。在需要注意的是,傳統中醫并沒有亞健康這個概念,也沒有歸納出睡眠情緒類疾病這個病種。亞健康、睡眠情緒類疾病都是西醫的診斷。我們的研究工作基礎是結合中醫的臨床數據對于西醫的疾病進行分類。

5 實驗結果與分析

為了分析算法性能,采用多種方法進行實驗分析。在傳統的分類算法上,選擇具有代表性的decision tree(J48)、Naive Bayes、SVM、Bagging;在已有的不均衡數據分類算法中,選擇不均衡的支持向量機(unbalanced SVM,unSVM)、基于不均衡的支持向量Bagging(Bagging based on unbalanced SVM,unBagging)、Asymmetric Bagging算法,使用上述7種方法同PRFS-FPUSAB算法進行比較。所有的實驗使用10-fold交叉驗證去評估AUC以及相關的性能,為了排除隨機性,每次實驗重復10次。其中decision tree(J48)、Naive Bayes、Bagging 使用 JAVA語言調用Weka[17]相關的分類器;SVM、unSVM、un-Bagging、Asymmetric Bagging使用JAVA語言調用LibSVM[18],相關程序都基于JAVA語言實現。在試驗中為了便于比較使用算法的性能Bagging、Asymmetric Bagging、PRFS-FPUSAB、SVM使用相同的參數設置。在實驗中其他方法的參數使用默認的參數設置。實驗主要是測試PRFS-FPUSAB算法能否提高AUC、Bacc以及通過特征選擇的特征是否符合中醫學相關理論。由于PRFS-FPUSAB算法對裝袋的數量有所限制,為了比較在Bagging、unBagging、AB、PRFS-FPUSAB算法袋數的設置上為1。分類結果如表3、表4所示,表中health表示亞健康類疾病、sleep表示睡眠情緒類疾病。

表3 中醫臨床亞健康類疾病不均衡數據分類結果Table 3 Sub -health disease imbalance data classification results %

表4 中醫臨床睡眠情緒類疾病不均衡數據疾病分類結果Table 4 Sleep disorders disease disequilibrium data disease classification results %

從表3、表4中可以看出傳統的分類算法J48、Naive Bayes、SVM對于不均衡數據的分類效果較差;相比較而言,AB、PRFS-FPUSAB對于不均衡數據分類較好;unSVM并沒有有效的改善的SVM的性能,unBagging相較于Bagging只是很小的改善了性能;Bagging算法的效果也比較差。

就主要分類指標AUC、Bacc而言,PRFS-FPUSAB算法優于其他算法。在decision tree(J48)、Naive Bayes、SVM、Bagging這幾個方法中,Naive Bayes對于不均衡數據分類有一個比較好的效果。雖然Naive Bayes在AUC方面和AB算法相差不大,但是在Bacc方面明顯Asymmetric Bagging算法優于Naive Bayes。為什么Naive Bayes在AUC方面和AB算法相差不大呢,主要原因是在比較實驗中,我們只裝了一袋,也就是說實際上只是從多數類中隨機選擇了和少數類相同數量的樣本放在一起和少數類構成新的訓練集,然后交給SVM進行訓練。由于這里只訓練出了一個模型,所以分類效果會差一些。同時可以看出即使只建立了一個模型,FPUSAB算法也是優于AB算法的。那么裝的袋數會對分類的效果造成一個什么樣的影響呢?如果裝的袋數多了,AB算法是否會優于PRFS-FPUSAB算法呢?繼續用實驗探討。

從圖2中可以看出,隨著集成模型的增加,AUC、Bacc出現增長趨勢,由于Bagging、unBagging采用的是隨機欠采樣,所以隨著集成規模的增加出現振蕩性的變化;而AB的效果要比PRFS-FPUSAB的效果要差。當N大于3,AB下降幅度要比PRFSFPUSAB大,說明PRFS-FPUSAB穩定性要優于AB。當N為3時,PRFS-FPUSAB、AB效果最好。PRFS-FPUSAB算法AUC約為0.80,Bacc約為0.73;AB算法AUC約為0.67,Bacc約為0.64。

從圖3中可以看出,對于睡眠情緒類疾病不均衡數據分類AUC、Bacc結果隨著集成模型數量出現不同變化趨勢。由于采樣的隨機性Bagging、un-Bagging出現振蕩性的變化;而對于AB、PRFSFPUSAB當N小于5時,AB存在著一個振蕩的變化,PRFS-FPUSAB存在著一個較為穩定的增長;當N大于5時,AB、PRFS-FPUSAB都存在著一個下滑的趨勢,從下滑的幅度以及整體的效果來看,PRFS-FPUSAB要優于AB。當N為5時,PRFS-FPUSAB、AB效果最好。在最優值方面,PRFS-FPUSAB算法AUC最優約為0.85,Bacc最優約為0.80;AB AUC最優約為0.75,Bacc最優約為0.72。

圖2 亞健康類疾病分類結果Fig. 2 Sub-health classification results

圖3 睡眠情緒類疾病分類結果Fig. 3 Sub-health classification results

在PRFS-FPUSAB算法中由于改進采樣方式對集成的數量進行了限制。但是Bagging、unBagging、AB對于集成規模并沒有限制。是否這幾個算法隨著集成規模的增加會有不同的效果,或者說當這幾個算法在集成規模較大時是否由于PRFS-FPUSAB算法呢,繼續用實驗進行探討。由于health類疾病和sleep類疾病的不均衡規模不同,在health類疾病我們選取的規模為{10, 15, 20, 25},在sleep類疾病我們選取的規模為{15, 20, 25, 30, 35, 40, 45, 50}。

從圖4中可以看出,隨著集成規模的增加,health類不均衡疾病數據的分類結果AUC、Bacc呈現出了一定幅度的增長,但是很快地又回落了。由于這種采樣的方式是隨機的,造成結果出現了振蕩性的變化。AB算法最優 AUC約為0.75,Bacc約為0.71。與PRFS-FPUSAB算法最優結果相比,AB算法要相對差一些。

圖4 亞健康類疾病分類結果隨著集成規模變化曲線圖Fig. 4 The change of sub-health classification results

從圖5中可以看出,隨著集成規模的增加,sleep類不均衡疾病數據的分類結果AUC、Bacc呈現出了振蕩性的變化,大致趨勢為先增加后下降,并且下降趨勢為結果越來越差。由于采樣的方式的隨機造成了結果出現了振蕩性的變化。AB算法最優AUC約為0.75,Bacc約為0.72。與PRFS-FPUSAB算法最優結果相比,AB算法要相對差一些。

從以上的探討性實驗可以看出,PRFS-FPUSAB算法是幾種算法中最優的。經過統計分析發現,相較于改進前的AB算法,PRFS-FPUSAB算法在AUC上平均提升16%,在Bacc上平均提升13%。改進后的算法較好地提升了分類性能。

圖5 睡眠情緒類疾病分類結果隨著集成規模變化Fig. 5 The change of sleep classification results

對于健康、亞健康類疾病PRFS-FPUSAB算法選擇出的特征有age、height、weight,對應的穴位有陽池左、合谷右、神門右、太溪右。根據選擇出的特征,我們對健康與亞健康人群穴位電阻值進行了對比,如表5所示。

表5 健康、亞健康特征選擇后穴位平均值Table 5 The mean value of acupoints after feature selection

從表5可以看出,亞健康人群右側的合谷、神門、太溪的穴位平均值要高于健康個體,而在左側的陽池穴亞健康個體的穴位平均值要低于健康個體平均值。從中醫理論上講,亞健康與健康人群的判別標準中出現的4個原穴分別屬于大經、心經、腎經和三焦經,而亞健康人群之所以在這四經上表現出特異性,多由于亞健康的表現與四經絡的生理功能異常密切相關。亞健康狀態的表現多種多樣,《亞健康中醫診療指南》將其歸納為軀體、心理、社會交往3個方面。臨床診療中亞健康的這些表現恰好與以上4條經絡及其臟腑功能異常有關,這也解釋了為何亞健康人群在這4條經的原穴上與健康人群有著顯著差異。

針對睡眠情緒類疾病選中的特征有神門左、神門右、太沖左、腕骨左、腕骨右、身高、體重。由于睡眠情緒類疾病和健康、亞健康可用樣本數量不一致,將身高、體重轉換為BMI指數重新統計分析。

與睡眠情緒類疾病密切相關的特征神門、太沖、腕骨分別是心經、肝經和小腸經的原穴。從中醫理論角度進行分析,睡眠情緒類疾病與這3條經脈關系密切:心臧神;肝主疏泄,調暢情志;小腸經與心經相表里,心經實火可以下移小腸。睡眠情緒類疾病患者BMI指數偏低,說明該類疾病患者體型偏瘦,這與中醫理論中瘦人多火,火熱易擾心神的觀點是一致的,如表6所示。

表6 睡眠情緒類疾病特征選擇分析結果Table 6 Sleep emotional disease feature selection analysis results

綜合上面探討可知,通過特征選擇的特征符合中醫學有關疾病理論,并且找到的診斷子集能夠有效提升分類性能。在臨床診斷中,可以通過特征選擇輔助醫生抓主癥。

6 結束語

本文中結合中醫臨床數據實際提出了Asymmetric Bagging的改進算法PRFS-FPUSAB處理中醫臨床不均衡數據的疾病分類問題和特征選擇問題。實驗表明,與改進前的算法相比,PRFS-FPUSAB算法在AUC上平均提升16%,在Bacc上平均提升13%。改進后的算法較好地提升了分類性能,通過特征選擇后的特征也符合中醫學相關理論。雖然使用PRFS-FPUSAB算法在AUC以及Bacc上分類性能有較好的提高,但是從分類器的角度研究不均衡數據分類,更好地提高AUC以及Bacc還需進一步研究。

[1]鄒永杰. 基于特征提取的分類集成在脾虛證診斷中的應用[J]. 計算機應用與軟件, 2010, 27(3): 22–25.ZOU Yongjie. Applying feature selection-based classification ensemble in spleen asthenia diagnosis[J]. Computer ap-plications and software, 2010, 27(3): 22–25.

[2]劉天羽, 李國正. 齒輪故障不均衡分類問題的研究[J]. 計算機工程與應用, 2010, 46(20): 146–148.LIU Tianyu, LI Guozheng. Research on imbalanced problems in gear fault diagnosis[J]. Computer engineering and applications, 2010, 46(20): 146–148.

[3]謝娜娜, 房斌, 吳磊. 不均衡數據集上文本分類方法研究[J]. 計算機工程與應用, 2013, 49(20): 118–121.XIE Nana, FANG Bin, WU Lei. Study of text categorization on imbalanced data[J]. Computer engineering and applications, 2013, 49(20): 118–121.

[4]陶新民, 郝思媛, 張冬雪, 等. 不均衡數據分類算法的綜述[J]. 重慶郵電大學學報:自然科學版, 2013, 25(1): 101–43.TAO Xinmin, HAO Siyuan, ZHANG Dongxue, et al. Overview of classification algorithms for unbalanced data[J].Journal of chongqing university of posts and telecommunications, 2013, 25(1): 101–43.

[5]LIUT Y, LI G Z. The imbalanced data problem in the fault diagnosis of rolling bearing[J]. Computer engineering and science, 2010, 32(5): 150–153.

[6]YU K S. A Network intrusion detection model based on data ming and feature selection schemes[J]. Microelectronics and computer, 2011, 28(8): 74–76.

[7]ZWEIG M H, CAMPBELLmpbell G. Receiver-operating characteristic (ROC) plots: a fundamental evaluation tool in clinical medicine[J]. Clinical chemistry, 1993, 39(4):561–77.

[8]浮盼盼. 大規模不均衡數據分類方法研究[D]. 大連:遼寧師范大學, 2014.FU Panpan. Research on classification methods for largescale imbalanced data [D]. Liaoning normal university,2014.

[9]MIERSWA I. Controlling overfitting with multi-objective support vector machines[C]//Genetic and Evolutionary Computation Conference. London, UK, 2007: 1830–1837.

[10]趙自翔, 王廣亮, 李曉東. 基于支持向量機的不均衡數據分類的改進欠采樣方法[J]. 中山大學學報:自然科學版,2012, 51(6): 10–16.ZHAO Zixiang, WANG Guangliang, LI Xiaodong. An improved SVM based under-sampling method for classifying imbalanced data[J]. Acta scientiarum naturalium universitatis sunyatseni, 2012, 51(6): 10–16.

[11]朱明, 陶新民. 基于隨機下采樣和SMOTE的不均衡SVM分類算法[J]. 信息技術, 2012(1): 39–43.ZHU MING, TAO Xingmin. The SVM classifier for unbalanced data based on combination of RU-Undersample and SMOTE[J]. Information technology, 2012(1): 39–43.

[12]LI G Z, MENG H H, LU W C, et al. Asymmetric bagging and feature selection for activitiesprediction of drug molecules[C]//International Multi-Symposiums on Computer and Computational Sciences. [S.l.], 2007: 1–11.

[13]DRUMMOND C, HOLTE R C. C4.5, Class imbalance,and cost sensitivity: why under-sampling beats oversampling[C]//Proc of the Icml Workshop on Learning from Imbalanced Datasets II, 2003: 1–8.

[14]BHAVANI S, NAGARGADDE A, THAWANI A, et al.Substructure-based support vector machine classifiers for prediction of adverse effects in diverse classes of drugs[J].Journal of chemical information and modeling, 2007,46(7): 2478–2486.

[15]潘主強, 張林, 顏仕星, 等. 中醫睡眠情緒類疾病不均衡數據的分類研究[J]. 濟南大學學報:自然科學版, 2017,31(1): 55–60.PAN Zhuqiang, ZHANG Lin, YAN Shixing, et al. Classification research on imbalanced TCM clinical data of sleep and emotion disorder disease[J]. Journal of university of Jinan: science and technology, 2017, 31(1): 55–60.

[16]UTANS J, MOODY J. Selecting neural network architectures via the prediction risk: application to corporate bond rating prediction[C]//International Conference on Artificial Intelligence on Wall Street. [S.l.], 1991: 35–41.

[17]WITTEN I H, FRANK E. Data mining: practical machine learning tools and techniques with Java implementations[M]. Morgan Kaufmann Publishers Inc, 2011: 206–207.

[18]CHANG C C, LIN C J. LIBSVM: a library for support vector machines[J]. Acm transactions on intelligent systems and technology, 2007, 2(3): 389–396.

猜你喜歡
亞健康分類特征
分類算一算
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
甩掉亞健康 我們在行動
少先隊活動(2018年5期)2018-12-29 12:12:58
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
豬群亞健康
《內經》治未病與亞健康的干預
主站蜘蛛池模板: 国产在线精品人成导航| 91香蕉视频下载网站| 国产在线无码av完整版在线观看| 韩国自拍偷自拍亚洲精品| 亚洲国产欧美国产综合久久| 第一区免费在线观看| 国产尤物在线播放| 国产经典免费播放视频| 日本精品中文字幕在线不卡 | 57pao国产成视频免费播放| 日韩av高清无码一区二区三区| 免费av一区二区三区在线| 在线播放国产一区| 精品午夜国产福利观看| 成人国产一区二区三区| 日韩精品一区二区深田咏美| 免费国产无遮挡又黄又爽| 成年人视频一区二区| 十八禁美女裸体网站| 日韩精品无码免费一区二区三区 | 欧美色综合网站| 欧美激情首页| 久久国产精品夜色| a色毛片免费视频| 日本亚洲最大的色成网站www| 91亚瑟视频| 67194亚洲无码| 欧美无专区| 欧美日韩综合网| 亚洲天堂成人在线观看| a天堂视频| 国产网站一区二区三区| 国产丝袜无码精品| 美女黄网十八禁免费看| 成人在线不卡视频| 国产成人精品一区二区秒拍1o | 尤物视频一区| a级毛片在线免费| 亚洲国产中文综合专区在| 国产亚洲精久久久久久久91| 亚洲第一香蕉视频| 人与鲁专区| 国产精品人成在线播放| 亚洲第一成网站| 不卡无码网| 亚洲成人播放| 久久亚洲黄色视频| 欧美国产日韩一区二区三区精品影视| 色悠久久综合| 久久亚洲美女精品国产精品| 波多野吉衣一区二区三区av| 亚洲人成高清| 久久99国产视频| 国产色婷婷| 欧美中文字幕无线码视频| 亚洲美女AV免费一区| 国产精品蜜芽在线观看| 免费无码AV片在线观看国产| 在线精品视频成人网| 亚洲中文字幕av无码区| 亚洲人成网站观看在线观看| 国产成人夜色91| 在线国产毛片| 亚洲第一区欧美国产综合| 99热最新网址| 99视频精品在线观看| 国产视频自拍一区| 国产亚洲成AⅤ人片在线观看| 小13箩利洗澡无码视频免费网站| 国产一区二区免费播放| 一级毛片在线播放| 久久伊人久久亚洲综合| 国产丰满大乳无码免费播放| 国产亚洲精品97在线观看| 日韩欧美国产综合| 成人免费午夜视频| 国产精品免费露脸视频| 狼友av永久网站免费观看| 一级毛片免费观看久| 91精品国产无线乱码在线| 久久久久久久久18禁秘| 日本一区高清|