999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

高維類不平衡冠心病數據的變量選擇

2022-09-26 04:18:52宗敏潔吳愿交盧秀青
數字技術與應用 2022年9期
關鍵詞:分類冠心病方法

宗敏潔 吳愿交 盧秀青

1.黃河交通學院;2.西南交通大學希望學院;3.機械工業第六設計研究院有限公司

近幾年,隨著大數據概念的不斷升溫,學術界及產業界對不平衡數據處理問題的研究熱情仍未消退,且呈現逐漸升溫的趨勢,醫療數據成為其重要處理對象。醫療數據的特征是高度不平衡性、變量相關性程度高且維度高。該文首先對數據集進行相關性分析,得出變量間存在嚴重的相關性,變量之間存在相關性會對分類結果產生影響。之后,分別采用LASSO和SPLS方法,對數據進行變量選擇,選出8個最優變量作為最優子集,利用支持向量機分類器,對最優子集進行分類處理,提高了分類精度。同時,變量選擇降低了維度冗余與數據存儲問題,節約了時間與成本。研究表明:在高維不平衡數據分析中,變量選擇是行之有效的預處理策略。

1 研究背景

1.1 問題背景

自20世紀90年代末以來,不平衡數據處理一直是機器學習與數據挖掘領域的研究熱點與難點之一。近幾年,隨著大數據概念的不斷升溫,學術界及產業界對不平衡數據處理問題的研究熱情仍未消退且呈現逐漸升溫的趨勢。

在醫療診斷中如果把正常人(多數類)誤診為疾病患者(少數類)固然會給他帶來精神上的負擔,但如果把一個疾病患者(少數類)誤診為正常人(多數類),就可能會錯過最佳治療時期,從而造成嚴重的后果。此時,少數類樣例被誤分的代價要比多數類被誤分的代價大[1]。這樣的醫療不平衡數據是普遍存在的,因此,提高不平衡數據中少數類的分類精確度,從而應用到實際例子中,比如軟件缺陷預測、網絡入侵檢測、石油泄漏檢測、信用卡欺詐等領域,以及在代謝組學中確定穩健的生物標志物可以幫助提供一種較好的疾病診斷方法。

冠狀動脈粥樣硬化性心臟病,是冠狀動脈血管發生動脈粥樣硬化病變而引起血管腔狹窄或阻塞,造成心肌缺血、缺氧或壞死而導致的心臟病[2],常常被稱為“冠心病”。近幾年,隨著我國社會的快速發展和人們生活水平的提高,冠心病發病率呈現上升趨勢,該疾病已逐漸成為嚴重影響人們健康生活的主要疾病之一[3]。因此,對于冠心病及其并發癥數據的研究是非常重要的。

變量選擇是統計分析和推斷中的重要內容,在建模過程中往往需要通過變量選擇方法,尋找對響應變量最具有解釋性的自變量(協變量),以此來提高模型解釋性和預測準確性,變量選擇結果的好壞影響著所建模型的質量。變量選擇是為了減少數據集中的變量數量,它可以帶來許多好處,例如更快的模型訓練,降低過度擬合的可接受性,抵消維度冗余的影響,以及減少數據分析期間的存儲、內存和處理要求。在類不平衡數據中特別是高維數據中,變量選擇也極其重要。

1.2 國內外研究情況

在不平衡學習問題中,研究了幾種變量選擇方法。對所提出的標準方法進行分析,以檢驗這些方法是否有利于實現不平衡分類。Xiaojuan Zhang等人建立了一種基于偏最小二乘(PLS)判別分析(DA)結合可變迭代空間收縮法的石菖蒲與菖蒲鑒別模型。篩選出樟腦、長環烯和δ-cadinene 3種揮發物作為石菖蒲和菖蒲的關鍵鑒別因子。該方案可作為中草藥潛在生物活性成分的質量控制和篩選的有效策略[4]。Zhongquan Xin等人建立了基于偏最小二乘(PLS)判別分析(DA)的高效判別模型,通過交叉驗證和置換檢驗對模型的可靠性和預測能力進行了評價。結果表明,色譜指紋圖譜與化學計量學方法相結合為RP的質量控制提供了一種有效、便捷的方法,有助于揭示復雜分析樣品的化學特征[5]。Robert等人提出了一種線性模型估計的新方法—LASSO,可以應用于各種統計模型的變量選擇,對廣義回歸模型和基于樹的模型的擴展進行了簡要描述[6]。

本論文以不平衡冠心病數據為研究目的對象,對不平衡數據進行相關性分析和變量選擇處理,選出最優子集,降低維度冗余和數據存儲,以此來改善不平衡數據的分類效果,提高少數類的分類準確率。從中探討不平衡數據處理在冠心病數據分析中的應用價值,為冠心病防治工作提供理論依據,使其能采取有效的防治措施,從整體上降低冠狀動脈粥樣硬化性心臟病的發病率。

2 數據來源

數據集包括21例冠心病(CHD)患者和51例健康志愿者。所有患者均來自中國云南省第一人民醫院。另外,健康對照組51例健康成人均來自同一城市,無血緣關系。采用超高效液相色譜-高分辨質譜(UPLC-HRMS)聯用技術檢測了50種代謝產物。臨床特征包括年齡、收縮壓、舒張壓、空腹血糖等。一般情況下,健康人樣本比冠心病患者的樣本更容易獲得,所以這里的健康人樣本類代表的是多數類,冠心病患者樣本類代表的是少數類。本數據集無缺失數據。

3 方案設計

高維不平衡數據的主要特征是:變量維度高、樣本少、數據共線性嚴重、數據的不平衡度高。本文從算法層面和評價標準兩個不同層面對高維不平衡數據進行變量選擇處理。從算法層面上,采用支持向量機算法[7];評價標準使用了預測精度(Accuracy,ACC),ROC曲線及其下的面積AUROC和PRC曲線及其下的面積AUPRC來度量不平衡數據的分類性能[8]。

本論文針對不平衡冠心病及其并發癥數據,從兩個層面進行分析,并對數據進行變量選擇,以提高分類精度。具體流程如圖1所示。

圖1 方案設計流程圖Fig.1 Plan design flowchart

4 變量選擇對于分類的影響

以下以冠心病數據為例,從算法和評價準則的角度,按照圖1的實驗設計方案,對高維類不平衡醫療數據進行分析。

4.1 變量間的相關性分析

在高維不平衡數據集中,變量之間的相關性對數據的分類效果有所影響,變量之間的相關系數越大對于數據的分類效果影響越大,尤其對于正類的分類效果產生很大的影響。

本文所使用的冠心病不平衡數據集中各變量之間也存在一定的相關性。如圖2所示,顏色越深,表明兩變量之間相關性越強。中間一塊顏色最深,表明變量間存在嚴重的相關性,變量之間存在相關性會對分類結果產生影響,所以需要對數據集進行變量選擇。

圖2 變量間相關系數矩陣熱圖Fig.2 Claolic coefficient matrix hot map

4.2 變量選擇對于分類的影響

變量選擇的目的就是剔除相關性較大的變量,醫療不平數據不僅維度高,數據間的相關性也很強,因此醫療數據的研究都離不開用變量選擇方法來提取最優變量,以此達到降維的目的。變量選擇的過程在于去掉相關性不大的變量,把更少的變量應用于算法研究,目的是從原始數據中選擇使得某種評估標準最優的子集。在分類問題中,變量選擇目標是提取使分類器準確度最大化的最優子集,僅使用一小部分變量捕獲數據集中固有的大多數信息。stabilityLASSO方法和stabilitySPLS方法都是變量選擇較為常用的方法。

分別運用stabilityLASSO方法和stabilitySPLS方法對不平衡比為51:21的數據集進行變量選擇,根據被選擇頻次排序選出8個變量(如圖3所示)。對不平衡比為51:10的數據集進行變量選擇,根據被選擇頻次排序選出8個變量(如圖4所示)。

圖3 不平衡比為51:21的數據集,根據被選擇頻次排序選出8個變量Fig.3 In the data set with an imbalance ratio of 51:21, 8 variables were selected according to the selected frequency

圖4 不平衡比為51:10的數據集,根據被選擇頻次排序選出8個變量Fig.4 In the data set with an imbalance ratio of 51:10, 8 variables were selected according to the selected frequency

根據stabilityLASSO方法和stabilitySPLS方法對不平衡數據集進行變量選擇得出的8個變量,使用支持向量機(SVW)對變量選擇后的數據集進行分類處理,結果如表1所示。

表1 兩種方法變量選擇表Tab.1 Two methods variable selection table

由表1得出,對數據進行變量選擇后在使用支持向量機(SVW)進行分類,AUROC、AUPRC和ACC的值均有所提高。為了能直觀的比較數據集變量選擇前后使用支持向量機(SVW)進行分類結果的變化情況,對變量選擇前后的結果進行可視化(如圖5所示)。

圖5 不平衡比為51:10和51:21的數據集變量選擇前后在SVW分類器的結果Fig.5 Unbalance ratios of 51:10 and 51:21 data sets were selected before and after the results of the classifier

5 結論

不平衡數據廣泛存在于許多科學領域,如醫學。變量選擇也是醫學數據研究中很重要的一項問題,因此如何使用變量選擇方法很重要。本文采用LASSO和SPLS方法,對數據進行變量選擇,選出8個最優變量作為最優特征子集,結合支持向量機算法,提高了分類精度。同時,變量選擇降低了維度災難與數據需求問題,節約了時間與成本。

本文的實際應用意義在于:首先為醫療不平衡數據提供了一種可行的處理手段;其次,一些重要變量,通過變量選擇篩選出來,可以作為冠心病數據收集的重要指標進行分析;最后,體現了不平衡數據對醫療數據分類的重要性。同時,也為其他領域不平衡數據處理理論增加一種可能的實現依據。

引用

[1] 李勇,劉戰東,張海軍.不平衡數據的集成分類算法綜述[J].計算機應用研究,2014,31(5):1287-1291.

[2] 徐玲,尹婷婷,俞吉,等.冠心病冠狀動脈粥樣硬化發生的危險因素多因素Logistic分析[J].臨床和實驗醫學雜志,2019,18(6):626-629.

[3] 路航.早發冠心病的危險因素及冠脈病變特點分析[J].中國療養醫學,2019,28(4):348-351.

[4] ZHANG Xiao-juan,YI Lun-zhao,DENG Bai-chuan,et al. Discrimination of Acori Tatarinowii Rhizoma and Acori Calami Rhizoma Based on Quantitative Gas Chromatographic Fingerprints and Chemometric Methods[J].Journal of Separation Science,2015, 38(23):4078-4085.

[5] XIN Zhong-quan,REN Da-bing-,ZHANG Xiao-juan,et al. Chromatographic Fingerprints Combined with Chemometric Methods Reveal the Chemical Features of Authentic Radix Polygalae[J].Journal of Aoac International, 2017,100(01):30-37.

[6] Robert Tibshirani.Regression Shrinkage and Selection Via the Lasso [J].Journal of the Royal Statistical Society.Series B (Methodological), 1996,58(01):267-288.

[7] FU Guang-hui,ZHANG Bing-yang,KOU He-dan,et al.Stable Biomarker Screening and Classification by Subsampling-based Sparse Regularization Coupled with Support Vector Machines in Metabolomics[J].Chemometrics and Intelligent Laboratory Systems, 2017(160):22-31.

[8] YANG Ri-dong,LI Lin,CHEN Qiu-yuan,et al.Prediction of Disease-free Survival in Patients with Hepatocellular Carcinoma Based on Imbalance Classification[J].Journal of Biomedical Engineering Research,2019,38(1):27-31.

猜你喜歡
分類冠心病方法
ADAMTs-1、 CF6、 CARP在冠心病合并慢性心力衰竭中的意義
分類算一算
茶、汁、飲治療冠心病
警惕冠心病
智慧健康(2019年36期)2020-01-14 15:22:58
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
冠心病室性早搏的中醫治療探析
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 99这里只有精品免费视频| 欧美天堂久久| 波多野结衣第一页| 国产美女在线观看| 国产视频只有无码精品| 五月婷婷丁香色| 成人综合久久综合| 国产一区二区三区在线精品专区| 99热免费在线| 国产乱人伦AV在线A| 国产全黄a一级毛片| 日韩中文无码av超清| 免费不卡视频| 中文字幕欧美日韩| 99在线观看免费视频| 国产欧美日韩在线一区| 国产美女在线免费观看| 亚洲国产日韩视频观看| 麻豆国产原创视频在线播放| 天天做天天爱夜夜爽毛片毛片| 91探花在线观看国产最新| 高清不卡毛片| 亚洲精品在线影院| 国产精品粉嫩| 国产美女免费| 国产白丝av| 在线播放精品一区二区啪视频| 精品99在线观看| 亚洲天堂首页| 亚洲码一区二区三区| 国产精品无码AV中文| 久久99国产乱子伦精品免| 真实国产精品vr专区| 欧美在线伊人| 天天色综网| 国产成人喷潮在线观看| 女人毛片a级大学毛片免费| 丁香五月亚洲综合在线| 亚洲精品福利视频| 欧美日本视频在线观看| 免费亚洲成人| 最新国语自产精品视频在| 在线精品欧美日韩| 一级毛片无毒不卡直接观看| 成人毛片免费在线观看| 国产91透明丝袜美腿在线| 国产精品3p视频| 欧美五月婷婷| 在线免费无码视频| 中国美女**毛片录像在线| 婷婷亚洲视频| 亚洲aⅴ天堂| 又爽又大又黄a级毛片在线视频| 男人天堂亚洲天堂| 亚洲第一成人在线| av免费在线观看美女叉开腿| 亚洲综合专区| 国产免费久久精品99re丫丫一| 国产精品男人的天堂| 一级毛片免费观看久| 国产区在线观看视频| 日韩福利在线视频| 国产欧美成人不卡视频| 青青久视频| 国产97视频在线| 自偷自拍三级全三级视频| 国产杨幂丝袜av在线播放| 广东一级毛片| 欧美国产成人在线| 国产99在线| 好久久免费视频高清| 久久99国产综合精品女同| 日韩av手机在线| 中文无码毛片又爽又刺激| 国产一区二区三区精品欧美日韩| 四虎永久在线精品影院| 国产成人综合欧美精品久久| 久久久亚洲色| 福利一区三区| 香蕉久久国产超碰青草| 欧美午夜小视频| 精品国产香蕉在线播出|