999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習分類算法在丙型肝炎預測中的研究

2021-06-29 06:56:30西北民族大學朱泰全
電子世界 2021年10期
關鍵詞:分類模型

西北民族大學 朱泰全

以目前的醫療水平丙肝病毒可以確診并根治,但是丙肝病毒并沒有被徹底消滅,主要是因為丙肝病毒感染病例的確診率很低,有許多被感染而未確診的患者,因此,對丙型肝炎進行早期的檢測則顯得尤為重要。血清丙氨酸氨基轉移酸(ALT)和天門冬氨酸氨基轉移酶(AST)水平在一定程度上反映了肝臟的損傷程度,檢測他們,可以對獻血者進行初步的丙型肝炎篩查。

近年來,隨著計算機技術的發展,大量復雜的數據已經超出了人工能夠統計和分析的范圍,對于數據的處理和分析有了更高的技術要求,機器學習算法正好能承擔此類任務。機器學習的最主要任務是對數據分類的能力。近年來國內機器學習算法的相關研究發展迅猛,并廣泛應用于實際工作中。

本文構建丙型肝炎分類器,選用了機器學習算法中的KNN、支持向量機、決策樹、隨機森林四種分類算法,利用他們分析和預測丙型肝炎的數據,通過正確率、精確率等評估指標的比較,選取出一種可靠的模型來進行早期的預測,以期能夠為丙型肝炎早期篩查和診斷提供幫助。

1 分類算法

1.1 KNN

KNN(k-NearestNeighbor)算法,又名K近鄰算法是著名的模式識別統計學算法。KNN算法的思想非常簡單:就是給定待測樣本(數據和分類標簽已知)。首先,基于某種距離計算方法,找出訓練集中最接近待測樣本的K個樣本;然后,根據K個樣本中出現頻率最高的分類,對待測樣本的類別標記進行預測。距離計算使用的是歐氏距離,n維空間的歐氏距離其公式為:

在K最近鄰算法中,由于K值直接影響預測的性能,因此K近鄰算法中K值的選擇非常重要。較小的K值意味著整個模型變得復雜且易過度擬合,較大的K值意味著整個模型變得簡單,且容易發生擬合不足。最佳的K值可以通過交叉驗證來選擇。

1.2 支持向量機

支持向量機(Support Vector Machine,SVM)在1964年由Cortes和Vapnik正式提出,一般用于解決二分類問題。支持向量機是基于統計的VC維理論和結構風險最小化原理的監督二元分類器。

支持向量機的基本原理是在樣本空間中找到支持向量,并根據支持向量確定最優分類超平面,從而最大化不同類別樣本之間的間隔。雖然支持向量機是線性模型,但是它仍可解決非線性問題。在非線性樣本的分類任務中,通過核函數將低維樣本的特征映射到高維空間,將原特征空間的線性不可分問題化為線性可分的問題,從而達到處理非線性分類的任務。支持向量機的核函數有:線性核、多項式核、徑向基函數核、sigmoid核等,常用的是多項式核和線性核。本文在構建SVM模型時,選擇的核函數為多項式核。

1.3 決策樹

決策樹(DecisionTree)也被叫做判定樹(也稱分類樹),其是一種十分常見的分類方法,它的每一個葉子結點對應著一個分類,非葉子結點對應著在某個特征上的劃分,根據樣本在該特征上的不同取值將其劃分成若干個子集。決策樹主要有三類,分別是:ID3、C4.5、CART,本文選用的是由Breiman等人在1984年提出的CART算法。

決策樹算法主要包括三個部分:(1)特征選擇:選擇出對訓練集有用的特征或屬性;(2)決策樹的生成:通過特征選擇遞歸的生成決策樹;(3)決策樹的剪枝:如果一棵決策樹的判斷條件過多,樹過于復雜,就可以主動剪掉一些分支來降低過擬合的風險。

1.4 隨機森林

隨機森林(Random Forest,RF)算法是由Leo Breiman提出的一種基于決策樹的組合分類器,是一種集成學習算法,其核心思想是將多個不同的決策樹進行組合,可極大的提高算法的抗過擬合能力和準確性;同時,由于樹的組合使得隨機森林可以處理非線性數據,其本身屬于非線性分類模型。

針對分類問題,一棵決策樹就對應一個基分類器,當輸入一個樣本后,每個基分類器返回一個分類結果。然后,隨機森林再集成所有的結果,接著用多數投票或者對輸出求均值的方法,將分類結果次數出現最多的類別作為最終的輸出標簽,其遵循“少數服從多數”的原則。因此,隨機森林分類精度相對較高,通過統計所有決策樹,可以有效降低過擬合的風險性,但相對的計算成本更高。

表1 各分類算法性能比較

下面介紹構造一個隨機森林的具體步驟:(1)從訓練集中有放回的隨機抽取N個樣本,用這N個樣本來訓練每一棵決策樹;(2)每個樣本有M個屬性或特征,在決策樹中需要分裂節點時,從這M個屬性中隨機挑選k個屬性或特征,一般來說k遠小于M,然后從這k個屬性中采用某種策略選擇一個最佳屬性作為當前節點的分裂路徑;(3)每棵決策樹的每個節點的分裂都按照步驟(2)進行,直到不能分裂為止;(4)對于每棵決策樹都這樣建立,就得到了隨機森林。

以上步驟需要注意兩點,在訓練樣本時進行了隨機抽樣,在分裂節點時對屬性或特征進行了隨機挑選,所以隨機森林并不是簡單的平均所有決策樹的結果,而是利用隨機的方式將許多決策樹組合成一個森林。由于兩個隨機性的引入,使得隨機森林不容易陷入過擬合。得到以上隨機森林之后讓測試樣本經過每一棵決策樹,得到對它分類的結果,再加以處理,就能得到該測試樣本的最終分類結果。

2 實驗結果與分析

2.1 數據來源

本文所用的數據來自UCI數據集里的丙型肝炎病毒數據集,數據集中包含獻血者和丙型肝炎患者的實驗室值以及年齡等人口統計值。該數據集共有615樣本,經過預處理后,有效樣本還有585例。其中,每個樣本均包含Age(年齡)、ALB(白蛋白)、ALP(堿性磷酸酶)、ALT(丙氨酸氨基轉移酶)、AST(天門冬氨酸基轉移酶)、BIL(膽紅素)、CHE(膽堿酯酶)、CHOL(總膽固醇)、CREA(血肌酐)、GGT(谷氨酰轉肽酶)、PROT(蛋白質纖維)共11個輸入變量。此外,還有一個分類的目標屬性類別,即獻血者與丙型肝炎。當標簽值為0,為獻血的健康者;其他類別均為丙型肝炎或為其進展。

2.2 模型建立

有效樣本有585個,其中410個(70%)用于訓練集,175個(30%)用于測試集。本實驗是在Python 3.8版本的PyCharm環境下進行的,通過使用sklearn工具包進行算法實踐。將丙氨酸氨基轉移酶、天門冬氨酸基轉移酶等11個特征作為自變量,將目標屬性類別作為因變量,分別建立KNN分類器、SVM分類器、決策樹分類器和隨機森林分類器四個分類器。實驗中,運用了10折交叉驗證方法對各個模型進行評估比較,挑選出更好丙型肝炎預測模型。

2.3 模型評估

對于以上模型的評價指標主要有:準確率(Accuracy)、精確率(Precision)、召回率(Recall) 、AUC(ROC曲線下面積)等。其中,準確率是正確被分類的占測試樣本總數的比例;精確率是正確被分類的占實際被分類的比例;召回率是正確被分類的占應該被分類的比例;F1值同時考慮精確率和召回率,讓兩者同時達到最高,取得平衡。F1值表達式為:

文獻中指出“AUC值即為ROC曲線下方圍成區域的面積大小,能夠穩定的反應模型本身的好壞”,所以AUC就是衡量分類器優劣的一種性能指標。詳細分類結果比較如表1所示。

從以上分析結果來看,在對丙型肝炎數據的預測上,隨機森林模型的效果是這四種里最好的,其準確率最高,達到了88.78%,其次是支持向量機和決策樹,分別是85.59%和82.95%,最差的是KNN,只有79.45%。AUC作為分類器好壞的性能指標,隨機森林表現最為卓越,達到了0.91,然后是支持向量機為0.88、決策樹為0.77、KNN為0.71。

綜上所述,本次實驗表現最佳的模型是隨機森林,其準確率最高,AUC值最大,所以,隨機森林作為丙型肝炎預測的最終模型。

總結:本文通過對支持向量機、K近鄰、決策樹、隨機森林這4種算法在UCI丙型肝炎病毒數據集上的分類預測進行了研究與比較, 并運用10折交叉驗證方法來驗證數據結果,得出隨機森林對丙型肝炎病毒數據集的分類的準確率和精度更高,具有更好的預測效果。未來,希望能獲得更多的丙肝方面的數據集,以檢驗此結果,并構建出更加準確的預測模型,相信機器學習分類方法將會更廣泛地應用于其他醫療領域。

猜你喜歡
分類模型
一半模型
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 国产成人无码久久久久毛片| 日韩国产精品无码一区二区三区| 成人综合网址| 日韩大片免费观看视频播放| 成人福利免费在线观看| 国产精品对白刺激| 午夜高清国产拍精品| 国产成人综合亚洲欧美在| 亚洲视频四区| 青青青伊人色综合久久| 国产一级毛片yw| 欧美精品啪啪一区二区三区| 国产精品浪潮Av| 91日本在线观看亚洲精品| 无码国内精品人妻少妇蜜桃视频| 亚洲全网成人资源在线观看| 国产精品成人啪精品视频| 日韩视频免费| 国产精品99一区不卡| 国产视频入口| 国产精品免费福利久久播放 | 99热这里只有精品免费| 亚洲无限乱码一二三四区| 欧美日一级片| 四虎影视8848永久精品| 国产成人盗摄精品| 99re热精品视频国产免费| 免费啪啪网址| 一级毛片免费不卡在线视频| 99re在线视频观看| 日韩在线2020专区| 国产精品刺激对白在线| 欧美日韩v| 成人无码一区二区三区视频在线观看| 精品夜恋影院亚洲欧洲| 婷婷色狠狠干| 久久这里只有精品国产99| 国产va欧美va在线观看| 亚洲一区第一页| 久久综合一个色综合网| 伊人查蕉在线观看国产精品| 亚洲AⅤ无码国产精品| 亚洲精品免费网站| 国产真实乱子伦视频播放| 亚洲日韩精品无码专区97| 成人精品视频一区二区在线| 伊人色在线视频| 国产福利观看| 亚洲人成电影在线播放| 国产伦片中文免费观看| 国产亚洲精久久久久久久91| 欧美色亚洲| 亚洲欧州色色免费AV| 在线国产综合一区二区三区 | 久久久久无码国产精品不卡 | 亚洲一区二区三区香蕉| 亚洲欧美一区二区三区蜜芽| 欧美国产精品不卡在线观看| 2020国产免费久久精品99| 精品福利视频网| 久久亚洲黄色视频| 天天摸夜夜操| 日韩在线影院| 超碰91免费人妻| 91在线无码精品秘九色APP| 国产日韩欧美在线视频免费观看| 免费人成在线观看成人片| 国产成人毛片| 91小视频在线观看| 91福利一区二区三区| 72种姿势欧美久久久大黄蕉| 少妇精品久久久一区二区三区| 幺女国产一级毛片| 亚洲国产日韩视频观看| 曰AV在线无码| 国产乱论视频| 久久久波多野结衣av一区二区| 4虎影视国产在线观看精品| 91人妻在线视频| 91av国产在线| 国产门事件在线| 国产精品永久免费嫩草研究院|