999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

K-means聚類方法在瘧疾患兒死亡率預測中的性能表現分析

2021-09-10 14:51:19冉恩慈李坤趙維祥王康王晨星
智慧醫學 2021年4期

冉恩慈 李坤 趙維祥 王康 王晨星

摘要:瘧疾患兒眼底OCT圖像中出血點的面積及相對位置,抽取成為一個48維的特征向量。K-means聚類方法是常用的經典無監督學習方法,計算各樣本在特征空間內的位置,根據樣本點的相對位置關系自動聚類,形成不同的分類。通過在此特征向量空間應用K-means聚類方法,對所有樣本進行聚類操作。實驗結果表明,單純分析聚類的效果還不錯,但與實際治療效果相比較,則分類準確率較低。這說明,K-means聚類方法的適應能力不強,更適合不同類樣本在特征空間內的聚類中心差距較大的情況,若不同類樣本在特征空間內混疊比較嚴重,則聚類結果與真實的分類結果可能存在較大偏差。

關鍵詞:K均值聚類;無監督學習;眼底OCT;瘧疾;空間建模方法

1.引言

瘧疾是一種因瘧原蟲感染引發的蟲媒傳染病,寒戰、出汗和發燒等癥狀會周期性發作,存在一定的死亡風險。目前,已有治療瘧疾的特效藥,可以獲得較好的治療效果,但在醫療條件較差、藥品短缺的非洲部分地區,瘧疾依然是兒童早夭的主要原因之一。因此,研究預測瘧疾患兒的方法,將有限的醫療資源用在最需要的人身上是非常有意義的工作。

K均值聚類算法[1]是解決聚類問題的一種無監督學習方法,對處理大數據集問題具有可伸縮性和高效性的特點,當簇接近高斯分布時效果較好。在K均值聚類算法中,首先需要根據初始聚類中心來確定一個初始劃分,然后對初始劃分對聚類進行優化。Bu等人[2]主要研究K均值聚類算法在動態問題中的性能表現并取得一定的成果。Liu等人[3]將K均值聚類算法和SVM支持向量機結合起來,在其中引入核的概念,并取得了較好的效果。Nguyen等人[4]將啟發式算法融合到K均值聚類算法中,研究改進型的啟發式K均值聚類算法并取得了一定的成就。Qin等人[5]將K均值聚類算法應用到傳感器網絡上,并取得了較好的效果。陳吉成等人[6]將K均值聚類算法應用在社區檢測領域,將多關系網絡解讀為三階張量,再將應用Rescal分解得到的結果作為進化K均值聚類算法的輸入。張鴻雁等人[7]為避免初始聚類中心陷入局部最優,孤立點影響聚類準確性,結合分裂式思想,提出一種基于密度加權的K均值聚類算法。周玉等人[8]為了提高神經網絡分類器的性能,提出一種基于K均值聚類的分段樣本數據選擇方法。

本文的工作是將患兒眼底OCT圖像的規格化數據直接作為K均值聚類方法的輸入,再將聚類結果與真實的治療結果進行比對,從而得出分類的準確率。第2節先對問題進行描述,并介紹如何處理眼底OCT圖像,以及將處理結果帶入K均值聚類算法的過程。第3節對實驗結果進行分析。第4節給出本文的研究結論及展望。

2.問題描述

在臨床實踐中,瘧疾患兒多伴有眼底出血。通過患兒入院時的眼底OCT圖像,可對其眼底出血的情況有一個大致了解。Gabriela Czanner等[9]提出了一種空間建模方法,用以標識患兒眼底出血情況的空間分布和嚴重程度。在此空間模型下,計算患兒眼底OCT圖像中的出血點面積占其所在區塊的比例,進而將每一幅圖像規格化為一個48維向量,且每個維度上的取值范圍都是[0,1]。目前已有的132個患兒數據對應的最后治療結果分為三類:完全康復、留有后遺癥和死亡。

K均值聚類方法的主要參數有:聚類數目N,距離定義和初始聚類中心的產生方法。聚類數目是一個正整數,本文中采用三種不同的分類設置方法:I.按照實際治療結果分為3類,N=3;II.分為兩類:生還(包括完全康復和留有后遺癥)和死亡,N=2;III.分為兩類:完全康復和未完全康復(留有后遺癥和死亡),N=2。距離定義:歐氏距離、曼哈頓距離和余弦距離。初始聚類中心產生方法:引入已有的聚類中心、隨機生產聚類中心。

3.實驗結果及分析

測試數據集共有132個病例,其中90個病例完全康復,24個病例留有后遺癥,18個病例死亡;生還病例114個,死亡病例18個;完全康復病例90個,未完全康復病例42個。實驗通過調用MATLAB的內置函數kmeans( )實現K均值聚類算法,按照前述3種不同的分類設置方法分別進行聚類,并要求每組參數設置重復10次取最優結果,然后進行對比分析。實驗結果如下:

I. 在前述第(I)中分類設置方法下,根據初始聚類中心是否隨機產生分兩類情況進行測試。初始聚類中心隨機產生的前提下,分別測試樣本集在歐氏距離、曼哈頓距離和余弦距離下的聚類結果,如圖1所示。

此外,分類準確率和最佳距離總和如表1所示:

II. 在前述第(II)中分類設置方法下,根據初始聚類中心是否隨機產生分兩類情況進行測試。初始聚類中心隨機產生的前提下,分別測試樣本集在歐氏距離、曼哈頓距離和余弦距離下的聚類結果,如圖2所示。

此外,分類準確率和最佳距離總和如表2所示:

III. 在前述第(III)中分類設置方法下,根據初始聚類中心是否隨機產生分兩類情況進行測試。初始聚類中心隨機產生的前提下,分別測試樣本集在歐氏距離、曼哈頓距離和余弦距離下的聚類結果,如圖3所示。

此外,分類準確率和最佳距離總和如表3所示:

針對以上實驗結果需要做出幾點說明:

第一、圖1至3中的Silhouette Value是衡量某個樣本點與它屬聚類相較于其它聚類的相似程度的指標。其數值本身是被規格化的,取值范圍[-1,1],值越大(趨近1)表明這個結點更匹配其屬聚類而不與相鄰的聚類匹配。但是,Silhouette Value是可以根據任意距離度量,如:歐氏距離、余弦距離等。

第二、K均值聚類算法是將所有樣本進行聚類,聚類結果1、2、3與實際治療的效果并無確定的對應關系。本文在計算表1至3的準確率時采用的是按照遍歷所有可能的對應關系,然后取準確率最高的一項作為本次聚類結果的準確率。

第三、表1至3中的最佳距離總和是在各自距離定義下進行計算,在不同的距離定義之間,最佳距離總和不具備可比性。

第四、所謂隨機初始聚類中心是指聚類中心坐標隨機產生,按照K均值聚類算法的要求依次迭代,直到取得符合要求的聚類效果為止。給定初始聚類中心是指將已知的各類樣本的聚類中心坐標計算出來,作為初值輸入到K均值聚類算法中,但后面仍需按要求迭代,直到取得符合要求的聚類效果為止。

根據以上實驗結果可知,在第(I)種分類設置方法下,無論是聚類效果(Silhouette Value)還是分類準確率,都不如第(II)和(III)種分類設置方法,這個主要是因為三分類的難度遠大于二分類所致。此外,在歐氏距離、曼哈頓距離和余弦距離這三種不同的距離下,可以看出無論是哪種分類設置方法,余弦距離的聚類效果最好(Silhouette Value數值整體最高)。然而,在比較分類準確率時,無論在哪種分類設置方法下,余弦距離的表現都不好。這是因為聚類方法是一種無監督學習的方法,其按照既有的標準(最佳距離總和最小)來判斷聚類效果,而分類是有明確的分類目標的,聚類結果與分類結果的差異在于兩者之間的標準不同。

4.結論與展望

綜上所述,K-means聚類算法比較適合不同類樣本在特征空間內的聚類中心差距較大的情況,若不同類樣本在特征空間內混疊比較嚴重,則聚類結果與真實的分類結果可能存在較大偏差。對已有實際分類結果的問題而言,如在現有的距離定義下,難以解決樣本混疊的問題,可以考慮開發一種新的更靈活的距離定義,使距離定義自身具備自適應調整的能力,根據已有信息進行自適應調整,使之可以解決樣本混疊的問題,取得較好的分類效果。

參考文獻:

[1]Govender,P,Sivakumar,V,Application of k-means and hierarchical clustering techniques for analysis of air pollution:A review(1980-2019)[J],ATMOSPHERIC POLLUTION RESEARCH,2020,11(1):40-56

[2]Bu,Z,Li,HJ,Zhang,CC,Cao,J,Li,AH,Shi,Y,Graph K-means Based on Leader Identification,Dynamic Game,and Opinion Dynamics[J],IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING,2020,32(7):1348-1361

[3]Liu,XW,Zhu,XZ,Li,MM,Wang,L,Zhu,E,Liu,TL,Kloft,M,Shen,DG,Yin,JP,Gao,W,Multiple Kernel k-Means with Incomplete Kernels[J],IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE,2020,42(5):1191-1204

[4]Nguyen,H,Bui,XN,Tran,QH,Mai,NL,AF Hoang Nguyen,Xuan-Nam Bui,Quang-Hieu Tran,Ngoc-Luan Mai,A new soft computing model for estimating and controlling blast-produced ground vibration based on Hierarchical K-means clustering and Cubist algorithms[J],APPLIED SOFT COMPUTING,2019,77:376-386

[5]Qin,JH,Fu,WM,Gao,HJ,Zheng,WX,Distributed k-Means Algorithm and Fuzzy c-Means Algorithm for Sensor Networks Based on Multiagent Consensus Theory[J],IEEE TRANSACTIONS ON CYBERNETICS,2017,47(3):772-783;

[6]陳吉成,陳鴻昶,基于張量建模和進化K均值聚類的社區檢測方法[J],計算機應用,2021,1-8,@ 1001-9081

[7]張鴻雁,杜文鋒,武麗芬,基于密度加權的分裂式K均值聚類算法[J],計算機仿真,2021,38(04):254-257

[8]周玉,孫紅玉,朱文豪,任欽差,基于K均值聚類的分段樣本數據選擇方法[J],計算機應用研究,2021,38(06):1683-1688

[9]AU MacCormick,IJC,Williams,BM,Zheng,Y,Li,K,Al-Bander,B,Czanner,S,Cheeseman,R,Willoughby,CE,Brown,EN,Spaeth,GL,Czanner,G,Accurate,fast,data efficient and interpretable glaucoma diagnosis with automated spatial analysis of the whole cup to disc profile[J],PLOS ONE,2019,14(1):

通訊作者,講師,博士,國家大學生創新創業訓練項目(S202010439003)指導教師,山東省自然科學基金聯合專項(ZR2016FL05)主持人。

(本文工作在國家大學生創新創業訓練項目(S202010439003)和山東省自然科學基金聯合專項(ZR2016FL05)的資助下完成。)

主站蜘蛛池模板: 红杏AV在线无码| 国产精品无码久久久久AV| 亚洲天堂网在线视频| 日韩精品亚洲人旧成在线| 99热这里只有精品在线播放| 亚洲国产清纯| 92午夜福利影院一区二区三区| 日韩精品成人在线| 青青青视频免费一区二区| 国产91视频观看| 亚洲国产日韩在线观看| 亚洲中文字幕在线观看| 久久综合色视频| 国产乱子伦手机在线| 亚洲人免费视频| 国产人免费人成免费视频| 国产精品19p| 国产日产欧美精品| 国产老女人精品免费视频| 亚洲AV无码久久精品色欲 | 亚洲国产天堂久久九九九| 亚洲熟妇AV日韩熟妇在线| 国产成人一区二区| 黄色网站在线观看无码| 久久99热66这里只有精品一 | 国产另类乱子伦精品免费女| 国产麻豆另类AV| 亚洲精品第一页不卡| 国产精品久久久久鬼色| 九九这里只有精品视频| 色悠久久久| 国产激情国语对白普通话| 亚洲首页在线观看| 日韩精品亚洲精品第一页| 国产无码在线调教| 婷婷色一二三区波多野衣| a级毛片毛片免费观看久潮| 91亚洲精品国产自在现线| a毛片免费在线观看| 亚洲欧美色中文字幕| yjizz视频最新网站在线| 精品色综合| 狠狠色噜噜狠狠狠狠色综合久| 亚洲精品国偷自产在线91正片| av天堂最新版在线| 久久96热在精品国产高清| 日韩天堂在线观看| 久久国产精品夜色| 国产特一级毛片| 伊人久久大香线蕉aⅴ色| 日a本亚洲中文在线观看| 欧美国产日本高清不卡| 国产jizzjizz视频| 一区二区午夜| 亚洲欧美成人在线视频| 国产精品久久自在自2021| 午夜日b视频| 四虎影视国产精品| 国产丝袜无码精品| 国产国语一级毛片| 99青青青精品视频在线| 免费一级毛片不卡在线播放| 99久久国产自偷自偷免费一区| 日韩午夜福利在线观看| 国产综合精品一区二区| 国产黑人在线| 成人免费视频一区二区三区| 亚洲第一页在线观看| 日本高清免费不卡视频| 日本午夜精品一本在线观看| 欧洲日本亚洲中文字幕| 欧亚日韩Av| 亚洲视频欧美不卡| 欧美日韩午夜| 91视频区| 欧美日本视频在线观看| 日韩欧美视频第一区在线观看| 国产精品99r8在线观看| 无码AV日韩一二三区| 日韩精品久久无码中文字幕色欲| 国产一区二区福利| 国产精品亚洲一区二区三区在线观看|