焦瑋 楊雪寒 孟潔 張倩



摘 要: 為了利用電子醫療檔案實現對患者疾病的智能診斷,提出了一種結合模糊C均值聚類和區間二型小腦模型關節神經網絡(FCM-IT2CMAC)的兩層分類算法。該算法使用了兩個分類器,其中小腦模型神經網絡是主分類器,模糊C均值算法是預分類器。首先,使用預分類器將樣本數據分組,然后應用主分類器確定樣本是否處于健康或患病狀態。此外還采用梯度下降法自適應訓練主分類算法的參數,并使用李雅普諾夫穩定性理論證明了算法的收斂性。最后通過實驗證明該分類算法的有效性。
關鍵詞: 分類問題; 小腦模型神經網絡; 模糊C均值聚類算法; 醫學診斷
中圖分類號: TP391 ? ? ?文獻標志碼: A
Abstract: In order to realize the intelligent diagnosis of patients diseases by using electronic medical files, this paper proposes a two-layer classification algorithm combining fuzzy C-means clustering and interval type II cerebellar model joint neural network (FCM-IT2CMAC). The algorithm uses two classifiers, in which the cerebellar model neural network is the main classifier and the fuzzy C-means algorithm is the pre-classifier. First, the sample data are grouped using a pre-classifier, and then the main classifier is applied to determine if the sample is in a healthy or diseased state. In addition, the gradient descent method is used to adaptively train the parameters of the main classification algorithm, and the convergence of the algorithm is proved by Lyapunov stability theory. Finally, the effectiveness of the classification algorithm is proved by experiments.
Key words: classification problem; cerebellar model neural network; fuzzy C-means clustering algorithm; medical diagnosis
0 引言
將數據分析算法應用于電子醫療檔案的數據分析能夠實現對是否患病的智能診斷。已有研究提出一些針對電子醫療數據集的數據二分類算法[1-3]。文獻[4]提出了一種基于決策樹模型的疾病診斷模型。文獻[5]提出了一種用于肝病早期診斷的神經網絡分類算法。為此本文提出一種模糊C均值聚類算法(FCM)[6]和區間二型模糊小腦模型神經網絡算法(IT2CMAC)[7]相結合的兩層醫療數據分類算法,以期實現基于電子醫療檔案的疾病準確診斷。該算法在參數訓練過程中,首先利用模糊C均值聚類算法將訓練數據劃分為nc組,然后利用這些數據組訓練區間二型模糊小腦模型神經網絡算法。其中區間二型模糊小腦模型神經網絡算法是基于區間二型模糊神經網絡(IT2FNN)和小腦模型神經網絡(CMAC)所提出的改進分類算法,兼具兩種算法的優點。在實際疾病診斷過程中,也使用FCM對數據進行預分組,隨后將數據組分配給相應的經過參數訓練的區間二型模糊小腦模型神經網絡分類算法,實現對是否患病的判斷。通過實驗證明該算法能夠準確對實驗數據進行分類處理。
1 算法設計
基于模糊C均值聚類的區間二型模糊小腦模型神經網絡(FCM-IT2CMAC)分類算法的運行原理,如圖1所示。
3 實驗結果
將上述算法應用于乳腺癌相關的電子醫療檔案數據集進行是否患病的分類診斷。實驗在Matlab R2016a上完成,運行于桌面Windows 7(64位),處理器為Intel Core i7(3.6 GHz),內存為16GB。首先,以70∶30的比例將數據集隨機分為訓練數據集和測試數據集。然后,利用FCM預分類器根據訓練數據集的特征,將訓練數據集劃分為nc組。然后,使用nc組訓練數據集對IT2CMAC分類器進行訓練。在測試過程中,同樣使用FCM預分類器,將測試數據分配給最適合的訓練過的IT2CMAC分類器。為了選擇合適的聚類數目,實驗采用nc=1,2,…,10。采用精度(ACC)、靈敏度(SEN)和特異度(SPE)三種性能指標評估該分類器的分類性能[16],如表1所示。
為保證比較公平,實驗結果平均重復100次,隨機抽取數據進行訓練和測試分類過程。
實驗所用的乳腺癌數據集包含699名患者的數據,其中有16個樣本值缺失。本實驗剔除了缺失的樣本數據,使用其余的683個實例。該數據集包含239個(35%)惡性實例和444個(65%)良性實例。每個實例都有十個獨立的屬性,如表2所示。
第一階段采用模糊c均值聚類算法將測試數據分配到相應的聚類中。然后,應用IT2CMANN對每個集群進行1 000次迭代訓練。為了得到FCM-IT2CMANN中最優的簇數(聚類),對不同簇數(聚類)的實驗結果重復100次,如表3所示。
由表4可知,本文提出的結合模糊C均值和IT2CMANN的分類算法比其他分類方法具有更好的分類性能,在預測乳腺癌診斷方面提供了最高的準確性。需要注意的是,表3的數據表明分類準確性會隨聚類數量的不同而變化。
4 總結
為了基于已有的電子醫療檔案實現樣本是否患病的準確分類,本文設計了一種結合FCM和CMAC的兩層分類算法。提出的分類算法有兩個主要步驟。第一步應用FCM對數據集進行劃分,將醫療數據集劃分成適合的聚類。第二步應用CMAC對分組的醫療數據進行是否患病的分類。實驗結果表明,與其他方法相比,該分類器具有更高的精度。此外采用梯度下降法能夠自適應地更新神經網絡算法的權值參數。通過實驗表明,所提出的算法能夠較為準確地基于實驗醫療檔案數據實現對乳腺癌地診斷??梢灶A見,本研究結果能夠低成本地擴展到其他疾病的診斷。需要注意的是,本研究的局限性在于聚類數量對算法性能有顯著影響,因此應用一些先進的方法找出合適數量的聚類和對較大的數據集進行測試需要更加深入的研究。
參考文獻
[1] 劉超,吳申,鄭一超,等.基于深度森林和DNA甲基化的癌癥分類研究[J].計算機工程與應用, 2019,7(14):189-193.
[2] 范家偉,張如如,陸萌,等.深度學習方法在糖尿病視網膜病變診斷中的應用[J].自動化學報,2019,7(14):1-21.
[3] 張越美,趙洪波,朱亞玲,等.基于數據挖掘分析KIF2C在肝細胞癌的表達及臨床意義[J/OL].重慶醫科大學學報,2019(11):1454-1457.
[4] 高云龍,楊程宇,王志豪,等.簇間可分的魯棒模糊C均值聚類算法[J].電子與信息學報,2019,41(5):1114-1121.
[5] 郭海湘,黃媛玥,顧明赟,等.基于自適應多分類器系統的甲狀腺疾病診斷方法研究[J].系統工程理論與實踐,2018,38(8):2123-2134.
[6] 商顯震,韓萌,孫毓忠,等.融合生成對抗網絡和樸素貝葉斯皮膚病診斷方法[J].計算機科學與探索,2019,13(6):1005-1015.
[7] 楊雪,劉惠義,陳霜霜.基于DRBM和邊緣檢測的腦部磁共振圖像分類[J].信息技術,2018(5):129-132.
[8] 劉露,楊培亮,孫巍巍,等.深度置信網絡對孤立性肺結節良惡性的分類[J].哈爾濱理工大學學報,2018,23(3):9-15.
[9] 閆慈,田翔華,阿拉依·阿汗,等.基于重采樣技術在醫學不平衡數據分類中的應用研究[J].中國衛生統計,2018,35(2):177-180.
[10] 季挺,張華.基于CMAC的非參數化近似策略迭代增強學習[J].計算機工程與應用,2019,55(2):128-136.
[11] 王家軍.一種新型區間二型模糊神經網絡隸屬函數的設計[J].自動化學報,2017,43(8):1425-1433.
[12] 王莉莉,付忠良,陶攀,等.基于主動學習不平衡多分類AdaBoost算法的心臟病分類[J].計算機應用,2017,37(7):1994-1998.
[13] 張兆晨,冀俊忠.基于卷積神經網絡的fMRI數據分類方法[J].模式識別與人工智能,2017,30(6):549-558.
[14] 高俊龍,袁如意,易建強,等.基于一型模糊規則自主構建二型TSK神經模糊系統方法設計[J].控制理論與應用,2016,33(12):1614-1629.
[15] 劉云平,李渝,陳城,等.基于李雅普諾夫指數的非完整約束系統穩定性[J].華中科技大學學報(自然科學版),2016,44(12):98-101.
[16] 劉廣,孫艷秋,裴媛.基于C4.5決策樹算法的中醫胃炎實驗數據分類挖掘研究[J].中華中醫藥學刊,2016,34(12):2958-2961.
(收稿日期: 2019.07.16)