毛敏 吳彥亭 張子巖

摘 要:肝纖維無創診斷是無創傷對肝組織纖維化監測的方法,其發展可以有效減少對肝病患者帶來的不適,具有極大的實用性。本文基于主成分分析法、方差齊性檢驗篩選法以及Logistic回歸分析法建立肝纖維化無創診斷模型,繼而采用LOF算法對數據分布差異進行修正從而提高模型應用的精確度。從而得出科學、合理的診斷方程,為肝纖維化的診療提供理論依據。
關鍵詞:指標聚類模型;主成分分析法;ROC曲線模型;LOF算法;肝纖維無創診斷模型
1模型一的建立與求解:基于主成分分析的指標聚類模型
我們首先通過機理分析法對部分格式明顯異常的數據作預處理,接下來對預處理后的樣本數據,依照modified-80%準則對附件提供的30項指標進行剔除,并對處理后的指標下屬殘缺數據作類均值插補。而后,根據拉伊達準則剔除異常數據,將剩余樣本數據作歸一化處理,得到合理化的樣本數據,并通過顯著性檢驗。最后采用主成分分析法來對指標進行遴選歸類,以期找出他們的內在聯系。
STEP1:計算指標矩陣的特征值與特征向量。
STEP2:確定p個主成分,進行統計分析。
STEP3:進行KMO和Bartlett的檢驗來分析得數據可信度和效度是否符合數學標準。
STEP4:運用SPSS統計軟件對基于主成分分析的指標聚類模型進行求解,求解共計得到[?1],[?2],[?3],[?4],[?5],[?6],[?7],[?8]此八項主成分。
2模型二的建立和求解:基于方差齊性檢驗的ROC曲線模型
為了降低主觀性的因素的影響,在此我們引入基于方差齊性檢驗的ROC曲線模型,通過運用方差齊性檢驗的方法對各獨立測量樣本做顯著性檢驗,并通過SPSS統計軟件對指標是否存在意義做劃分并進一步做出篩選,最終通過對此典型基于樣本的定性定量相結合的模型進行求解,得到13項相關指標。
最終將兩種模型的指標劃分做定性對比,通過分析兩種模型結果的交集,得出問題一所要求的指標,即特征。
通過兩種模型求解結果的整合,甚至說是基于方差齊性檢驗的ROC曲線模型對基于主成分分析的指標聚類模型的修正,我們最終選定的指標為:PTS、IV型膠原、III型前膠原、體重、身高、AST、透明質酸、年齡和ALT。
3模型三的建立和求解:基于Logistic回歸分析法的肝纖維化無創診斷模型
STEP1:提取自變量和因變量。在此,我們以肝纖維化無創診斷模型為因變量,以問題一雙模型篩選的九項指標為自變量。設置變量為模型求解做準備。
STEP2:根據Logistic回歸模型的要求,得到回歸模型的基本形式。
STEP3:運用MATLAB2014b處理軟件,對基于Logistic回歸分析法的肝纖維化無創診斷模型進行求解,并采用似然比來檢驗模型整體的擬合效果,其中將判斷概率的閾值設定為0.05,以保證數據的有效性和說服力。
經過統計,回歸分析的預測準確率高達78.11%,模型擬合程度較好,所以我們認為指標體系內的PTS、Ⅳ型膠原、Ⅲ型前膠原、體重、身高、AST、透明質酸、年齡和ALT這9項指標對于肝纖維化無創診斷模型的貢獻程度毋庸置疑,即足以根據以上9個特征對肝纖維化無創診斷提供具有說服力的病理診斷依據。
參考文獻
[1]Bijlsma,Sabina,IvanaBobeldijk,ElwinR.Verheij,RaymondRamaker,SunilKochhar,IanA.Macdonald,BenVanOmmen,andAgeK[J].Smilde,2006.
[2]張敏,袁輝.拉依達(PauTa)準則與異常值剔除[J].鄭州工業大學學報,1997(1):84-88.
[3]姜啟源,謝金星,葉俊.數學模型(第三版)[M].北京:高等教育出版社,2006,9.
[4]李洪,宮兆寧,趙文吉等.基于Logistic回歸模型的北京市水庫濕地演變驅動力分析[J].地理學報,2012,67(3):357-367.
[5]姜廣輝,張鳳榮,陳軍偉等.基于Logistic回歸模型的北京山區農村居民點變化的驅動力分析[J].農業工程學報,2007,23(5):81-87.
[6]陳溟.基于模糊局部離群因子(LOF)的信用卡欺詐檢測研究[J].金融理論與實踐,2016(10):54-57.