賴辰霄
摘要:采用logistic回歸,逐步回歸以及假設檢驗等統計知識,對Coimbra 乳腺癌的數據(http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Coimbra)分類分析,得到BMI,Glucose,Insulin,HOMA,Resistin等五個變量為影響乳腺癌的主要變量,并且得到了各個變量前的系數。與此同時,計算了預測準確率其中健康人群的預測準確率為75%,癌癥患者的預測準確率達到了77%。為了進一步證明模型的可行性,我們采用了假設檢驗進行檢驗,通過p值和t值可以看出我們得到的變量都通過了檢驗。
關鍵詞:乳腺癌;logistic回歸;逐步回歸;假設檢驗;p值
中圖分類號:F24文獻標識碼:Adoi:10.19311/j.cnki.16723198.2019.08.042
1序言
乳腺癌是發生在乳腺上皮組織的惡性腫瘤,乳腺并不是維持人體生命活動的重要器官,原位乳腺癌并不致命;但由于乳腺癌細胞喪失了正常細胞的特性,細胞之間連接松散,容易脫落。癌細胞一旦脫落,游離的癌細胞可以隨血液或淋巴液播散全身,形成轉移,危及生命,所以目前乳腺癌已成為威脅女性身心健康的常見腫瘤。在全球范圍內,乳腺癌是女性的主要癌癥類型,占所有病例的25%。在2012年,它導致了168萬例新病例和522000例死亡。影響乳腺癌發病的因素有很多,本文旨在通過對于乳腺癌發病者特征的數據收集整理,運用多元線性回歸的知識擬合出一個具體的模型,從而探究乳腺癌發病的某些規律,找出影響乳腺癌的主要因素,以及這些因素和乳腺癌之間的相關關系。利用相關的統計檢驗對建立的模型就行檢驗,并配以統計的相關軟件R語言對搜集的數據進行計算機模擬建模。所使用的R語言軟件的版本為R-3.4.4。相應的數據獲取地址為:http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Coimbra 。該數據來源于:Miguel Patrício(miguelpatricio '@' gmail.com),José Pereira (jafcpereira '@' gmail.com),Joana Crisóstomo (joanacrisostomo '@' hotmail.com),Paulo Matafome(paulomatafome '@' gmail.com),Raquel Seia(rmfseica '@' gmail.com),Francisco Caramelo(fcaramelo '@' fmed.uc.pt),all from the Faculty of Medicine of the University of Coimbra and also Manuel Gomes (manuelmgomes '@' gmail.com) from the University Hospital Centre of Coimbra 獲取的日期為:2018年3月6日。
乳腺癌的病因尚未完全清楚,研究發現乳腺癌的發病存在一定的規律性,具有乳腺癌高危因素的女性容易患乳腺癌。所謂高危因素屬于與乳腺癌發病有關的各種危險因素,而大多數乳腺癌患者都具有的危險因素就稱為乳腺癌的高危因素。發展乳腺癌的危險因素包括女性、肥胖、缺乏體育鍛煉、飲酒、更年期激素替代療法、電離輻射、月經初潮、較晚生育或根本沒有孩子、年齡較大、乳腺癌的既往史,家族史等。
本文在了解乳腺癌的當前現狀后,使用統計學的手段。首先收集數據,來自于http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Coimbra 。通過分析數據的結構,該數據的應變量為二分類數據,適用于統計的Logistic回歸的研究。采用Logistic回歸,逐步回歸,假設檢驗等統計手段我們得到合適的模型,找到影響因子以及模型的參量。
4總結
本文采用logistic回歸,逐步回歸以及t檢驗和F檢驗等統計知識,對Coimbra 乳腺癌的數據進行分析,得到相應的統計模型。根據該數據本身具有的應變量為類別變量,我們相應的選取logistic 模型,又在建模的過程中為了進一步的優化所得到的模型,我們選取逐步回歸的方法得到了BMI,Glucose,Insulin,HOMA,Resistin等五個變量為影響乳腺癌的主要變量,對應的我們得到了他們相應的系數關系,最后為了說明模型的可行性,我們采用了假設檢驗,并通過t值和P值可以看出我們得到的變量都通過了檢驗。與此同時,采用我們的方法和這組數據,我們對預測的結果計算了預測準確率,其中健康人群的預測準確率為75%,癌癥患者的預測準確率達到了77%。但是值得注意的是:
(1)數據里面的y值是1表示健康人群,2表示乳腺癌患者,但在我們的模型中為了使用logistic回歸的方便,我們把y值為1的部分都全部用0表示,也就是說健康人群最終模擬的結果應該是預測為0的部分。同理,y值為2的部分全部用1表示,也即,乳腺癌患者的結果預測值應該為1。
(2)由于實際的數據是連續的實數,所以我們得到的y值不會確切的等于0或者1,為此我們在處理的過程中,在y值大于0.5的時候記為1,其他記為0。
但是,對于乳腺癌的研究在以前有相當一部分的研究。本文最終得到的結果是基于數據而來的,對于不同的研究機構會有不同自變量的數據,所以得到的影響乳腺癌的因素和本文的不一致也就是理所當然的。為此,本文在接下來的工作中應該查閱更多的資料以及搜集更多的數據為研究乳腺癌做出更多貢獻。
參考文獻
[1]全球癌癥報告2014[R].世界衛生組織2014.
[2]Selvaraju,Balasubramaniam,D.Rajendran,D.Kannan and M.Geetha.Multiple linear regression model for forecasting Bluetongue disease outbreak in sheep of North-west agroclimatic zone of Tamil Nadu,India[J].Oringnal Research,2013:321324.
[3]吳高鳳,劉慶曉.應用統計基礎.[M].北京:中國人民大學出版社,2017.
[4]湯銀才.R語言與統計分析[M].北京:高等教育出版社,2008:166169.
[5]Diane J.Berry.,Karani S.Vimaleswaran,John C.Whittaker,Aroon D.Hingorani,Elina Hyppo¨ nen.Evaluation of Genetic Markers as Instruments for Mendelian Randomization Studies on Vitamin D[J].Plose One,2012,7(5):37465.
[6]Breast Cancer Coimbra Data Set[DB/OL].2018.
[7]Patrício,M.,Pereira,J.,Crisóstomo,J.,Matafome,P.,Gomes,M.,Seia,R.,& Caramelo,F.Using Resistin,glucose,age and BMI to predict the presence of breast cancer[J].BMC,2018.
[8]David Hallac,Jure Leskovec,Stephen Boyd.Network Lasso:Clustering and Optimization in Large Graphs[J].ACM,2015.