賀立強,王玉娟,林和平
(東北師范大學 計算機科學與信息技術學院,吉林 長春 130117)
基于支持向量機的乳腺癌化療預后狀態(tài)預測
賀立強,王玉娟,林和平
(東北師范大學 計算機科學與信息技術學院,吉林 長春 130117)
乳腺癌是危害女性生命的一種惡性腫瘤。目前,在乳腺癌治療方面,新輔助化療獲得了良好的成果,使眾多女性恢復了健康。支持向量機在實際應用中有著良好的泛化和學習能力,并在商業(yè)、經濟以及醫(yī)療等領域有所應用。采用決策樹分類器和支持向量機分類器,結合乳腺癌新輔助化療隨訪記錄數據,預測乳腺癌患者新輔助化療的預后狀態(tài),實驗結果表明使用支持向量機的效果好于使用決策樹的效果,在支持向量機中使用徑向基核函數時獲得了最高的準確率,達到了84.08%,由此可見,該分類方法可能成為一種乳腺癌新輔助化療的預后狀態(tài)的有效預測工具。
乳腺癌;新輔助化療;預后;支持向量機;分類
女性的乳房是其美麗的代言,是母性的傳承,同時也是疾病的侵擾對象。乳腺癌是女性最常見的惡性腫瘤之一,發(fā)病率正在逐年上升,且趨于年輕化,是危害女性健康的主要殺手[1]。我國乳腺癌疾病也有著不好的趨勢,其發(fā)病率和死亡率正在逐年攀升。由于受中國傳統因素的影響,婦女很少去醫(yī)院定期檢查,羞于關注乳房的健康,女性一旦發(fā)現患有乳腺腫瘤,多數已經開始轉移。由于患者的體質不同,各項指標亦不相同,如何在患者進行新輔助化療之前預測到患者的化療療效,使能進行化療的患者得到最大的受益,就變得尤為重要。本文將依據患者隨訪記錄信息,通過數據挖掘技術,對患者化療療效進行預測,為乳腺癌患者的治療提供可靠的幫助。
伴隨著社會經濟水平的逐漸提高,乳腺癌逐漸被人們重視起來,國內外學者和醫(yī)療工作者對計算機輔助治療做了大量的研究工作,并取得了一定的研究成果。然而伴隨著研究人員對乳腺癌的深入鉆研,大量的研究數據不斷涌現,臨床病例每一位患者都有著大量的檢測、治療和預后數據。患者的醫(yī)療數據信息量很大,相互之間聯系復雜,想要提取有用的信息數據,進而從信息中提取出有用的知識更是難上加難。目前我國人民思想比較傳統,乳腺癌治療與預測相對落后,計算機醫(yī)療輔助治療遠遠不如發(fā)達國家,為此,需要進一步提升我國的醫(yī)療水平。
支持向量機是一個被大量使用的分類技術。其具有堅實的統計學理論基礎,在商業(yè)領域、經濟領域以及醫(yī)療領域等具有很好的應用效果。支持向量機分為兩種模型,第一種是線性可分,第二種是線性不可分,第一種模型其實是第二種模型的特例[2]。
提高線性分類器的學習能力是通過核函數實現的。采用將數據映射高維空間的辦法,使線性不可分變?yōu)榭煞帧3S玫暮撕瘮涤幸韵聨追N:
(1)線性核函數

(2)徑向基核函數

(3)多項式核函數

(4)Sigmoid核函數

在實際應用中,核函數的選擇尤為重要,對于同一數據,不同的核函數所得到的分類準確率大不相同,所以核函數的優(yōu)選在支持向量機分類中顯得尤為重要。
3.1 數據預處理
本文所用數據來源于吉林大學附屬醫(yī)院,該數據集是依據乳腺癌化療隨訪記錄表所獲,包含 2009年~2013年所有數據。經過與醫(yī)生的共同探討,從眾多數據中選取了 245名患者隨訪記錄,其中 180個是具有良好治療效果的記錄,65個是治療效果不理想的記錄。在新輔助化療治療下有良好效果的乳腺癌患者被定義為正樣本,在新輔助化療治療下效果不理想的患者,則定義為負樣本。所屬的分類標簽分別制定為+1和-1。每個樣本對應一個患者的醫(yī)療特征,其中每一維的特征都是根據有經驗的醫(yī)生從中提取,是能夠表現出其病情的重要特征。
考慮到支持向量機處理的數據都是實數,本文對非數值屬性進行了轉換。轉換后的數據同樣適用于本文將要對比的決策樹算法。比如患者特征中 Echogenic Halo特征包含的特征值為3個,分別為Yes,No,Unknown,則對應的數值分別為 1,2,3,但是為了防止較大數值獲得最大權重,采取了如下所示的編碼機制:
Yes(1,0,0)
No(0,1,0)
Unknown(0,0,1)
3.2 分類結果
為了使分類效果得到更好的評估,引入靈敏度(Sen)、特異度(Spe)和準確率(Q)來評價本文所使用分類器的性能,分別給出評價指標的公式如式(5)~式(7)[3]。

其中 TP是指在工作集中實際是正樣本,預測結果為正樣本的數目;FN是指在工作集中實際是正樣本,預測結果為負樣本的數目;TN是指在工作集中實際是負樣本,預測結果為負樣本的數目;FP是在工作集中實際是負樣本,預測結果為正樣本的數目[4]。
本文中所使用的數據均來自醫(yī)院真實數據,正負樣本不均衡,為了更好地評價分類器的性能,故而引入Matthews相關系數MCC。計算公式如下:

MCC的取值范圍在[-1,1]之間,取值越小說明該分類器性能越不好,反之則分類效果越好。
本文使用決策樹 C4.5算法和支持向量機算法,并結合五次交叉驗證方法來進行乳腺癌新輔助化療預后狀態(tài)的預測。預測效果如表1所示。由表1得知,使用支持向量機比使用 C4.5分類效果要好。本文還分別對比了支持向量機的三種核函數,所體現的準確率均高于決策樹的 73.47%。從中可以看出,對于本數據來說,支持向量機分類效果要明顯好于決策樹。據表中數據顯示,靈敏度明顯高于特異度,說明正樣本學習效果比負樣本學習效果要好。
本文分別對比了支持向量機的三種核函數,對于本實驗中所使用的該乳腺癌患者數據,其準確率均高于75%。支持向量機的最佳準確率為84.08%,是使用徑向基核函數得到的,明顯高于其他兩種。由此得知,對于同一數據集而言,核函數不一樣,其準確率也不一樣。想要得到高效的分類效果,必須選擇合適的核函數[5]。
本文所使用的數據集,數目有限,眾多數據中能夠起到支持向量的數據不夠充分。通過增加訓練數據,可找到更多的支持向量,進而提高分類的準確率,所以本文所采用的支持向量機方法有望成為新輔助乳腺癌患者預后預測的有效工具。
本文使用兩種分類算法,并對其結果進行了對比,從實驗結果中可以看到,支持向量機在處理乳腺癌新輔助化療預后狀態(tài)預測方面的分類效果好于決策樹分類效果。分別比較了支持向量機三種核函數,從結果數據中可以看出,使用徑向基核函數可使分類器獲得最佳分類效果。所以在使用支持向量機進行分類的同時,選擇哪一種核函數是至關重要的。支持向量機應用于乳腺癌治療,會給乳腺癌患者帶來很大的幫助,使乳腺癌的治療越來越高效,降低死亡率,增加保乳機會,使患者早日脫離疾病的折磨,恢復健康。

表1 決策樹與支持向量機五次交叉驗證結果
[1]臧丹丹,崔穎,師建國,等.中國西部地區(qū)乳腺癌診斷年齡的抽樣分析及中美對比研究 [J].現代腫瘤醫(yī)學,2010,18(3):571-573.
[2]王平,王文劍.基于時序核函數的支持向量回歸機[J].計算機輔助工程,2006,15(3):35-38.
[3]袁前飛,蔡從中,肖漢光,等.基于支持向量機的乳腺癌預后狀態(tài)預測和療效評估 [J].北京生物醫(yī)學工程,2007,26(4):372-376.
[4]馬勝祥,馬建慶,楊明.基于核函數擬合的非平衡數據分類方法[J].計算機應用與軟件,2010,27(4):177-179.
[5]崔炳德.支持向量機分類器遙感圖像分類研究[J].計算機工程與應用,2011,47(27):189-191.
Prediction of prognosis for breast cancer based on support vector machine
He Liqiang,Wang Yujuan,Lin Heping
(School of Computer Science and Information Technology,Northeast Normal University,Changchun 130117,China)
Mammary cancer is a malignant tumor of the harm of women′s life.At present,in the treatment of mammary cancer,neo-adjuvant chemotherapy achieved good results,so that many women back to health.Support vector machine has a good generalization and learning ability in practical application,and has been applied in the commercial,economic,medical and other fields.According to Neo-adjuvant chemotherapy in mammary cancer follow-up record data,using decision tree classifier and SVM classifier,predict the prognosis of neo-adjuvant chemotherapy for mammary cancer patients,the experimental results show that the use of support vector machine is better than the effect of using decision tree,using RBF kernel function in support vector machines have the highest accuracy,reached 84.08%。Thus,the classification method,may be an effective tool to predict prognosis for mammary cancer neo-adjuvant chemotherapy.
breast cancer;neo-adjuvant chemotherapy;prognosis;support vector machine;classification
TP399
A
1674-7720(2015)23-0048-03
賀立強,王玉娟,林和平.基于支持向量機的乳腺癌化療預后狀態(tài)預測[J].微型機與應用,2015,34(23):48-50.
2015-07-15)
賀立強(1992-),男,碩士研究生,主要研究方向:人工智能、數據挖掘。
王玉娟(1987-),女,碩士研究生,主要研究方向:信息技術教學論。
林和平(1956-),男,碩士,教授,主要研究方向:人工智能、數據挖掘。