田梓君,崔新于
(河南師范大學 計算機與信息工程學院,河南 新鄉 453007)
基于數據處理的腫瘤基因選擇系統
田梓君,崔新于
(河南師范大學 計算機與信息工程學院,河南 新鄉 453007)
近年來,隨著腫瘤醫院就診人數的不斷增多,特征基因提取已成為中內外學者研究的熱門,研究成果也為臨床癌癥的分析診斷及預測提供了極大的便利。然而,由于基因表達譜數據具有維度高、樣本少、復雜多樣的特點,準確地挖掘基因數據中所蘊含的腫瘤信息基因成為當前的首要挑戰。文章闡述了在Matlab2010b編程環境下開發的腫瘤基因數據選擇系統,介紹了改進后信噪比與支持向量機回歸特征消去(SVM-RFE)的基因選擇方法相結合對于基因選擇的優異性,對于篩選出對分類有益的特征基因具有良好的效果。
特征基因;系統開發;改進的信噪比
腫瘤是目前威脅人類生命健康最主要的元兇之一,因而通過基因表達譜的信息基因進行腫瘤的早期診斷已然成為當今國內和國際上研究熱點。基因表達譜具有樣本少、維數高、噪聲高、數據冗余的特點[1],處理數據時“過擬合”現象和“維數災難”都給基因數據選擇方法提出了不小的挑戰。在腫瘤基因表達譜中,每個樣本都會記錄組織細胞中所有可測基因的表達水平,但實際上只有少部分基因才真正和樣本類別相關。因而基因選擇的目的就是要盡可能選擇那些與腫瘤基因密切相關,并且包含樣本分類信息的基因,也稱腫瘤信息基因。
本軟件系統主要包括:數據標準化、改進的信噪比進行基因初選、SVM-RFE進行基因精選,最終以圖形的形式得以體現。
本系統使用M atlab2010b或以上版本作為運行環境,它具有非常低的硬件要求和平臺支持,可以保證該腫瘤基因選擇系統在各預定功能上實現。可運行于W indow s2000,W indows XP,W indows 7等操作系統。
2.1 功能需求分析
根據腫瘤基因選擇的具體情況,系統軟件需要具備以下功能:
數據標準化。數據集中基因原始數據大小不一,范圍相差較大,導致數據處理過程中運算復雜,所以在處理數據前,為消除量綱差異帶來指標不可公度性問題,需要先運用向量歸一法對數據進行標準化,將原始數據轉換在[0,1]區間內,便于數據的處理。
特征基因初選降噪。在腫瘤基因數據表達譜中大部分基因與樣本類別并不相關,只有少數基因包含了該樣本具體的類別信息,初選主要針對數據冗余現象,起到降噪作用。
特征基因精選降維。在進行初步去噪選擇后,已經基本減少了很多高噪聲的基因,但仍需解決腫瘤基因具有高維度這一特點。
圖像屬性分析。圖像屬性分析指的是運用圖像將分類信息指數分布、各基因信噪比分布表達出來,可以更加直觀且有利于觀察。
2.2 基于改進的信噪比和SVM-RFE算法基因選擇系統構架
從大量腫瘤特征數據中選出對研究有用的信息基因,過濾掉不相關基因,剔除維數大的冗余基因,文章提出基于改進后信噪比的SVM-RFE算法的基因選擇系統構架。基本的算法思想具體可分為3部分:第一部分針對原始數據基因相差較大的特點,對數據進行標準化處理;第二部分采用改進后的信噪比公式過濾掉無關基因;第三部分選用支持向量機的回歸特征消去算法(SVM-RFE),按優先級大小得到所有特征屬性的遞減順序。
假設數據(X,Y)包含m個特征基因,具體步驟如下[2]:
Step 1 數據標準化,在數據標準化過程中,特征基因數量m不變,只改變數據的區間范圍。
Step 2 改進后信噪比方法過濾掉腫瘤基因數據集中大量無關基因,從新樣本m中選擇分類信息指數較高的的m'基因。
Step 3 選用SVM-RFE算法進行特征排序,m'基因不斷循環迭代,依次去掉得分最小的特征屬性,最終得到特征排序表m''。
Step 4 實驗論證并總結。
以上步驟均側重于算法本身,沒有可視化的界面,若普通用戶想要操作規模較為龐大的基因數據不僅需要掌握很多專業知識,還存在操作性繁瑣、可視化差的情況。本系統將軟件工程思想融入基因選擇中,有著簡潔的操作流程,提供良好的用戶界面,能夠方便快捷地為生物基因工作者提供腫瘤特征基因選擇,從而達到提高和改善工作效率的作用。系統現有的工作流程,如圖1所示。
3.1 數據預處理階段
為了確保基因表達水平具有可比性,基因表達值應盡量處于同一數量級上,這就需要在進行基因選擇之前對樣本數據進行歸一化的預處理操作,基因數據標準化可按如下公式進行:

其中,Xij是第i個樣本的第j個基因的數據表達值。

圖1 系統分析設計流程
3.2 改進的信噪比初選階段
信噪比指標可成為評價基因類別的基礎,為有效避免傳統指標“過擬合”現象,同時考慮到了方差不同所帶來的對樣本分類的貢獻,軟件選用改進的信噪比公式,從而達到對無關基因進行初步過濾的目的。Golub等人提出了“信噪比”指標[2],采用特征記分準則(FSC)為每一個基因計算其分值,而按基因分值降序排列的基因稱為基因排序。但為了更加全面地評價基因含有的分類信息量,考慮到方差不同所帶來的對樣本分類的貢獻,本系統利用改進后的信噪比公式,即李穎新等[3]修正后的信噪比指標(如公式3)處理腫瘤基因數據集,對無關基因進行過濾。

3.3 支持向量機回歸特征消去法進行基因精選
SVM-RFE在本質上是一種啟發式搜索策略的封裝模式選擇方法,在特征選擇中將支持向量機用于高維數據,使用SVM算法中的權重對所有波段進行排序,并評估每一波段對分類的影響,按照排序準則移除對分類器作用最小的波段[4],從而可以確定特征基因排序表。
基于數據處理的腫瘤基因選擇系統通過導入腫瘤基因集,可選擇出一些包含樣本分類信息且同腫瘤致病基因密切相關的基因,從而達到信息篩選的目的。系統可直接導入腫瘤原始基因數據集,避免了手動輸入操作的復雜繁瑣,在篩選過程中可根據基因分值大小進行排序且更為直觀地看到分布比例。系統不僅提供了傳統菜單欄的新建、打開、另存、打印等功能,還添加了定點插入、數據對比等操作。柱形圖、散點圖的表現形式為用戶的直觀體驗提供了便利。
針對基因表達數據維數高、樣本少、復雜多樣的特點,系統結合改進的信噪比和SVM-RFE算法對腫瘤基因數據集進行降噪降維,達到特征基因篩選的目的。融入軟件工程思想,利用Matlab軟件的數據處理和圖像生成功能,將基因選擇的數據形象直觀地表達出來,系統操作中簡單便捷、結果直觀有效,達到了最初預期的結果,未來將根據用戶體驗繼續完善系統,創造更大的價值。
[1]BROCK G N, SHAFFER J R, BLAKESLEY R E,et al. W hich m issing value imputation method to use in expression profiles: a comparative study and two selection schemes[J]. BMC Bioinformatics,2008(9):12.
[2]孫剛,張靖.面向高維微陣列數據的混合特征選擇算法[J].小型微型計算機系統,2015(6):1209-1213.
[3]李穎新,阮曉鋼.基于支持向量機的腫瘤分類特征基因選取[J].計算機研究與發展,2005(10):153-158.
[4]張睿,馬建文.一種SVM-RFE高光譜數據特征選擇算法[J].武漢大學學報(信息科學版),2009(7):834-837.
Research on tumor gene selection system based on data processing
Tian Zijun, Cui Xinyu
(Computer and Ιnformation Engineering School of Henan Normal University, Xinxiang 453007, China)
Ιn recent years, w ith the increasing number of people who go to tumor hospitals, the extraction of characteristic genes has become a hot topic in domestic and foreign scholars. The research results have also provided great convenience for the diagnosis and prediction of clinical cancers. However, the gene expression data has the characteristics of high dimension, less sample, complex and diverse, it is the most important challenge to accurately dig the tumor information gene contained in gene data. Ιn this paper, the selection of tumor gene data selection system was developed in Matlab2010b programm ing environment, and the advantages of improved signal-tonoise ratio and support vector machine regression feature elim ination (SVM-RFE) gene selection method are also introduced. This system has a good effect on screening out the characteristic genes that are beneficial to the classification.
characteristic gene; system development; improved signal to noise ratio
河南師范大學大學生創新創業訓練計劃校級立項項目;項目編號:20150016。
田梓君(1995— ),女,黑龍江哈爾濱,本科。