999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數據處理的腫瘤基因選擇系統

2017-06-19 19:31:28田梓君崔新于
無線互聯科技 2017年8期
關鍵詞:排序分類特征

田梓君,崔新于

(河南師范大學 計算機與信息工程學院,河南 新鄉 453007)

基于數據處理的腫瘤基因選擇系統

田梓君,崔新于

(河南師范大學 計算機與信息工程學院,河南 新鄉 453007)

近年來,隨著腫瘤醫院就診人數的不斷增多,特征基因提取已成為中內外學者研究的熱門,研究成果也為臨床癌癥的分析診斷及預測提供了極大的便利。然而,由于基因表達譜數據具有維度高、樣本少、復雜多樣的特點,準確地挖掘基因數據中所蘊含的腫瘤信息基因成為當前的首要挑戰。文章闡述了在Matlab2010b編程環境下開發的腫瘤基因數據選擇系統,介紹了改進后信噪比與支持向量機回歸特征消去(SVM-RFE)的基因選擇方法相結合對于基因選擇的優異性,對于篩選出對分類有益的特征基因具有良好的效果。

特征基因;系統開發;改進的信噪比

腫瘤是目前威脅人類生命健康最主要的元兇之一,因而通過基因表達譜的信息基因進行腫瘤的早期診斷已然成為當今國內和國際上研究熱點。基因表達譜具有樣本少、維數高、噪聲高、數據冗余的特點[1],處理數據時“過擬合”現象和“維數災難”都給基因數據選擇方法提出了不小的挑戰。在腫瘤基因表達譜中,每個樣本都會記錄組織細胞中所有可測基因的表達水平,但實際上只有少部分基因才真正和樣本類別相關。因而基因選擇的目的就是要盡可能選擇那些與腫瘤基因密切相關,并且包含樣本分類信息的基因,也稱腫瘤信息基因。

本軟件系統主要包括:數據標準化、改進的信噪比進行基因初選、SVM-RFE進行基因精選,最終以圖形的形式得以體現。

1 運行軟件及運行環境

本系統使用M atlab2010b或以上版本作為運行環境,它具有非常低的硬件要求和平臺支持,可以保證該腫瘤基因選擇系統在各預定功能上實現。可運行于W indow s2000,W indows XP,W indows 7等操作系統。

2 系統分析設計

2.1 功能需求分析

根據腫瘤基因選擇的具體情況,系統軟件需要具備以下功能:

數據標準化。數據集中基因原始數據大小不一,范圍相差較大,導致數據處理過程中運算復雜,所以在處理數據前,為消除量綱差異帶來指標不可公度性問題,需要先運用向量歸一法對數據進行標準化,將原始數據轉換在[0,1]區間內,便于數據的處理。

特征基因初選降噪。在腫瘤基因數據表達譜中大部分基因與樣本類別并不相關,只有少數基因包含了該樣本具體的類別信息,初選主要針對數據冗余現象,起到降噪作用。

特征基因精選降維。在進行初步去噪選擇后,已經基本減少了很多高噪聲的基因,但仍需解決腫瘤基因具有高維度這一特點。

圖像屬性分析。圖像屬性分析指的是運用圖像將分類信息指數分布、各基因信噪比分布表達出來,可以更加直觀且有利于觀察。

2.2 基于改進的信噪比和SVM-RFE算法基因選擇系統構架

從大量腫瘤特征數據中選出對研究有用的信息基因,過濾掉不相關基因,剔除維數大的冗余基因,文章提出基于改進后信噪比的SVM-RFE算法的基因選擇系統構架。基本的算法思想具體可分為3部分:第一部分針對原始數據基因相差較大的特點,對數據進行標準化處理;第二部分采用改進后的信噪比公式過濾掉無關基因;第三部分選用支持向量機的回歸特征消去算法(SVM-RFE),按優先級大小得到所有特征屬性的遞減順序。

假設數據(X,Y)包含m個特征基因,具體步驟如下[2]:

Step 1 數據標準化,在數據標準化過程中,特征基因數量m不變,只改變數據的區間范圍。

Step 2 改進后信噪比方法過濾掉腫瘤基因數據集中大量無關基因,從新樣本m中選擇分類信息指數較高的的m'基因。

Step 3 選用SVM-RFE算法進行特征排序,m'基因不斷循環迭代,依次去掉得分最小的特征屬性,最終得到特征排序表m''。

Step 4 實驗論證并總結。

以上步驟均側重于算法本身,沒有可視化的界面,若普通用戶想要操作規模較為龐大的基因數據不僅需要掌握很多專業知識,還存在操作性繁瑣、可視化差的情況。本系統將軟件工程思想融入基因選擇中,有著簡潔的操作流程,提供良好的用戶界面,能夠方便快捷地為生物基因工作者提供腫瘤特征基因選擇,從而達到提高和改善工作效率的作用。系統現有的工作流程,如圖1所示。

3 關鍵技術的實現

3.1 數據預處理階段

為了確保基因表達水平具有可比性,基因表達值應盡量處于同一數量級上,這就需要在進行基因選擇之前對樣本數據進行歸一化的預處理操作,基因數據標準化可按如下公式進行:

其中,Xij是第i個樣本的第j個基因的數據表達值。

圖1 系統分析設計流程

3.2 改進的信噪比初選階段

信噪比指標可成為評價基因類別的基礎,為有效避免傳統指標“過擬合”現象,同時考慮到了方差不同所帶來的對樣本分類的貢獻,軟件選用改進的信噪比公式,從而達到對無關基因進行初步過濾的目的。Golub等人提出了“信噪比”指標[2],采用特征記分準則(FSC)為每一個基因計算其分值,而按基因分值降序排列的基因稱為基因排序。但為了更加全面地評價基因含有的分類信息量,考慮到方差不同所帶來的對樣本分類的貢獻,本系統利用改進后的信噪比公式,即李穎新等[3]修正后的信噪比指標(如公式3)處理腫瘤基因數據集,對無關基因進行過濾。

3.3 支持向量機回歸特征消去法進行基因精選

SVM-RFE在本質上是一種啟發式搜索策略的封裝模式選擇方法,在特征選擇中將支持向量機用于高維數據,使用SVM算法中的權重對所有波段進行排序,并評估每一波段對分類的影響,按照排序準則移除對分類器作用最小的波段[4],從而可以確定特征基因排序表。

4 系統主要功能

基于數據處理的腫瘤基因選擇系統通過導入腫瘤基因集,可選擇出一些包含樣本分類信息且同腫瘤致病基因密切相關的基因,從而達到信息篩選的目的。系統可直接導入腫瘤原始基因數據集,避免了手動輸入操作的復雜繁瑣,在篩選過程中可根據基因分值大小進行排序且更為直觀地看到分布比例。系統不僅提供了傳統菜單欄的新建、打開、另存、打印等功能,還添加了定點插入、數據對比等操作。柱形圖、散點圖的表現形式為用戶的直觀體驗提供了便利。

5 結語

針對基因表達數據維數高、樣本少、復雜多樣的特點,系統結合改進的信噪比和SVM-RFE算法對腫瘤基因數據集進行降噪降維,達到特征基因篩選的目的。融入軟件工程思想,利用Matlab軟件的數據處理和圖像生成功能,將基因選擇的數據形象直觀地表達出來,系統操作中簡單便捷、結果直觀有效,達到了最初預期的結果,未來將根據用戶體驗繼續完善系統,創造更大的價值。

[1]BROCK G N, SHAFFER J R, BLAKESLEY R E,et al. W hich m issing value imputation method to use in expression profiles: a comparative study and two selection schemes[J]. BMC Bioinformatics,2008(9):12.

[2]孫剛,張靖.面向高維微陣列數據的混合特征選擇算法[J].小型微型計算機系統,2015(6):1209-1213.

[3]李穎新,阮曉鋼.基于支持向量機的腫瘤分類特征基因選取[J].計算機研究與發展,2005(10):153-158.

[4]張睿,馬建文.一種SVM-RFE高光譜數據特征選擇算法[J].武漢大學學報(信息科學版),2009(7):834-837.

Research on tumor gene selection system based on data processing

Tian Zijun, Cui Xinyu
(Computer and Ιnformation Engineering School of Henan Normal University, Xinxiang 453007, China)

Ιn recent years, w ith the increasing number of people who go to tumor hospitals, the extraction of characteristic genes has become a hot topic in domestic and foreign scholars. The research results have also provided great convenience for the diagnosis and prediction of clinical cancers. However, the gene expression data has the characteristics of high dimension, less sample, complex and diverse, it is the most important challenge to accurately dig the tumor information gene contained in gene data. Ιn this paper, the selection of tumor gene data selection system was developed in Matlab2010b programm ing environment, and the advantages of improved signal-tonoise ratio and support vector machine regression feature elim ination (SVM-RFE) gene selection method are also introduced. This system has a good effect on screening out the characteristic genes that are beneficial to the classification.

characteristic gene; system development; improved signal to noise ratio

河南師范大學大學生創新創業訓練計劃校級立項項目;項目編號:20150016。

田梓君(1995— ),女,黑龍江哈爾濱,本科。

猜你喜歡
排序分類特征
排序不等式
分類算一算
恐怖排序
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
節日排序
數據分析中的分類討論
刻舟求劍
兒童繪本(2018年5期)2018-04-12 16:45:32
教你一招:數的分類
主站蜘蛛池模板: 毛片在线区| 久久成人免费| 永久免费av网站可以直接看的| 久热中文字幕在线| 69综合网| 97人妻精品专区久久久久| 91麻豆国产在线| 欧美中日韩在线| 国产成在线观看免费视频| 亚洲swag精品自拍一区| 91福利免费| 一本大道东京热无码av| 五月天香蕉视频国产亚| 国产一区二区网站| 国产精品网址在线观看你懂的| 国产精品色婷婷在线观看| 欧美啪啪精品| 欧美自拍另类欧美综合图区| 欧美另类第一页| 亚洲欧美人成电影在线观看| 重口调教一区二区视频| 久久精品无码一区二区国产区 | 国产精品自拍露脸视频| 国产女人18水真多毛片18精品| 国产鲁鲁视频在线观看| 久青草网站| 麻豆AV网站免费进入| 99这里只有精品在线| 亚洲国产精品国自产拍A| 成色7777精品在线| 久久99国产综合精品1| 国产成人精彩在线视频50| 萌白酱国产一区二区| 亚洲aaa视频| 国产在线97| 国产午夜一级毛片| 91香蕉视频下载网站| 日本尹人综合香蕉在线观看| 美女免费黄网站| 国产香蕉国产精品偷在线观看| 欧美综合区自拍亚洲综合绿色 | 国产亚洲日韩av在线| 四虎国产永久在线观看| 国产亚洲精品资源在线26u| 亚洲最大综合网| 青青草原国产免费av观看| 亚洲国产成人综合精品2020| 久久国产精品嫖妓| 毛片最新网址| 国产欧美日韩专区发布| 真人免费一级毛片一区二区| 国产亚洲精品精品精品| 日韩精品无码一级毛片免费| 日韩欧美国产区| 国产成人精品午夜视频'| 蝌蚪国产精品视频第一页| 国产亚洲欧美在线中文bt天堂| 国产精品福利一区二区久久| 国产69囗曝护士吞精在线视频| 国产福利在线免费| 国产精品久久久久无码网站| 伊人成人在线视频| 日韩久草视频| 亚洲中文字幕在线精品一区| 久久青草免费91观看| 日韩专区第一页| 无套av在线| 97视频精品全国在线观看| 免费又黄又爽又猛大片午夜| 久久香蕉国产线看观看精品蕉| 亚洲精品人成网线在线| 日韩国产黄色网站| 国产精品密蕾丝视频| 中文字幕在线看视频一区二区三区| 亚洲自拍另类| 日韩国产无码一区| 国产亚洲精| V一区无码内射国产| 重口调教一区二区视频| 亚洲色欲色欲www网| 男女性色大片免费网站| 日韩第九页|