999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

富集分析框架下的致病SNP位點識別

2016-12-07 11:04:54楊利英殷黎洋袁細國張軍英
西安電子科技大學學報 2016年3期
關鍵詞:特征分析方法

楊利英,殷黎洋,袁細國,張軍英

(西安電子科技大學計算機學院,陜西西安 710071)

富集分析框架下的致病SNP位點識別

楊利英,殷黎洋,袁細國,張軍英

(西安電子科技大學計算機學院,陜西西安 710071)

針對復雜疾病致病單核苷酸多態性位點識別中單一方法的片面性問題,提出了基于富集分析的致病單核苷酸多態性位點識別方法.通過富集分析機制設計了一種集成學習框架,可將不同的方法有機結合以提升學習性能.基于此組合框架,將Relief F和CA趨勢檢驗進行了集成,在識別單個致病位點的同時兼顧位點之間的交互作用.在模擬數據集和真實數據集上進行了實驗研究,結果表明所提出的方法能顯著地提升致病單核苷酸多態性位點的識別性能,且所設計的組合框架具有良好的擴展性,可為其他方法的組合研究提供借鑒.

模式識別;集成學習;交互作用;富集分析;致病SNP位點識別

現代生物醫學研究證明,人類每種疾病都有相應的致病基因或易感基因,常見的復雜疾病發生過程則是相關基因與內外環境相互作用的結果[1].2005年,《Science》上發表的關于年齡相關性黃斑變性的全基因組關聯分析(Genome-Wide Association Studies,GWAS)文章開啟了復雜疾病全基因組關聯分析的研究[2].盡管單位點單核苷酸多態性(Single Nucleotide Polymorphisms,SNP)的易感性分析已經取得了相當多的成果,但是這些發現并不能完全解釋復雜疾病的遺傳機理,有待進一步的研究[3].多數基于單位點單核苷酸多態性分析的方法只關注位點對疾病的邊際效應,這樣與疾病有強關聯的單核苷酸多態性被認定為易感基因,而邊際效應較弱、但組合起來有較強致病作用的單核苷酸多態性卻很容易被忽略,因此極易導致假陽性的結果.越來越多的科學實驗表明,單核苷酸多態性交互作用在復雜疾病遺傳變異中扮演著重要角色[4-6].目前也有一些方法考慮了單核苷酸多態性間的交互作用,但是對于復雜疾病的研究,由于主效應和交互作用等各種疾病模型的疊加,使得使用單一方法難以精確定位致病單核苷酸多態性,因此出現了具有多樣性的集成方法.集成方法大多數都是針對特定的學習方法進行組合的.鑒于對不同的問題,特定的學習方法并不一定適合,使得現有方法的可擴展性受到限制.

針對上述問題,筆者提出了基于富集分析的致病單核苷酸多態性位點識別方法,即通過富集分析機制組合多種機器學習方法和統計學方法,以達到更為精準地識別致病單核苷酸多態性位點的目的.這種方法不僅兼顧了單個位點的主效應和交互作用,而且能根據需要調整參與組合的方法,具有很好的靈活性和可擴展性.

1 基因集富集分析

基因集富集分析(Gene Set Enrichment Analysis,GSEA)通過觀察基因集成員在整個基因列表中的聚集情況評價基因集合的有效性和合理性[7].基因集富集分析方法中一個重要的概念就是富集值(Enrichment Score,ES),富集值反映基因集中的基因在已排序全基因組上的分布情況.富集值大,表明基因集中的基因在已排序的全基因組頭部或者尾部集中分布,基因集與表型區分有較強的關聯;富集值小,表明基因集中的基因在已排序的全基因組上分散分布,該基因集生物意義上的解釋性相對較差.許多學者針對富集分析進行了研究,提出了一些改進措施并對各種具體分析方法進行了實驗比較[8-9].當前已有研究將基因集富集分析方法用于分析單核苷酸多態性數據,但都是將單核苷酸多態性數據映射到基因上,然后在基因集水平上進行分析,最終找到具有表達一致性的功能基因集[10].筆者提出的方法與前人研究的重要不同在于,基于富集分析機制將研究從基因數據拓展到單核苷酸多態性數據,不僅關注單個單核苷酸多態性位點的致病效果,同時考慮所選擇的特定致病單核苷酸多態性集在整個單核苷酸多態性集合上的富集效果,根據富集結果評價所選致病單核苷酸多態性位點,為致病單核苷酸多態性位點的識別提供了一種新的思路.

2 基于富集分析的致病單核苷酸多態性位點識別

2.1致病單核苷酸多態性位點識別

全基因組關聯分析發現的與復雜疾病相關的單核苷酸多態性位點中只有部分能夠增加復雜疾病的致病風險,但還有已被生物實驗證明與復雜疾病相關的單核苷酸多態性位點沒有識別出來,因此還存在著大量未被發現的致病單核苷酸多態性.為克服全基因組關聯分析在與復雜疾病相關的單核苷酸多態性位點識別上的不足,研究人員在方法層面上進行了深入的研究,提出許多方法[11].這些方法可概括為兩大類,即基于模型的方法和模型無關方法.基于模型的方法預先在基因組和表現型之間定義一種統計模型,然后擬合數據到假設的模型,得到顯著的單核苷酸多態性位點,但是該類方法在處理高維的全基因組關聯分析數據時面臨著“維數災難”問題.模型無關方法為了有效地處理高維單核苷酸多態性數據,通常采用一些啟發式信息指導搜索,而不用提前對數據和模型作出假設,該類方法只是通過統計技術測試每個可能存在交互作用的單核苷酸多態性組.從現有的研究資料來看,沒有某種單一的方法能準確識別復雜疾病相關的單核苷酸多態性位點.

Relief F和CA趨勢檢驗是兩種常用的單核苷酸多態性數據分析方法[12-13].筆者針對單一方法在識別復雜疾病相關單核苷酸多態性位點時的不足,基于富集分析的思想有效地組合了Relief F和CA趨勢檢驗兩種方法,用于致病單核苷酸多態性位點的識別.

2.2基于富集分析的集成方法識別致病單核苷酸多態性位點

基于富集分析集成的致病單核苷酸多態性位點識別方法首先用Relief F方法選擇潛在的致病單核苷酸多態性集合,然后利用CA趨勢檢驗對該單核苷酸多態性集在全基因組單核苷酸多態性中的富集效果進行分析評價,最后根據富集結果對兩種致病單核苷酸多態性位點識別方法進行組合,得到致病單核苷酸多態性位點.該方法的具體步驟如下.

步驟1 進行單核苷酸多態性集篩選.設類標簽集合C={c1,c2,…,cl},算法迭代次數為m,每次選擇的近鄰數為k.應用Relief F算法,每次從樣本集中隨機選擇一個樣本Ri,Ri的類標簽設為cclass(Ri),從與Ri樣本標簽相同的樣本中選擇k個近鄰樣本,記為H=(H1,H2,…,Hk),從與Ri不同類的樣本中根據其所屬類別ci(ci≠cclass(Ri))各選擇Ri的k個近鄰樣本,記為M(C)=(M1(C),M2(C),…,Mk(C)),按照式(1)迭代更新每個特征A的權重W[A],最終得到N個候選特征的權重向量W:

其中,p(c)指類別c的先驗概率(從訓練集中估計),函數fdiff(A,I1,I2)計算樣本I1和I2在特征A上值的差異,定義

其中,v(·,·)表示樣本在特征上的取值.

對權重向量W由大到小進行排序,取其前f個特征作為單核苷酸多態性集S,f是S的大小.

步驟2 進行全基因組單核苷酸多態性排序.運用CA趨勢檢驗對病例對照數據進行統計分析,如表1所示,B和b是一對等位基因,其中,B是風險等位基因,D和E分別是病例組和對照組的樣本大小,T為兩組樣本量的合計,di為病例組第i個基因型的樣本數,ei為對照組第i個基因型的樣本數,ti為第i個基因型的樣本數.

表1 病例對照組數據的基因型分布

關聯分析如下:

其中,xi為第i個基因型的值,這樣得到樣本患病的概率隨著各特征中的風險等位基因B個數的增加而增加的趨勢顯著性值q.將N個候選特征按q值由小到大排序,得到列表L,每一特征與類別的相關性r取值為1-q.

步驟3 進行富集計算.運用富集分析機制,從列表L的第1個特征開始直到最后一個特征,逐個比對當前特征是否在單核苷酸多態性集合S中.如果第i個單核苷酸多態性位點gi存在于S中,則認為單核苷酸多態性位點gi被命中,于是Phit和Pmiss的計算式為

如果第i個單核苷酸多態性位點不存在于S中,則認為單核苷酸多態性位點gi未被命中,于是Phit和Pmiss的計算式為

上述公式中,p取1,r由步驟2得到.計算單核苷酸多態性位點集合S對應的富集值SES(S)=Phit-Pmiss,以及取得該值的特征點在列表L中的位置v,將(1-vN)作為列表L中的特征是否在集合S中的權值whit.其中,當p=0時,該統計量就退化為Kolmogorov-Smirnov統計量.當步移中遇到在S中的基因時,根據相關性增加富集得分;當遇到的基因不在S中時,減少富集得分.富集值就是整個步移過程中富集得分Phit-Pmiss與零的最大偏差,即絕對值最大的值.

步驟4 初始化N個特征的權重W為零,將L的前v個特征的序列號[1,v]歸一化到區間[1,f],然后逆序得到每個特征的新序列號x,從列表L的第一個特征到第v個特征,逐個比對當前特征是否在單核苷酸多態性集合S中.如果在,則將該特征的權重增加whitx;否則,將該特征的權重增加(1-whit)x.

步驟5 將Relief F方法選擇的f個特征的前n個特征的序列號[1,n]歸一化到區間[1,f],然后逆序得到每個特征的新序列號y.對這n個特征,由前到后逐個對比其是否屬于L的前v個特征,若不屬于,則將該特征的權重增加(1-whit)y.

步驟6 將最終得到的特征權重列表W按權重值由大到小進行排序,得到最終的單核苷酸多態性特征排序結果.

3 實驗及結果分析

在模擬數據集和真實數據集上進行了實驗研究,以每次實驗中各方法對致病單核苷酸多態性位點的識別率為指標比較各方法的性能.

3.1模擬數據集上的實驗結果及分析

模擬數據集取自網絡公開的數據(http://compbio.ddns.comp.nus.edu.sg/~wangyue/).實驗所用的模擬數據集如表2所示.其中,模擬數據集3是為了擴大涵蓋范圍所設計的,共包含18個數據集,其特點是:各特征具有主效應,每個數據集有2000個樣本,最小等位基因頻率值分別為0.2和0.5的數據集各9個,每9個中主效應分別為0.2、0.3、0.5的數據集各3個,所有數據的連鎖不平衡值都為1.模擬數據集1和模擬數據集4的各特征沒有主效應,只存在交互作用.模擬數據集2和模擬數據集3的各特征同時具有主效應和交互作用.

表2 模擬數據集

筆者提出的基于富集分析集成的致病單核苷酸多態性位點方法Relief F? CA、Relief F方法、CA趨勢檢驗方法在模擬數據集1、模擬數據集2、模擬數據集3上的實驗結果分別如圖1~3所示.從圖中可以看出,組合方法相比單一方法具有更好的識別性能,對于有主效應的數據集2和數據集3,CA趨勢檢驗對致病單核苷酸多態性的識別率高于Relief F方法,而對于不存在主效應的數據集1,CA趨勢檢驗的優勢并不明顯.

圖1 模擬數據集1上3種方法的性能對比

為驗證筆者所提組合框架的有效性,證明實驗結果并不依賴于參與集成的方法,在模擬數據集3上應用文獻中的經典方法SVM?RFE和Fscore進行組合[14],得到在排名前200的單核苷酸多態性中致病單核苷酸多態性位點的識別率.排名前200的單核苷酸多態性中SVM?RFE和Fscore的識別率只有70%,而筆者提出的組合方法在前120個單核苷酸多態性中致病單核苷酸多態性的識別率已達到100%.對于只存在交互作用、沒有主效應的數據集,為充分利用Relief F對交互作用的高識別能力,將Relief F和CA趨勢檢驗方法互換,即由Relief F方法得到排序列表L,由CA趨勢檢驗得到單核苷酸多態性集S,在模擬數據集4上進行了實驗.結果表明,筆者所提的組合方法相比單一方法有更好的識別率,也驗證了Relief F相對于CA趨勢檢驗有更好的對交互作用的識別能力.

圖2 模擬數據集2上3種方法的性能對比

圖3 模擬數據集3上3種方法的性能對比

3.2真實數據集上的實驗結果及分析

實驗所用的真實數據是AMD(Age-related Macular Degeneration)數據[2].該數據集包含96個患病樣本和50個正常樣本,對初始的103 611個單核苷酸多態性特征進行預處理,去掉缺失值大于5和不符合哈代溫伯格定律的特征,最后得到93 897個特征.

為得到各種方法的識別率,對146個樣本進行置換操作,生成20個數據集,在這20個數據集上進行實驗.取公認的3個致病單核苷酸多態性進行驗證,分別為rs380390、rs1329428、rs10507949,得到在排名前20的單核苷酸多態性中致病單核苷酸多態性的識別率,如圖4所示.從圖中可以看出,單一方法的性能很不理想,尤其是Relief F算法,直到排名前20個單核苷酸多態性,Relief F對致病單核苷酸多態性的識別率僅為0.4.在排名前20的單核苷酸多態性中,筆者提出方法對致病單核苷酸多態性的發現率優于Relief F和CA,表明該組合方法能夠提升致病單核苷酸多態性的發現率.在AMD數據集上用筆者提出的富集分析集成方法得到的單核苷酸多態性富集結果如圖5所示,圖中單核苷酸多態性集合的富集程度進一步驗證了筆者提出方法的有效性.

圖4 真實數據集AMD上的識別率比較

圖5 真實數據集AMD上單核苷酸多態性的富集分布

AMD數據實驗結果排名前10的單核苷酸多態性如表3所示.可以看出,組合方法中3個致病單核苷酸多態性排在前3名,即不僅找到了rs380390,rs1329428,rs10507949這3個致病單核苷酸多態性,還得到了一些新的潛在致病單核苷酸多態性,如rs7104698和rs10508731等,可為生物實驗研究提供參考和借鑒.

表3 AMD數據實驗排名前10的單核苷酸多態性位點

4 總 結

基于富集分析的思想,筆者提出了一種基于富集分析機制的集成學習框架,并將其應用于致病單核苷酸多態性位點的識別.在保證數據廣度和方法廣度的前提下,運用模擬數據集和真實數據集進行了大量的實驗研究和分析.實驗結果表明了所提方法的有效性,同時也證明了所設計框架的靈活性和魯棒性.但對于富集分析,筆者僅使用了富集值的位置信息,因此該集成框架仍有很大的拓展空間.后續研究考慮直接使用富集值進行集成學習,并且結合多種特征選擇方法的特點進行多種方法的組合.

[1]CORDELL H J.Detecting Gene-gene Interactions That Underlie Human Diseases[J].Nature Reviews Genetics,2009,10(6):392-404.

[2]KLEIN R J,ZEISS C,CHEW E Y,et al.Complement Factor H Polymorphism in Age-related Macular Degeneration [J].Science,2005,308(5720):385-389.

[3]DONNELLY P.Progress and Challenges in Genome-wide Association Studies in Humans[J].Nature,2008,456 (7223):728-731.

[4]SHANG J,ZHANG J,LEI X,et al.EpiSIM:Simulation of Multiple Epistasis,Linkage Disequilibrium Patterns and Haplotype Blocks for Genome-wide Interaction Analysis[J].Genes&Genomics,2013,35(3):305-316.

[5]JAMES C L,MARION E L,CARL A A,et al.Human SNP Links Differential Outcomes in Inflammatory and Infectious Disease to a FOXO3-regulated Pathway[J].Cell,2013,155(1):57-69.

[6]AMRITA S C,CHING L H,CHIEN C C,et al.Summarizing Techniques That Combine Three Non-parametric Scores to Detect Disease-associated 2-way SNP-SNP Interactions[J].Gene,2014,533(1):304-312.

[7]SUBRAMANIAN A,TAMAYO P,MOOTHA V K,et al.Gene Set Enrichment Analysis:a Knowledge-based Approach for Interpreting Genome-wide Expression Profiles[J].Proceedings of the National Academy of Sciences,2005,102(43):15545-15550.

[8]KWON J S,KIM J,NAM D,et al.Performance Comparison of Two Gene Set Analysis Methods for Genome-wide Association Study Results GSA-SNP vs i-GSEA4GWAS[J].Genomics&Informatics,2012,10(2):123-127.

[9]張威,張揚,曹文君,等.GAGE和GSEA在基因集研究中的有效性比較[J].現代生物醫學進展,2013(10): 1849-1865. ZHANG Wei,ZHANG Yang,CAO Wenjun,et al.Comparative Study of GAGE and GSEA in Gene-set Analysis[J]. Progress in Modern Biomedicine,2013(10):1849-1865.

[10]BROOKE L F,JOANNA M B.Gene Set Analysis of SNP Data:Benefits,Challenges,and Future Directions[J]. European Journal of Human Genetics,2011,19(8):837-843.

[11]BOTTA V,LOUPPE G,GEURTS P,et al.Exploiting SNP Correlations within Random Forest for Genome-wide Association Studies[J].PLoS One,2014,9(4):e93379.

[12]KONONENKO I.Estimation Attributes:Analysis and Extensions of RELIEF[C]//Lecture Notes in Artificial Intelligence:784. Berlin:Springer-Verlag,1994:171-182.

[13]FREIDLIN B,ZHENG G,LI Z,et al.Trend Tests for Case-control Studies of Genetic Markers:Power,Sample Size and Robustness[J].Human Heredity,2002,53(3):146-152.

[14]GUYON I,WESTON J,BARNHILL S,et al.Gene Selection for Cancer Classification Using Support Vector Machines [J].Machine Learning,2002,46(1/2/3):389-422.

(編輯:郭 華)

Identifying pathogenic SNP loci by enrichment analysis

YANG Liying,YIN Liyang,YUAN Xiguo,ZH ANG Junying
(School of Computer Science and Technology,Xidian Univ.,Xi’an 710071,China)

Aiming at the recognition of pathogenic SNP loci for complex diseases,this paper proposes an ensemble learning frame via the enrichment analysis mechanism,which can combine different approaches efficiently.Based on the proposed frame,Relief-F and CA trend testing are combined to identify diseaserelated SNP loci.The new approach can identify not only the single pathogenic site,but also the interaction between the locus at the same time.Experiments have been carried both on simulated data and on real data. Experimental results show that the proposed approach can significantly improve the recognition performance of pathogenic SNP loci for complex diseases.The proposed ensemble learning framework could provide reference for combining different approaches.

pattern recognition;ensemble learning;interaction;enrichment analysis;recognition of pathogenic single nucleotide polymorphisms loci

TP181

A

1001-2400(2016)03-0043-06

10.3969/j.issn.1001-2400.2016.03.008

2015-01-21

時間:2015-07-27

陜西省自然科學基金資助項目(2015JM6275);國家自然科學基金資助項目(61201312);中央高?;究蒲袠I務費專項資金資助項目(K5051303017;JB140306)

楊利英(1974-),女,副教授,E-mail:yangliying1208@163.com.

http://www.cnki.net/kcms/detail/61.1076.TN.20150727.1952.008.html

猜你喜歡
特征分析方法
隱蔽失效適航要求符合性驗證分析
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
抓住特征巧觀察
電力系統及其自動化發展趨勢分析
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 国产欧美专区在线观看| 五月综合色婷婷| a毛片免费观看| 免费毛片a| 一级爆乳无码av| 成人国产精品视频频| 四虎影院国产| 国产激情第一页| 成人午夜精品一级毛片| 午夜人性色福利无码视频在线观看 | 久久久黄色片| 77777亚洲午夜久久多人| 手机在线看片不卡中文字幕| 97久久精品人人| 国产成人综合亚洲网址| 日韩一区精品视频一区二区| 欧美日韩国产系列在线观看| 免费午夜无码18禁无码影院| 久久九九热视频| 啪啪免费视频一区二区| 无码粉嫩虎白一线天在线观看| 亚洲精品国产成人7777| 日本道中文字幕久久一区| 国产精品蜜芽在线观看| 九九精品在线观看| 白浆视频在线观看| 丝袜高跟美脚国产1区| 亚洲欧美国产高清va在线播放| 国产丝袜丝视频在线观看| 婷婷色婷婷| 自慰高潮喷白浆在线观看| 午夜a视频| 青青操国产视频| 看av免费毛片手机播放| 激情無極限的亚洲一区免费| 青青青亚洲精品国产| 亚洲av无码久久无遮挡| 97免费在线观看视频| 亚洲欧洲自拍拍偷午夜色| 亚洲中文字幕在线精品一区| 亚洲一区二区视频在线观看| 婷婷在线网站| 国产精品毛片一区| 青草视频在线观看国产| 亚洲av无码牛牛影视在线二区| 亚洲国模精品一区| 色吊丝av中文字幕| 中文字幕亚洲乱码熟女1区2区| 尤物精品国产福利网站| 国产高清又黄又嫩的免费视频网站| 日韩精品成人网页视频在线| 精品成人免费自拍视频| 国产一二三区视频| 国产成人91精品| 日本国产精品一区久久久| 一级全免费视频播放| 91人人妻人人做人人爽男同| 扒开粉嫩的小缝隙喷白浆视频| 97免费在线观看视频| 中文字幕免费在线视频| 久久鸭综合久久国产| 亚洲AV无码精品无码久久蜜桃| 青草精品视频| 中文字幕人妻无码系列第三区| 岛国精品一区免费视频在线观看| 国产精品尤物铁牛tv| 国产一区二区三区在线精品专区| 一区二区三区成人| 国产高颜值露脸在线观看| 日本精品αv中文字幕| 91在线播放免费不卡无毒| 99久久这里只精品麻豆| 欧美综合区自拍亚洲综合天堂| 久久久久青草线综合超碰| 国产99视频在线| 五月婷婷精品| 特级aaaaaaaaa毛片免费视频| 亚洲视频无码| 欧美成一级| 国产综合无码一区二区色蜜蜜| 国产香蕉在线| 亚洲欧美日韩视频一区|