999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Weka平臺的分類算法在啟動子識別中的應用

2018-05-23 11:46:20蔣璐凱
智能計算機與應用 2018年2期

蔣璐凱

摘 要: 在“后基因組”時代,對于DNA功能元件的注釋,尤其是啟動子這類關(guān)鍵的調(diào)控元件的鑒定是進一步理解人類基因組繁雜調(diào)控網(wǎng)絡的重要研究內(nèi)容。本文基于高通量測序數(shù)據(jù)對細胞系H1-hesc中的基因啟動子進行識別分類,利用數(shù)據(jù)挖掘軟件Weka基于啟動子組蛋白修飾特征建立分類模型,比較各分類算法性能優(yōu)劣,以期應用最佳分類器在其它細胞系中識別分類啟動子。

關(guān)鍵詞: 啟動子;高通量測序;Weka;分類算法

Abstract:The definition of DNA functional elements (especially promoters) is an important research topic in understanding the regulatory network of human genome. This paper identifies types of gene promoters in H1-hesc cell line based on the high-throughput data and then builds classifiers between different types of promoters according to the data of histone modification feature. Finally the paper compares four classifiers' performance and it is expected to apply the best model in the predicting and identifying promoters in other cell lines.

Key words: promoter;high-throughput sequencing;Weka;classification algorithms

引言

Weka是一款基于Java開發(fā)環(huán)境的機器學習軟件,其全稱是懷卡拓知識分析環(huán)境(Waikato Environment for Knowledge Analysis)。這款開源的數(shù)據(jù)挖掘軟件發(fā)展到現(xiàn)在已由最初應用于農(nóng)業(yè)領(lǐng)域而擴展到更多不同領(lǐng)域,尤其是以教育和研究為主的技術(shù)科研范疇中。其優(yōu)勢在于:在GNU(General Public License)準則下免費使用,幾乎可以在任何一個現(xiàn)代計算平臺上運行,集數(shù)據(jù)預處理和預測模型建立功能于一身,還有易用的圖形交互界面[1]。Weka可以實現(xiàn)多樣的數(shù)據(jù)挖掘任務,具體包括:數(shù)據(jù)預處理、聚類、分類、回歸分析、結(jié)果可視化以及特征提取。

本文基于Weka軟件平臺的分類算法,展開啟動子類型識別相關(guān)研究。隨著對于人類基因組的研究進入“后基因組時代”,基因組學的研究重心已經(jīng)由揭示生命體的遺傳信息和密碼轉(zhuǎn)移到對分子整體水平的功能研究上來[2]。作為控制基因轉(zhuǎn)錄調(diào)控起始的關(guān)鍵DNA元件—啟動子,是基因組學的研究熱點,對于其類型識別預測等層面的深入研究有助于理解基因的表達調(diào)控機制等生物學特性,為疾病診治增加了新方法,為進一步構(gòu)建生物表達調(diào)控網(wǎng)絡提供基礎(chǔ)[3]。

1 基于高通量測序技術(shù)的啟動子分類

隨著生物信息學領(lǐng)域高通量測序技術(shù)的發(fā)展,新一代測序技術(shù)為啟動子識別引入了新的數(shù)據(jù)支持,極大程度上促進了啟動子區(qū)域的定位和啟動子功能的定性。啟動子存在于基因的轉(zhuǎn)錄起始位點附近,一般是上游區(qū)域(靠近5端),是一段能夠引導特異性基因表達活動的DNA序列[4]。啟動子作為一個特殊的調(diào)控元件,在其區(qū)域會有潛在的RNA聚合酶在DNA上的初始結(jié)合位點以及特異性的組蛋白修飾信號,根據(jù)全基因組分析的結(jié)果表明,包括組蛋白H3第4位賴氨酸(H3K4)甲基化和組蛋白H3第9位賴氨酸乙?;℉3K9ac)在內(nèi)的若干組蛋白修飾都會在啟動子區(qū)域富集[5]。本文基于以上啟動子區(qū)域特點信息,利用RNA-seq數(shù)據(jù)和ChIP-Seq數(shù)據(jù)進行啟動子類型的識別及獲取組蛋白修飾特征數(shù)據(jù)。

1.1 數(shù)據(jù)獲取及預處理

本文首先從UCSC基因組瀏覽器上獲取人類基因組g19版本的注釋基因數(shù)據(jù),其主要包含信息見表1。研究時,對注釋基因可根據(jù)以下條件進行預處理:轉(zhuǎn)錄起始位點唯一且轉(zhuǎn)錄起始位點上下游各10 kbp的區(qū)域內(nèi)不包含其它基因任何位點的基因,最后得到7 732個符合條件的基因。然后依然從UCSC中下載細胞系H1-hesc的2個全細胞RNA-seq測序數(shù)據(jù)文件以及該細胞系的RNA聚合酶II的ChIP-Seq數(shù)據(jù)(版本號為wgEncodeEH000563)。最后,從基因表達綜合數(shù)據(jù)庫(Gene Expresion Omnibus,GEO)中下載細胞系H1-hesc的6種組蛋白修飾(與活躍啟動子相關(guān)的H3K9ac、H3K27ac 和H3K4me1/2/3以及與非活躍啟動子相關(guān)的H3K27me3)數(shù)據(jù)。由于從GEO中直接下載的組蛋白修飾數(shù)據(jù)的BED文件都是比對到人類基因組g18的,而本文其余的數(shù)據(jù)都是基于g19的,因此這里需要對組蛋白修飾數(shù)據(jù)利用UCSC的LiftOver工具設(shè)計進行不同版本之間的基因組坐標轉(zhuǎn)換。

1.2 啟動子分類

啟動子是DNA調(diào)控元件,是基因轉(zhuǎn)錄活動“開關(guān)”。啟動子是否具有生物活性,可以根據(jù)基因是否出現(xiàn)轉(zhuǎn)錄活動,即采用基因的表達水平進行衡量。為此,本文利用RNA-seq數(shù)據(jù)計算7 732個注釋基因在細胞系H1-hesc的表達情況,衡量指標為RPKM(Reads Per Kilobase per Million mapped reads),其計算公式如下:

RPKM是每百萬reads中來自某個基因每一千堿基區(qū)域上的reads數(shù)量,能夠有效地反映基因真實的表達水平[6]。由于有2個數(shù)據(jù)文件,將2個計算結(jié)果取平均值作為基因的RPKM值。為了更好地擬合真實情況,盡可能減小避免測序誤差帶來的影響,在此人為規(guī)定RPKM值大于0.1以上的基因為表達基因,根據(jù)計算結(jié)果細胞系H1-hesc中61%的基因是表達基因。

基因具有表達水平,說明存在著具有生物活性的啟動子引導了基因的轉(zhuǎn)錄活動。而啟動子能夠調(diào)控起始基因轉(zhuǎn)錄,需要結(jié)合特異性的RNA聚合酶II,因此利用其ChIP-Seq數(shù)據(jù)去識別具有RNA聚合酶II富集的候選啟動子區(qū)域。在此,將具有RNA聚合酶II信號的表達基因的啟動子分類為活躍啟動子,將具有RNA聚合酶II信號的、但基因RPKM值介于0~0.1之間的啟動子分類為弱啟動子,將具有RNA聚合酶II信號的、但基因RPKM值為0的啟動子分類為預備啟動子。最終,分類結(jié)果如圖1所示。其中,活躍啟動子1 260個,弱啟動子705個以及預備啟動子81個。

1.3 啟動子組蛋白修飾特征

組蛋白修飾會在啟動子區(qū)域富集,具有顯著的局部的峰和廣泛的分布,而在不同類型的啟動子中各個組蛋白修飾特征分布又會存在一定的差異性,因此本文研究細胞系H1-hesc的6個組蛋白修飾數(shù)據(jù)在啟動子區(qū)域的分布情況。一般認為,基因啟動子主要是在轉(zhuǎn)錄起始位點上游1 kbp范圍內(nèi)。為此,可將基因轉(zhuǎn)錄起始位點上下游各1 kbp的區(qū)域作為候選啟動子區(qū)域,進行組蛋白修飾信號特征的提取。將2 kbp區(qū)域劃分為10個連續(xù)且不重疊的、長度為200 bp的小bins,然后統(tǒng)計每個基因bins上的各個組蛋白修飾read的分布情況。每個組蛋白修飾數(shù)據(jù)均有2個實驗數(shù)據(jù)文件,為此取二者統(tǒng)計結(jié)果的平均值作為組蛋白修飾read落于某個bins內(nèi)的數(shù)目。研究可得組蛋白修飾分布情況如圖2所示。

2 分類算法及性能比較

基于先前的工作,已經(jīng)得到了各個類型啟動子的組蛋白修飾特征數(shù)據(jù),每個啟動子是60維的特征向量,需要處理的是一個三分類問題。對于有些分類算法,如支持向量機在設(shè)計時針對的是二分類問題。為此本文采取的方法是一對一策略,即在每兩類之間建立分類器,那么三分類問題中會建立3個分類器,對于新的未知樣例將根據(jù)3個分類器的投票結(jié)果來判定其類別[7]。Weka提供了多分類的分析環(huán)境,在Classify目錄下選擇meta中的MultiClassClassifier,然后根據(jù)實驗對象選擇合適的分類算法就可以實現(xiàn)多分類。本文選擇了4種分類算法進行比較,分別是:基于C4.5決策樹學習算法的J48、隨機森林(Random Forest)、基于徑向基核函數(shù)的LibSVM以及樸素貝葉斯網(wǎng)絡。采取10折交叉驗證的方法進行分類器評估及選擇。分類器相關(guān)參數(shù)都是默認值。研究中,各分類算法的性能比較結(jié)果可見表2。

從表2的結(jié)果對比中,綜合各個指標可以看出:隨機森林分類算法在啟動子識別分類中的性能較為優(yōu)異。在一般分類預測問題中,隨機森林可以勝任預測類問題,尤其是多分類問題的第一選擇。圖3即是隨機森林算法在該分類預測中結(jié)果的混淆矩陣及分類器的ROC曲線(曲線1為基于活躍啟動子、曲線2基于弱啟動子、曲線3為基于預備啟動子)??梢赃M一步看出,分類器對于3個類型的啟動子預測準確率都在70%以上,這在多分類不平衡問題中是一個較好的結(jié)果。因此,可以應用這一經(jīng)過訓練的分類器在其他細胞系中去識別預測啟動子類型。

3 結(jié)束語

本文主要研究了基于Weka數(shù)據(jù)挖掘平臺的分類算法在啟動子識別分類中的應用?;诘诙鷾y序技術(shù)的實驗數(shù)據(jù)對細胞系H1-hesc中的基因啟動子進行了識別分類并提取組蛋白修飾特征,然后對比Weka中的4種分類算法在啟動子分類預測上的性能優(yōu)劣,得到隨機森林分類算法能較好對啟動子進行分類預測,今后的相關(guān)研究工作將進一步優(yōu)化分類器,從而提高模型性能。

參考文獻

[1] WITTEN I H FRANK E HALL M A. Data mining: Practical machine learning tools and techniques[M]. 3rd ed. 李川,張永輝,譯. 北京:機械工業(yè)出版社,2014.

[2] GIFFORD C A ZILLER M J GU Hongcang et al. Transcriptional and epigenetic dynamics during specification of human embryonic stem cells[J].Cell 2013 153(5):1149-1163.

[3] RAZIN S V GAVRILOV A A ULYANOV S V. Transcription-controlling regulatory elements of the eukaryotic genome[J]. Molecular Biology 2015 49(2):185-194.

[4] Davari K Lichti J Gallus C et al. Rapid genome-wide recruitment of RNA polymerase II drives transcription splicing and translation events during T cell responses[J]. Cell Reports 2017 19(3):643-654.

[5] BARSKI A CUDDAPAH S CUI K et al. High-resolution profiling of histone methylations in the human genome[J]. Cell 2007 129(4):823-837.

[6] MORTAZAVI A WILLIAMS B A MCCUE K et al. Mapping and quantifying mammalian transcriptomes by RNA-seq[J]. Nature Methods 2008 5(7):621-628.

[7] XU Wenxuan ZHANG Li. Human promoter recognition based on single nucleotide statistics and support vector machine ensemble[J]. Journal of Computer Applications 2015 35(10):2808-2812.

主站蜘蛛池模板: 国产精品成人啪精品视频| 欧美亚洲日韩中文| 国产簧片免费在线播放| 亚洲第一视频网站| 试看120秒男女啪啪免费| 日韩欧美成人高清在线观看| 国产精品黄色片| 亚洲伊人天堂| 国产无码精品在线播放| 美女视频黄频a免费高清不卡| 国产99热| 亚洲人成在线精品| 成年人午夜免费视频| 专干老肥熟女视频网站| 国产精品片在线观看手机版| www.91在线播放| 久久国产精品嫖妓| 伊人久久大香线蕉aⅴ色| 丁香综合在线| 亚洲日韩图片专区第1页| 欧洲欧美人成免费全部视频| 欧美日韩在线国产| 色播五月婷婷| 国产精品爆乳99久久| 青青青亚洲精品国产| 中文字幕无线码一区| 精品国产aⅴ一区二区三区| A级毛片无码久久精品免费| 97免费在线观看视频| 国产成人亚洲综合A∨在线播放| 伊人婷婷色香五月综合缴缴情| 中文无码日韩精品| 欧美国产精品不卡在线观看| 黄色污网站在线观看| 黄色一级视频欧美| 2020国产免费久久精品99| 亚洲成人一区在线| 国产91精选在线观看| 久久婷婷六月| 自偷自拍三级全三级视频 | 青青久视频| 国产99视频在线| 国产精品xxx| 亚洲美女视频一区| 国产剧情无码视频在线观看| 最新国语自产精品视频在| 在线看AV天堂| 欧美97色| 9966国产精品视频| 亚洲第一在线播放| www.亚洲一区| 亚洲第七页| 日韩欧美国产另类| 日韩毛片基地| 免费看美女毛片| 美女被狂躁www在线观看| 98超碰在线观看| 久久国产成人精品国产成人亚洲 | 国产精品视频系列专区| 114级毛片免费观看| 国产无码高清视频不卡| 8090成人午夜精品| 欧洲成人在线观看| 一级全黄毛片| 日本成人一区| 亚亚洲乱码一二三四区| 性欧美在线| 第一页亚洲| 中文字幕亚洲综久久2021| 色视频国产| 天堂岛国av无码免费无禁网站 | 精品成人一区二区| 久久99热这里只有精品免费看 | 波多野结衣视频一区二区| 91成人在线免费视频| 人妻精品久久久无码区色视| 高清无码一本到东京热| 国产精品午夜电影| 国产麻豆aⅴ精品无码| 久久精品女人天堂aaa| 欧美一级色视频| 成人久久精品一区二区三区|