999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于GBrowse的多源長非編碼RNA數據可視化系統①

2017-03-27 09:36:08魏李婷姬嵐洋施勝飛楊曉華
計算機系統應用 2017年3期
關鍵詞:可視化數據庫系統

孫 磊, 陳 璇, 唐 紅, 魏李婷, 姬嵐洋, 施勝飛, 楊曉華

?

基于GBrowse的多源長非編碼RNA數據可視化系統①

孫 磊, 陳 璇, 唐 紅, 魏李婷, 姬嵐洋, 施勝飛, 楊曉華

(揚州大學信息工程學院, 揚州 225127)

針對長非編碼RNA(long non-coding RNA, lncRNA)數據類型多樣帶來的有用信息提取困難的問題, 提出基于基因組瀏覽器GBrowse(Generic Genome Browser)的多源lncRNA數據可視化系統. 該系統主要包括網頁服務器和lncRNA數據存儲. 其中, 網頁服務器主要由HTTP服務和GBrowse網頁組件構成, 支持純文本、MySQL、SQLite等多種數據存儲方式. 系統實現流程包括GBrowse安裝與配置、多源lncRNA數據的收集、數據預處理、數據存儲、數據訪問及可視化配置. 原型系統收集了六種人類lncRNA數據, 包括人類基因注釋、基因組序列、組蛋白修飾H3K4me3信號及其位點、轉錄因子CTCF綁定位點信號及其位點的數據, 并對數據進行了預處理. 通過MySQL、SQLite等建立了lncRNA數據庫, 對數據的訪問方式和可視化參數進行配置. 實驗結果表明, 多源lncRNA數據在GBrowse框架下能夠得到整合與可視化, 并在基因組空間同時呈現, 這使得研究者能夠以更加直觀的方式觀測數據, 進而建立新的科學假說.

長非編碼RNA; 基因組瀏覽器; 數據庫; 可視化

長非編碼RNA(long noncoding RNA, lncRNA)是一類具有重要生物學功能的非編碼RNA. 研究表明lncRNA參與胚胎干細胞凋零、細胞循環調控等細胞過程[1,2]. 近年來, 隨著高通量測序技術的發展和應用(如RNA-Seq), 成千上萬的功能性lncRNA被發現, 同時也產生了大量用于分析lncRNA功能和機制的生物數據. lncRNA數據來源廣泛, 主要包括與lncRNA直接相關的基因注釋、序列、組蛋白修飾、轉錄因子綁定位點等數據和信息, 以及蛋白質編碼RNA數據、物種間序列比對、保守性分值等用于與lncRNA數據進行比較分析的數據. 如何有效分析這些多源lncRNA數據已成為lncRNA功能研究的重要挑戰.

為了準確推斷lncRNA的功能和機制, 可首先對多源lncRNA數據進行可視化, 后根據數據在基因組空間的關系設立假說并建模, 再通過統計分析對lncRNA的功能機制進行推斷. 其中, lncRNA數據可視化是關鍵步驟. 基于網頁技術的基因組瀏覽器為包括lncRNA數據在內的基因數據的可視化和交互操作提供了有效方法. 當前流行的基因組瀏覽器是加州大學圣克魯茲分校基因組瀏覽器(UCSC genome browser)[3], 但由于其服務器遠在美國, 因此數據上傳和下載可能會受網絡連接狀況和帶寬限制等因素的影響. 另一方面, 類似UCSC基因組瀏覽器的公共瀏覽器在免費使用情況下并不能提供完善的服務(如數據共享等). 因此, 當研究者的lncRNA數據量特別大或需要高級訪問服務時, 公共基因組數據瀏覽器可能無法滿足研究需要. 相較而言, 可在本地建立諸如UCSC基因組瀏覽器、GBrowse[4]、JBrowse[5]等瀏覽器. 在本地私有網絡環境下, 數據的傳輸速率將大大提高. 研究者還可根據需要設置相應的服務選項, 以增加數據整合與可視化的靈活性. GBrowse是一種開放源代碼的通用基因組瀏覽器(Generic Genome Browser), 它為用戶提供了豐富的生物數據存儲、交互式管理以及可視化方法. GBrowse憑借其存儲、管理、可視化數據方面的諸多優點, 已廣泛應用于如植物lncRNA數據庫PLncDB[6]、家禽lncRNA數據庫ALDB[7]、深度測序信號可視化VING[8]、轉錄起始位點的識別[9]等研究. 針對lncRNA功能研究過程中由于lncRNA數據量不斷增加且類型眾多帶來的有用信息提取困難的問題, 本文提出了基于GBrowse的多源lncRNA數據可視化系統. 實驗以人類lncRNA數據的可視化為例, 詳細介紹該系統的實現流程. 在此基礎上, 將研究討論轉錄因子CTCF、表觀遺傳信息與lncRNA基因之間的相互關系.

1 系統概述

基于GBrowse的多源lncRNA數據可視化系統主要由網頁服務器和lncRNA數據存儲構成(如圖1所示). 其中, lncRNA數據可根據需要存儲于各種類型的數據庫, 如Berkeleydb、SQLite、MySQL、Oracle、PostgreSQL, 以及GFF格式文本. 網頁服務器除了包括常用的HTTP服務進程之外, 最重要的是包含了GBrowse網頁組件. GBrowse組件中有豐富的數據訪問接口, 提供對以上多種類型數據庫的訪問.

圖1 系統架構圖

2 系統實現流程

基于GBrowse的多源lncRNA數據可視化系統的實現流程主要包括“GBrowse安裝與配置”、“多源lncRNA數據的收集”、“數據預處理”、“數據存儲”和“數據訪問及可視化配置”五個步驟(如圖2所示). 本節將以人類lncRNA數據的可視化為例, 詳細介紹系統的實現流程.

圖2 系統實現流程

2.1 GBrowse安裝與配置

GBrowse可安裝在Linux等類UNIX操作系統上. 本文采用Ubuntu 12.04 Linux操作系統, 通過Ubuntu軟件中心安裝了版本號為2.42的GBrowse軟件. 另外, 對于GBrowse及網頁服務器運行過程中所依賴的其他軟件(如Apache2、Perl、MySQL、SQLite等)的安裝, 可參考文檔: http://gmod.org/wiki/GBrowse_2.0_Install_ HOWTO.

2.2 多源lncRNA數據的收集

為了幫助推斷人類lncRNA的調控機制, 從公共數據庫收集了包括人類基因注釋、人類基因組序列、轉錄因子綁定位點和組蛋白修飾在內的多種來源的lncRNA數據(如表1所示). 其中, 人類基因注釋數據(編號: D1) 下載自GENCODE[10], D1數據包含了人類基因的位置、結構、ID號、數據源等信息, 數據格式為GFF3 (Generic Feature Format Version 3). 為了獲取與lncRNA相關的基因組序列信息, 從UCSC基因組瀏覽器下載了人類基因組序列數據(編號: D2). 已有研究表明增強子可通過lncRNA與基因啟動子作用以影響基因轉錄, 而蛋白質CTCF與靶順序因子的結合可阻斷增強子和啟動子的相互作用. 為了研究CTCF與lncRNA之間的關系, 從ENCODE項目網站(https://www.encodeproject.org/)下載了利用ChIP-Seq技術獲得的轉錄因子CTCF的綁定位點信息, 該信息包含了CTCF綁定位點的信號(編號: D3)及預測出的最佳信號峰值區域(編號: D4). 另外, 由于三甲基化組蛋白H3賴氨酸(H3K4me3)與基因轉錄起始位點有關, 因此還下載了利用ChIP-Seq技術獲得的人類骨骼肌細胞基因的H3K4me3位置信息(包含了H3K4me3的信號D5和峰值信號區域D6). 其中, bigWig格式數據提供了通過測序方法獲得的信號強度信息, narrowPeak (BED6+4)和broadPeak (BED6+3) 格式數據提供了預測出的最佳目標區域信息.

表1 多源lncRNA數據信息

2.3數據預處理

為了達到有效組織和整合lncRNA數據的目的, 須要對多源lncRNA數據進行預處理, 本實驗需要預處理的數據包括D1、D3、D5. 由于D1數據包含了人類編碼和非編碼基因的注釋信息, 因此通過腳本程序提取了其中lncRNA基因的注釋信息, 并命名為gencode.v19.lncRNAs.gff3(編號: D1-1, 大小: 44M). 為了便于GBrowse處理, narrowPeak格式的D3和broadPeak格式的D5都轉換成了BED6格式, 并分別命名為D3-1和D5-1.

2.4 數據存儲

對于數據存儲, GBrowse支持多種數據庫后端(backend), 如Berkeleydb、SQLite、MySQL、Chado、BioSQL等. 為了便于GBrowse快速顯示數據, 根據已收集數據的類型和大小設計了如下的數據存儲方案: 由于D1數據(如表1所示)包含了lncRNA的基因位置、結構、名稱、數據源等信息, 內存訪問比較緩慢, 因此為其建立了MySQL數據庫(名稱: “hg19”), 以提高D1-1的訪問速率. 另外, 由于D2數據規模較大, 因此也將其導入“hg19”數據庫. 其次, 建立了兩個SQLite數據庫, 分別存儲D3-1和D5-1數據. 對于二進制格式的bigWig數據, 由于可通過GBrowse中的Perl模塊bigWig.pm進行讀取, 因此無需對D4和D6數據建庫.

2.5 數據訪問與可視化配置

數據存儲完成之后, 在GBrowse配置文件目錄下建立了用于配置數據訪問和可視化方法的文件hg19.conf, 同時在GBrowse.conf文件末尾添加關于hg19.conf的段落(section). 通過設置hg19.conf中的參數對數據訪問接口和可視化方法進行配置(如表2所示), 以實現對已存儲數據的顯示, 并優化數據的可視化效果. 表2中的訪問接口是指與各數據相對應的Perl適配模塊(adaptor). 不同數據要設置成合適的形狀才可以得到正確顯示, 而各數據軌道(Track)應設置成容易區分和觀察的形狀和顏色. 參數說明和配置方法可參考文檔: http://cloud.gmod.org/gbrowse2/tutorial/ tutorial.html.

表2 數據訪問及可視化的主要配置參數

3 結果與分析

通過以上實現流程, 建立了一個人類lncRNA數據可視化的原型系統 (名稱: HlncRNAdb-demo, 訪問: http://bioinf.yzu.edu.cn:40/cgi-bin/gb2/gbrowse/hg19/), 該系統為研究者提供了直觀的人類lncRNA數據可視化(如圖3和圖4所示).

圖3 chr18:77721985-78016680范圍內的lncRNA數據顯示

圖4 chr18:777994425-7794925范圍內的lncRNA數據顯示

3.1 lncRNA數據的可視化

HlncRNAdb-demo通過GBrowse成功整合了包括人類lncRNA基因注釋(GENCODE v19 annotated lncRNAs)、人類基因組序列/GC含量(DNA/GC Content)、組蛋白修飾H3K4me3信號(Density of H3K4me3 loci)及其預測位點(H3K4me3 loci)、轉錄因CTCF綁定位點信號(Density of CTCF binding sites)及其預測位點(CTCF binding sites)在內的多源lncRNA數據, 數據格式包含GFF3、FASTA、BED6、bigWig等.

多源lncRNA數據在基因組空間得到整合, 并以各自的形狀和顏色加以顯示, 從而區別于其他軌跡. 圖3展示了在比例縮小(zoom out)情況下對基因組chr18:77721985-78016680(295 kilo base pairs/295kbp)范圍內的整合數據進行可視化的概況, 而圖4是將比例放大(zoom in)后對chr18:777994425-7794925(500bp)范圍內的整合數據進行顯示的概況. 圖中紅色波浪狀曲線顯示的是“DNA/GC Content”軌道, 紅色曲線實際上是將區域內計算得到的序列GC含量通過圖形化顯示后的結果. 如果放大倍數足夠, 便能夠看到基因組序列的堿基構成. H3K4me3信號的分布及預測的峰值區域分別如圖中的“Density of H3K4me3 loci”和“H3K4me3 loci”軌道所示. 類似地, CTCF綁定位點信號的分布及預測區域分別如圖中的“Density of CTCF binding sites”和“CTCF binding sites”所示. 其中, “H3K4me3 loci”和“CTCF binding sites”均采用graded_segments形狀進行顯示, 其中的顏色灰度會根據原BED數據文件中的分值進行顯示. 圖3中最下方的軌道“GENCODE v19 annotated lncRNAs”顯示的是GENCODE 發布的v19版的lncRNA的結構和位置信息. 綜上, 研究者能夠在同一空間范圍內對多源lncRNA數據進行觀測和比較. 通過鼠標拖放可選取觀察范圍, 或放大或縮小. 對于每個軌道中的標記對象, 可通過鼠標點擊獲取結構化的詳細數據/信息表, 此表可幫助研究者查看目標圖形的數據詳情. 另外, 在GBrowse界面中, 選定范圍內各種數據的特征和相對關系一目了然, 起到了數據顯微鏡的作用.

3.2 可視化數據的分析

借助基于GBrowse的多源lncRNA數據可視化系統, 研究者可在基因組空間中清晰地觀測多源lncRNA數據, 這可以幫助驗證已有的假說、推論或建立新的科學假說或模型. 如圖3所示, CTCF和H3K4me3 信號出現在lncRNA基因上游啟動子附近, 說明CTCF和H3K4me3可能與該基因的表達調控有關聯, 此數據顯示反映出的特征與當前流行的研究觀點保持了一致. 又如圖3, 可以觀測到許多CTCF信號的出現位點都會伴隨有H3K4me3信號的出現, 而其中的本質原因值得進一步探討, 比如可以建立如下假說: CTCF能夠識別H3K4me3位點, 然后綁定到H3K4me3區域, 進而對基因產生調控作用. 當然, 假說的驗證需要依據后期更多的實驗和分析. 由此可見, 基于GBrowse的多源lncRNA數據可視化系統能夠幫助研究者獲得更多的關于lncRNA的研究信息和思路.

4 結語

本文提出了基于GBrowse的多源lncRNA數據可視化系統, 并介紹了系統的實現流程. 實驗建立了人類lncRNA數據的可視化系統原型HlncRNAdb-demo. 實驗結果表明該系統能夠實現在同一基因組空間上對多源lncRNA數據進行整合與可視化, 便于研究者從中獲取信息, 進而助其進行理論驗證或建立新的科學假說. 對于本文的后續工作, 有如下計劃和建議: ①可根據研究需要收集和整合其它lncRNA數據, 以增加lncRNA功能研究的信息; ②采用新的方法以提高數據訪問的速率, 比如可采用FastCGI; ③在網頁中添加對lncRNA二級結構進行可視化的功能, 能在二維或三維空間整合和觀測lncRNA數據. 綜上, 多源lncRNA數據在GBrowse框架下得到有效整合與可視化, 能夠推動lncRNA功能研究的發展.

1 Loewer S, Cabili MN, Guttman M, Loh YH, Thomas K, Park IH, Garber M, Curran M, Onder T, Agarwal S, Manos PD, Datta S, Lander ES, Schlaeger TM, Daley GQ, Rinn JL. Large intergenic non-coding RNA-RoR modulates reprogramming of human induced pluripotent stem cells. Nature Genetics, 2010, 42(12): 1113–1117.

2 Hung T, Wang Y, Lin MF, Koegel AK, Kotake Y, Grant GD, Horlings HM, Shah N, Umbricht C, Wang P, Wang Y, Kong B, Langerod A, Borresen-Dale AL, Kim SK, van de Vijver M, Sukumar S, Whitfield ML, Kellis M, Xiong Y, Wong DJ, Chang HY. Extensive and coordinated transcription of noncoding RNAs within cell-cycle promoters. Nat Genet, 2011, 43(7): 621–629.

3 Kent WJ, Sugnet CW, Furey TS, Roskin KM, Pringle TH, Zahler AM, Haussler D. The human genome browser at UCSC. Genome Research, 2002, 12(6): 996–1006.

4 Stein LD, Mungall C, Shu S, Caudy M, Mangone M, Day A, Nickerson E, Stajich JE, Harris TW, Arva A, Lewis S. The generic genome browser: A building block for a model organism system database. Genome Research, 2002, 12(10): 1599–1610.

5 Skinner ME, Uzilov AV, Stein LD, Mungall CJ, Holmes IH. JBrowse: A next-generation genome browser. Genome Research, 2009, 19(9): 1630–1638.

6 Jin J, Liu J, Wang H, Wong L, Chua NH. PLncDB: Plant long non-coding RNA database. Bioinformatics, 2013, 29(8): 1068–1071.

7 Li A, Zhang J, Zhou Z, Wang L, Liu Y, Liu Y. ALDB: A domestic-animal long noncoding RNA database. PLoS ONE, 2015, 10(4): e0124003.

8 Descrimes M, Zouari YB, Wery M, Legendre R, Gautheret D, Morillon A. VING: A software for visualization of deep sequencing signals. BMC Research Notes, 2015, 8: 419.

9 Cumbie JS, Ivanchenko MG, Megraw M. NanoCAGE-XL and CapFilter: An approach to genome wide identification of high confidence transcription start sites. BMC Genomics, 2015, 16(1): 597.

10 Harrow J, Frankish A, Gonzalez JM, Tapanari E, Diekhans M, Kokocinski F, Aken BL, Barrell D, Zadissa A, Searle S. GENCODE: The reference human genome annotation for the ENCODE project. Genome Research, 2012, 22(9): 1760–1774.

Visualization System of Multi-Source Long Non-Coding RNA Data Based on GBrowse

SUN Lei, CHEN Xuan, TANG Hong, WEI Li-Ting, JI Lan-Yang, SHI Sheng-Fei, YANG Xiao-Hua

(School of Information Engineering, Yangzhou University, Yangzhou 225127, China)

In consideration of the problem that useful information cannot be easily extracted from various types of long noncoding RNA (lncRNA) data, this paper proposes a visualization system of multi-source lncRNA data based on generic genome browser (GBrowse). The system mainly includes a web server including HTTP service and GBrowse components, and lncRNA data storage which supports flat files, MySQL, SQLite and other types of databases. The main steps of constructing the system include GBrowse installation and configuration, multi-source lncRNA data collection, preprocessing, storage, and access and visualization configuration. A demo system is constructed by firstly collecting six sets of human lncRNA data, including human gene annotation, genome sequence, histone modification H3K4me3 signals and their loci predicted, signals of transcription factor CTCF binding sites and their loci predicted. After preprocessing, these data are stored by databases such as MySQL, SQLite and so on, and data access and visualization methods are also configured. The experiment results demonstrate that multi-source lncRNA data can be integrated and visualized within the GBrowse framework, and be showed in the genome spatial space simultaneously, which can make researchers observe the lncRNA data more intuitively, thereby helps to produce novel scientific hypothesis.

long non-coding RNA; genome browser; database; visualization

國家自然科學基金(61301220);揚州大學大學生學術科技創新基金(x2015423, x2015444)

2016-06-23;

2016-07-25

[10.15888/j.cnki.csa.005633]

猜你喜歡
可視化數據庫系統
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
基于CiteSpace的足三里穴研究可視化分析
基于Power BI的油田注水運行動態分析與可視化展示
云南化工(2021年8期)2021-12-21 06:37:54
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
基于CGAL和OpenGL的海底地形三維可視化
“融評”:黨媒評論的可視化創新
傳媒評論(2019年4期)2019-07-13 05:49:14
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
數據庫
財經(2017年2期)2017-03-10 14:35:35
數據庫
財經(2016年15期)2016-06-03 07:38:02
主站蜘蛛池模板: 69视频国产| 久久青草免费91观看| 国内精品视频区在线2021| 日韩人妻无码制服丝袜视频| 成人午夜免费观看| 国产91色在线| 国产亚洲欧美另类一区二区| 五月六月伊人狠狠丁香网| 亚洲一区黄色| 色妞www精品视频一级下载| 免费看美女自慰的网站| 真人高潮娇喘嗯啊在线观看 | 国产免费福利网站| 国产精品jizz在线观看软件| 国产精品欧美日本韩免费一区二区三区不卡 | 中文字幕欧美日韩高清| 色偷偷一区| 狠狠色香婷婷久久亚洲精品| 亚洲第一黄片大全| 久久综合激情网| 亚洲三级网站| 亚洲中文字幕97久久精品少妇| 国产黄色视频综合| 91无码视频在线观看| 亚洲国产成人久久精品软件| 综合色区亚洲熟妇在线| 福利在线免费视频| 色亚洲激情综合精品无码视频| 国产地址二永久伊甸园| 91麻豆精品国产91久久久久| 欧美在线一级片| 欧美一区精品| 极品私人尤物在线精品首页| AV不卡国产在线观看| 亚洲AV成人一区二区三区AV| 国产91视频免费观看| 亚洲—日韩aV在线| 国产无码精品在线| 亚洲人成网站观看在线观看| 精品久久久久久中文字幕女| 精品国产www| 日韩亚洲综合在线| 国产福利小视频高清在线观看| 91香蕉视频下载网站| 亚洲精品日产AⅤ| 国产本道久久一区二区三区| 色精品视频| 国产精品一线天| 一级黄色欧美| 国产成人精品高清在线| 国内自拍久第一页| 亚洲人成网站色7799在线播放| 在线观看热码亚洲av每日更新| 久久福利网| 色九九视频| 欧美日本在线观看| 久久性妇女精品免费| 国产精品v欧美| 国产99热| 四虎在线观看视频高清无码 | 亚洲午夜天堂| 99国产精品免费观看视频| 综合久久五月天| 夜精品a一区二区三区| 免费一极毛片| 亚洲有码在线播放| 色偷偷一区二区三区| 国产内射在线观看| a毛片基地免费大全| 亚洲午夜福利在线| 中文字幕1区2区| 亚洲VA中文字幕| 欧美亚洲日韩不卡在线在线观看| 色综合天天操| 亚洲第一综合天堂另类专| 国产高潮流白浆视频| 亚洲视频一区在线| 欧洲亚洲欧美国产日本高清| 国产综合精品日本亚洲777| 日本一本在线视频| 国产欧美日韩综合在线第一| 欧美精品成人一区二区视频一|