999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于R語言爬蟲對(duì)Illumina接頭序列的挖掘

2019-06-10 09:31:49柏程思

柏程思

摘 ? 要:當(dāng)前生物信息學(xué)過濾測(cè)序接頭序列的軟件不能涵蓋所有Illumina測(cè)序平臺(tái)的接頭序列。這樣造成了分析NGS數(shù)據(jù)平臺(tái)的局限性。本文通過R語言編程利用爬蟲技術(shù)對(duì)Illumina質(zhì)控文件的分析,挖掘所有不能被過濾軟件識(shí)別的接頭序列。

關(guān)鍵詞:生物信息學(xué) ?R語言編程 ?爬蟲 ?Illumina測(cè)序

中圖分類號(hào):Q811.4 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A ? ? ? ? ? ? ? ? ? ? ? 文章編號(hào):1674-098X(2019)02(b)-0136-02

當(dāng)前生物信息測(cè)序領(lǐng)域中,Illumina公司屬于二代測(cè)序的壟斷公司。其開發(fā)的Illumina Hiseq、Illumina Miseq、Illumina GAII等平臺(tái)已經(jīng)是流行于全世界。絕大多數(shù)分子生物學(xué)、基因組學(xué)和細(xì)胞生物學(xué)實(shí)驗(yàn)室都在使用Illumina平臺(tái)測(cè)序。

在二代測(cè)序的分析流程中,拿到的數(shù)據(jù)是FASTQ數(shù)據(jù),需要先對(duì)數(shù)據(jù)進(jìn)行質(zhì)量控制。質(zhì)量控制通常是使用FastQC軟件對(duì)FASTQ數(shù)據(jù)進(jìn)行分析,判斷測(cè)序數(shù)據(jù)是否具有高質(zhì)量。如果質(zhì)量低,則不支持后續(xù)生物信息學(xué)分析,需要過濾。通常情況下,由于測(cè)序儀機(jī)器的誤差,從測(cè)序儀下機(jī)的數(shù)據(jù)都或多或少有低質(zhì)量的序列,這些低質(zhì)量需要有的是堿基質(zhì)量低,有的是測(cè)序接頭未去掉(盡管Illumina大多數(shù)測(cè)序平臺(tái)的測(cè)序儀在2013年以后能保證數(shù)據(jù)下機(jī)自動(dòng)去接頭,但是部分測(cè)序平臺(tái)依然不能自動(dòng)去接頭)。需要過濾,而過濾使用的軟件一般為Trimmomatic軟件。但是Trimmomatic軟件過濾使用的文件是自身adapter文件夾中自帶的Truseq文件過濾測(cè)序的接頭,而這些接頭文件只包含了Hiseq、Miseq和GAII測(cè)序平臺(tái)的接頭文件,沒有包括全部的接頭文件。未去接頭的序列在質(zhì)控結(jié)果中可以將接頭序列以O(shè)verrepresent形式表示出來。所以,如果我們測(cè)序時(shí)選擇的測(cè)序平臺(tái)不能自動(dòng)下機(jī)去接頭,我們需要手動(dòng)自己去接頭。爬蟲是利用計(jì)算機(jī)技術(shù)對(duì)網(wǎng)絡(luò)數(shù)據(jù)的挖掘,因?yàn)榛ヂ?lián)網(wǎng)數(shù)據(jù)基本都是儲(chǔ)存在網(wǎng)絡(luò)服務(wù)器中,網(wǎng)絡(luò)服務(wù)器末端端口是用戶。用戶可以通過網(wǎng)頁訪問網(wǎng)絡(luò)服務(wù)器,網(wǎng)頁是由HTML語言搭建的可視化端口。HTML是HyperText Markup Language(超文本標(biāo)記語言)的縮寫,這個(gè)語言使用<標(biāo)簽>內(nèi)容基本格式進(jìn)行網(wǎng)頁編輯[1]。例如

This is how to use HTML

The way to use HTML

You can learn it

將上面這個(gè)代碼復(fù)制到一個(gè)新建TXT文本中,并將后綴命名為.html,雙擊該文件打開會(huì)出現(xiàn)以下內(nèi)容(見圖1)。

1 ?分析方法

FASTQC軟件輸出的質(zhì)控結(jié)果就有HTML本地文件,如果出現(xiàn)了接頭序列就會(huì)在Overrepresent中出現(xiàn),Overrepresent有其對(duì)應(yīng)的HTML標(biāo)簽。R語言[2-3]可以通過追溯內(nèi)容所在的標(biāo)簽追溯到內(nèi)容,這個(gè)追溯內(nèi)容的路徑稱之為xpath,最后通過正則表達(dá)式篩選我們要的內(nèi)容即可。首先在Linux系統(tǒng)上存放測(cè)序數(shù)據(jù)的路徑(該路徑中只能含有測(cè)序數(shù)據(jù)文件)下使用命令fastqc `ls $pwd`,然后下載輸出的HTML文件。先用網(wǎng)頁查看是否有接頭序列,再用Notepad++打開文件找接頭序列所在的xpath(見圖2)。

編寫如下R語言代碼

library(rvest)

library(stringi)

setwd("D:/test/fastQC")

myQCfile<-dir("D:/test/fastQC")

truseqindex<-NULL

for (i in 1:length(myQCfile)) {

qc<-read_html(myQCfile[i])

a<-qc%>%

html_nodes(xpath = "http://tr/td")%>%

html_text()

b<-NULL

for (j in 1:length(a)) {

if(grepl(a[j],pattern = "(TruSeq|Primer)")){b<-c(b,a[j-3],a[j])} }

truseqindex<-c(truseqindex,b)}

2 ?結(jié)語

我們開發(fā)的挖掘當(dāng)前過濾軟件無法過濾的接頭腳本更具有實(shí)用性,可以適用于所有NGS數(shù)據(jù)分析過濾腳本。使分析結(jié)果更具有可靠性。

參考文獻(xiàn)

[1] 鄧子云.爬蟲系統(tǒng)中標(biāo)簽刪除功能的設(shè)計(jì)及優(yōu)化[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2019,28(1):176-181.

[2] 許慶煒.B語言—生物信息學(xué)可視化流程語言[J].計(jì)算機(jī)與數(shù)字工程,2009,37(5):90-93.

[3] 吳棟楊. 構(gòu)建基于R語言的生物信息學(xué)研究平臺(tái)[A].第十次中國生物物理學(xué)術(shù)大會(huì)論文摘要集[C].中國生物物理學(xué)會(huì),2006:1.

主站蜘蛛池模板: 干中文字幕| 亚洲国产成人无码AV在线影院L| 亚洲视频一区| 内射人妻无码色AV天堂| 亚洲一级毛片在线观| 伊人久久福利中文字幕| 久草性视频| 日韩黄色大片免费看| 欧美亚洲日韩中文| 久久黄色免费电影| 97狠狠操| 日本黄网在线观看| 99精品免费在线| 伊人中文网| 日韩精品专区免费无码aⅴ| 色综合成人| 天堂av综合网| 日韩国产无码一区| 国产成人1024精品下载| 国产成人久视频免费| 欧美一级专区免费大片| 亚洲男女在线| 伊人色婷婷| 中文字幕永久视频| 日韩在线播放欧美字幕| 欧美日本中文| 欧美区国产区| 国产一级毛片高清完整视频版| 老司机精品一区在线视频| 九九热在线视频| 激情乱人伦| 国产一区成人| 人妻丝袜无码视频| 国产91九色在线播放| 国产在线拍偷自揄拍精品| 日韩最新中文字幕| 久久99久久无码毛片一区二区| 视频二区中文无码| 日韩天堂视频| 日韩大乳视频中文字幕| 正在播放久久| av免费在线观看美女叉开腿| 久久99热66这里只有精品一| 久久香蕉国产线看观看精品蕉| 婷婷综合色| 国产精品久久久久久影院| 国产成人综合亚洲网址| 国产麻豆福利av在线播放| 成人午夜视频免费看欧美| 国产视频久久久久| 成人综合久久综合| 久久久久亚洲精品成人网 | аⅴ资源中文在线天堂| 亚洲首页在线观看| 国产成人乱无码视频| 中文字幕在线观看日本| 久久人搡人人玩人妻精品一| 精品91自产拍在线| 美女视频黄频a免费高清不卡| 激情国产精品一区| 一本大道香蕉中文日本不卡高清二区| 一本大道香蕉久中文在线播放| 日韩123欧美字幕| 不卡网亚洲无码| 99激情网| 98精品全国免费观看视频| 视频国产精品丝袜第一页| 国产日韩久久久久无码精品| 国产精品美女网站| 欧美日韩精品一区二区视频| 农村乱人伦一区二区| 欧美专区日韩专区| 日韩高清欧美| 日韩成人高清无码| 国产精品性| 色综合日本| 国产高潮视频在线观看| 色偷偷男人的天堂亚洲av| 99精品在线看| 中文字幕在线看| 精品国产网| av色爱 天堂网|