999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于R語言爬蟲對Illumina接頭序列的挖掘

2019-06-10 09:31:49柏程思
科技創新導報 2019年5期

柏程思

摘 ? 要:當前生物信息學過濾測序接頭序列的軟件不能涵蓋所有Illumina測序平臺的接頭序列。這樣造成了分析NGS數據平臺的局限性。本文通過R語言編程利用爬蟲技術對Illumina質控文件的分析,挖掘所有不能被過濾軟件識別的接頭序列。

關鍵詞:生物信息學 ?R語言編程 ?爬蟲 ?Illumina測序

中圖分類號:Q811.4 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻標識碼:A ? ? ? ? ? ? ? ? ? ? ? 文章編號:1674-098X(2019)02(b)-0136-02

當前生物信息測序領域中,Illumina公司屬于二代測序的壟斷公司。其開發的Illumina Hiseq、Illumina Miseq、Illumina GAII等平臺已經是流行于全世界。絕大多數分子生物學、基因組學和細胞生物學實驗室都在使用Illumina平臺測序。

在二代測序的分析流程中,拿到的數據是FASTQ數據,需要先對數據進行質量控制。質量控制通常是使用FastQC軟件對FASTQ數據進行分析,判斷測序數據是否具有高質量。如果質量低,則不支持后續生物信息學分析,需要過濾。通常情況下,由于測序儀機器的誤差,從測序儀下機的數據都或多或少有低質量的序列,這些低質量需要有的是堿基質量低,有的是測序接頭未去掉(盡管Illumina大多數測序平臺的測序儀在2013年以后能保證數據下機自動去接頭,但是部分測序平臺依然不能自動去接頭)。需要過濾,而過濾使用的軟件一般為Trimmomatic軟件。但是Trimmomatic軟件過濾使用的文件是自身adapter文件夾中自帶的Truseq文件過濾測序的接頭,而這些接頭文件只包含了Hiseq、Miseq和GAII測序平臺的接頭文件,沒有包括全部的接頭文件。未去接頭的序列在質控結果中可以將接頭序列以Overrepresent形式表示出來。所以,如果我們測序時選擇的測序平臺不能自動下機去接頭,我們需要手動自己去接頭。爬蟲是利用計算機技術對網絡數據的挖掘,因為互聯網數據基本都是儲存在網絡服務器中,網絡服務器末端端口是用戶。用戶可以通過網頁訪問網絡服務器,網頁是由HTML語言搭建的可視化端口。HTML是HyperText Markup Language(超文本標記語言)的縮寫,這個語言使用<標簽>內容基本格式進行網頁編輯[1]。例如

This is how to use HTML

The way to use HTML

You can learn it

將上面這個代碼復制到一個新建TXT文本中,并將后綴命名為.html,雙擊該文件打開會出現以下內容(見圖1)。

1 ?分析方法

FASTQC軟件輸出的質控結果就有HTML本地文件,如果出現了接頭序列就會在Overrepresent中出現,Overrepresent有其對應的HTML標簽。R語言[2-3]可以通過追溯內容所在的標簽追溯到內容,這個追溯內容的路徑稱之為xpath,最后通過正則表達式篩選我們要的內容即可。首先在Linux系統上存放測序數據的路徑(該路徑中只能含有測序數據文件)下使用命令fastqc `ls $pwd`,然后下載輸出的HTML文件。先用網頁查看是否有接頭序列,再用Notepad++打開文件找接頭序列所在的xpath(見圖2)。

編寫如下R語言代碼

library(rvest)

library(stringi)

setwd("D:/test/fastQC")

myQCfile<-dir("D:/test/fastQC")

truseqindex<-NULL

for (i in 1:length(myQCfile)) {

qc<-read_html(myQCfile[i])

a<-qc%>%

html_nodes(xpath = "http://tr/td")%>%

html_text()

b<-NULL

for (j in 1:length(a)) {

if(grepl(a[j],pattern = "(TruSeq|Primer)")){b<-c(b,a[j-3],a[j])} }

truseqindex<-c(truseqindex,b)}

2 ?結語

我們開發的挖掘當前過濾軟件無法過濾的接頭腳本更具有實用性,可以適用于所有NGS數據分析過濾腳本。使分析結果更具有可靠性。

參考文獻

[1] 鄧子云.爬蟲系統中標簽刪除功能的設計及優化[J].計算機系統應用,2019,28(1):176-181.

[2] 許慶煒.B語言—生物信息學可視化流程語言[J].計算機與數字工程,2009,37(5):90-93.

[3] 吳棟楊. 構建基于R語言的生物信息學研究平臺[A].第十次中國生物物理學術大會論文摘要集[C].中國生物物理學會,2006:1.

主站蜘蛛池模板: 国产一区二区三区日韩精品| 中文字幕免费视频| 无码福利视频| 强奷白丝美女在线观看| 91人妻在线视频| 蝌蚪国产精品视频第一页| 欧美日韩在线国产| 999福利激情视频| 亚洲午夜国产精品无卡| 不卡的在线视频免费观看| 国产伦精品一区二区三区视频优播| 亚洲综合第一页| 国产成人精品综合| 欧美日韩专区| 999在线免费视频| 国产精女同一区二区三区久| 国模极品一区二区三区| 久久毛片网| 久久无码av一区二区三区| 亚洲欧州色色免费AV| 日本午夜视频在线观看| 久久久黄色片| a毛片在线免费观看| 亚洲A∨无码精品午夜在线观看| 999精品视频在线| 71pao成人国产永久免费视频 | 色欲色欲久久综合网| 欧美国产日韩一区二区三区精品影视| 在线看片中文字幕| 国产欧美日韩在线在线不卡视频| 国产十八禁在线观看免费| 日本道中文字幕久久一区| 亚洲色精品国产一区二区三区| 国内毛片视频| 亚洲三级影院| 日本高清有码人妻| 青青操国产视频| 亚洲AⅤ无码国产精品| 精品国产福利在线| 色综合天天娱乐综合网| 青青国产在线| 天天操天天噜| 妇女自拍偷自拍亚洲精品| 日韩激情成人| 亚洲人成网7777777国产| 国产人成在线视频| 久久人体视频| 拍国产真实乱人偷精品| 91啦中文字幕| 国产免费黄| 91成人在线观看视频| 99九九成人免费视频精品| 尤物午夜福利视频| 国产成人区在线观看视频| 欧美亚洲香蕉| 亚洲天堂精品在线| 精品第一国产综合精品Aⅴ| 九九热这里只有国产精品| 中文字幕 欧美日韩| 国产成人资源| 真实国产精品vr专区| 国产成人1024精品| 99热国产这里只有精品9九| 亚洲精品麻豆| 福利在线免费视频| 性欧美精品xxxx| 欧美三级日韩三级| 国产精品99r8在线观看| 亚洲欧美在线综合图区| 亚洲日韩每日更新| 国产精品香蕉在线| 国产成人综合在线视频| 国产h视频在线观看视频| 国产欧美视频一区二区三区| 欧美成一级| 国产手机在线ΑⅤ片无码观看| 久久婷婷国产综合尤物精品| 国产高清自拍视频| 亚洲国产午夜精华无码福利| 国产免费自拍视频| 国产成人AV综合久久| 亚洲欧美日韩久久精品|