999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于腫瘤異質(zhì)性的讀段仿真工具設(shè)計方法研究

2019-03-28 11:57:48耿彧白濤
現(xiàn)代商貿(mào)工業(yè) 2019年3期

耿彧 白濤

摘?要:高通量基因測序因具有費(fèi)用更低、通量更高、速度更快的技術(shù)特點(diǎn)得以迅猛發(fā)展,不同測序平臺高質(zhì)量仿真數(shù)據(jù)的產(chǎn)生有利于生物學(xué)研究。設(shè)計了一種適用于腫瘤異質(zhì)性的讀段仿真工具,能夠真實(shí)反映腫瘤內(nèi)復(fù)雜克隆結(jié)構(gòu),并可實(shí)現(xiàn)各種結(jié)構(gòu)類型及不同測序平臺數(shù)據(jù),研究者可根據(jù)自身研究環(huán)境以及測序數(shù)據(jù)類型的特異性,產(chǎn)生合適的仿真數(shù)據(jù),為腫瘤研究奠定實(shí)驗(yàn)基礎(chǔ)。

關(guān)鍵詞:腫瘤異質(zhì)性;克隆結(jié)構(gòu);仿真工具

中圖分類號:TB?文獻(xiàn)標(biāo)識碼:Adoi:10.19311/j.cnki.1672-3198.2019.03.096

1?引言

目前,腫瘤是急待解決的全球性醫(yī)學(xué)難題。腫瘤基因組學(xué)可從基因水平上挖掘腫瘤發(fā)病機(jī)理,深入理解克隆演變過程,為尋求耙向診療提供理論依據(jù)。高通量測序技術(shù)的飛速發(fā)展使得各種測序平臺產(chǎn)生海量的讀段數(shù)據(jù),為腫瘤基因組學(xué)奠定了研究基礎(chǔ)。通常,實(shí)際情況在真實(shí)數(shù)據(jù)中是未知的,但仿真數(shù)據(jù)卻可直接測試結(jié)果。運(yùn)用仿真工具模擬真實(shí)數(shù)據(jù),不僅可充分體現(xiàn)真實(shí)數(shù)據(jù)的特征,減少成本,而且可以對數(shù)據(jù)的某一特性進(jìn)行獨(dú)立分析,通過參數(shù)調(diào)整更好的評價算法性能。因此,采用合理有效的仿真數(shù)據(jù)不僅能夠驗(yàn)證理論假設(shè)和模型有效性,而且為理論模型應(yīng)用于實(shí)踐提供了有力的支持。

目前,各種類型的讀段仿真工具相繼被提出,分別適用于基因組、宏基因組、轉(zhuǎn)錄組和外顯子組等研究領(lǐng)域。其中,單基因組的仿真工具有來自于samtools軟件包的Wgsim,錯誤模型服從均勻分布;ART依據(jù)真實(shí)數(shù)據(jù)集產(chǎn)生具有上下文相關(guān)的錯誤模型;pIRS和ArtificialFastqGenerator基于GC含量進(jìn)行覆蓋度的模型化設(shè)計。MetaSim、GemSIM、Grinder和NeSSM可指定物種的豐度來實(shí)現(xiàn)宏基因組的數(shù)據(jù)仿真。PBSIM對PacBio數(shù)據(jù)集進(jìn)行分析,能產(chǎn)生適合第三代測序平臺的長讀段仿真數(shù)據(jù)。GENOME、FREGENE和FIGG考慮重組率和群體演變歷史,可實(shí)現(xiàn)群體全基因組仿真。Wessim主要針對外顯子區(qū)域進(jìn)行數(shù)據(jù)仿真。盡管已有的仿真工具對各種測序平臺產(chǎn)生的真實(shí)數(shù)據(jù)仿真效果頗佳,然而它們不能充分體現(xiàn)多級繼承結(jié)構(gòu)的數(shù)據(jù)特性。由此,本文設(shè)計了腫瘤基因組的仿真工具,TNSim,主要分析癌克隆中存在的多級克隆分布情況,形成合成的測序讀估,有助于對癌癥的克隆性及腫瘤異質(zhì)性進(jìn)行有效分析,并與已有的幾種仿真工具針對克隆繼承性進(jìn)行了仿真性能比較。

2?方法

在Peter Nowell提出的CE理論模型中指出腫瘤發(fā)展的動態(tài)性,在治療中的抗藥性和選擇壓力下,不斷地分化出新的子克隆,而每種克隆又具有獨(dú)特遺傳變異特性,使得個體腫瘤發(fā)展具有異質(zhì)性,克隆性及克隆進(jìn)化模式成為理解腫瘤進(jìn)展的關(guān)鍵。因此,對腫瘤中復(fù)雜克隆結(jié)構(gòu)的讀段仿真成為了必然需求。TNSim由兩個階段組成,開發(fā)實(shí)現(xiàn)了一套完整的多級克隆結(jié)構(gòu)仿真軟件包,包括正常細(xì)胞數(shù)據(jù)發(fā)生器生成(NorSim)、腫瘤細(xì)胞數(shù)據(jù)發(fā)生器生成(TumSim)、Reads數(shù)據(jù)生成器(ReadGen)。

第一階段設(shè)定正常細(xì)胞與腫瘤細(xì)胞樣本中變異位點(diǎn)及類型,明確變異間繼承關(guān)系,使具有上下級繼承關(guān)系的子克隆等位基因變化頻率的多態(tài)性保持不變,保證每一級子克隆新產(chǎn)生的變異情況不與其它子克隆的變異情況發(fā)生沖突,即克隆之間具有互斥關(guān)系。通過生成索引文件記錄克隆的位置變化信息,來有效地解決多個克隆之間的變異位點(diǎn)互斥問題。

腫瘤組織中既有遺傳變異,又有與疾病密切相關(guān)的體細(xì)胞變異,因此近來絕大多數(shù)研究都是聯(lián)合分析正常細(xì)胞和腫瘤組織,為了使所有的變異位點(diǎn)避免沖突,具有唯一性且保證繼承性,由讀段仿真器首先產(chǎn)生正常細(xì)胞和各級克隆的sim文件,此文件中采用64位無符號數(shù)標(biāo)識量記錄變異位點(diǎn)信息,此標(biāo)識量在數(shù)據(jù)結(jié)構(gòu)層面僅為一個整型數(shù)值,卻可以解析出描述一個變異所需的全部信息,包括位點(diǎn)、變異類型、基因型和其他屬性,節(jié)約存儲空間,提高計算效率。工作流程如圖1所示。

第二階段為生成仿真數(shù)據(jù)階段,根據(jù)正常細(xì)胞和腫瘤細(xì)胞中子克隆各自的sim文件,形成包括各種變異情況的仿真環(huán)境并完成讀段隨機(jī)采集,在正反鏈上隨機(jī)生成指定長度的讀段文件(*.fq文件),該工具同時支持單末端讀段和雙末端讀段采集以及單體型序列的生成,其中雙末端讀段的插入距離符合正態(tài)分布。對于皮膚癌等腫瘤細(xì)胞具有局部變異率增高的特性,TNSim可以在任意位置設(shè)置任意長度區(qū)域的不同變異頻率。此外,可按著實(shí)際的需求調(diào)整來自于不同細(xì)胞和子克隆的覆蓋度構(gòu)成比例,由于變異位點(diǎn)在數(shù)據(jù)發(fā)生器中單獨(dú)生成的,所以不會改變原有已生成的各自變異位點(diǎn)信息。TNSim還可以生成各種類型的變異,包括單點(diǎn)變異、短插入/缺失型結(jié)構(gòu)變異、長插入/缺失型結(jié)構(gòu)變異、串聯(lián)重復(fù)型結(jié)構(gòu)變異、倒置型結(jié)構(gòu)變異、缺失-插入型復(fù)雜結(jié)構(gòu)變異。

3?實(shí)驗(yàn)分析

為了驗(yàn)證TNSim工具生成的具有腫瘤異質(zhì)性的仿真數(shù)據(jù)可靠性,隨機(jī)選取人類基因組中的一條染色體作為參考序列,去除標(biāo)識為“N”的無法確定的字符。設(shè)置正常細(xì)胞樣本的變異率為10-3,腫瘤細(xì)胞樣本的變異率為10-4。采用Wgsim、SInC、pRIS與TumorSim四種仿真方法實(shí)現(xiàn)克隆結(jié)構(gòu)仿真數(shù)據(jù)的對比分析,進(jìn)一步驗(yàn)證TNSim的實(shí)用性與有效性,如圖2所示。選取美國腫瘤基因組路線圖計劃的三例腫瘤樣本(AML、BRCA、UCEC),編號分別為AB-2968、BH-A18P和B5-A0JV。原圖為發(fā)表在Nature上的亞克隆真實(shí)情況結(jié)果分布圖,Wgsim、SInC、pRIS和TNSim根據(jù)已知的變異數(shù)據(jù)和參數(shù),采用相同的數(shù)據(jù)分析流程得到各自的仿真結(jié)果。從圖可見,Wgsim、SInC、pRIS都存在不同程度的峰值偏移和假陽性峰值問題,具有仿真誤差。與之相比,TNSim基本不存在峰值偏移的問題,假陽性峰也相對最少。實(shí)驗(yàn)表明,TNSim更能真實(shí)的仿真腫瘤克隆結(jié)構(gòu)及演變模式,更利于腫瘤異質(zhì)性研究中的模型驗(yàn)證。

4?結(jié)論

腫瘤演變中蘊(yùn)含著不同層級的子克隆,各克隆間互為依存、相互影響,呈現(xiàn)繼承性與變異性共存,具有高度異質(zhì)性的特點(diǎn),群體遺傳進(jìn)化過程中也存在類似特征。研究腫瘤演變和群體進(jìn)化過程都需要多級結(jié)構(gòu)的仿真數(shù)據(jù),針對演變進(jìn)化中的多級結(jié)構(gòu)特性及異質(zhì)性特點(diǎn),專門設(shè)計了仿真工具,利用位點(diǎn)標(biāo)志量設(shè)定變異相關(guān)的類型、位置、繼承關(guān)系并形成讀段仿真數(shù)據(jù),充分展現(xiàn)了克隆或樣本之間保持相同等位基因變異頻率的多層級繼承關(guān)系。不僅適用于多級克隆結(jié)構(gòu)的數(shù)據(jù)仿真,也能實(shí)現(xiàn)普通的讀段數(shù)據(jù)仿真。為驗(yàn)證模型和算法的有效性提供依據(jù)。

參考文獻(xiàn)

[1]Kandoth C,McLellan MD,Vandin F,et al.Mutational landscape and significance across 12 major cancer types[J].Nature,2013,502(7471):333-339.

[2]Li,H.et al.The Sequence Alignment/Map format and SAMtools[J].Bioinformatics,2009,(25),2078-2079.

[3]Pattnaik et al.SInC:an accurate and fast error-model based simulator for SNPs,Indels and CNVs coupled with a read generator for short-read sequence[J].BMC Bioinformatics,2014,(15):40.

[4]Hu X,Yuan J,Shi Y,Lu J,Liu B,et al.pIRS:Profile-based Illumina pairend Reads Simulator[J].Bioinformatics,2012,(28):1533-1535.

主站蜘蛛池模板: 性色生活片在线观看| 免费在线看黄网址| 国产激情在线视频| 日韩亚洲综合在线| 久久99精品久久久久久不卡| 久久精品一品道久久精品| 国产不卡国语在线| 麻豆国产在线观看一区二区 | 精品久久久久成人码免费动漫| 亚洲娇小与黑人巨大交| 国产成人亚洲毛片| Jizz国产色系免费| 亚洲福利视频一区二区| 久久无码av三级| 青青草原国产一区二区| 日本不卡在线播放| 九九香蕉视频| 久久精品国产亚洲麻豆| 一级毛片基地| 最新加勒比隔壁人妻| 福利一区在线| 国产性爱网站| 欧美激情福利| 国产99免费视频| 国产va欧美va在线观看| 亚洲天堂福利视频| 无码精油按摩潮喷在线播放| 激情乱人伦| 一级毛片视频免费| 久久精品国产在热久久2019| 亚洲欧美另类日本| 国产在线精品99一区不卡| 欧美v在线| 美臀人妻中出中文字幕在线| 114级毛片免费观看| 亚洲欧美综合另类图片小说区| 99久久精品国产麻豆婷婷| 欧美中文字幕一区二区三区| 一级全黄毛片| 国产自在线拍| 国产成人精品视频一区二区电影| 欧美日韩国产在线播放| 国产va免费精品观看| 亚洲美女一区二区三区| 亚洲男女天堂| 青青热久麻豆精品视频在线观看| 四虎AV麻豆| 欧美爱爱网| 制服丝袜一区| 凹凸精品免费精品视频| 亚洲自偷自拍另类小说| 日韩国产无码一区| 天天综合网色中文字幕| 自偷自拍三级全三级视频 | 欧美无遮挡国产欧美另类| 亚洲国产精品日韩欧美一区| a欧美在线| 在线观看免费人成视频色快速| 精品视频在线一区| 欧美无专区| 三上悠亚一区二区| 国产成熟女人性满足视频| 欧美精品一二三区| 亚洲欧美日韩综合二区三区| 狠狠色丁香婷婷| 极品国产一区二区三区| 日韩高清中文字幕| 午夜视频免费一区二区在线看| 欧美一级大片在线观看| 国产一二三区视频| 久久久久青草大香线综合精品 | 亚洲天堂日本| 久久国产拍爱| 99青青青精品视频在线| 2021国产乱人伦在线播放| 手机在线看片不卡中文字幕| 青青热久麻豆精品视频在线观看| 无码日韩精品91超碰| 22sihu国产精品视频影视资讯| www精品久久| 伊人成人在线| 精品无码国产自产野外拍在线|