999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

三周期性優(yōu)選下的蛋白質(zhì)表達(dá)區(qū)域預(yù)測算法研究?

2019-10-08 07:12:18夏盛瑜辛月振陸志卿
關(guān)鍵詞:區(qū)域

夏盛瑜 辛月振 陸志卿

(中國石油大學(xué)(華東)計(jì)算機(jī)與通信工程學(xué)院 青島 266000)

1 引言

DNA序列中帶有遺傳效應(yīng)的片段稱為基因,是遺傳的結(jié)構(gòu)和功能單位。真核生物的DNA序列中,如果把基因劃分成許多分開的片段,那么把能夠編碼蛋白質(zhì)的序列即基因的編碼區(qū),稱作外顯子;把不能編碼蛋白質(zhì)的基因序列稱為內(nèi)含子。序列要經(jīng)過剪接、轉(zhuǎn)錄、復(fù)制過程才能合成蛋白質(zhì)。而在合成蛋白質(zhì)的過程中,外顯子攜帶的遺傳信息卻得保存,準(zhǔn)確地將遺傳信息轉(zhuǎn)遞到蛋白質(zhì)中,并參與指示各項(xiàng)生命活動(dòng)。對編碼區(qū)和非編碼區(qū)的預(yù)測是基因預(yù)測的關(guān)鍵[1]。

弄清整個(gè)DNA序列中每一段基因所攜帶的遺傳訊息對后續(xù)研究工作的進(jìn)行起著關(guān)鍵作用,同時(shí)這也是人類研究的起初目的所在。由于真核生物的外顯子和內(nèi)含子之間缺乏明顯的特征,基因組的蛋白質(zhì)編碼區(qū)域通常不連續(xù)[2]。

而原核生物,其蛋白質(zhì)編碼區(qū)域相當(dāng)于真核生物的外顯子區(qū)域。原核生物的基因預(yù)測已經(jīng)有較多方法。總體可分為:1)基于同源性搜索的外部算法,稱為間接遺傳識別方法。現(xiàn)在最流行的序列對齊工具是FASTA和BLAST[3]。2)基于內(nèi)在統(tǒng)計(jì)預(yù)測的算法。這種搜尋基因的方法與模式識別非常相似,分為基于隱式馬爾科夫模型的經(jīng)典的原核識別方法和基于神經(jīng)網(wǎng)絡(luò)的算法和基于曲線辨識分析的算法。3)混合法。它是內(nèi)在算法和外部算法的組合。

根據(jù)3堿基周期理論,大多數(shù)外顯子序列具有3堿基周期性,而內(nèi)含子序列沒有這個(gè)獨(dú)特的特征。傳統(tǒng)的三期分析方法將基因序列映射成數(shù)字序列,而蛋白質(zhì)編碼區(qū)域往往顯示出較為明顯的峰值。3周期性分析結(jié)合先驗(yàn)生物學(xué)知識,對預(yù)測結(jié)果有很好的解釋。此外,功率譜分析方法具有良好的性能和良好的穩(wěn)定性,因?yàn)樾枰绕渌椒ǜ俚膮?shù),可以滿足個(gè)人需要[5]。王其強(qiáng)利用三周期性對抑癌基因方面做了建模和算法分析[9]。最近,有學(xué)者利用韋爾奇函數(shù)法進(jìn)一步完善了現(xiàn)有的功率譜分析方法,并提出了一種更有效的三次循環(huán)判斷模型,并利用K-means聚類[17]和相關(guān)分析與3堿基周期結(jié)。因此信號處理方法也可用于基因組DNA研究,因?yàn)樗鼈兛梢宰R別常規(guī)統(tǒng)計(jì)學(xué)方法無法檢測的隱藏特征。將DNA序列轉(zhuǎn)換為數(shù)字信號后,可以應(yīng)用一些信號處理策略。作為生物蛋白序列的典型特征,V.R.Chechetkin于1995年已經(jīng)對傅里葉諧波的大小和3堿基周期性的依賴關(guān)系做了討論[4]。

在文中提出了一種可擴(kuò)展的3堿基周期性預(yù)測方法來預(yù)測基因組蛋白編碼區(qū)的優(yōu)化方法。通過傅立葉分析,DNA序列轉(zhuǎn)化為信號量。根據(jù)NCBI庫中的實(shí)驗(yàn)驗(yàn)證蛋白質(zhì)數(shù),利用滑動(dòng)窗口預(yù)測初始滑動(dòng)框大小和閾值。對結(jié)果進(jìn)行比較和篩選以縮小預(yù)測區(qū)域,然后使用可擴(kuò)展滑動(dòng)窗口策略來提高預(yù)測精度。

2 相關(guān)知識

2.1 三周期性

基因在編碼蛋白質(zhì)時(shí)是通過64個(gè)三聯(lián)碼(其中包含3個(gè)終止子)來確定20種氨基酸,蛋白質(zhì)編碼區(qū)具有周期3行為正是基于三聯(lián)碼的緣故[15]。即使許多外顯子不具有周期三行為,但將它們連在一起編碼蛋白質(zhì)時(shí)大都表現(xiàn)出周期三行為。三周期行為可以表述為:將基因序列映射成數(shù)字序列,蛋白質(zhì)編碼區(qū)域往往顯示出較為明顯的峰值,這個(gè)峰值往往出現(xiàn)在序列的1/3和2/3處,而非編碼區(qū)和隨機(jī)序列則表現(xiàn)為無規(guī)則序列[16]。

由于直接處理DNA序列很困難,需要將DNA序列轉(zhuǎn)化為數(shù)字信號,通過數(shù)值方法更方便處理DNA序列。這里使用的是Voss方法[7]。令S為基于長度為N的符號集I的DNA序列,其中I={A,T,C,G}。 DNA 序列 S可以由 S:S[0],S[1],…,S[N-1]表示,其中S[i]∈I。對于任何確定b∈I。

二進(jìn)制序列uA(n),uT(n),uC(n),uG(n)的A,T,C和G的不論存在或不存在都可以在序列的第n位表示出來。

離散傅立葉變換(DFT)中,可以將信號序列轉(zhuǎn)換為頻域中的一組新值[6]。對于長度為N的信號序列,其DFT定義如下。

在k處的信號的DFT功率譜被定義為

DNA序列的DFT功率譜是其四個(gè)二進(jìn)制指示符序列的功率譜之和。

其中 PA(k),PT(k),PC(k)和 PG(k)是四個(gè)指示符序列 uA(n),uT(n),uC(n),uG(n)的傅里葉功率譜[12]。

2.2 滑動(dòng)窗口

滑動(dòng)窗口是基于DFT的一種優(yōu)化,為了便于區(qū)分和識別功率譜。對于DNA序列S,其指示序列為{ub[n]}。長度M設(shè)置(設(shè)置為3的整數(shù)倍)為固定窗口的長度。對于以n(對于任何n(0≤n≤N-1)為中心的長度為M(n-(M-1)/2,n+(M-1)/2)的序列片段,當(dāng)n接近開始和結(jié)束的DNA序列時(shí),窗口實(shí)際有效長度可能小于M,那么可以有四個(gè)指令序列的 DFT[10]。

那么在M/3處的頻譜值為p(n,M/3)。

最后,使用歸一化處理光譜值的結(jié)果。將結(jié)果除以頻譜的最大值[11]。

3 相基于三周期性的蛋白質(zhì)區(qū)域預(yù)測

3.1 基本外顯子區(qū)域獲取

頻譜圖的基礎(chǔ)為三周期全序列功率圖。在此基礎(chǔ)上的頻譜圖是簡化處理的一種實(shí)驗(yàn)手段。

圖1和圖2分別為實(shí)驗(yàn)中的編碼區(qū)和非編碼區(qū)的3種周期性功率譜的總和曲線。

圖1 編碼區(qū)三周期圖

圖2 非編碼區(qū)三周期圖

通過滑動(dòng)窗口的算法在頻譜中將不斷出現(xiàn)較為明顯的波動(dòng)值,對預(yù)測有很好的幫助,對獲取外顯子區(qū)域是算法的基礎(chǔ)。對于通過滑動(dòng)窗口計(jì)算的長度為N的DNA序列,使用閾值A(chǔ)(用于區(qū)分外顯子和其他編碼區(qū)域),閾值B(用于子區(qū)域的控制長度)和頻譜序列K的子區(qū)域發(fā)現(xiàn)外顯子區(qū)域。為了提高傅里葉變換的效率,本文使用中的快速傅里葉變換[8](FFT)。

外顯子獲取的基本過程如下:

1)使用滑動(dòng)窗口M計(jì)算DNA序列,得到P(n)的光譜序列;

2)設(shè)置K=0;

3)從起始點(diǎn)開始,P(n)與閾值A(chǔ)比較:如果P(n)> A,光譜序列可能區(qū)域K+1;

4)否則:如果光譜序列的子區(qū)域的長度大于閾值B,輸出核苷酸序列;

5)否則:重新計(jì)數(shù)K;

6)增加n,重復(fù)步驟3)到步驟4)。

選取過程中,對各別異常點(diǎn)需要做包容處理,因?yàn)樯飳?shí)驗(yàn)中不可避免的實(shí)驗(yàn)誤差以及生物基因突變和實(shí)驗(yàn)環(huán)境的影響,外顯子區(qū)域的獲取盡量在一定容忍誤差內(nèi)。

在步驟4)中進(jìn)行優(yōu)化:

若P(n)<A,不再立刻重置K,而是暫時(shí)保存K值,判斷之后β個(gè)位點(diǎn)值,若連續(xù)出現(xiàn)P(n)<A情況則重置K,若在β個(gè)位點(diǎn)內(nèi),僅出現(xiàn)δ個(gè)不滿足情況,則此β段也為滿足序列,即當(dāng)前滿足序列長度為K+β。

3.2 可擴(kuò)展的滑動(dòng)窗口

由于基因長度的不確定性,滑動(dòng)窗口的大小應(yīng)該是不相同的,以防止預(yù)測信息的遺漏。對于一個(gè)DNA序列,應(yīng)該使用不同的滑動(dòng)窗口來獲得光譜。通過計(jì)算NCBI中的已知序列獲得滑動(dòng)窗口的大小。不同滑動(dòng)窗口下的序列將使用外顯子預(yù)測來獲得大致的外顯子區(qū)域。小滑動(dòng)窗口的結(jié)果可能包括在大滑動(dòng)窗口的結(jié)果中,因此確定該區(qū)域中外顯子的可能尺寸。下面提出了一種新的優(yōu)化策略:

1)重疊優(yōu)先

重疊率越高意味著外顯子存在的可能性就越大。所以優(yōu)先選擇高度重疊的區(qū)域,然后重疊區(qū)域的順序?qū)⒈缓喜ⅰJ褂迷撔蛄凶鳛閮蓚€(gè)末端的堿基序列和插入片段序列。使用等距滑動(dòng)窗口操作來縮小外顯子區(qū)域。重疊區(qū)域有很多可能性,但在實(shí)際情況中,重疊率并不是很高。當(dāng)有三個(gè)或更多的重疊以滿足條件時(shí),進(jìn)行進(jìn)一步處理。

2)滑動(dòng)框優(yōu)化方法

在獲得高重疊區(qū)域后也就獲得該區(qū)域的滑動(dòng)框范圍,根據(jù)滑動(dòng)框的起始大小,選擇固定的步長對此區(qū)域進(jìn)行不同大小的滑動(dòng)框運(yùn)算[13]。在不同的滑動(dòng)框下獲得的區(qū)域會(huì)逐漸穩(wěn)定,即當(dāng)?shù)竭_(dá)頭尾端點(diǎn)值誤差在某個(gè)閾值范圍內(nèi)時(shí)。在此,若滑動(dòng)框在高重疊區(qū)域的滑動(dòng)框長度取值為[A,B],步長選取x,則需要進(jìn)行(B-A)/x次的的滑動(dòng)框運(yùn)算,當(dāng)高重疊區(qū)域很大時(shí),次數(shù)會(huì)大大增加,影響預(yù)測效果。對此采用二分法思想:每次步長取當(dāng)前滑動(dòng)框長度差值的1/4,1/2,3/4,根據(jù)不同步長下的頭尾端點(diǎn)閾值變化情況選取,可減少滑動(dòng)框的運(yùn)算次數(shù)。

4 實(shí)驗(yàn)結(jié)果

桑黃實(shí)驗(yàn)原始數(shù)據(jù)由中國石油大學(xué)(華東)生物中心提供,測試數(shù)據(jù)為Fasta格式純文本文件。這些文件中的序列大小為初選數(shù)據(jù)為5.4G,測序公司統(tǒng)計(jì)優(yōu)選文本45M,通過本文方法獲取的可能序列與NCBI庫進(jìn)行了比對,其中與Translation elongation factor 1 alpha和ATP synthase subunit a蛋白質(zhì)有較好的匹配度,最高分為356,E值為3e-99,Ident為85%,表明算法有較好的可靠性。整體算法首先預(yù)處理文本數(shù)據(jù);然后選擇閾值(閾值包括滑動(dòng)窗口的大小和外顯子區(qū)分值);通過區(qū)域映射和滑動(dòng)窗口操作DNA序列獲取原始頻譜圖;接著對外顯子區(qū)域進(jìn)行預(yù)測;最后使用可擴(kuò)展的滑動(dòng)框策略縮小預(yù)測區(qū)域直至滿足閾值條件如表1所示(單位是堿基個(gè)數(shù))。

表1 閾值選擇

滑動(dòng)框大小的選取結(jié)合一些先驗(yàn)知識,并結(jié)合NCBI庫中鞘氨醇單胞菌的公開數(shù)據(jù)中已知基因長度進(jìn)行的數(shù)理統(tǒng)計(jì)結(jié)果。在NCBI庫中,通過固定滑動(dòng)窗口分析不同長度的參考序列,并在序列的兩端添加背景序列的固定長度。計(jì)算序列的頭部和尾部的光譜值。光譜如圖3所示。對頭尾光譜的計(jì)算統(tǒng)計(jì)獲得符合實(shí)驗(yàn)要求的閾值。

圖3 頻譜圖中的光譜值

由于NCBI和Uniport等公開數(shù)據(jù)庫中的桑黃基因較短,所以測試桑黃二級產(chǎn)物的Phosphoenolpyruvate carboxylase蛋白質(zhì)ppc基因,888個(gè)氨基酸序列,預(yù)測蛋白質(zhì)編碼區(qū)的閾值為0.2。在大多數(shù)情況下測試結(jié)果表現(xiàn)良好,特別是當(dāng)序列較長時(shí)。在本文中,不使用傳統(tǒng)的經(jīng)驗(yàn)閾值0.4,因?yàn)椴煌纳锞哂胁煌倪z傳結(jié)構(gòu)特征。不同的窗口尺寸,不同的功率譜密度計(jì)算方法也將導(dǎo)致功率譜預(yù)測曲線幅度的變化。因此,經(jīng)驗(yàn)閾值將帶來顯著的預(yù)測偏差(在下圖中背景序列下的起始位點(diǎn)為1000)。

圖4

為了測試提出的方法,本文添加了仿真實(shí)驗(yàn)。從Uniprot數(shù)據(jù)庫中隨機(jī)選擇5種桑黃及其近緣的蛋白質(zhì),并將它們經(jīng)過指定次數(shù)的變異后插入到長的背景序列中。經(jīng)過粗略的外顯子預(yù)測后,不同滑動(dòng)窗口的可能區(qū)域的數(shù)量如下表所示。然后使用端點(diǎn)對齊和合并重疊序列,并選擇了兩個(gè)新的序列,對于新序列1,使用300到100個(gè)堿基長度的等距滑動(dòng)窗口來縮小區(qū)域并刪除了非表達(dá)區(qū)域。對于新序列2,使用等距滑動(dòng)窗從500到200個(gè)堿基長度。根據(jù)頭尾位點(diǎn)反饋信息,選取新的滑動(dòng)框。

表2 背景序列下的測試結(jié)果

最后得到兩個(gè)可能的區(qū)域,預(yù)測結(jié)果與其中一個(gè)插入序列有良好的匹配度。而不經(jīng)過優(yōu)化的算法獲得的初步區(qū)域數(shù)量較多,雖然包含了目標(biāo)序列,但是缺乏實(shí)際應(yīng)用的意義。特別是滑動(dòng)框?yàn)?00和200的序列,其數(shù)量較多,但是只是滑動(dòng)框?yàn)?00的初選結(jié)果的一部分,重疊區(qū)域過多,影響精確度。

5 結(jié)語

本文針對生物的蛋白表達(dá)區(qū)域問題,提出了一種基于3堿基周期性蛋白表達(dá)區(qū)域的優(yōu)化方法。實(shí)驗(yàn)中,功率譜分析方法的算法性能良好,方法所需的各種參數(shù)設(shè)置比其它方法少,穩(wěn)定性好[14]。應(yīng)用通過已知的DNA序列和實(shí)際實(shí)驗(yàn)數(shù)據(jù)的預(yù)測結(jié)果經(jīng)過Blast后,部分結(jié)果數(shù)據(jù)和NCBI中的已知數(shù)據(jù)相符,有些將具有進(jìn)一步驗(yàn)證的生物實(shí)驗(yàn)。通過這些結(jié)果比對,驗(yàn)證此方法能良好地預(yù)測蛋白質(zhì)編碼區(qū)。其中可擴(kuò)展的滑動(dòng)窗口是一個(gè)重要的部分,使用區(qū)域選擇優(yōu)化策略降低數(shù)據(jù)復(fù)雜度,縮小可能區(qū)域。在下一步的研究中,將通過添加自適應(yīng)滑動(dòng)窗口來減少人為的主觀干預(yù),使該方法的預(yù)測精度進(jìn)一步地提高。時(shí)間復(fù)雜度和誤差檢驗(yàn)[18]也是未來優(yōu)化的方向。

猜你喜歡
區(qū)域
分割區(qū)域
探尋區(qū)域創(chuàng)新的密碼
科學(xué)(2020年5期)2020-11-26 08:19:22
基于BM3D的復(fù)雜紋理區(qū)域圖像去噪
軟件(2020年3期)2020-04-20 01:45:18
小區(qū)域、大發(fā)展
商周刊(2018年15期)2018-07-27 01:41:20
論“戎”的活動(dòng)區(qū)域
區(qū)域發(fā)展篇
區(qū)域經(jīng)濟(jì)
關(guān)于四色猜想
分區(qū)域
公司治理與技術(shù)創(chuàng)新:分區(qū)域比較
主站蜘蛛池模板: 国产JIZzJIzz视频全部免费| 日韩精品久久久久久久电影蜜臀| 国产激爽爽爽大片在线观看| 97国产成人无码精品久久久| 凹凸国产分类在线观看| 国产成年女人特黄特色大片免费| 成人亚洲视频| 久久精品这里只有精99品| 8090成人午夜精品| 九九九精品成人免费视频7| 欧美日本在线| 中文字幕人妻无码系列第三区| 日本一区二区不卡视频| 高清不卡一区二区三区香蕉| 国产亚洲视频中文字幕视频 | 亚洲欧美日本国产综合在线| 日韩在线2020专区| 亚洲av无码牛牛影视在线二区| 久久久久88色偷偷| 亚洲国产午夜精华无码福利| 日本成人在线不卡视频| 国产男人天堂| 久久久久久国产精品mv| 国产 日韩 欧美 第二页| 精品免费在线视频| 亚洲成人网在线观看| 直接黄91麻豆网站| a毛片在线播放| 久久精品波多野结衣| 69视频国产| 亚洲成年人片| 亚洲日韩日本中文在线| 一级毛片在线免费视频| 久久国产精品国产自线拍| 乱人伦99久久| 国产伦精品一区二区三区视频优播 | 亚洲第一成网站| 亚洲狠狠婷婷综合久久久久| 亚洲视频一区在线| 欧美精品v| 亚洲综合色婷婷| 国产精品白浆在线播放| AV色爱天堂网| 日韩一区二区三免费高清| 九九热精品免费视频| 色婷婷色丁香| 国产精品v欧美| 国产亚洲视频播放9000| 19国产精品麻豆免费观看| 毛片在线播放a| 热热久久狠狠偷偷色男同| 色噜噜在线观看| 91小视频在线观看| 国产经典在线观看一区| www.99在线观看| 92午夜福利影院一区二区三区| 国产精品毛片一区视频播| 亚洲天堂.com| 深夜福利视频一区二区| 久久五月天国产自| 中文成人在线| 亚洲日本韩在线观看| 天天做天天爱夜夜爽毛片毛片| 干中文字幕| 91精品国产综合久久不国产大片| 这里只有精品在线| 在线视频精品一区| 久久久久免费精品国产| 精品小视频在线观看| 国产成人福利在线| 日本尹人综合香蕉在线观看| 欧美成人免费午夜全| 国产成人成人一区二区| 国产成人精品免费av| 亚洲无码37.| 综合色亚洲| 亚洲成人黄色在线| 亚洲二三区| 久久国产精品无码hdav| 99re经典视频在线| 丁香婷婷激情网| 亚洲国产中文在线二区三区免|