999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種快速準(zhǔn)確區(qū)分Ⅲ型、Ⅳ型分泌效應(yīng)蛋白的計(jì)算方法

2020-07-08 05:43:34柳鳳娟余樂(lè)正李益洲
關(guān)鍵詞:效應(yīng)模型

柳鳳娟, 楊 慶, 陳 倩, 余樂(lè)正, , 李益洲

(1. 貴州師范學(xué)院地理與資源學(xué)院, 貴陽(yáng) 550018; 2. 貴州師范學(xué)院化學(xué)與材料學(xué)院, 貴陽(yáng) 550018;3. 四川大學(xué)化學(xué)學(xué)院, 成都 610065)

1 引 言

蛋白質(zhì)分泌在協(xié)調(diào)細(xì)菌與其周圍環(huán)境間相互作用中發(fā)揮著重要作用. 通過(guò)各種分泌系統(tǒng),細(xì)菌可將自身合成的蛋白質(zhì)釋放到細(xì)胞外,或直接注入真核宿主及相鄰細(xì)菌細(xì)胞內(nèi),進(jìn)而發(fā)揮其毒力效應(yīng)[1]. 目前,經(jīng)實(shí)驗(yàn)證實(shí)的革蘭氏陰性菌分泌系統(tǒng)至少已有9種,它們分別被稱為Ⅰ型至Ⅸ型分泌系統(tǒng)[2].在這些分泌系統(tǒng)中,Ⅰ型、Ⅱ型、Ⅴ型分泌系統(tǒng)可將各種酶轉(zhuǎn)運(yùn)到周圍環(huán)境中,而Ⅲ型、Ⅳ型、Ⅵ型分泌系統(tǒng)則可將各種效應(yīng)蛋白直接運(yùn)輸?shù)剿拗骷?xì)胞內(nèi),其對(duì)應(yīng)的分泌蛋白也分別被命名為Ⅲ型(T3SEs)、Ⅳ型(T4SEs)、Ⅵ型(T6SEs)分泌效應(yīng)蛋白[3].作為介導(dǎo)宿主細(xì)胞信號(hào)轉(zhuǎn)導(dǎo)的關(guān)鍵分子,細(xì)菌效應(yīng)蛋白(Effector proteins)的輸入可使宿主細(xì)胞功能發(fā)生紊亂,以便細(xì)菌在宿主體內(nèi)更好的生存、繁殖與感染,故效應(yīng)蛋白在病菌與宿主相互作用機(jī)制研究中扮演著重要角色.

5 總 結(jié)

鑒于細(xì)菌效應(yīng)蛋白重要的生物學(xué)意義,研究人員提出了多種可準(zhǔn)確識(shí)別細(xì)菌效應(yīng)蛋白的預(yù)測(cè)方法,但它們大都只能識(shí)別某一類分泌效應(yīng)蛋白,如T3SEs[4-9],T4SEs[10-15],T6SEs[16-18].在這三類分泌效應(yīng)蛋白中,由于T3SEs、T4SEs均不含N端信號(hào)肽,且二者可能具有相似的進(jìn)化保守性或序列模體(Motifs)[10],故現(xiàn)有計(jì)算方法極難區(qū)分這兩類效應(yīng)蛋白[19]. 為了解決這一問(wèn)題,基于支持向量機(jī)(SVM)算法和偽位置特異性得分矩陣(PsePSSM),本文構(gòu)建了一個(gè)二元分類器以快速準(zhǔn)確地區(qū)分革蘭氏陰性菌Ⅲ型、Ⅳ型分泌效應(yīng)蛋白.本方法對(duì)測(cè)試集總的預(yù)測(cè)準(zhǔn)確率為82.76%,表明其對(duì)T3SEs和T4SEs具有較好的區(qū)分能力,可作為一種輔助工具用于分泌效應(yīng)蛋白在病原菌-宿主相互作用分子機(jī)制方面的研究.

2 材料與方法

2.1 材 料

本文從細(xì)菌分泌效應(yīng)蛋白數(shù)據(jù)庫(kù)(SecretEPDB)[20]中得到了實(shí)驗(yàn)所需的大部分?jǐn)?shù)據(jù). SecretEPDB收錄了T3SEs、T4SEs、T6SEs三類分泌效應(yīng)蛋白的相關(guān)數(shù)據(jù),并提供了蛋白質(zhì)的特征、功能、二級(jí)結(jié)構(gòu)、Pfam結(jié)構(gòu)域、代謝途徑、進(jìn)化細(xì)節(jié)等信息. 通過(guò)該數(shù)據(jù)庫(kù),共收集得到1 230條T3SEs和731條T4SEs. 此外,我們從文獻(xiàn)[4]和[13]中分別得到35條T3SEs和30條T4SEs. 移除重復(fù)序列(即訓(xùn)練集或測(cè)試集中已有蛋白質(zhì)序列)后,獨(dú)立測(cè)試集中這兩類效應(yīng)蛋白各剩25條.

2.2 建模方法

分泌效應(yīng)蛋白預(yù)測(cè)作為一種常見(jiàn)的蛋白質(zhì)分類問(wèn)題,已有越來(lái)越多的機(jī)器學(xué)習(xí)算法參與其中,如支持向量機(jī)(SVM)[8, 10-12, 14-15, 17]、隱馬爾可夫模型(HMM)[5-6, 18]、隨機(jī)森林(RF)[4]、深度學(xué)習(xí)(DL)[9]等. 在這些機(jī)器學(xué)習(xí)算法中,SVM是應(yīng)用最廣泛的算法[3]. 此外,由于SVM在前期革蘭氏陰性菌分泌蛋白的分類研究中[2, 19]已有成功的應(yīng)用,故本文也選取SVM來(lái)構(gòu)建預(yù)測(cè)模型.

2.3 模型的性能評(píng)估參數(shù)

本文中,靈敏度(SE),特異性(SP),準(zhǔn)確率(ACC)和馬氏相關(guān)系數(shù)(MCC)[21]分別被用于模型預(yù)測(cè)能力的評(píng)估.

(1)

(2)

(3)

MCC=

(4)

其中,TP為真陽(yáng)性,即正樣本的準(zhǔn)確識(shí)別數(shù);FP表示假陽(yáng)性,即負(fù)樣本的錯(cuò)誤識(shí)別數(shù);TN表示真陰性,即負(fù)樣本的準(zhǔn)確識(shí)別數(shù);FN表示假陰性,即正樣本的錯(cuò)誤識(shí)別數(shù).

3 實(shí)驗(yàn)部分

3.1 實(shí)驗(yàn)數(shù)據(jù)

為去除實(shí)驗(yàn)數(shù)據(jù)中相似的蛋白質(zhì)序列,增強(qiáng)預(yù)測(cè)模型的穩(wěn)健性,采用CD-HIT Suite[22]對(duì)原始數(shù)

表1 本文所用實(shí)驗(yàn)數(shù)據(jù)集

據(jù)進(jìn)行處理后(序列相似度閾值25%),得到302條T3SEs和375條T4SEs. 通過(guò)MATLAB工具箱對(duì)序列隨機(jī)后,選取其中的70%作為訓(xùn)練集,其余30%作為測(cè)試集[23]. 結(jié)合2.1節(jié)所述的獨(dú)立測(cè)試集,本文所用實(shí)驗(yàn)數(shù)據(jù)集均列于表1中.

3.2 特征提取與替代模型

不同類型的分泌效應(yīng)蛋白,通常在序列、結(jié)構(gòu)、功能等方面存在一定差異. 為準(zhǔn)確區(qū)分T3SEs與T4SEs,本文分別采用氨基酸組成、位置特異性得分矩陣、自協(xié)方差變量以表征蛋白質(zhì)序列中氨基酸殘基的頻率信息、進(jìn)化信息及鄰接效應(yīng).

氨基酸組成(AAC)常用于表征20種天然氨基酸在蛋白質(zhì)序列中出現(xiàn)的頻率信息,每條蛋白質(zhì)均被轉(zhuǎn)化為一個(gè)20維的數(shù)字向量.

進(jìn)化信息在蛋白質(zhì)的分類研究中發(fā)揮著越來(lái)越重要的作用,而位置特異性得分矩陣(PSSM)則常用于表征蛋白質(zhì)序列中氨基酸的進(jìn)化信息[24]. 以期望值閾值為10-3,通過(guò)PSI-BLAST程序搜索Swiss-Prot數(shù)據(jù)庫(kù),經(jīng)3次迭代后,可得到每條蛋白質(zhì)的位置特異性得分矩陣. 通過(guò)相關(guān)計(jì)算公式[25]對(duì)這些矩陣進(jìn)行轉(zhuǎn)換后,每條蛋白質(zhì)均被表征為一個(gè)20維的數(shù)字向量.

為有效表征蛋白質(zhì)序列中氨基酸殘基間的相互作用關(guān)系,自協(xié)方差(AC)變量常用于計(jì)算殘基間的鄰接效應(yīng).自協(xié)方差(AC)變量的有關(guān)計(jì)算公式已詳細(xì)描述于相關(guān)論文中[25],故本文不再贅述. 經(jīng)自協(xié)方差變換后,每條蛋白質(zhì)均被轉(zhuǎn)換為一個(gè)25維的向量.

基于AAC、PSSM和AC,我們共構(gòu)建了4個(gè)蛋白質(zhì)替代模型:模型1僅含AAC;模型2僅含PSSM;模型3為AAC與AC合并而成的偽氨基酸組成(PseAAC);模型4為AAC與PSSM合并而成的偽位置特異性得分矩陣(PsePSSM).

3.3 模型的構(gòu)建

本文通過(guò)libsvm-3.22 (http://www.csie.ntu.edu.tw/~cjlin/libsvm/)工具箱構(gòu)建了最終的SVM預(yù)測(cè)模型.模型核函數(shù)為徑向基函數(shù)(RBF),且通過(guò)網(wǎng)格搜索法對(duì)其正則化參數(shù)C和寬度參數(shù)γ進(jìn)行優(yōu)化.雖然目前已有多種交叉驗(yàn)證方法被用于統(tǒng)計(jì)預(yù)測(cè)中,留一法(Leave-one-out)被認(rèn)為是最客觀公正的[26],故本研究也采用留一法建立了最終的預(yù)測(cè)模型.

4 結(jié)果與討論

4.1 替代模型的確定

根據(jù)3.2節(jié)描述的4個(gè)蛋白質(zhì)替代模型,我們構(gòu)建了4個(gè)SVM預(yù)測(cè)模型,它們對(duì)訓(xùn)練集的測(cè)試結(jié)果均列于表2中.

表2 不同替代模型對(duì)訓(xùn)練結(jié)果的影響

由表2可看出,模型2的訓(xùn)練效果最差,表明T3SEs和T4SEs在序列進(jìn)化保守性上的確可能存在一定的關(guān)聯(lián)性. 模型3、模型4與模型1、模型2的訓(xùn)練結(jié)果表明,替代模型中所含特征越多,其包含的信息量就越大,模型的預(yù)測(cè)性能也越強(qiáng). 此外,模型4的訓(xùn)練結(jié)果優(yōu)于模型3的,表明PSSM所包含的信息量可能多于AC的. 由于模型4的訓(xùn)練結(jié)果最好,且其核函數(shù)參數(shù)也較為合理,故本文擬選擇該模型作為最終的蛋白質(zhì)替代模型.

4.2 模型的實(shí)際應(yīng)用

測(cè)試集數(shù)據(jù)首先被用于模型3與模型4實(shí)際預(yù)測(cè)性能的進(jìn)一步比較,相關(guān)測(cè)試結(jié)果均列于表3中.

表3 不同SVM模型對(duì)測(cè)試集的預(yù)測(cè)結(jié)果

Tab.3 Prediction results of different SVM models obtained by analyzing the test sets

類別T3SEsT4SEs合計(jì)測(cè)試集數(shù)據(jù)91112203模型3準(zhǔn)確預(yù)測(cè)數(shù)7789166準(zhǔn)確率/%84.6279.4681.77模型4準(zhǔn)確預(yù)測(cè)數(shù)7692168準(zhǔn)確率/%83.5282.1482.76

如表3所示,模型4準(zhǔn)確識(shí)別出測(cè)試集中76條T3SEs和92條T4SEs,其對(duì)這兩類效應(yīng)蛋白的預(yù)測(cè)準(zhǔn)確率均超過(guò)80%,且總的準(zhǔn)確率為82.76%,略優(yōu)于模型3的81.77%,表明將模型4作為最終的預(yù)測(cè)模型是正確的.

根據(jù)不同方法間交叉驗(yàn)證測(cè)試結(jié)果[3],BEAN 2.0對(duì)T3SEs的預(yù)測(cè)性能最好,而T4Effpred則被認(rèn)為是T4SEs預(yù)測(cè)的最佳工具.利用2.1節(jié)構(gòu)建的獨(dú)立測(cè)試集,我們進(jìn)一步探討了本方法、BEAN 2.0及T4Effpred對(duì)這兩類分泌效應(yīng)蛋白的預(yù)測(cè)性能,相關(guān)測(cè)試結(jié)果如表4所示.

表4 三種方法對(duì)獨(dú)立測(cè)試集的預(yù)測(cè)結(jié)果

Tab.4 Prediction results of the three methods obtained by analyzing the independent test sets

類別T3SEsT4SEs合計(jì)測(cè)試集數(shù)據(jù)252550本方法準(zhǔn)確預(yù)測(cè)數(shù)221638準(zhǔn)確率/%886476BEAN 2.0準(zhǔn)確預(yù)測(cè)數(shù)23--準(zhǔn)確率/%92--T4Effpred準(zhǔn)確預(yù)測(cè)數(shù)-7-準(zhǔn)確率/%-28-

由表4可看出,本方法準(zhǔn)確識(shí)別出獨(dú)立測(cè)試集中22條T3SEs和16條T4SEs,總的預(yù)測(cè)準(zhǔn)確率為76%. 作為T(mén)3SEs的專業(yè)預(yù)測(cè)軟件,BEAN 2.0準(zhǔn)確識(shí)別出23條T3SEs,預(yù)測(cè)準(zhǔn)確率高達(dá)92%,但25條T4SEs有3條被錯(cuò)誤預(yù)測(cè)為T(mén)3SEs. T4Effpred僅準(zhǔn)確識(shí)別出25條T4SEs中的7條,預(yù)測(cè)準(zhǔn)確率僅為28%,且25條T3SEs中有10條被錯(cuò)誤預(yù)測(cè)為T(mén)4SEs. 這些實(shí)驗(yàn)結(jié)果再一次表明,T3SEs與T4SEs的確可能具有相似的序列模體和進(jìn)化保守性,故兩者之間難以完全區(qū)分. 此外,雖然本方法對(duì)T3SEs、T4SEs的區(qū)分能力仍不是特別理想,但從整體上看是較為準(zhǔn)確可靠的.

分泌效應(yīng)蛋白重要的生物學(xué)意義推動(dòng)了相關(guān)計(jì)算方法的開(kāi)發(fā),而這些計(jì)算方法的快速發(fā)展又反過(guò)來(lái)促進(jìn)了對(duì)宿主與病原體間相互作用、細(xì)菌感染與毒力特性等方面的深入研究. 基于支持向量機(jī)和偽位置特異性得分矩陣,本文構(gòu)建了一個(gè)可快速準(zhǔn)確區(qū)分T3SEs與T4SEs的二元分類預(yù)測(cè)器. 實(shí)驗(yàn)結(jié)果表明,本方法對(duì)革蘭氏陰性菌Ⅲ型、Ⅳ型分泌效應(yīng)蛋白具有較強(qiáng)的區(qū)分能力,可作為輔助工具用于分泌效應(yīng)蛋白的進(jìn)一步研究. 此外,實(shí)現(xiàn)對(duì)T6SEs的準(zhǔn)確預(yù)測(cè)仍是一項(xiàng)具有挑戰(zhàn)性的任務(wù),這也為我們下一步的研究指明了方向.

猜你喜歡
效應(yīng)模型
一半模型
鈾對(duì)大型溞的急性毒性效應(yīng)
懶馬效應(yīng)
場(chǎng)景效應(yīng)
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
應(yīng)變效應(yīng)及其應(yīng)用
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
偶像效應(yīng)
主站蜘蛛池模板: 激情亚洲天堂| 粉嫩国产白浆在线观看| 国产欧美视频在线| 午夜毛片免费观看视频 | 国产视频只有无码精品| 欧美一区二区精品久久久| 国产欧美日本在线观看| 伊人91视频| 久久综合伊人 六十路| 亚洲区欧美区| 欧美日一级片| 动漫精品啪啪一区二区三区| 亚洲国产精品无码AV| 久久精品免费国产大片| 老司国产精品视频| 免费国产在线精品一区| 九九精品在线观看| 中文字幕无码电影| 国产一在线| 国产99在线| 亚洲最大福利视频网| 免费国产好深啊好涨好硬视频| a级毛片免费看| 国产美女在线免费观看| 欧美亚洲第一页| 国产三区二区| 韩国v欧美v亚洲v日本v| 免费jizz在线播放| 亚洲国产精品国自产拍A| а∨天堂一区中文字幕| 精品国产成人三级在线观看| 91成人精品视频| 97影院午夜在线观看视频| 久无码久无码av无码| 成AV人片一区二区三区久久| 色有码无码视频| 91成人在线观看视频| 国产精品美人久久久久久AV| 97国产精品视频人人做人人爱| 日韩免费毛片| 免费av一区二区三区在线| 免费高清毛片| 国产极品美女在线播放 | 色九九视频| 毛片视频网址| AV天堂资源福利在线观看| 国产95在线 | 呦女亚洲一区精品| 97亚洲色综久久精品| 欧美无遮挡国产欧美另类| 91丨九色丨首页在线播放| 中国一级特黄视频| 欧美第九页| 免费女人18毛片a级毛片视频| 在线亚洲天堂| 精品视频福利| 国产丝袜丝视频在线观看| 成人国产精品一级毛片天堂| 四虎国产精品永久一区| 国产偷国产偷在线高清| 欧美高清三区| 亚洲欧美日韩中文字幕在线| 国产高清无码麻豆精品| 一本久道久久综合多人| 亚洲午夜久久久精品电影院| 国产va在线观看| 操国产美女| 99在线国产| 婷婷综合色| 国产制服丝袜91在线| 18禁黄无遮挡免费动漫网站| 波多野结衣国产精品| 成人无码区免费视频网站蜜臀| 国产福利小视频在线播放观看| 成人亚洲天堂| 国产肉感大码AV无码| 久草青青在线视频| 久久久久久午夜精品| 国产亚洲高清在线精品99| 2020精品极品国产色在线观看 | 久久精品丝袜高跟鞋| 日韩第九页|