999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于SVM的氨基酸頻率計算預測水稻蛋白質磷酸化位點

2014-07-10 10:38:20何華勤
赤峰學院學報·自然科學版 2014年5期

王 偉,何華勤

(福建農林大學,福建 福州 350002)

基于SVM的氨基酸頻率計算預測水稻蛋白質磷酸化位點

王 偉,何華勤

(福建農林大學,福建 福州 350002)

本文從swiss-prot中選取經過試驗驗證的水稻蛋白質磷酸化位點數據作為訓練集合,應用蛋白質序列的氨基酸頻率計算方法來進行特征提取,再利用SVM算法構建專門針對水稻蛋白質磷酸化位點的預測新工具.氨基酸頻率算法指的是計算出相應待預測磷酸化位點附近氨基酸的出現頻率,進一步反映了殘基之間的相關性.本文利用LibSVM軟件包對已通過氨基酸頻率算法特征提取出來的數值特征對磷酸化位點進行預測,從而為之后構建水稻蛋白質磷酸化位點的預測工具做準備.結果表明,本文基于SVM和氨基酸頻率方法的水稻蛋白質磷酸化位點預測在絲氨酸,蘇氨酸和酪氨酸的平均預測準確性為77.665%,馬修斯系數為0.571.與Plant Phos和Musite的預測性能的對比結果顯示,在磷酸化蘇氨酸位點的預測性能顯著高于Plant Phos及Musite.

LIBSVM;SVM;氨基酸頻率計算;磷酸化位點

1 水稻蛋白質磷酸化位點的預測

由于蛋白質領域研究的日益進步以及基因測序、編碼技術的普及,各大數據庫中已經大量收集了各種蛋白質的氨基酸序列.因為蛋白質組學研究的重要領域是蛋白質功能,因此研究蛋白質序列已經成為生物信息學中不可或缺的部分[1][3].Vapnik和Cortes于1995年首先提出支持向量機(全名Support Vector Machine)這一概念,它的基本原理是在線性可分的基礎上,通過自身的算法將線性可分變為線性不可分[2].通過此轉變我們可以在非線性函數中進行使用和計算,這種分類算法被稱為支持向量機,即SVM.將支持向量機算法應用到水稻蛋白質磷酸化位點的預測當中去,是現在研究水稻蛋白質磷酸化的一個重要方向.

研究水稻蛋白質磷酸化的三個主要目的:

(1)對位于某一特定狀態下水稻細胞內磷酸化蛋白質的序列及磷酸化氨基酸殘基定位;

(2)鑒定與磷酸化過程有關的激酶;

(3)分析所觀察到的磷酸化現象對功能的影響.其中,第一個目的是磷酸化研究的主要任務和基礎.

所以研究蛋白質序列已經成為生物信息學中一個重要的、不可或缺的部分.

2 SVM簡介

支持向量機在應對高維模式識別、非線性及小樣本中展現出了它的不可比擬的優勢,并在其他機器學習問題、函數擬合等問題中都能夠得到很好的應用.

SVM方法是在統計學理論中的VC維理論以及結構風險最小原理的基礎上建立的,根據有限的樣本信息在模型的復雜性,即對以經過選定的訓練樣本的學習精度,準確度以及學習能力,即無錯誤地識別任意樣本的能力,之間尋找到最合理和最穩定的方案,從而能夠有機會獲得最好的推廣能力,也可稱作泛化能力[5].

3 LIBSVM簡介

LIBSVM是一款涉及回歸算法與模式識別的軟件包,并具有高效快捷、簡單易用等特點,該軟件由臺灣大學林智仁副教授等研制開發的.由于LIBSVM中對SVM的參數篩選方面的支持較少,因此使用了經過大量驗證的默認參數進行替代,而大多數相關問題都可以通過這些默認參數進行解決;交叉檢驗(Cross-Validation)功能還被該軟件包集成在其中.同時還可以解決包括基于1對1算法的多類模式識別問題,以及c-SVM、V-SVM、ε-SVR和V-SVR等問題.

4 基于氨基酸頻率的特征提取算法

首先我們將所獲得的數據集進行excel表格化整理,把蛋白質序列一一存儲到表格中.在正樣本中每一行必須標有已被磷酸化的位點信息,即已被磷酸化的位點在序列中的位置.通過編程寫出函數,該函數的功能是截取該序列的25個殘基.即以磷酸化位點為中心截取該片段的上游和下游各12個氨基酸,此片段包括磷酸化位點共計25個氨基酸.到此為止我們擁有了計算過程中所要的重要數據.

然后將這包含有25個氨基酸的殘基片段放進一個數組中,該數組放在單獨計算頻率的子函數中,為后面算出每段包含有25個氨基酸殘基的氨基酸頻率作準備.最終經由以上過程,可算出該殘基序列中的上游和下游各12個氨基酸出現的頻率,并將這25個所提取出來的特征數值作為后面將要預測磷酸化位點的特征值.

5 SVM模型的建立

本文用到的SVM核類型為RBF,并且使用的SVM類型為C-SVC[5].

RBF的核函數為:

σ代表串口的寬度

(2)C-SVC即C-支持向量分類.給定(xi,xj), i=1,2,…,L,y∈{1,-1}.SVM需要以上優化問題的解決方法,其中ξi≥0

更高維空間中具有最大化邊緣的線性分離超平面我們使用SVM算法可以找到.錯誤項的懲罰函數我們用C<0來表示[5].決策功能為:

6 模型的建立與評估

首先我們從已獲得數據集合中提取一部分作為測試集,也就是選取部分數據來進行訓練.對于要進行預測的數據,為了避免人為干擾,我們分別從總數據集合的數據中隨機抽取十次正負樣本,選取的正負樣本比例為1:1.

在利用libSVM進行預測之前,使用交叉驗證對所提取的特征值進行評估和測試,得到不同的Cost值和Gamma值后,從中選取模型所需的最優參數.通過比對我們選取rbf核類型和c-svc類型來創建模型.SVM中模型是通過正負樣本集來構建的,并且正負樣本比例為1:1.對于易為磷酸化的S(絲氨酸)、T(蘇氨酸)和Y(酪氨酸)的子集,分別從相應總訓練集的正負位點數據中隨機抽取十次正負樣本[7].

分別對每個序列子集的10個SVM模型進行交叉驗證,通過對結果的比對和分析分別從中選取交叉驗證性能最高的模型作為SVM的子模型.通過libsvm中的grid.py進行參數優選得出最優參數訓練出最終模型.再通過此模型,應用svm_predict進行預測.

預測結果:

雖然參數優選中的最佳準確率accuracy=76.965%,但實際中預測的準確率為accuracy=77.665%.

7 評價指標

通過Sn(靈敏度)、Sp(特異性)、ACC(準確度)和MCC(馬修斯系數)對該算法的性能進行評價.

其中,TN表示的是實際為負樣本的序列數目在預測結果中也為負樣本.TP表示實際為正樣本的序列數目在預測結果中也為正樣本.FP表示實際為負樣本的序列數目卻在預測結果中為正樣本.FN表示實際為正樣本的序列數目卻在預測結果中為負樣本[7].MCC的值越大表示預測結果越好,其取值范圍為-1至1.

通過在Python編程環境下,自己編寫的評價指標函數得出個評價參數

該方法的各評價指標:SN=0.789,SP=0.761,ACC=77.6%,MCC=0.495

8 主要工具的對比

磷酸化位點預測工具有很多,但正式的專門針對水稻蛋白質磷酸化位點的預測工具和方法卻是空白,而前人開發了針對植物蛋白質的磷酸化位點的預測工具,然而如phosPhAT以及2008年才研制的Gaoetal工具.它是一款基于SVM的蛋白質磷酸化位點預測工具,該工具是整合K近鄰信息(KNN)、蛋白質序列信息和蛋白質無序區域而構建的.然而唯獨phosPhAt提供可靠并且較為穩定的在線預測服務.數據測試方面,本文使用的是自己構建的獨立測試集來,使用此數據來測試本文方法與Plantphos和Musite的預測性能.

Plantphos:

Plantphos應用MDD,即最大依賴性分解方法,把所有的磷酸化片段進行聚類,形成具有顯著位點特異性的磷酸化片段子集.為了搜索HMM的采樣數,HMMER會返回一個HMMER值和期望值,即E值[8-10].

Musite:

Musite是一款幾乎適合于所有或特定激激酶的磷酸化位點的預測工具.它能夠將磷酸化位點的預測作為為一個失衡的分類問題來看待,使用的是機器學習的方法.該工具收集了多種生物體磷酸化蛋白質組的可靠實驗數據,用這些數據來訓練磷酸化位點的預測模型.Musite工具中使用到了k最近鄰方法(KNN)和蛋白質無序區域特征提取的方法.所謂無序區域,即缺乏一個穩定的第三結構蛋白質的部分[11].

9 不同預測方法的性能比較

依照上述,本文應用自己構建的測試數據集來與Plant Phos和Musite的預測性能進行對比.我們將本文的預測方法和Plant Phos、Musite對同一測試集數據進行預測,首先將數據分成1:1的正負樣本集,即磷酸化和非磷酸化位點.然后算出這三種方法的Sn(靈敏度)、Sp(特異性)、ACC(準確度)和MCC (馬修斯系數)來比較各自的預測性能,結果見表1.

表1 為本文方法和各方法對獨立測試數據集的預測結果

由表可知,本文的預測工具對絲氨酸預測的準確性ACC和馬修斯系數MCC分別為75.6%和0.509,plantPhos的準確性ACC為61.2%和馬修斯系數MCC為0.311,而Musite預測的準確性ACC和馬修斯系數MCC分別為72.1%和0.426.表明本文的預測工具對磷酸化絲氨酸位點的預測性能高于PlantPhos及Musite.

而本文的預測工具對酪氨酸位點預測的準確性ACC和馬修斯系數MCC分別為71.8%和0.406,plantPhos的準確性ACC為57.0%和馬修斯系數MCC為0.182,而Musite預測的準確性ACC為50%,而馬修斯系數MCC卻為0.表明本文的預測工具對磷酸化蘇氨酸位點的預測性能高于PlantPhos及Musite.

本文的預測方法在預測蘇氨酸位點的準確性ACC和馬修斯系數MCC分別為77.6%和0.495,顯著高于PlantPhos的準確性ACC為59.3%和馬修斯系數MCC為0.276,以及Musite的準確性ACC為60.2%和馬修斯系數MCC為0.206.說明本文的預測工具對磷酸化蘇氨酸位點的預測性能顯著高于PlantPhos及Musite.

〔1〕張穎,羅遼復,呂軍.使用多樣性增量預測磷酸化位點.內蒙古大學學報(自然科學報)2008(1).

〔2〕朱玉賢,李毅,鄭曉峰.現代分子生物學(第三版).

〔3〕蔡津津.蛋白質磷酸化位點預測與規則抽取方法研究.中國科學院計算技術研究所.

〔4〕姜錚,王芳,何湘,等.蛋白質磷酸化修飾的研究進展.中國人民解放軍疾病預防控制研究所,2009.

〔5〕趙凌志,劉穎,等.WeightedSVM在蛋白質磷酸化位點預測中的應用.清華大學軟件學院,2006.

〔6〕白海燕,呂軍,張穎,等.蛋白質磷酸化位點的識別.內蒙古工業大學學報,2011(2).

〔7〕Koenig M ,Grade N.Highly specific prediction of phosphorylation sites in proteins [J].Bioinformatics, 2004.

〔8〕Lee TY, Lin ZQ, Hsieh SJ, Bretana NA, Lu CT: Exploiting maximal dependence decomposition to identify conserved motifs from a group of aligned signal sequences.Bioinformatics 2011, 27(13):1780-7, 1.

〔9〕Burge C, Karlin S: Prediction of complete gene structures in human genomic DNA.J Mol Biol 1997, 268(1):78-94.

〔10〕Diella F, Gould CM, Chica C, Via A, Gibson TJ: Phospho.ELM: a database of phosphorylation sites-update 2008.Nucleic Acids Res 2008, 36 Database: D240-244.

〔11〕Jianjiong Gao, Jay J.Thelen, A.Keith Dunker and Dong Xu.Musite, a Tool for Global Prediction of General and Kinase-specific Phosphorylation Sites.Molecular & Cellular Proteomics 2010, 9: 2586 –2600.

S511

A

1673-260X(2014)03-0011-03

主站蜘蛛池模板: 美女视频黄频a免费高清不卡| 国产一区成人| 亚洲欧美成aⅴ人在线观看| 欧美 亚洲 日韩 国产| 国产91九色在线播放| 亚洲AV无码一区二区三区牲色| 日本国产精品一区久久久| 久久国产香蕉| 国产福利观看| 五月天久久综合| 亚洲一区国色天香| 日韩A∨精品日韩精品无码| 国产美女精品一区二区| 久久99精品国产麻豆宅宅| 精品中文字幕一区在线| 美女啪啪无遮挡| 国产成人亚洲日韩欧美电影| 欧美曰批视频免费播放免费| 欧美成人a∨视频免费观看 | 第九色区aⅴ天堂久久香| 久久亚洲国产一区二区| 免费无码AV片在线观看国产| 国产免费福利网站| 欧美午夜在线视频| 亚洲精品无码不卡在线播放| 免费看黄片一区二区三区| 在线观看免费人成视频色快速| 国产午夜精品一区二区三区软件| 国产男人的天堂| 亚洲色图另类| 中文字幕丝袜一区二区| 国产福利免费视频| 中文字幕在线一区二区在线| 全部免费毛片免费播放| 日韩国产亚洲一区二区在线观看| 婷婷中文在线| 久青草网站| 免费欧美一级| 全部免费特黄特色大片视频| 狂欢视频在线观看不卡| 日韩精品免费一线在线观看| 午夜福利免费视频| 日本精品中文字幕在线不卡| 天堂成人在线视频| 在线a视频免费观看| 亚洲国产成人无码AV在线影院L| 亚洲综合经典在线一区二区| 99久久亚洲综合精品TS| 免费不卡在线观看av| 久久国产亚洲欧美日韩精品| 波多野结衣AV无码久久一区| 色悠久久久| 天天综合色网| 国产亚洲视频在线观看| 欧美一级特黄aaaaaa在线看片| 国产区免费| 欧美自拍另类欧美综合图区| 国产美女主播一级成人毛片| 欧美性天天| 国产一级一级毛片永久| 91视频首页| 激情视频综合网| 秋霞国产在线| 久久久波多野结衣av一区二区| 热热久久狠狠偷偷色男同| 色香蕉影院| 中字无码精油按摩中出视频| 人妻无码一区二区视频| 日本高清有码人妻| 国产浮力第一页永久地址| AV片亚洲国产男人的天堂| 色综合天天视频在线观看| 欧美精品在线看| 婷婷综合在线观看丁香| yjizz国产在线视频网| 日韩天堂视频| 亚洲综合色婷婷中文字幕| 爆操波多野结衣| 国产成人久久综合一区| 91成人精品视频| 91视频99| 97人妻精品专区久久久久|