999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于LibSVM的CKSAAP蛋白特征提取預測水稻蛋白質磷酸化位點*

2014-07-14 05:49:22何華勤
湖北科技學院學報 2014年7期
關鍵詞:模型

王 偉,何華勤

(福建農林大學,福建 福州 350002)

引言

由于蛋白質領域研究的日益進步以及基因測序、編碼技術的普及,各大數據庫中已經大量收集了各種蛋白質的氨基酸序列。因為蛋白質組學研究的重要領域是蛋白質功能,因此研究蛋白質序列已經成為生物信息學中不可或缺的部分[1][3]。Vapnik和Cortes于1995年首先提出支持向量機(全名Support Vector Machine)這一概念,它的基本原理是在線性可分的基礎上,通過自身的算法將線性可分變為線性不可分[2]。通過此轉變我們可以在非線性函數中進行使用和計算,這種分類算法被稱為支持向量機,即SVM。將支持向量機算法應用到水稻蛋白質磷酸化位點的預測當中去,是現在研究水稻蛋白質磷酸化的一個重要方向。

一、基于氨基酸組成的特征提取算法

將一條蛋白質表示為S=R1R1R2R3…RL,其中Ri表示蛋白質序列中 i個位置上的氨基酸,L表示的是蛋白質序列的長度;20種氨基酸用單字母表示如下:

AA={A,C,D,E,F,G,H,I,K,L,M,N,P,Q,R,S,T,V,W,Y}

CKSAAP的定義如下:

(1)

其中 i和j 各自表示二十種各不相同的氨基酸;若序列中 n位置上為氨基酸,并且位置n+K 同為氨基酸j時, Hi,j(n,n+K)=1;否則為零。序列片斷中殘基對的K個間隔的組成情況通過該編碼來表示,同時展示了序列或者序列片斷間殘基的小范圍互作[4]。

而序列片段中K個間隔的殘基對個數我們用Vi 來表示,特征向量的維數用i來表示。對應K的取值各不相同,那么i也會相應變化。在特征值的轉換過程中,把每條序列的Vi值分別算出,即在序列中每個殘基對的總數[5]。

特征向量被定義為:

(2)

其中,Ai表示特征值, MaxVi為序列中Vi的最大值, MinVi為序列中Vi的最小值。

二、模型的建立與評估

根據上述CKSAAP算法原理,我們利用Python編程環境,將從swiss-prot下載下來進行整理的序列轉換成Libsvm可以識別的格式。構建完數據集合之后,我們選取部分數據來進行訓練。對于要進行預測的數據,我們分別從總數據集合的數據中隨機抽取十次正負樣本,選取的正負樣本比例為1:1。

在利用libSVM進行預測之前,使用交叉驗證對所提取的特征值進行評估和測試,得到不同的Cost值和Gamma值后,從中選取模型所需的最優參數。通過比對我們選取rbf核類型和c-svc類型來創建模型。SVM中模型是通過正負樣本集來構建的,并且正負樣本比例為1:1。對于易為磷酸化的S(絲氨酸)、T(蘇氨酸)和Y(酪氨酸)的子集,分別從相應總訓練集的正負位點數據中隨機抽取十次正負樣本[6]。

分別對每個序列子集的10個SVM模型進行交叉驗證,通過對結果的比對和分析分別從中選取交叉驗證性能最高的模型作為SVM的子模型。通過libsvm中的grid.py進行參數優選得出最優參數訓練出最終模型。再通過此模型,應用svm_predict進行預測。

預測結果:

參數優選中的最佳準確率accuracy=80.2218%,而實際中預測的準確率為80.638%。

三、不同預測方法的性能比較

磷酸化位點預測工具有很多,本文應用自己構建的測試數據集來對本文工具與PlantPhos和Musite的預測性能進行對比。

我們將本文的預測工具和PlantPhos、Musite對同一測試集數據進行預測,首先將數據分成1:1的正負樣本集,即磷酸化和非磷酸化位點。然后算出這三種方法的Sn(靈敏度)、Sp(特異性)、ACC(準確度)和MCC(馬修斯系數)來比較各自的預測性能。

由表1可知,本文的預測工具對絲氨酸預測的準確性ACC和馬修斯系數MCC分別為80.8%和0.621,plantPhos的ACC為61.2%和MCC為0.311,而Musite預測的ACC和MCC分別為72.1%和0.426。而本文的預測工具對蘇氨酸位點預測的準確性ACC和馬修斯系數MCC分別為79.9%和0.597,plantPhos的ACC為59.3%和MCC為0.276,而Musite預測的ACC和MCC分別為60.2%和0.206。表明本文的預測工具對磷酸化絲氨酸、蘇氨酸位點的預測性能高于PlantPhos及Musite。

本文的預測方法在預測酪氨酸位點的ACC和MCC分別為81.3%和0.616,顯著高于PlantPhos的57.0%和0.182,以及Musite的ACC值50%。說明本文的預測工具對磷酸化酪氨酸位點的預測性能顯著高于PlantPhos及Musite。

表1 預測結果對比表

參考文獻:

[1] 趙凌志,劉穎,等.Weighted SVM在蛋白質磷酸化位點預測中的應用[D].北京:清華大學軟件學院,2006.

[2] 蔡津津.蛋白質磷酸化位點預測與規則抽取方法研究[D].北京:中國科學院計算技術研究所, 2006.

[3] 張穎,羅遼復,呂軍.使用多樣性增量預測磷酸化位點[J].內蒙古大學學報(自然科學報),2008,(1).

[4] 朱玉賢,李毅,鄭曉峰.現代分子生物學(第三版)[M].北京:高等教育出版社,2011.

[5] 白海燕,呂軍,張穎,等.蛋白質磷酸化位點的識別[J].內蒙古工業大學學報,2011,(2).

[6] Koenig M ,Grade N. Highly specific prediction of phosphorylation sites in proteins[J], Bioinformatics, 2004.

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 黄色污网站在线观看| 国产精品嫩草影院视频| 欧美中文字幕一区| 国产香蕉在线视频| 97se亚洲综合在线天天| 黄色福利在线| 亚洲性网站| 亚洲精品动漫在线观看| 久久综合丝袜日本网| 国产欧美专区在线观看| 婷婷色狠狠干| 成人毛片免费在线观看| 国产区在线看| 国内毛片视频| 综合久久五月天| 亚洲精品国产精品乱码不卞| 成年A级毛片| 啪啪啪亚洲无码| 国产欧美日韩精品第二区| 亚洲中文字幕国产av| 一个色综合久久| 丁香六月激情综合| 5555国产在线观看| 91精品国产一区自在线拍| 欧美日韩激情在线| 国内黄色精品| 欧美国产综合色视频| 人妻丰满熟妇av五码区| 乱人伦视频中文字幕在线| 97国产在线视频| 亚洲一区免费看| 国产精品毛片一区视频播| 女人天堂av免费| 欧洲av毛片| 国产成人乱码一区二区三区在线| 97av视频在线观看| AV片亚洲国产男人的天堂| 亚洲AV无码一区二区三区牲色| 五月激情综合网| 国产成人综合亚洲欧美在| 亚洲人成网站在线观看播放不卡| 国产va在线| 国产三级国产精品国产普男人| 超级碰免费视频91| 在线毛片免费| 青青草原偷拍视频| 亚洲第一视频区| 亚洲精品人成网线在线| 色婷婷国产精品视频| 丰满人妻中出白浆| 欧美日韩资源| 99热这里只有精品5| 国产美女一级毛片| YW尤物AV无码国产在线观看| 在线观看无码av免费不卡网站| 老司机午夜精品网站在线观看 | 亚洲综合网在线观看| 99re热精品视频中文字幕不卡| 成人在线观看一区| 一级毛片在线直接观看| 五月婷婷综合网| 伊人久久精品无码麻豆精品| 国产精品无码在线看| 国产欧美日韩精品综合在线| 亚洲AV无码一区二区三区牲色| 亚洲天堂网视频| 日韩美一区二区| 人人看人人鲁狠狠高清| 亚洲系列无码专区偷窥无码| 欧美伊人色综合久久天天| 国产一级特黄aa级特黄裸毛片| 国产在线观看91精品亚瑟| 国产青青草视频| 男女男精品视频| 韩国福利一区| 大学生久久香蕉国产线观看| 国产一二视频| 女人一级毛片| 亚洲国产av无码综合原创国产| 久热re国产手机在线观看| 亚洲va在线∨a天堂va欧美va| 88av在线|