999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

整合序列與蛋白相互作用特征的亞細胞定位預測

2015-03-23 01:19:02王明會馮煥清
電子科技大學學報 2015年3期
關鍵詞:信息

王明會,龔 藝,王 強,馮煥清,李 驁

(中國科學與技術大學信息科學技術學院 合肥 230027)

整合序列與蛋白相互作用特征的亞細胞定位預測

王明會,龔 藝,王 強,馮煥清,李 驁

(中國科學與技術大學信息科學技術學院 合肥 230027)

提出了一種基于序列和PPI特征的距離公式,可綜合序列氨基酸組成和PPI對象、強弱等信息對兩個蛋白質的相似性進行表征,并在此基礎上提出了一種用于蛋白質亞細胞定位預測的K近鄰算法。利用留一法對性能進行了評估,結果顯示,在序列基礎上加入PPI特征,可明顯有助于亞細胞定位的預測;同時基于上述距離的K近鄰算法也優于使用相同特征的SVM算法,表明該算法可以對蛋白質的亞細胞定位信息進行準確有效的預測。

生物信息學; K近鄰算法; 蛋白質相互作用; 亞細胞定位

生物體細胞內存在許多細胞區域和細胞器,蛋白質合成后只有轉運到正確的細胞器或區域中才能發揮作用,參與各種生命活動。因此蛋白質的亞細胞定位(subcellular localization)信息對于揭示蛋白質的功能及其生命活動中發揮的作用是必不可少的[1-3]。同時,蛋白質亞細胞定位在藥物設計、藥物靶點的辨別和優化等方面也發揮著重要的作用。

目前可確定蛋白質亞定位的傳統實驗技術主要有綠色熒光蛋白標記[1]等,但由于實驗效率較低,已經無法滿足當前蛋白質組學快速發展的需求。為解決上述問題,利用生物信息學方法進行蛋白質亞細胞定位的研究現已取得了相當多的成果[4-8]。這些方法首先提取反映蛋白質亞細胞定位的相關特征信息,并將其轉化成輸入特征向量,在此基礎上選擇合適的機器學習和統計學方法加以預測?,F有研究表明,以氨基酸組成(amino acid composition,AAC)為主的蛋白質序列信息對預測其亞定位有很大的幫助,蛋白質的序列相似程度越高,則其越趨向于存在于相同的細胞區域或細胞器內,因此是目前蛋白質亞細胞定位中的常用特征[4-8]。但是,僅通過序列特征并不能反映蛋白質亞細胞定位的全部信息,相應的預測方法性能不夠理想。另一方面,蛋白-蛋白相互作用(protein-protein Interaction,PPI)是反映蛋白相互作用和功能特性關系的重要特征[9-11],蛋白質存在相互作用的前提是共處于細胞的同一位置,因此如果兩個蛋白質存在較明顯的相互作用,則其很可能存在共同的亞細胞定位。因此,如能合理使用PPI信息,將有效地提高蛋白質亞細胞定位的預測性能。

蛋白質亞細胞定位的常用預測算法有支持向量機(support vector machine,SVM)、K近鄰(K-nearest neighbor,KNN)等[1]。SVM是一種基于統計學習理論的機器學習方法,該方法在結構風險最小化的原則下,保證最小的分類錯誤率,其缺點是在輸入特征維數很高時算法復雜度大,同時性能不夠理想。K近鄰是一種簡單有效的有監督分類方法,但是需預先定義數據之間的距離,目前大多方法是根據氨基酸組成等序列信息計算兩個蛋白質的歐式距離[1-2,8],但這種距離計算方法無法有效地整合蛋白質PPI信息。

針對上述問題,本文提出了一種結合PPI和氨基酸組成信息的距離公式,用以綜合評估兩個蛋白質在序列和內在功能特性上的相似性,在此基礎上利用K近鄰算法對數據進行了訓練和測試,取得了令人滿意的效果。

1 數據與算法

1.1 數據

本文從現有的Uniprot、Organelle和LOCATE3個蛋白質數據庫中獲得相關的蛋白質亞定位信息,從中提取出有亞定位標注的人類蛋白質,并對其進行BLAST去冗余和去除序列過短的蛋白質,最終提取胞外區、細胞核、細胞質、細胞骨架、細胞膜共5個具有代表性的亞細胞定位,具體信息如表1所示。此外,為獲得相關蛋白質的PPI信息,從生物信息學數據庫STRING中下載了全部共80 138條PPI記錄,每條記錄中都包括一對相互作用的蛋白質和相互作用強弱的數值,采用1~1 000之內的整數表示。

1.2 評價方法

為了檢驗算法的有效性,在評估算法性能的過程中采用以下4個評價指標:敏感性(Sn)、特異性(Sp)、準確率(ACC)和馬氏相關系數(MCC),分別定義為:

式中,TN、TP、FN、FP分別表示用該模型測試得到的真陰性、真陽性、假陰性和假陽性數據的數目;Sn反映模型對陽性數據的預測水平;Sp反映模型對陰性數據的預測水平;ACC反映整體數據的正確預測率;MCC反映了模型對整體數據的預測水平。

1.3 算法

K近鄰算法的基本思想是:對于一個分類標簽的測試樣本,通過找到訓練數據集中距離它最近的k個近鄰,再通過這k個近鄰的分類標簽來確定該測試樣本的標簽,因此確定測試樣本的近鄰是決定該算法性能的重要因素。在蛋白質亞細胞定位的預測研究中,對蛋白質P可使用氨基酸組成特征向量AACP表征其序列信息,有:

式中,fi(i=1,2,,20)表示第i種氨基酸在蛋白質序列中出現的頻率。在此基礎上,可以定義任意兩個蛋白質P、P′之間的距離,實際中通常采用歐氏距離進行計算,如表2所示。

由于PPI強弱關系的數值與上述歐式距離在分布上具有明顯的差異,因此為將兩者相結合,采用了加權混合的方式計算兩個存在相互作用的蛋白間的距離,有:

式中,dPPI(P,P′)表示蛋白質P、P′之間相互作用的強弱數值,若兩個蛋白之間的PPI作用越明顯,則其之間的距離越近;c為預先指定的權重系數。

在使用SVM算法進行性能比較時,所使用的PPI特征向量為:

式中,M為PPI數據集中出現的蛋白質總數;pi(i=1,2,,M)表示該蛋白質P與第i個蛋白質相互作用的強弱數值,如果沒有相互作用即為0。由此將氨基酸組成和PPI特征結合得到輸入SVM的最終特征向量為:

2 結果與討論

為檢驗蛋白質亞細胞定位與蛋白之間相互作用的聯系,首先利用獲得的PPI信息構建了PPI的網絡,同時將網絡節點的蛋白質亞細胞定位信息用不同顏色標示出來,如圖1所示。由圖可以看出,該網絡由多個聚類構成,每種聚類分別對應于具有相同定位的蛋白質,它們之間具有密切的相互作用關系。而處于不同定位的蛋白質之間盡管也存在一定程度的聯系,但相對共定位的蛋白而言其PPI作用明顯降低。因此,蛋白質PPI信息可以反映出蛋白質之間在亞細胞定位方面的內在聯系。

本文提出的K近鄰算法中有兩個重要參數:近鄰數k和計算蛋白距離公式中的系數c。在數據的訓練和性能評估時,需要對上述參數進行選擇以保證最優的分類性能。本文采用常見的網格搜索策略在整個參數空間進行尋優,由于不同亞細胞定位的數據之間數目差別很大,因此使用了對有偏數據魯棒的馬氏相關系數(MCC)作為評估指標,如圖2所示。對于所有的亞細胞定位數據,通過參數尋優均可顯著提高預測性能。如對于胞外區數據選擇k=1、c=0時,預測結果的MCC僅為0.22;而通過網格搜索確定最優參數k=3、c=0.5后,K近鄰算法的預測性能獲得明顯提升,其MCC達到了0.41。

為客觀評估亞細胞定位的預測性能,進一步使用留一法對本文的方法與僅使用氨基酸組成的K近鄰算法進行了比較,如表2所示。除了對細胞質定位的靈敏度略低(1%)以外,本文算法的性能指標均具較明顯的優勢,如對于細胞核數據本文算法的馬氏相關系數和靈敏度分別達到了0.44和0.70,而使用氨基酸組成的K近鄰算法的相關指標僅為0.36和0.62。上述結果表明,引入PPI信息有助于定位蛋白質所屬的細胞區域并提升亞細胞定位的預測精度。此外,對相關研究中廣泛使用的SVM算法也進行了性能比較。由于SVM的性能同樣也受參數影響,因此在實驗中使用了LibSVM工具包[12]中提供的網格搜索函數對其進行了參數優化。表2的結果顯示,本文算法在所有測試中均好于使用相同特征的SVM算法,這可能是由于輸入SVM的PPI特征維數過高造成的。因此,在使用氨基酸組成和PPI信息時,K近鄰算法能更好地對不同亞細胞區域進行區分。

3 總 結

本文探討了蛋白質相互作用信息對蛋白質亞細胞器定位預測的影響。通過網絡聚類分析的結果表明,存在密切作用關系的蛋白質具有相同亞細胞定位的趨勢,因此上述信息可以用于蛋白質的亞細胞定位的預測工作。為有效地整合蛋白質序列和PPI信息,本文進一步提出了一種表征蛋白質在序列和功能上相似性的距離公式,在此基礎上使用K近鄰算法獲得了明顯的性能提升。本文的工作為蛋白質亞細胞定位提供了一種新的思路,對相關預測方法的研究具有積極的意義。

[1] KENICHIRO I, KENTA N. Prediction of subcellular locations of proteins: Where to proceed[J]. Proteomics, 2010(10): 3970-3983.

[2] CHOU Kuo-chen, WU Zhi-cheng, XIAO Xuan. iLoc-Hum: Using the accumulation-label scale to predict subcellular locations of human proteins with both single and multiple sites[J] . Mol BioSyst, 2012(8): 629-641.

[3] DU Pu-feng, YU Yuan. SubMito-PSPCP: Predicting protein submitochondrial locations by hybridizing positional specific physicochemical properties with pseudoamino acid compositions[J]. Biomed Res Int, 2013: 263829.

[4] PIERLEONI A, MARTELLI P L, CASADIO R. MemLoci: Predicting subcellular localization of membrane proteins in eukaryotes[J]. Bioinformatics, 2011, 27(9): 1224-1230.

[5] XIE Dan, LI Ao, WANG Ming-hui, et al. LOCSVMPSI: a web server for subcellular localization of eukaryotic proteins using SVM and profile of PSI-BLAST[J]. Nucleic Acids Research, 2005, 33(suppl 2): 105-110.

[6] LI Li-qi, ZHANG Yuan, ZOU Ling-yun, et al. An ensemble classifier for eukaryotic protein subcellular location prediction using gene ontology categories and amino acid hydrophobicity[J]. PLoS ONE, 2012, 7(1): e31057.

[7] MARCIN M, MARCIN P, JANUSZ B M. MetaLocGramN: a meta-predictor of protein subcellular localization for Gram-negative bacteria[J]. Biochimica ET Biophysica Acta (BBA)-Proteins and Proteomics, 2012, 1824(12): 1425-1433.

[8] CHOU Kuo-chen, SHEN Hong-bin. A new method for predicting the subcellular localization of eukaryotic proteins with both single and multiple sites: Euk-mPLoc 2.0[J]. PLoS ONE, 2010, 5(4): e9931.

[9] LIU Han-qing, BECK T N, GOLEMIS E A, et al. Integrating in silico resources to map a signaling network[M]. Methods Mol Biol, 2014, 1101: 197-245.

[10] LI Bi-qing, YOU Jin, CHEN Lei, et al. Identification of lung-cancer-related genes with the shortest path approach in a protein-protein interaction network[J]. BioMed Research International, 2013: 267375.

[11] PIETSCH J, RIWALDT S, BAUER J, et al. Interaction of proteins identified in human thyroid cells[J]. International Journal of Molecular Sciences, 2013, 14(1): 1164-1178.

[12] CHANG Chih-chung, LIN Chih-Jen. LIBSVM: a library for support vector machines[J]. ACM Transactions on Intelligent Systems and Technology, 2011, 2(3): 27.

編 輯 黃 莘

Prediction of Protein Subcellular Localization by Incorporating Sequence and Protein-Protein Interaction Features

WANG Ming-hui, GONG Yi, WANG Qiang, FENG Huan-qing, and LI Ao
(School of Information Science and Technology, University of Science and Technology of China Hefei 230027)

Information of protein subcellular localization is indispensable to study protein function, as a protein can perform its function only after it is correctly transported to a specific subcellular compartment. Thus it is very important to provide accurate prediction of protein subcellular localization in biological studies. In contrast to sequence features (e.g. amino acids composition) that are widely used in subcellular localization prediction, features extracting protein-protein interaction (PPI) are largely ignored, although they reflect the co-localization information of different proteins. In this study, we propose a novel distance formula based on both protein sequence and PPI features, which precisely measures the similarity of proteins by incorporating protein information including amino acid composition, PPI and the corresponding interaction scores. Based on this distance formula, we further introduce a k-nearest neighbor (KNN) algorithm for predicting subcellular localization. The results of leave-one-out test on a benchmark dataset show that PPI features significantly improve the performance of protein subcellular localization. Meanwhile, this KNN algorithm also outperformes SVM algorithm adopting the same features, suggesting the efficiency of the proposed algorithm for predicting protein subcellular localization.

bioinformatics; K-nearest neighbor algorithm; protein-protein interaction; subcellular localization

TP391; Q71

A

10.3969/j.issn.1001-0548.2015.03.026

2013 ? 12 ? 18;

2014 ? 10 ? 27

國家自然科學基金(61101061, 31100955);中央高?;究蒲袠I務費專項資金(WK2100230011);高等學校博士學科點專項科研基金(20113402120028)

王明會(1982 ? ),女,博士,副教授,主要從事生物信息學和生物統計方面的研究.

猜你喜歡
信息
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
信息超市
大眾創業(2009年10期)2009-10-08 04:52:00
展會信息
展會信息
展會信息
展會信息
展會信息
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 久久综合九色综合97婷婷| 九色免费视频| 日韩高清中文字幕| 一级毛片在线播放| 亚洲午夜国产精品无卡| 亚洲综合精品香蕉久久网| 亚洲视频影院| 欧美日韩动态图| 日韩东京热无码人妻| 欧类av怡春院| 成年片色大黄全免费网站久久| 欧美在线国产| 好紧好深好大乳无码中文字幕| 欧美视频在线不卡| 亚洲成人在线网| 欧美日韩第三页| 亚洲第一页在线观看| 人妻中文久热无码丝袜| 国内熟女少妇一线天| 国产第二十一页| 免费在线观看av| 91在线播放国产| 国产又爽又黄无遮挡免费观看| 久久久精品国产SM调教网站| 无码免费试看| 超碰91免费人妻| 国产精品视频第一专区| 国产精品无码翘臀在线看纯欲| 999国产精品永久免费视频精品久久 | 日韩毛片基地| 伊人蕉久影院| 67194成是人免费无码| 在线观看欧美精品二区| 97在线公开视频| 日本国产一区在线观看| 在线观看免费AV网| 国产91熟女高潮一区二区| 美女裸体18禁网站| 又粗又大又爽又紧免费视频| 婷婷99视频精品全部在线观看| a级毛片视频免费观看| jizz亚洲高清在线观看| 成年女人a毛片免费视频| 区国产精品搜索视频| 国产免费久久精品99re丫丫一| 国产无码高清视频不卡| 色网站在线视频| 欧美激情,国产精品| 亚洲国产精品无码AV| 亚洲自拍另类| 日韩一级二级三级| 女人18毛片一级毛片在线 | 欧美自慰一级看片免费| 亚洲永久视频| AV熟女乱| 国产精品va免费视频| 欧美成人看片一区二区三区| 亚洲AV无码久久天堂| 91热爆在线| 国产第一福利影院| 日韩A级毛片一区二区三区| 中文纯内无码H| 久久精品免费看一| 中文字幕天无码久久精品视频免费 | 激情爆乳一区二区| 免费Aⅴ片在线观看蜜芽Tⅴ| 91伊人国产| 亚洲欧美精品一中文字幕| 国产Av无码精品色午夜| 手机精品视频在线观看免费| 国产色网站| 97精品国产高清久久久久蜜芽| 人妻精品全国免费视频| 国产精品999在线| 蜜臀av性久久久久蜜臀aⅴ麻豆| 67194在线午夜亚洲| 夜夜高潮夜夜爽国产伦精品| 人与鲁专区| 国产福利大秀91| 天天综合网色中文字幕| 亚洲成人黄色网址| 亚洲欧美日韩中文字幕一区二区三区|