蛋白質亞細胞定位預測研究進展

2014-09-02 09:56:10鄭珊珊石卓興代琦姚玉華

科技視界 2014年12期

鄭珊珊+石卓興+代琦+姚玉華

【摘要】蛋白質的功能與其亞細胞位置有著密切的聯系，對于確定一個未知特性蛋白質的功能，亞細胞定位研究能夠提供重要的參考信息。采用傳統實驗的方法研究亞細胞定位需要耗費大量的人力、財力、物力，已經不能滿足數據庫中蛋白質序列爆炸性增長的現實需要。從已積累的知識和數據出發，利用智能算法、機器學習等工具開發蛋白質亞細胞定位預測的方法成為了當前的重要研究內容。本文對國內外亞細胞定位預測的研究現狀進行了綜述。

【關鍵詞】亞細胞定位；特征信息提取；預測算法

亞細胞定位是指某種蛋白或某種基因表達產物在細胞內的具體存在部位，即根據所給出的蛋白質序列來預測其所在的亞細胞位置。蛋白質是基因功能的執行者，機體中的每一個細胞和所有重要組成部分都有它的參與，正是由于它是與生命及與各種形式的生命活動緊密聯系在一起的物質，越來越多的生物學、生物信息學研究者開始對蛋白質的功能預測及分析進行了研究。然而，蛋白質只有經分選信號引導后運輸到特定的細胞器中，才能參與細胞的各種生命活動，執行它的功能，如果其運送位置發生偏差，將會影響細胞功能甚至整個生物體。因此，蛋白質在細胞中的正確定位是細胞系統高度有序運轉的前提保障。研究細胞中蛋白質定位的機制和規律，預測蛋白質的亞細胞定位，對于了解蛋白質結構、性質和功能，了解蛋白質之間的相互作用，研究疾病機理和發展新藥物以及探索生命的規律和奧秘具有重要意義。

隨著核酸和蛋白質序列等生物數據的高速膨脹，單純以傳統實驗方法來確定蛋白質亞細胞定位具有成本高、實驗時間長，預測精度不理想，會耗費大量的人力和物力等缺點，已經無法滿足生命科學研究的需要。因此，需要尋找一種快速、有效、準確的計算方法來預測蛋白質亞細胞定位。近年來，生物信息學在這方面開展了廣泛的研究并且取得一系列很有意義的成果，數據庫的構建和亞細胞定位分析及預測加速了蛋白質結構和功能的研究。一方面，生物信息學研究可以對大規模的實驗數據進行分析和提取生物學信息，同時可以根據現有數據對一些目前還未知的蛋白質做出預測；另一方面，不斷增長的亞細胞定位數據也可以用來驗證并改進預測結果。目前，利用生物信息學方法進行蛋白質亞細胞定位預測已經成為了一個研究熱點。

從20世紀90年代初至今，蛋白質亞細胞定位預測一直是生物信息學研究的熱點問題之一。通過分析國內外研究者的研究方法，不難發現這些方法的主要不同在于兩個方面：第一，蛋白質特征信息的提取，主要是指將蛋白質相關特征信息提取出之后轉化成高維的特征向量，作為預測的輸入。蛋白質序列特征信息主要包括氨基酸順序相關性、氨基酸在蛋白質中出現的頻率、氨基酸物理化學性質等。第二，預測算法的設計，根據提取的特征向量集，利用有效的算法預測蛋白質的亞細胞定位。算法影響亞細胞預測精度的重要因素，現有預測算法中，統計學和機器學習方法使用的最為廣泛。

利用計算方法來預測蛋白質亞細胞定位屬于統計模式識別中的模式多分類問題。問題的研究一般包括以下四個步驟：（1）具有客觀代表性的蛋白質數據集的構建；（2）蛋白質序列的特征提取，即蛋白質序列編碼，從蛋白質中提取特征參數，實現字母序列到數值特征的轉換；（3）預測算法的選取，即如何根據提取的特征參數，設計有效的分類或識別模型類；（4）對預測結果進行評估，即預測模型的測試與檢驗以及結果性能的評估。

1 數據集的構建

研究蛋白質亞細胞定位的數據集基本來自SWISS-PROT數據庫。該數據庫建于1986年，是目前世界上存儲蛋白質序列最主要的一級數據庫之一。利用這個數據庫研究蛋白質的亞細胞定位時，需要對其中的數據進行篩選。通常的篩選標準有：（1）針對研究對象，挑選特定物種的相關蛋白質序列；（2）在構建數據集時，需要知道每個蛋白質序列所在的亞細胞位置，所以只有包含明確的亞細胞定位信息的序列才被選入數據集中；（3）序列長度不能太短；（4）數據冗余度，要求同源性低；（5）排除樣本量太少的亞細胞類別。

除了利用SWISS-PROT數據庫外，還有LOCATE、TargetP家族數據集等。近年來，隨著研究的不斷深入，蛋白質序列數據集越來越復雜，目前最復雜的數據集是酵母蛋白質序列數據集，包含22種亞細胞蛋白質。

2 蛋白質特征信息的提取

蛋白質序列特征提取的目的是，從蛋白質序列中提取特征信息，并用適當的數學方法來描述或表示這些信息，使之能正確反映序列與結構或功能之間的關系，這于蛋白質亞細胞定位是至關重要的，也是研究蛋白質功能結構的關鍵。根據提取特征信息的不同，可以歸納為3類。

2.1 基于氨基酸的組成和性質

氨基酸組成是一種最基本的序列特征，也是亞細胞定位預測中使用得最為普遍的一種蛋白質特征信息。蛋白質一般有20 種氨基酸組成，氨基酸組成將每種氨基酸在蛋白質序列中出現的頻率抽取出來作為一個20維的向量。1994年，Nakashima和 Nishikawa最早通過利用氨基酸組成進行了蛋白質亞細胞定位預測，對細胞內和細胞外蛋白質定位分別取得了88%和 84%的預測準確率。

2.2 基于蛋白質序列的N端分選信號的方法

一般認為蛋白質在合成的過程中，其N端包含一些特殊的分選信號，這些信號能夠指導新合成的蛋白質分選到特定的亞細胞中，包括信號肽、線粒體轉移肽、葉綠體運輸肽、核定位信號、類囊體腔轉移肽和過氧化物酶體定位信號等。這種信息的有效性取決于蛋白質序列完整性，一旦蛋白質序列的N端信號不完整或者丟失，預測結果就可能失效。

2.3 基于功能域和基因注釋的方法

蛋白質序列在長期的進化過程中，某些特定位點上的氨基酸殘基具有高度的保守性，這些位點稱為功能域。2002年功能域組分的概念首次被用于蛋白質亞細胞定位，這種方法顯著提高了亞細胞定位的質量。2006年，引入GO注釋來預測人類蛋白質的亞細胞位置。但是，基于功能與和基因注釋的方法對于數據庫功能注釋信息的完善程度依賴性較大，如果數據庫中沒有足夠的功能域或基因注釋條目，那么將無法確定蛋白質的亞細胞定位。

由于不同的特征從不同的角度刻畫蛋白質序列，目前沒有一種特征能夠很好地刻畫蛋白質的亞細胞定位特征，單獨利用某種特征難以在預測效果上取得大的突破。將多種特征提取方法組合起來已經成為亞細胞定位預測中最為普遍的一種方法。

3 蛋白質亞細胞定位預測算法

蛋白質亞細胞定位預測中另一個重要因素是識別算法，成功的分類算法應該是能夠高效、正確的將不同亞細胞位置的蛋白質分開。在蛋白質亞細胞定位預測方面，主要的算法包括5類：基于簡單選擇判別規則的方法；基于距離度量的近鄰方法；基于人工神經網絡的方法；基于馬爾可夫模型的方法；基于向量機的方法。常用預測方法有神經網絡、支持向量機、最鄰近算法三種。

（1）神經網絡。神經網絡是一種模仿動物神經網絡行為特征，進行分布式并行信息處理的算法數學模型。這種網絡依靠系統的復雜程度，通過調整內部大量節點之間相互連接的關系，從而達到處理信息的目的。神經網絡具有良好的魯棒性和容錯性，因此，不僅在蛋白質亞細胞定位領域受到青睞，在模式識別的其他領域也得到了廣泛的應用。

（2）支持向量機。支持向量機是一種基于統計學習理論分類技術，它在蛋白質特征向量映射到的高維空間中，找到一個使（下轉第32頁）（上接第12頁）分類誤差最小的最優分類面。由于支持向量機具有較好的推廣能力，許多學者選擇它作為蛋白質亞細胞定位預測的首選分類器。

（3）基于距離的近鄰方法。基于距離的近鄰方法原理是根據某種距離度量方法來度量樣本之間的相似性，距離越近則兩樣本有可能出現在相同細胞器中。隨后的研究中，研究者將基于距離的近鄰方法做了推廣，如模糊K近鄰方法，加權模糊K近鄰方法等。基于距離的近鄰方法，不需要人為的選擇參數，適合求解大規模問題，運算速度較快。

隨著研究的不斷深入，將多種算法進行融合，來預測蛋白質亞細胞定位已經逐漸成為研究的趨勢。2010年，趙禹等用離散增量結合支持向量機方法預測蛋白質亞細胞定位。多種算法的融合，在提高蛋白質亞細胞定位預測的精度和加快算法運行速度方面取得了良好的效果。

4 預測算法的檢驗和評估

選用適當的預測算法之后，需要對算法進行評估，即檢驗出算法的準確率，它是評價一個分類算法性能好壞的重要指標，也是與其它分類預測算法比較的依據。預測算法的檢驗方法主要有自身一致性檢驗、獨立性檢驗、留一法檢驗三種[29]。

留一交叉驗證（1eave-one-outcross-validation，LOOCV）每次取出數據集中的一條蛋白質序列作為測試樣本，而剩余的蛋白質序列作為訓練集對測試樣本的亞細胞進行定位預測。直到所有樣本序列都被測試一遍為止。LOOCV的缺點是計算成本高，費時，但是其結果更加嚴格可靠，已經在很多方法中得到了應用。

評估預測算法常用的算法評價指標有：敏感性、特異性和 Matthew相關系數。敏感性指標是指每類樣本中被正確識別的比例，反映了預測成功率；特異性指標是指被判別為第i類的樣本中真正屬于第i類的比例，反映了預測的可信度。

Sensitivity（i）=■×100%

Spencificity（i）=■×100%

Matthews相關系數MCC可以對算法的準確率進行評估。

MCC（i）=■

其中，tp（i）是第i類樣本中被預測正確的數目，fn（i）是第i類樣本被錯誤的判別為其他類別的數目，fp（i）是非第i類樣本但被預測為第i類樣本的數目，tn（i）是非第i類樣本中被預測正確的樣本數目。MCC指標取值0至1，取值越高說明分類器的性能越好，當MCC取1時，所有樣本均被正確識別；當MCC取0時，分類器的判別效果與隨機指派的結果一樣，這樣的分類器是最差的。

【參考文獻】

[1]徐建華，朱家勇.生物信息學在蛋白質結構與功能預測中的應用[J].J Med Mol Biol， 2005，2（3）：227-232.

[2]張樹波，賴劍煌.蛋白質亞細胞定位預測的機器學習方法[J].計算機科學，2009，36（ 4）：29-33.

[3]張麗.蛋白質亞細胞定位的序列編碼及預測方法研究[D].湖南：湖南大學計算與通信學院，2010.

[4]郭麗麗，陳月輝.基于機器學習的蛋白質亞細胞定位預測[J].信息技術與信息化，2011，5：73-75.

[5]吳文佳.蛋白質亞細胞定位預測方法研究[D].南京：南京航空航天大學，2008.

[6]趙禹，趙巨東，姚龍.用離散增量結合支持向量機方法預測蛋白質亞細胞定位[J].生物信息學，2010，8（3）：241-244.

[7]吳澤月，陳月輝.蛋白質亞細胞定位預測研究[J].山東師范大學學報，2012，4（27）：33-37.

[責任編輯：謝慶云]

3 蛋白質亞細胞定位預測算法

4 預測算法的檢驗和評估

Sensitivity（i）=■×100%

Spencificity（i）=■×100%

Matthews相關系數MCC可以對算法的準確率進行評估。

MCC（i）=■

【參考文獻】

[1]徐建華，朱家勇.生物信息學在蛋白質結構與功能預測中的應用[J].J Med Mol Biol， 2005，2（3）：227-232.

[2]張樹波，賴劍煌.蛋白質亞細胞定位預測的機器學習方法[J].計算機科學，2009，36（ 4）：29-33.

[3]張麗.蛋白質亞細胞定位的序列編碼及預測方法研究[D].湖南：湖南大學計算與通信學院，2010.

[4]郭麗麗，陳月輝.基于機器學習的蛋白質亞細胞定位預測[J].信息技術與信息化，2011，5：73-75.

[5]吳文佳.蛋白質亞細胞定位預測方法研究[D].南京：南京航空航天大學，2008.

[6]趙禹，趙巨東，姚龍.用離散增量結合支持向量機方法預測蛋白質亞細胞定位[J].生物信息學，2010，8（3）：241-244.

[7]吳澤月，陳月輝.蛋白質亞細胞定位預測研究[J].山東師范大學學報，2012，4（27）：33-37.

[責任編輯：謝慶云]

3 蛋白質亞細胞定位預測算法

4 預測算法的檢驗和評估

Sensitivity（i）=■×100%

Spencificity（i）=■×100%

Matthews相關系數MCC可以對算法的準確率進行評估。

MCC（i）=■

【參考文獻】

[1]徐建華，朱家勇.生物信息學在蛋白質結構與功能預測中的應用[J].J Med Mol Biol， 2005，2（3）：227-232.

[2]張樹波，賴劍煌.蛋白質亞細胞定位預測的機器學習方法[J].計算機科學，2009，36（ 4）：29-33.

[3]張麗.蛋白質亞細胞定位的序列編碼及預測方法研究[D].湖南：湖南大學計算與通信學院，2010.

[4]郭麗麗，陳月輝.基于機器學習的蛋白質亞細胞定位預測[J].信息技術與信息化，2011，5：73-75.

[5]吳文佳.蛋白質亞細胞定位預測方法研究[D].南京：南京航空航天大學，2008.

[6]趙禹，趙巨東，姚龍.用離散增量結合支持向量機方法預測蛋白質亞細胞定位[J].生物信息學，2010，8（3）：241-244.

[7]吳澤月，陳月輝.蛋白質亞細胞定位預測研究[J].山東師范大學學報，2012，4（27）：33-37.

[責任編輯：謝慶云]

科技視界2014年12期

科技視界的其它文章: 基于NI運動控制卡的伺服電機控制系統研究; 商業銀行國際結算人才需求特點分析; 超載作用下冷再生基層瀝青路面結構力學響應分析; 古諾博弈模型中的理性假設問題; 固沖發動機連管進氣道彎頭改進設計; 一本不敢“隨手翻翻”的書沈從文大山里的人生散文集賞析——《》