李立奇,張 瑗,周 躍*,王開發
(1第三軍醫大學新橋醫院,重慶 400037;2第三軍醫大學計算機教研室)
K最近鄰(KNN)法是一種基于統計的模式識別非參數算法。該算法學習過程簡單、分類準確率高,被廣泛應用于回歸[1]、分類[2]和模式識別[3]等領域中。在生物醫學領域中,如蛋白質亞細胞定位[4]、腫瘤預后預測[5]等方面也有相關應用的報道。2010年 9~10月,我們將 KNN法用于預測含FN域蛋白質的亞細胞位置,為成骨細胞黏附、分化發生機制的研究奠定基礎。
1.1 材料 本文從UniProt數據庫中隨機抽取人類含 FN[6,7]域蛋白質 80個,包括細胞外蛋白質 40個、細胞內蛋白 40個。為保證預測的有效性和可信性,抽取的每個蛋白質的氨基酸數量不少于 100,且排除了定位無實驗依據的蛋白質。分別計算每個蛋白質中的20種氨基酸含量,將其作為KNN算法的輸入向量。
1.2 方法
1.2.1 含 FN域蛋白質亞細胞定位方法 采用KNN法。將本文樣本集中 80個研究對象依據選擇的檢驗方法分成訓練樣本集和測試樣本集兩部分。計算每個蛋白質的 20種氨基酸組成,并作為該蛋白質的輸入向量。在程序中分別輸入訓練集和測試集中每個蛋白質對應的 20維輸入向量及其所屬亞細胞類別。用KNN二分類方法對測試集中每個蛋白質的所屬亞細胞類別進行判定,輸出判定結果。
1.2.2 含 FN域蛋白質亞細胞定位驗證方法Jackknife檢驗法:每次從80個蛋白質中輪流抽取1個蛋白質作為測試樣本,其余 79個組成訓練樣本集,并對該測試樣本進行測試。共做80次 KNN算法定位預測。5維交叉驗證法:將 80個蛋白質隨機分成 5組,每組包含細胞內蛋白質和細胞外蛋白質各 8個。每次從 5組中輪流抽取 1組作為測試樣本,其余 4組作為訓練樣本。共做 5次定位預測。
KNN法定位細胞內蛋白 36個,細胞外蛋白 35個。利用jackknife檢驗法檢測蛋白質樣本的定位預測準確率為88.75%,其中 36個細胞內蛋白質和35個細胞外蛋白質定位準確;利用 5維交叉驗證法獲得的預測準確率為 82.5%,其中 34個細胞內蛋白質和 32個細胞外蛋白質定位準確。
蛋白質亞細胞定位對蛋白質的功能研究非常重要,目前可通過實驗方法和預測算法來對蛋白質進行亞細胞定位。實驗方法主要有超速離心分離法、電子顯微法和熒光顯微法,但這些方法既費時費錢又不易大規模推廣到,而預測算法能夠彌補這些缺陷。
目前,已經有多種算法被應用于蛋白質亞細胞定位的預測研究,如支持向量機(SVM)、神經網絡、KNN等。但神經網絡只在樣本趨向于無窮大時,其性能才有理論的保證。SVM是一個新的預測算法,其學習收斂速度要快于神經網絡[8],但其在提高運算效率的同時,也犧牲了一部分適應性和精確度。KNN法的基本思想是根據距離函數[2]計算測試樣本點和訓練樣本集中每個樣本點的距離,選擇與測試樣本點距離最小的 K個訓練樣本點作為測試樣本點的K個最近鄰點,最后根據這K個樣本點所屬類別判斷樣本點的所屬類別。故KNN法的優點是學習過程中只簡單地存儲已知的訓練樣本集,當遇到測試樣本時,只用 K個最相似的訓練樣本的類別就可判斷該測試樣本的類別。KNN法已被廣泛應用于各個領域,但KNN運用于含FN域蛋白質亞細胞定位的研究尚未有相關報道。
骨發生過程中,FN是骨細胞外基質微環境中含量最高且與成骨細胞的結合能力最強的一種蛋白質。FN通過與成骨細胞表面整合素的特異性結合,不僅提高了細胞的黏附、伸展性能[9],而且可活化樁蛋白、黏著斑激酶等信號分子,激活JUK、MAPK等信號通路,從而調節細胞生長和分化。因此,FN在骨發生過程中起到了促進成骨細胞黏附、伸展、生長、分化等重要作用。FN的這些生物學性能,使其被廣泛用于各種骨支架材料的表面修飾中[10]。而許多含FN域蛋白質對各自相應的細胞也起到了促進遷移、黏附、細胞變形、生長、分化等作用中的一種或多種。目前,隨著越來越多新的含 FN域蛋白質被發現,它們的亞細胞位置和功能亟待解決。故尋求一種預測算法,預測這些蛋白質的亞細胞位置,對于其功能研究意義重大。
本文基于KNN二分類算法,構建了含FN域蛋白質亞細胞定位預測的KNN模型。將40個細胞內蛋白質和 40個細胞外蛋白質的 20種氨基酸組成作為輸入向量進行訓練和定位預測。結果發現,利用jackknife檢驗法檢測蛋白質樣本的定位預測準確率為88.75%,其中 36個細胞內蛋白質和 35個細胞外蛋白質定位準確。利用 5維交叉驗證法獲得的預測準確率為82.5%,其中34個細胞內蛋白質和 32個細胞外蛋白質定位準確。因此,應用KNN法可較準確地預測含FN域蛋白質的亞細胞位置,有助于探討新發現的含FN域蛋白質的亞細胞位置及其生物學功能,對研究細胞的黏附、分化等機制和開發新型生物材料有重要意義。
[1]Xiao Y,Griffin MP,Lake DE,et al.Nearest-neighbor and logistic regression analyses of clinical and heart rate characteristics in the early diagnosisof neonatal sepsis[J].Med DecisMaking,2010,30 (2):258-266.
[2]Xiao X,QiuWR.Using adaptive K-nearest neighbor algorithm and cellular automata images to predicting G-Protein-Coupled Receptor c lasses[J].Interdiscip Sci,2010,2(2):180-184.
[3]Bogdanov P,Singh AK.Molecular function prediction using neighborhood features[J].IEEE/ACM Trans Comput Biol Bioinform, 2010,7(2):208-217.
[4]Du P,Cao S,Li Y.SubChlo:predicting protein subchloroplast locations with pseudo-amino acid composition and the evidence-theoretic K-nearest neighbor(ET-KNN)algorithm[J].J Theor Biol, 2009,261(2):330-335.
[5]Jerez JM,Molina I,Garcia-Laencina PJ,et al.Missing data imputation using statistical and machine learningmethods in a real breast cancer problem[J].Artif Intell Med,2010,50(2):105-115.
[6]楊蕾,楊玲竹.瘦素、纖連蛋白、基質金屬蛋白酶-9對人絨毛細胞滋養細胞侵襲性的影響[J].山東醫藥,2009,49(15):1-2.
[7]曹偉.宮頸長度聯合胎兒纖連蛋白檢測在早產預測中的價值[J].山東醫藥,2010,50(15):62-63.
[8]Ding CH,Dubchak I.Multi-class protein fold recognition using support vector machines and neural networks[J].Bioinformatics, 2001,17(4):349-358.
[9]ZhangY,Zhou Y,Zhu J,etal.Effectofa novel recombinant protein of fibronectin III7-10/cadherin 11 EC1-2 on osteoblastic adhesion and differentiation[J].Biosci Biotechnol Biochem,2009,73(9): 1999-2006.
[10]Zhang Y,XiangQ,Dong S,et al.Fabrication and characterization of a recombinant fibronectin/cadherin bio-inspired ceramic surface and its influence on adhesion and ossification in vitro[J].Acta Biomater,2010,6(3):776-785.