劉樹慧 王順芳
(云南大學(xué)信息學(xué)院 云南 昆明 650504)
基于特征融合和有監(jiān)督局部保持投影的蛋白質(zhì)亞核定位
劉樹慧 王順芳*
(云南大學(xué)信息學(xué)院 云南 昆明 650504)
傳統(tǒng)的蛋白質(zhì)亞核定位利用單一序列特征表達(dá)導(dǎo)致信息不足,且表達(dá)與定位孤立導(dǎo)致信息不充分利用,為此利用偽氨基酸組成和位置特異性得分矩陣,收集到氨基酸物理化學(xué)特性信息和蛋白質(zhì)進(jìn)化信息,從而形成信息豐富的融合表達(dá)。在該基礎(chǔ)上利用有監(jiān)督局部保持投影學(xué)習(xí)數(shù)據(jù)低維流形,進(jìn)而得到類間分割、類內(nèi)保持的低維判別特征。然后依據(jù)此數(shù)據(jù)分布,適用最近鄰分類器預(yù)測亞核位置。最后在標(biāo)準(zhǔn)數(shù)據(jù)集上,十折交叉驗證的評估結(jié)果表明:該方法相較于已有方法在精度上有較大提升。
融合表達(dá) 有監(jiān)督局部保持投影 最近鄰分類器 十折交叉驗證
細(xì)胞核內(nèi)蛋白質(zhì)只有正確地定位在相應(yīng)亞核位置上才能正常發(fā)揮其作用,完成其功能,否則,生物體就會產(chǎn)生各種疾病[1]。因此,蛋白質(zhì)亞核定位問題的研究對預(yù)防及治療這些疾病可以提供有效的信息,并且蛋白質(zhì)亞核位置信息也為蛋白質(zhì)功能的分析起著重要作用。近年來,研究人員已經(jīng)開發(fā)出許多有效的蛋白質(zhì)亞核定位方法,目前,蛋白質(zhì)亞核定位問題依然是現(xiàn)代細(xì)胞生物學(xué)和蛋白質(zhì)組學(xué)研究的主題[1-2]。
傳統(tǒng)的生物學(xué)蛋白質(zhì)亞細(xì)胞定位方法提供了較為精確的數(shù)據(jù),如亞細(xì)胞分離和融合綠色熒光蛋白等[3-4]。但這些方法較昂貴和耗時,且重復(fù)性差,單一地使用生物實驗預(yù)測蛋白質(zhì)亞核位置代價大,也不現(xiàn)實。隨后,研究人員使用機(jī)器學(xué)習(xí)方法在這方面展開廣泛研究,能快速、準(zhǔn)確地預(yù)測蛋白質(zhì)亞核位置[4]。使用機(jī)器學(xué)習(xí)方法預(yù)測蛋白質(zhì)亞核定位大致分兩個關(guān)鍵步驟:一是有效地表達(dá)蛋白質(zhì)序列,將蛋白質(zhì)序列轉(zhuǎn)為固定維度的特征向量;二是開發(fā)高效的預(yù)測器。有效的蛋白質(zhì)序列表達(dá)是算法分析的基礎(chǔ),可為蛋白質(zhì)定位問題提供豐富且具有判別性的信息。目前,已有大量有關(guān)蛋白質(zhì)序列表達(dá)和預(yù)測方法的文獻(xiàn)。
文獻(xiàn)[5]介紹一個簡單有效的蛋白質(zhì)序列表達(dá),氨基酸組成AAC(amino acid composition),用20維的向量來表示,向量中每個元素分別代表一種氨基酸在該序列中出現(xiàn)的頻率。但AAC丟失了序列順序等信息。文獻(xiàn)[6-7]提到,基于AAC,Chou教授通過考慮序列中氨基酸親水性和疏水性等以及氨基酸順序信息提出偽氨基酸組成表達(dá)PseAAC(pseudo amino acid composition)。PseAAC是在AAC基礎(chǔ)上增加一些相關(guān)因子而得到的,該表達(dá)在蛋白質(zhì)定位問題中取得了較好的效果。文獻(xiàn)[2]提到二肽組成表達(dá)DipC(dipeptide composition),DipC表示,20種氨基酸兩兩相鄰,即氨基酸二聯(lián)體,在蛋白質(zhì)序列中出現(xiàn)的頻率,于是DipC用400維的向量來表示蛋白質(zhì)序列。此外,文獻(xiàn)[8-9]詳細(xì)介紹了位置特異性得分矩陣PSSM(position specific scoring matrix),PSSM基于蛋白質(zhì)序列進(jìn)化信息對蛋白質(zhì)序列進(jìn)行表達(dá),已廣泛應(yīng)用于蛋白質(zhì)組學(xué)研究中。
近年來,使用機(jī)器學(xué)習(xí)算法預(yù)測蛋白質(zhì)亞核定位問題已取得一定顯著成果。文獻(xiàn)[10]介紹一個基于偽氨基酸組成的證據(jù)優(yōu)化理論K近鄰預(yù)測器,該方法在后基因時代數(shù)據(jù)庫中基因序列和注釋蛋白質(zhì)之間建立一個橋梁,成為了一個有效的高通量處理工具。文獻(xiàn)[11]提出一個基于支持向量機(jī)的集成分類系統(tǒng),能預(yù)測多數(shù)量未知亞核位置,且具有高預(yù)測能力。基于PseAAC表達(dá),文獻(xiàn)[12]提出一個由離散增量和二次判別分析融合而得的算法,預(yù)測蛋白質(zhì)亞核位置,該方法在整體預(yù)測精度上有很大提高。文獻(xiàn)[13]基于支持向量機(jī)和蛋白質(zhì)家族域,提出了SubNucPred蛋白質(zhì)亞核預(yù)測器,該分類器與其他方法相比,具有較高的預(yù)測精度。雖然使用機(jī)器學(xué)習(xí)方法預(yù)測亞核定位問題已有大量成果,但目前仍然缺少高效表達(dá)和精確的預(yù)測方法。
然而對已取得成果分析發(fā)現(xiàn),當(dāng)前工作仍存在兩方面問題:一是缺少一種包含較全面的蛋白質(zhì)信息表達(dá);二是忽略表達(dá)和預(yù)測模型之間的關(guān)聯(lián)性。因此為構(gòu)造一個高效表達(dá),首先綜合考慮PseAAC和PSSM兩種表達(dá)差異性,提出融合兩種表達(dá),得到高維表達(dá)PAAPSSM;第二,由于高維數(shù)據(jù)會降低分類器性能[2],使用有監(jiān)督局部保持投影SLPP(supervised locality preserving projection)[14-15]對PAAPSSM降維,從而促進(jìn)后續(xù)K-近鄰分類器預(yù)測精度[16];最后,在2007年Chou教授創(chuàng)建的數(shù)據(jù)[17]上開展實驗,用十折交叉驗證方法評估KNN分類器性能[18]。實驗結(jié)果表明,PAAPSSM表達(dá)結(jié)合SLPP降維算法在蛋白質(zhì)亞核定位中取得較高預(yù)測精度,說明該方法是切實有效的。
1.1 問題描述
有效地表達(dá)長度不等的蛋白質(zhì)序列,是蛋白質(zhì)亞細(xì)胞定位、亞核定位研究中的難點和關(guān)鍵?;赑seAAC和PSSM兩種有效且廣泛使用的蛋白質(zhì)序列表達(dá)方法[17]展開研究工作。
1.2 概念定義
定義1 為提取蛋白質(zhì)序列特征信息,便于算法處理,并應(yīng)對蛋白質(zhì)序列長度“不等性”,把由氨基酸組成的蛋白質(zhì)序列轉(zhuǎn)化為由數(shù)據(jù)表示的數(shù)據(jù)結(jié)構(gòu)形式,稱為蛋白質(zhì)序列特征表達(dá)。下面介紹兩種特征表達(dá)PseAAC和PSSM。
PseAAC包含了序列順序和長度信息,PseAAC可形式化表示為:PseAAC=[p1,p2,…,p20,…,p20+2λ], 其中,前20維元素表示20種氨基酸在蛋白質(zhì)序列中出現(xiàn)的頻率,之后的2λ維元素是相關(guān)因子,反應(yīng)了序列中氨基酸的物理化學(xué)性質(zhì)以及序列中相鄰氨基酸之間的順序相關(guān)性[7],λ是一待定整數(shù),取值大于零且小于蛋白質(zhì)序列的長度L。根據(jù)經(jīng)驗,本文取λ=10,PseAAC表達(dá)用40維向量表達(dá)蛋白質(zhì)序列。
PSSM表示了蛋白質(zhì)序列的進(jìn)化信息,它是一個L×20的數(shù)據(jù)矩陣,其中,L行分別與蛋白質(zhì)序列中的氨基酸排列一一對應(yīng),20列則分別對應(yīng)20種基本氨基酸的排列。PSSM中的元素表示序列中的某位置的氨基酸被替換為列中對應(yīng)氨基酸而得的分值[9]。然后利用PP=PSSMT×PSSM處理PSSM,得到一個對稱的20×20數(shù)據(jù)矩陣PP。最后使用向量PP*=[pp1,pp2,…,pp210]存儲PP矩陣中上三角元素,以表達(dá)序列的進(jìn)化信息。
定義2PAAPSSM是由PseAAC和PSSM融合而成的表達(dá),產(chǎn)生PAAPSSM特征表達(dá)的規(guī)則為:PAAPSSM=[r×PseAAC,(1-r) ×PP*],其中,r是權(quán)重系數(shù),亦可稱為平衡因子,是為了平衡融合向量PAAPSSM,同時也表示PseAAC和PSSM兩種表達(dá)對蛋白質(zhì)亞核定位的影響程度。
對于r的取值,利用貪心思想來選取,首先設(shè)定r取值從0到1,以0.0001步長進(jìn)行遍歷,然后計算所有r取值對應(yīng)的蛋白質(zhì)亞核定位預(yù)測精度,最后選取得到預(yù)測精度最高值時的r值。圖1顯示r取值和蛋白質(zhì)亞核定位整體預(yù)測精度的對應(yīng)情況,圖中對應(yīng)預(yù)測精度最高點的r取值是0.9970,r取值在0.9500~0.9990之間,蛋白質(zhì)亞核定位取得較好的預(yù)測效果。

圖1 平衡因子r取值與對應(yīng)整體預(yù)測精度的散點圖
定義3 預(yù)測蛋白質(zhì)在細(xì)胞核內(nèi)具體部位上出現(xiàn)并執(zhí)行其功能的過程,稱為蛋白質(zhì)亞核定位。細(xì)胞核內(nèi)這些具體的部位叫做亞核位置。本文基于新提出的PAAPSSM表達(dá),與有監(jiān)督降維方法結(jié)合使用,可精確地定位蛋白質(zhì)在細(xì)胞核中位置。
1.3 融合原理
蛋白質(zhì)亞核定位問題重點研究之一是如何構(gòu)建有效的表達(dá)。蛋白質(zhì)序列的特征表示方法[2,17]已有很多,各有優(yōu)缺點。PseAAC和PSSM是當(dāng)前較為有效的兩種表達(dá)。PseAAC具有氨基酸的疏水性和親水性已及蛋白質(zhì)序列的順序信息[7],PSSM包含蛋白質(zhì)的進(jìn)化信息[9]。本文綜合考慮兩種表達(dá)所包含信息的差異性,提出PAAPSSM表達(dá)。PAAPSSM充分利用蛋白質(zhì)特征間的互補性和相關(guān)性,從而能夠更加全面地表達(dá)蛋白質(zhì)序列的特征信息,進(jìn)而提高蛋白質(zhì)亞核定位的準(zhǔn)確度。
結(jié)論1 由PseAAC和PSSM融合而得的PAAPSSM表達(dá)能夠取得比PseAAC或PSSM都更多的蛋白質(zhì)特征表達(dá)信息。
證明:設(shè)I(PseAAC),I(PSSM),I(PAAPSSM)分別對應(yīng)PseAAC,PSSM,PAAPSSM所具有的蛋白質(zhì)特征表達(dá)信息,據(jù)生成PAAPSSM特征規(guī)則,問題大致可轉(zhuǎn)化為以下兩種情況。
(1) 當(dāng)I(PseAAC)=I(PSSM),則I(PAAPSSM)=I(PseAAC)=I(PSSM)。
(2) 當(dāng)I(PseAAC)≠I(PSSM),這時可分為三種情況,一是I(PseAAC)≠(I(PseAAC)∩I(PSSM))≠I(PSSM),則I(PAAPSSM) >I(PseAAC)且I(PAAPSSM)>I(PSSM);二是(I(PseAAC)∩ I(PSSM))=I(PseAAC),則I(PAAPSSM)=I(PSSM)>I(PseAAC);三是(I(PseAAC)∩I(PSSM))=I(PSSM),則I(PAAPSSM)=I(PseAAC)>I(PSSM)。
綜上,融合表達(dá)PAAPSSM包含的特征信息比PseAAC和PSSM都更豐富,從而更有利于蛋白質(zhì)亞核定位精度的提高。
2.1 有監(jiān)督局部保持投影
隨著PAAPSSM維度的增加,分類器泛化性能降低,識別準(zhǔn)確度下降,且識別時間變長,為此利用有監(jiān)督的局部保持投影SLPP(supervisedlocalitypreservingprojection)[14-15]對PAAPSSM進(jìn)行降維。SLPP是一種保持局部結(jié)構(gòu)的降維算法且計算復(fù)雜度底[14]。在闡述SLPP前,先介紹局部保持投影算法LPP。設(shè)有訓(xùn)練樣本X={x1,x2,…,xn},投影矩陣為Z,投影后的樣本為Y={y1,y2,…,yn}。則LPP的目標(biāo)函數(shù)為式(1)。
(1)
(2)
(3)
(4)
其中,O(m,xi)是一個集合,由與xi相鄰的m個元素組成,n取值為正的常數(shù),且Sij=Aij+Bij。從式(1)可以看出,LPP降維后的數(shù)據(jù)雖然保持了原數(shù)據(jù)的局部結(jié)構(gòu),使高維空間中相鄰的同類樣本在低維空間中靠近,但同時也使不同類別的相鄰樣本在低維空間中靠近,這對分類并沒有大的貢獻(xiàn)[15]。為使投影后的數(shù)據(jù)保持類內(nèi)局部結(jié)構(gòu)的同時最大化類間分離度,本文使用了文獻(xiàn)[14]提出的SLPP,其目標(biāo)函數(shù)為式(5)。
(5)
對由式(5)轉(zhuǎn)化可得到如式(6)所示的廣義特征值問題。
XLAXTz=aXLBXTz
(6)
(7)
(8)
其中,LA=DA-A,LB=DB-A,依據(jù)式(6),把求得的特征向量zi按對應(yīng)特征值a從大到小排列,得到投影矩陣Z=[z1,z2,z3,…]。由Y=ZTX可得到降維后的數(shù)據(jù)Y。
2.2K近鄰分類器
K近鄰(KNN)算法核心思想:對一測試樣本,在特征空間中,比較該樣本與其他訓(xùn)練樣本的距離,該樣本的類別為與其最相鄰的k個樣本中多數(shù)的類別[10]。KNN依據(jù)周圍k個近鄰樣本而分類,而由20種基本氨基酸組成的蛋白質(zhì)數(shù)據(jù),類域間重疊較多,選用KNN算法分類較為合適[9]。
為取得穩(wěn)定和可靠的實驗預(yù)測結(jié)果,本文用十折交叉驗證10FCV(10-foldcrossvalidation)評估KNN分類器的性能。10FCV將數(shù)據(jù)集隨機(jī)地分成無交集的十等份子集,這些子集都保持有不同類之間的數(shù)據(jù)量比例[18]。每一次試驗,將其中一個子集作為測試集,剩余九份全部作為訓(xùn)練集,輪流十次試驗,求均值得出一次KNN實驗的預(yù)測結(jié)果。為取得比較精確的實驗結(jié)果,本文實驗結(jié)果都是運行50次10FCV結(jié)果的平均值。
3.1 數(shù)據(jù)集描述及整體預(yù)測流程
(1) 數(shù)據(jù)集
為便于驗證提出方法的高效性,在Chou教授2007年創(chuàng)建的亞核蛋白質(zhì)數(shù)據(jù)集上運行實驗。蛋白質(zhì)序列數(shù)據(jù)集如表1所示。文獻(xiàn)[17]給出創(chuàng)建該數(shù)據(jù)集的詳細(xì)說明。

表1 包含9個不同亞核位置的標(biāo)準(zhǔn)數(shù)據(jù)集
(2) 本文整體處理流程
為提高蛋白質(zhì)亞核定位的準(zhǔn)確度,首先基于PseAAC和PSSM提出PAAPSSM,然后使用SLPP方法降維PAAPSSM,最后使用KNN分類器預(yù)測蛋白質(zhì)亞核位置。圖2給出了本文亞核定位的整體處理流程。

圖2 蛋白質(zhì)亞核定位整體處理流程
3.2 實驗結(jié)果及分析
(1)PAAPSSM與單特征表達(dá)的對比及參數(shù)k的影響
為驗證PAAPSSM表達(dá)方法高效性,基于PseAAC,PSSM和PAAPSSM三種表達(dá)在表1所示數(shù)據(jù)集上運行實驗,考慮到KNN分類器近鄰尺度k的大小會直接影響預(yù)測精度,于是對k從1到10遍歷,對每次k不同取值,分別運行50次10FCV并計算平均結(jié)果,取每種表達(dá)都取總體精度最高時的結(jié)果及對應(yīng)k值如表2所示。表2給出基于三種表達(dá)蛋白質(zhì)各亞核位置及總體預(yù)測精度,并給出對應(yīng)此精度k的取值。需要說明,表2中,PseAAC(k=2)并沒有PseAAC(k=9)的總體預(yù)測精度高。從表2可看出,PAAPSSM的總體預(yù)測精度比PseAAC和PSSM都更高,說明PAAPSSM能高效地表示蛋白質(zhì)序列。

表2 多種表達(dá)方法預(yù)測精度的對比
此外,為觀察不同k值對整體預(yù)測精度影響,圖3給出三種表達(dá)取不同k值整體預(yù)測精度變化情況,可選出PseAAC在k=9,PSSM在k=2,PAAPSSM在k=2時,整體預(yù)測精度最高,且可看出PAAPSSM的整體精度值始終高于PseAAC和PSSM。

圖3 不同表達(dá)方法的預(yù)測精度隨近鄰數(shù)k變化的趨勢
(2)SLPP降維的影響
為觀察SLPP對PAAPSSM降維的影響,首先用SLPP降維PAAPSSM到1~20維,然后分別在各維度數(shù)據(jù)上運行50次10FCV,計算平均結(jié)果,圖4顯示SLPP降維PAAPSSM后維度與整體預(yù)測精度之間的關(guān)系。從圖4可看出,PAAPSSM降到6維(PAAPSSM-6D),整體預(yù)測精度最高,因為數(shù)據(jù)維度增加到一定程度分類器性能會降低。此外,圖5給出PAAPSSM-6D與未降維時整體預(yù)測精度在各亞核位置上對比情況,從而說明,PAAPSSM降維后整體預(yù)測結(jié)果有較大提高。

圖4 PAAPSSM隨不同維度變化的預(yù)測精度曲線
(3) 與Nuc-PLoc方法的對比
為驗證本文提出的先用SLPP降維PAAPSSM再用KNN預(yù)測的高效性,將該方法在數(shù)據(jù)集上運行的整體預(yù)測精度與Nuc-PLoc方法[17]結(jié)果對比,如表3所示。從表3可看出本文方法在預(yù)測精度上明顯高于Nuc-PLoc方法,是因為SLPP聚集同類數(shù)據(jù)并降低數(shù)據(jù)維度,促進(jìn)KNN分類器的預(yù)測。

表3 將本文預(yù)測方法與Nuc-PLoc方法[17]進(jìn)行對比
本文首先給出特征表達(dá)的概念并描述PseAAC和PSSM表達(dá)產(chǎn)生的過程,然后提出PAAPSSM表達(dá),并詳細(xì)介紹平衡因子r的選取方法,最后為減少高維數(shù)據(jù)對分類器的影響,利用SLPP對PAAPSSM進(jìn)行降維,在數(shù)據(jù)集上進(jìn)行驗證。實驗結(jié)果表明,本文提出的方法具有以下特點:(1)PAAPSSM比PseAAC和PSSM更高效地表達(dá)了蛋白質(zhì)序列信息,即PAAPSSM包含了更多的判別信息。(2) 使用SLPP降維算法處理PAAPSSM表達(dá)能取得更高的預(yù)測結(jié)果。(3) 本文提出的特征表達(dá)以及高維表達(dá)先降維的方法可以有效地應(yīng)用于基于序列預(yù)測蛋白質(zhì)亞核位置、亞細(xì)胞位置等問題上。但是本文沒有充分考慮傳統(tǒng)特征之間的關(guān)聯(lián)性,對特征融合表達(dá)方法還有待提高,對此將進(jìn)一步研究。另外,還需繼續(xù)研究發(fā)現(xiàn)更好的特征表達(dá)方法和預(yù)測器模型,以期望能更加準(zhǔn)確、高效地定位蛋白質(zhì)亞核位置。
[1]WanS.Proteinsubcellularlocalization:geneontologybasedmachinelearningapproaches[D].TheHongKongPolytechnicUniversity,2014.
[2]ChouKC.Someremarksonproteinattributepredictionandpseudoaminoacidcomposition[J].JournalofTheoreticalBiology,2011,273(1):236-247.
[3] 王彤.高維生物數(shù)據(jù)的分類與預(yù)測研究[D].上海:上海交通大學(xué),2009.
[4]ChouKC,ShenHB.Plant-mPLoc:atop-downstrategytoaugmentthepowerforpredictingplantproteinsubcellularlocalization[J].PLoSOne,2010,5(6):e11335.
[5]LiuS,WangS,DingH.Proteinsub-nuclearlocationbyfusingAACandPSSMfeaturesbasedonsequenceinformation[C]//ElectronicsInformationandEmergencyCommunication(ICEIEC),2015InternationalConferenceon.IEEE,2015:235-238.
[6]SahuSS,PandaG.AnovelfeaturerepresentationmethodbasedonChou’spseudoaminoacidcompositionforproteinstructuralclassprediction[J].ComputationalBiologyandChemistry,2010,34(5-6):320-327.
[7]DuP,WangX,XuC,etal.PseAAC-Builder:across-platformstand-aloneprogramforgeneratingvariousspecialChou’spseudo-aminoacidcompositions[J].AnalyticalBiochemistry,2012,425(2):117-119.
[8] 李小葦,劉太崗,陶珮瑩,等.基于ACC變換和RFE算法的蛋白質(zhì)亞核定位預(yù)測[J/OL].http://www.cnki.net/kcms /detail/11.2127.TP.20150521.0856.012.html.
[9] Lin W Z,Fang J A,Xiao X,et al.iLoc-Animal: a multi-label learning classifier for predicting subcellular localization of animal proteins[J].Molecular BioSystems,2013,9(4):634-644.
[10] Shen H B,Chou K C.Predicting protein subnuclear location with optimized evidence-theoretic K-nearest classifier and pseudo amino acid composition[J].Biochemical and Biophysical Research Communications,2005,337(3):752-756.
[11] Lei Z,Dai Y.An SVM-based system for predicting protein subnuclear localizations[J].BMC Bioinformatics,2005,6:291.
[12] Chou K C.Pseudo amino acid composition and its applications in bioinformatics,proteomics and system biology[J].Current Proteomics,2009,6(4):262-274.
[13] Kumar R,Jain S,Kumari B,et al.Protein sub-nuclear localization prediction using SVM and Pfam domain information[J].PLoS One,2014,9(6):e98345.
[14] 龔劬,華桃桃.基于改進(jìn)的局部保持投影算法的人臉識別[J].計算機(jī)應(yīng)用,2012,32(2):528-530,534.
[15] Zhang Y,Xiang M,Yang B.Linear dimensionality reduction based on Hybrid structure preserving projections[J/OL].http://dx.doi.org/10.1016/j.neucom.2015.07.011.
[16] 喬善平,閆寶強.蛋白質(zhì)亞細(xì)胞定位預(yù)測研究綜述[J].計算機(jī)應(yīng)用研究,2014,31(2):321-327.
[17] Shen H B,Chou K C.Nuc-PLoc:a new web-server for predicting protein subnuclear localization by fusing PseAA composition and PsePSSM[J].Protein Engineering,Design and Selection,2007,20(11):561-567.
[18] 汪慶華,劉江煒,張?zhí)m蘭.交叉驗證K近鄰算法分類研究[J].西安工業(yè)大學(xué)學(xué)報,2015,35(2):119-124,141.
PROTEIN SUB-NUCLEAR LOCALIZATION BASED ON FEATURE FUSION AND SUPERVISED LOCALITY PRESERVERVING PROJECTION
Liu Shuhui Wang Shunfang*
(SchoolofInformationScienceandEngineering,YunnanUniversity,Kunming650504,Yunnan,China)
The drawbacks of traditional methods of protein sub-nuclear localization are the insufficient information of single feature sequence representations, and the independent relationship between sequence representation and prediction methods. Therefore a fusion representation is constructed by combining pseudo amino acid composition with position specific scoring matrix. From these two single representations, the physical and chemical characteristic information of amino acids and protein evolution information are collected respectively. The low dimensional discriminant features are obtained with the inter-class segmenting and inner-class maintaining characteristics by supervised locality preserving projection learning data low-dimensional manifold. Then depending on the data distribution, nearest neighbor classifier is employed to predict sub-nuclear locations. Finally on the standard data sets, the evaluate results by 10-fold cross validation show that the proposed method has significant improvement in accuracy compared with the existing methods.
Fusion representation Supervised locality preserving projection K-nearest neighbor classifier 10-fold cross validation
2015-08-09。國家自然科學(xué)基金項目(11261068,11661081)。劉樹慧,碩士生,主研領(lǐng)域:計算機(jī)應(yīng)用。王順芳,教授。
TP3
A
10.3969/j.issn.1000-386x.2017.02.045