999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)研究進(jìn)展

2014-09-02 09:56:10鄭珊珊石卓興代琦姚玉華
科技視界 2014年12期

鄭珊珊+石卓興+代琦+姚玉華

【摘 要】蛋白質(zhì)的功能與其亞細(xì)胞位置有著密切的聯(lián)系,對(duì)于確定一個(gè)未知特性蛋白質(zhì)的功能,亞細(xì)胞定位研究能夠提供重要的參考信息。采用傳統(tǒng)實(shí)驗(yàn)的方法研究亞細(xì)胞定位需要耗費(fèi)大量的人力、財(cái)力、物力,已經(jīng)不能滿足數(shù)據(jù)庫中蛋白質(zhì)序列爆炸性增長(zhǎng)的現(xiàn)實(shí)需要。從已積累的知識(shí)和數(shù)據(jù)出發(fā),利用智能算法、機(jī)器學(xué)習(xí)等工具開發(fā)蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)的方法成為了當(dāng)前的重要研究?jī)?nèi)容。本文對(duì)國(guó)內(nèi)外亞細(xì)胞定位預(yù)測(cè)的研究現(xiàn)狀進(jìn)行了綜述。

【關(guān)鍵詞】亞細(xì)胞定位;特征信息提取;預(yù)測(cè)算法

亞細(xì)胞定位是指某種蛋白或某種基因表達(dá)產(chǎn)物在細(xì)胞內(nèi)的具體存在部位,即根據(jù)所給出的蛋白質(zhì)序列來預(yù)測(cè)其所在的亞細(xì)胞位置。蛋白質(zhì)是基因功能的執(zhí)行者,機(jī)體中的每一個(gè)細(xì)胞和所有重要組成部分都有它的參與,正是由于它是與生命及與各種形式的生命活動(dòng)緊密聯(lián)系在一起的物質(zhì),越來越多的生物學(xué)、生物信息學(xué)研究者開始對(duì)蛋白質(zhì)的功能預(yù)測(cè)及分析進(jìn)行了研究。然而,蛋白質(zhì)只有經(jīng)分選信號(hào)引導(dǎo)后運(yùn)輸?shù)教囟ǖ募?xì)胞器中,才能參與細(xì)胞的各種生命活動(dòng),執(zhí)行它的功能,如果其運(yùn)送位置發(fā)生偏差,將會(huì)影響細(xì)胞功能甚至整個(gè)生物體。因此,蛋白質(zhì)在細(xì)胞中的正確定位是細(xì)胞系統(tǒng)高度有序運(yùn)轉(zhuǎn)的前提保障。研究細(xì)胞中蛋白質(zhì)定位的機(jī)制和規(guī)律,預(yù)測(cè)蛋白質(zhì)的亞細(xì)胞定位,對(duì)于了解蛋白質(zhì)結(jié)構(gòu)、性質(zhì)和功能,了解蛋白質(zhì)之間的相互作用,研究疾病機(jī)理和發(fā)展新藥物以及探索生命的規(guī)律和奧秘具有重要意義。

隨著核酸和蛋白質(zhì)序列等生物數(shù)據(jù)的高速膨脹,單純以傳統(tǒng)實(shí)驗(yàn)方法來確定蛋白質(zhì)亞細(xì)胞定位具有成本高、實(shí)驗(yàn)時(shí)間長(zhǎng),預(yù)測(cè)精度不理想,會(huì)耗費(fèi)大量的人力和物力等缺點(diǎn),已經(jīng)無法滿足生命科學(xué)研究的需要。因此,需要尋找一種快速、有效、準(zhǔn)確的計(jì)算方法來預(yù)測(cè)蛋白質(zhì)亞細(xì)胞定位。近年來,生物信息學(xué)在這方面開展了廣泛的研究并且取得一系列很有意義的成果,數(shù)據(jù)庫的構(gòu)建和亞細(xì)胞定位分析及預(yù)測(cè)加速了蛋白質(zhì)結(jié)構(gòu)和功能的研究。一方面,生物信息學(xué)研究可以對(duì)大規(guī)模的實(shí)驗(yàn)數(shù)據(jù)進(jìn)行分析和提取生物學(xué)信息,同時(shí)可以根據(jù)現(xiàn)有數(shù)據(jù)對(duì)一些目前還未知的蛋白質(zhì)做出預(yù)測(cè);另一方面,不斷增長(zhǎng)的亞細(xì)胞定位數(shù)據(jù)也可以用來驗(yàn)證并改進(jìn)預(yù)測(cè)結(jié)果。目前,利用生物信息學(xué)方法進(jìn)行蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)已經(jīng)成為了一個(gè)研究熱點(diǎn)。

從20世紀(jì)90年代初至今,蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)一直是生物信息學(xué)研究的熱點(diǎn)問題之一。通過分析國(guó)內(nèi)外研究者的研究方法,不難發(fā)現(xiàn)這些方法的主要不同在于兩個(gè)方面: 第一,蛋白質(zhì)特征信息的提取,主要是指將蛋白質(zhì)相關(guān)特征信息提取出之后轉(zhuǎn)化成高維的特征向量,作為預(yù)測(cè)的輸入。蛋白質(zhì)序列特征信息主要包括氨基酸順序相關(guān)性、氨基酸在蛋白質(zhì)中出現(xiàn)的頻率、氨基酸物理化學(xué)性質(zhì)等。第二,預(yù)測(cè)算法的設(shè)計(jì),根據(jù)提取的特征向量集,利用有效的算法預(yù)測(cè)蛋白質(zhì)的亞細(xì)胞定位。算法影響亞細(xì)胞預(yù)測(cè)精度的重要因素,現(xiàn)有預(yù)測(cè)算法中,統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)方法使用的最為廣泛。

利用計(jì)算方法來預(yù)測(cè)蛋白質(zhì)亞細(xì)胞定位屬于統(tǒng)計(jì)模式識(shí)別中的模式多分類問題。問題的研究一般包括以下四個(gè)步驟:(1)具有客觀代表性的蛋白質(zhì)數(shù)據(jù)集的構(gòu)建; (2)蛋白質(zhì)序列的特征提取,即蛋白質(zhì)序列編碼,從蛋白質(zhì)中提取特征參數(shù),實(shí)現(xiàn)字母序列到數(shù)值特征的轉(zhuǎn)換;(3)預(yù)測(cè)算法的選取,即如何根據(jù)提取的特征參數(shù),設(shè)計(jì)有效的分類或識(shí)別模型類;(4)對(duì)預(yù)測(cè)結(jié)果進(jìn)行評(píng)估,即預(yù)測(cè)模型的測(cè)試與檢驗(yàn)以及結(jié)果性能的評(píng)估。

1 數(shù)據(jù)集的構(gòu)建

研究蛋白質(zhì)亞細(xì)胞定位的數(shù)據(jù)集基本來自SWISS-PROT數(shù)據(jù)庫。該數(shù)據(jù)庫建于1986年,是目前世界上存儲(chǔ)蛋白質(zhì)序列最主要的一級(jí)數(shù)據(jù)庫之一。利用這個(gè)數(shù)據(jù)庫研究蛋白質(zhì)的亞細(xì)胞定位時(shí),需要對(duì)其中的數(shù)據(jù)進(jìn)行篩選。通常的篩選標(biāo)準(zhǔn)有:(1)針對(duì)研究對(duì)象,挑選特定物種的相關(guān)蛋白質(zhì)序列;(2)在構(gòu)建數(shù)據(jù)集時(shí),需要知道每個(gè)蛋白質(zhì)序列所在的亞細(xì)胞位置,所以只有包含明確的亞細(xì)胞定位信息的序列才被選入數(shù)據(jù)集中;(3)序列長(zhǎng)度不能太短;(4)數(shù)據(jù)冗余度,要求同源性低;(5)排除樣本量太少的亞細(xì)胞類別。

除了利用SWISS-PROT數(shù)據(jù)庫外,還有LOCATE、TargetP家族數(shù)據(jù)集等。近年來,隨著研究的不斷深入,蛋白質(zhì)序列數(shù)據(jù)集越來越復(fù)雜,目前最復(fù)雜的數(shù)據(jù)集是酵母蛋白質(zhì)序列數(shù)據(jù)集,包含22種亞細(xì)胞蛋白質(zhì)。

2 蛋白質(zhì)特征信息的提取

蛋白質(zhì)序列特征提取的目的是,從蛋白質(zhì)序列中提取特征信息,并用適當(dāng)?shù)臄?shù)學(xué)方法來描述或表示這些信息,使之能正確反映序列與結(jié)構(gòu)或功能之間的關(guān)系,這于蛋白質(zhì)亞細(xì)胞定位是至關(guān)重要的,也是研究蛋白質(zhì)功能結(jié)構(gòu)的關(guān)鍵。根據(jù)提取特征信息的不同,可以歸納為3類。

2.1 基于氨基酸的組成和性質(zhì)

氨基酸組成是一種最基本的序列特征,也是亞細(xì)胞定位預(yù)測(cè)中使用得最為普遍的一種蛋白質(zhì)特征信息。蛋白質(zhì)一般有20 種氨基酸組成,氨基酸組成將每種氨基酸在蛋白質(zhì)序列中出現(xiàn)的頻率抽取出來作為一個(gè)20維的向量。1994年,Nakashima和 Nishikawa最早通過利用氨基酸組成進(jìn)行了蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè),對(duì)細(xì)胞內(nèi)和細(xì)胞外蛋白質(zhì)定位分別取得了88%和 84%的預(yù)測(cè)準(zhǔn)確率。

2.2 基于蛋白質(zhì)序列的N端分選信號(hào)的方法

一般認(rèn)為蛋白質(zhì)在合成的過程中,其N端包含一些特殊的分選信號(hào),這些信號(hào)能夠指導(dǎo)新合成的蛋白質(zhì)分選到特定的亞細(xì)胞中,包括信號(hào)肽、線粒體轉(zhuǎn)移肽、葉綠體運(yùn)輸肽、核定位信號(hào)、類囊體腔轉(zhuǎn)移肽和過氧化物酶體定位信號(hào)等。這種信息的有效性取決于蛋白質(zhì)序列完整性,一旦蛋白質(zhì)序列的N端信號(hào)不完整或者丟失,預(yù)測(cè)結(jié)果就可能失效。

2.3 基于功能域和基因注釋的方法

蛋白質(zhì)序列在長(zhǎng)期的進(jìn)化過程中,某些特定位點(diǎn)上的氨基酸殘基具有高度的保守性,這些位點(diǎn)稱為功能域。2002年功能域組分的概念首次被用于蛋白質(zhì)亞細(xì)胞定位,這種方法顯著提高了亞細(xì)胞定位的質(zhì)量。2006年,引入GO注釋來預(yù)測(cè)人類蛋白質(zhì)的亞細(xì)胞位置。但是,基于功能與和基因注釋的方法對(duì)于數(shù)據(jù)庫功能注釋信息的完善程度依賴性較大,如果數(shù)據(jù)庫中沒有足夠的功能域或基因注釋條目,那么將無法確定蛋白質(zhì)的亞細(xì)胞定位。

由于不同的特征從不同的角度刻畫蛋白質(zhì)序列,目前沒有一種特征能夠很好地刻畫蛋白質(zhì)的亞細(xì)胞定位特征,單獨(dú)利用某種特征難以在預(yù)測(cè)效果上取得大的突破。將多種特征提取方法組合起來已經(jīng)成為亞細(xì)胞定位預(yù)測(cè)中最為普遍的一種方法。

3 蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)算法

蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)中另一個(gè)重要因素是識(shí)別算法,成功的分類算法應(yīng)該是能夠高效、正確的將不同亞細(xì)胞位置的蛋白質(zhì)分開。在蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)方面,主要的算法包括5類:基于簡(jiǎn)單選擇判別規(guī)則的方法;基于距離度量的近鄰方法;基于人工神經(jīng)網(wǎng)絡(luò)的方法;基于馬爾可夫模型的方法;基于向量機(jī)的方法。常用預(yù)測(cè)方法有神經(jīng)網(wǎng)絡(luò)、支持向量機(jī) 、最鄰近算法三種。

(1)神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)是一種模仿動(dòng)物神經(jīng)網(wǎng)絡(luò)行為特征,進(jìn)行分布式并行信息處理的算法數(shù)學(xué)模型。這種網(wǎng)絡(luò)依靠系統(tǒng)的復(fù)雜程度,通過調(diào)整內(nèi)部大量節(jié)點(diǎn)之間相互連接的關(guān)系,從而達(dá)到處理信息的目的。神經(jīng)網(wǎng)絡(luò)具有良好的魯棒性和容錯(cuò)性,因此,不僅在蛋白質(zhì)亞細(xì)胞定位領(lǐng)域受到青睞,在模式識(shí)別的其他領(lǐng)域也得到了廣泛的應(yīng)用。

(2)支持向量機(jī)。支持向量機(jī)是一種基于統(tǒng)計(jì)學(xué)習(xí)理論分類技術(shù),它在蛋白質(zhì)特征向量映射到的高維空間中,找到一個(gè)使(下轉(zhuǎn)第32頁)(上接第12頁)分類誤差最小的最優(yōu)分類面。由于支持向量機(jī)具有較好的推廣能力,許多學(xué)者選擇它作為蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)的首選分類器。

(3)基于距離的近鄰方法。基于距離的近鄰方法原理是根據(jù)某種距離度量方法來度量樣本之間的相似性,距離越近則兩樣本有可能出現(xiàn)在相同細(xì)胞器中。隨后的研究中,研究者將基于距離的近鄰方法做了推廣,如模糊K近鄰方法,加權(quán)模糊K近鄰方法等。基于距離的近鄰方法,不需要人為的選擇參數(shù),適合求解大規(guī)模問題,運(yùn)算速度較快。

隨著研究的不斷深入,將多種算法進(jìn)行融合,來預(yù)測(cè)蛋白質(zhì)亞細(xì)胞定位已經(jīng)逐漸成為研究的趨勢(shì)。2010年,趙禹等用離散增量結(jié)合支持向量機(jī)方法預(yù)測(cè)蛋白質(zhì)亞細(xì)胞定位。多種算法的融合,在提高蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)的精度和加快算法運(yùn)行速度方面取得了良好的效果。

4 預(yù)測(cè)算法的檢驗(yàn)和評(píng)估

選用適當(dāng)?shù)念A(yù)測(cè)算法之后,需要對(duì)算法進(jìn)行評(píng)估,即檢驗(yàn)出算法的準(zhǔn)確率,它是評(píng)價(jià)一個(gè)分類算法性能好壞的重要指標(biāo),也是與其它分類預(yù)測(cè)算法比較的依據(jù)。預(yù)測(cè)算法的檢驗(yàn)方法主要有自身一致性檢驗(yàn)、獨(dú)立性檢驗(yàn)、留一法檢驗(yàn)三種[29]。

留一交叉驗(yàn)證(1eave-one-outcross-validation,LOOCV)每次取出數(shù)據(jù)集中的一條蛋 白質(zhì)序列作為測(cè)試樣本,而剩余的蛋白質(zhì)序列作為訓(xùn)練集對(duì)測(cè)試樣本的亞細(xì)胞進(jìn)行定位預(yù)測(cè)。直到所有樣本序列都被測(cè)試一遍為止。LOOCV的缺點(diǎn)是計(jì)算成本高,費(fèi)時(shí),但是其結(jié)果更加嚴(yán)格可靠,已經(jīng)在很多方法中得到了應(yīng)用。

評(píng)估預(yù)測(cè)算法常用的算法評(píng)價(jià)指標(biāo)有 :敏感性、特異性和 Matthew相關(guān)系數(shù)。敏感性指標(biāo)是指每類樣本中被正確識(shí)別的比例,反映了預(yù)測(cè)成功率;特異性指標(biāo)是指被判別為第i類的樣本中真正屬于第i類的比例,反映了預(yù)測(cè)的可信度。

Sensitivity(i)=■×100%

Spencificity(i)=■×100%

Matthews相關(guān)系數(shù)MCC可以對(duì)算法的準(zhǔn)確率進(jìn)行評(píng)估。

MCC(i)=■

其中,tp(i)是第i類樣本中被預(yù)測(cè)正確的數(shù)目,fn(i)是第i類樣本被錯(cuò)誤的判別為其他類別的數(shù)目,fp(i)是非第i類樣本但被預(yù)測(cè)為第i類樣本的數(shù)目,tn(i)是非第i類樣本中被預(yù)測(cè)正確的樣本數(shù)目。MCC指標(biāo)取值0至1,取值越高說明分類器的性能越好,當(dāng)MCC取1時(shí),所有樣本均被正確識(shí)別;當(dāng)MCC取0時(shí),分類器的判別效果與隨機(jī)指派的結(jié)果一樣,這樣的分類器是最差的。

【參考文獻(xiàn)】

[1]徐建華,朱家勇.生物信息學(xué)在蛋白質(zhì)結(jié)構(gòu)與功能預(yù)測(cè)中的應(yīng)用[J].J Med Mol Biol, 2005,2(3):227-232.

[2]張樹波,賴劍煌.蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)的機(jī)器學(xué)習(xí)方法[J].計(jì)算機(jī)科學(xué),2009,36( 4):29-33.

[3]張麗.蛋白質(zhì)亞細(xì)胞定位的序列編碼及預(yù)測(cè)方法研究[D].湖南:湖南大學(xué)計(jì)算與通信學(xué)院,2010.

[4]郭麗麗,陳月輝.基于機(jī)器學(xué)習(xí)的蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)[J].信息技術(shù)與信息化,2011,5:73-75.

[5]吳文佳.蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)方法研究[D].南京:南京航空航天大學(xué),2008.

[6]趙禹,趙巨東,姚龍.用離散增量結(jié)合支持向量機(jī)方法預(yù)測(cè)蛋白質(zhì)亞細(xì)胞定位[J].生物信息學(xué),2010,8(3):241-244.

[7]吳澤月,陳月輝.蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)研究[J].山東師范大學(xué)學(xué)報(bào),2012,4(27):33-37.

[責(zé)任編輯:謝慶云]

由于不同的特征從不同的角度刻畫蛋白質(zhì)序列,目前沒有一種特征能夠很好地刻畫蛋白質(zhì)的亞細(xì)胞定位特征,單獨(dú)利用某種特征難以在預(yù)測(cè)效果上取得大的突破。將多種特征提取方法組合起來已經(jīng)成為亞細(xì)胞定位預(yù)測(cè)中最為普遍的一種方法。

3 蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)算法

蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)中另一個(gè)重要因素是識(shí)別算法,成功的分類算法應(yīng)該是能夠高效、正確的將不同亞細(xì)胞位置的蛋白質(zhì)分開。在蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)方面,主要的算法包括5類:基于簡(jiǎn)單選擇判別規(guī)則的方法;基于距離度量的近鄰方法;基于人工神經(jīng)網(wǎng)絡(luò)的方法;基于馬爾可夫模型的方法;基于向量機(jī)的方法。常用預(yù)測(cè)方法有神經(jīng)網(wǎng)絡(luò)、支持向量機(jī) 、最鄰近算法三種。

(1)神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)是一種模仿動(dòng)物神經(jīng)網(wǎng)絡(luò)行為特征,進(jìn)行分布式并行信息處理的算法數(shù)學(xué)模型。這種網(wǎng)絡(luò)依靠系統(tǒng)的復(fù)雜程度,通過調(diào)整內(nèi)部大量節(jié)點(diǎn)之間相互連接的關(guān)系,從而達(dá)到處理信息的目的。神經(jīng)網(wǎng)絡(luò)具有良好的魯棒性和容錯(cuò)性,因此,不僅在蛋白質(zhì)亞細(xì)胞定位領(lǐng)域受到青睞,在模式識(shí)別的其他領(lǐng)域也得到了廣泛的應(yīng)用。

(2)支持向量機(jī)。支持向量機(jī)是一種基于統(tǒng)計(jì)學(xué)習(xí)理論分類技術(shù),它在蛋白質(zhì)特征向量映射到的高維空間中,找到一個(gè)使(下轉(zhuǎn)第32頁)(上接第12頁)分類誤差最小的最優(yōu)分類面。由于支持向量機(jī)具有較好的推廣能力,許多學(xué)者選擇它作為蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)的首選分類器。

(3)基于距離的近鄰方法。基于距離的近鄰方法原理是根據(jù)某種距離度量方法來度量樣本之間的相似性,距離越近則兩樣本有可能出現(xiàn)在相同細(xì)胞器中。隨后的研究中,研究者將基于距離的近鄰方法做了推廣,如模糊K近鄰方法,加權(quán)模糊K近鄰方法等。基于距離的近鄰方法,不需要人為的選擇參數(shù),適合求解大規(guī)模問題,運(yùn)算速度較快。

隨著研究的不斷深入,將多種算法進(jìn)行融合,來預(yù)測(cè)蛋白質(zhì)亞細(xì)胞定位已經(jīng)逐漸成為研究的趨勢(shì)。2010年,趙禹等用離散增量結(jié)合支持向量機(jī)方法預(yù)測(cè)蛋白質(zhì)亞細(xì)胞定位。多種算法的融合,在提高蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)的精度和加快算法運(yùn)行速度方面取得了良好的效果。

4 預(yù)測(cè)算法的檢驗(yàn)和評(píng)估

選用適當(dāng)?shù)念A(yù)測(cè)算法之后,需要對(duì)算法進(jìn)行評(píng)估,即檢驗(yàn)出算法的準(zhǔn)確率,它是評(píng)價(jià)一個(gè)分類算法性能好壞的重要指標(biāo),也是與其它分類預(yù)測(cè)算法比較的依據(jù)。預(yù)測(cè)算法的檢驗(yàn)方法主要有自身一致性檢驗(yàn)、獨(dú)立性檢驗(yàn)、留一法檢驗(yàn)三種[29]。

留一交叉驗(yàn)證(1eave-one-outcross-validation,LOOCV)每次取出數(shù)據(jù)集中的一條蛋 白質(zhì)序列作為測(cè)試樣本,而剩余的蛋白質(zhì)序列作為訓(xùn)練集對(duì)測(cè)試樣本的亞細(xì)胞進(jìn)行定位預(yù)測(cè)。直到所有樣本序列都被測(cè)試一遍為止。LOOCV的缺點(diǎn)是計(jì)算成本高,費(fèi)時(shí),但是其結(jié)果更加嚴(yán)格可靠,已經(jīng)在很多方法中得到了應(yīng)用。

評(píng)估預(yù)測(cè)算法常用的算法評(píng)價(jià)指標(biāo)有 :敏感性、特異性和 Matthew相關(guān)系數(shù)。敏感性指標(biāo)是指每類樣本中被正確識(shí)別的比例,反映了預(yù)測(cè)成功率;特異性指標(biāo)是指被判別為第i類的樣本中真正屬于第i類的比例,反映了預(yù)測(cè)的可信度。

Sensitivity(i)=■×100%

Spencificity(i)=■×100%

Matthews相關(guān)系數(shù)MCC可以對(duì)算法的準(zhǔn)確率進(jìn)行評(píng)估。

MCC(i)=■

其中,tp(i)是第i類樣本中被預(yù)測(cè)正確的數(shù)目,fn(i)是第i類樣本被錯(cuò)誤的判別為其他類別的數(shù)目,fp(i)是非第i類樣本但被預(yù)測(cè)為第i類樣本的數(shù)目,tn(i)是非第i類樣本中被預(yù)測(cè)正確的樣本數(shù)目。MCC指標(biāo)取值0至1,取值越高說明分類器的性能越好,當(dāng)MCC取1時(shí),所有樣本均被正確識(shí)別;當(dāng)MCC取0時(shí),分類器的判別效果與隨機(jī)指派的結(jié)果一樣,這樣的分類器是最差的。

【參考文獻(xiàn)】

[1]徐建華,朱家勇.生物信息學(xué)在蛋白質(zhì)結(jié)構(gòu)與功能預(yù)測(cè)中的應(yīng)用[J].J Med Mol Biol, 2005,2(3):227-232.

[2]張樹波,賴劍煌.蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)的機(jī)器學(xué)習(xí)方法[J].計(jì)算機(jī)科學(xué),2009,36( 4):29-33.

[3]張麗.蛋白質(zhì)亞細(xì)胞定位的序列編碼及預(yù)測(cè)方法研究[D].湖南:湖南大學(xué)計(jì)算與通信學(xué)院,2010.

[4]郭麗麗,陳月輝.基于機(jī)器學(xué)習(xí)的蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)[J].信息技術(shù)與信息化,2011,5:73-75.

[5]吳文佳.蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)方法研究[D].南京:南京航空航天大學(xué),2008.

[6]趙禹,趙巨東,姚龍.用離散增量結(jié)合支持向量機(jī)方法預(yù)測(cè)蛋白質(zhì)亞細(xì)胞定位[J].生物信息學(xué),2010,8(3):241-244.

[7]吳澤月,陳月輝.蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)研究[J].山東師范大學(xué)學(xué)報(bào),2012,4(27):33-37.

[責(zé)任編輯:謝慶云]

由于不同的特征從不同的角度刻畫蛋白質(zhì)序列,目前沒有一種特征能夠很好地刻畫蛋白質(zhì)的亞細(xì)胞定位特征,單獨(dú)利用某種特征難以在預(yù)測(cè)效果上取得大的突破。將多種特征提取方法組合起來已經(jīng)成為亞細(xì)胞定位預(yù)測(cè)中最為普遍的一種方法。

3 蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)算法

蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)中另一個(gè)重要因素是識(shí)別算法,成功的分類算法應(yīng)該是能夠高效、正確的將不同亞細(xì)胞位置的蛋白質(zhì)分開。在蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)方面,主要的算法包括5類:基于簡(jiǎn)單選擇判別規(guī)則的方法;基于距離度量的近鄰方法;基于人工神經(jīng)網(wǎng)絡(luò)的方法;基于馬爾可夫模型的方法;基于向量機(jī)的方法。常用預(yù)測(cè)方法有神經(jīng)網(wǎng)絡(luò)、支持向量機(jī) 、最鄰近算法三種。

(1)神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)是一種模仿動(dòng)物神經(jīng)網(wǎng)絡(luò)行為特征,進(jìn)行分布式并行信息處理的算法數(shù)學(xué)模型。這種網(wǎng)絡(luò)依靠系統(tǒng)的復(fù)雜程度,通過調(diào)整內(nèi)部大量節(jié)點(diǎn)之間相互連接的關(guān)系,從而達(dá)到處理信息的目的。神經(jīng)網(wǎng)絡(luò)具有良好的魯棒性和容錯(cuò)性,因此,不僅在蛋白質(zhì)亞細(xì)胞定位領(lǐng)域受到青睞,在模式識(shí)別的其他領(lǐng)域也得到了廣泛的應(yīng)用。

(2)支持向量機(jī)。支持向量機(jī)是一種基于統(tǒng)計(jì)學(xué)習(xí)理論分類技術(shù),它在蛋白質(zhì)特征向量映射到的高維空間中,找到一個(gè)使(下轉(zhuǎn)第32頁)(上接第12頁)分類誤差最小的最優(yōu)分類面。由于支持向量機(jī)具有較好的推廣能力,許多學(xué)者選擇它作為蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)的首選分類器。

(3)基于距離的近鄰方法。基于距離的近鄰方法原理是根據(jù)某種距離度量方法來度量樣本之間的相似性,距離越近則兩樣本有可能出現(xiàn)在相同細(xì)胞器中。隨后的研究中,研究者將基于距離的近鄰方法做了推廣,如模糊K近鄰方法,加權(quán)模糊K近鄰方法等。基于距離的近鄰方法,不需要人為的選擇參數(shù),適合求解大規(guī)模問題,運(yùn)算速度較快。

隨著研究的不斷深入,將多種算法進(jìn)行融合,來預(yù)測(cè)蛋白質(zhì)亞細(xì)胞定位已經(jīng)逐漸成為研究的趨勢(shì)。2010年,趙禹等用離散增量結(jié)合支持向量機(jī)方法預(yù)測(cè)蛋白質(zhì)亞細(xì)胞定位。多種算法的融合,在提高蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)的精度和加快算法運(yùn)行速度方面取得了良好的效果。

4 預(yù)測(cè)算法的檢驗(yàn)和評(píng)估

選用適當(dāng)?shù)念A(yù)測(cè)算法之后,需要對(duì)算法進(jìn)行評(píng)估,即檢驗(yàn)出算法的準(zhǔn)確率,它是評(píng)價(jià)一個(gè)分類算法性能好壞的重要指標(biāo),也是與其它分類預(yù)測(cè)算法比較的依據(jù)。預(yù)測(cè)算法的檢驗(yàn)方法主要有自身一致性檢驗(yàn)、獨(dú)立性檢驗(yàn)、留一法檢驗(yàn)三種[29]。

留一交叉驗(yàn)證(1eave-one-outcross-validation,LOOCV)每次取出數(shù)據(jù)集中的一條蛋 白質(zhì)序列作為測(cè)試樣本,而剩余的蛋白質(zhì)序列作為訓(xùn)練集對(duì)測(cè)試樣本的亞細(xì)胞進(jìn)行定位預(yù)測(cè)。直到所有樣本序列都被測(cè)試一遍為止。LOOCV的缺點(diǎn)是計(jì)算成本高,費(fèi)時(shí),但是其結(jié)果更加嚴(yán)格可靠,已經(jīng)在很多方法中得到了應(yīng)用。

評(píng)估預(yù)測(cè)算法常用的算法評(píng)價(jià)指標(biāo)有 :敏感性、特異性和 Matthew相關(guān)系數(shù)。敏感性指標(biāo)是指每類樣本中被正確識(shí)別的比例,反映了預(yù)測(cè)成功率;特異性指標(biāo)是指被判別為第i類的樣本中真正屬于第i類的比例,反映了預(yù)測(cè)的可信度。

Sensitivity(i)=■×100%

Spencificity(i)=■×100%

Matthews相關(guān)系數(shù)MCC可以對(duì)算法的準(zhǔn)確率進(jìn)行評(píng)估。

MCC(i)=■

其中,tp(i)是第i類樣本中被預(yù)測(cè)正確的數(shù)目,fn(i)是第i類樣本被錯(cuò)誤的判別為其他類別的數(shù)目,fp(i)是非第i類樣本但被預(yù)測(cè)為第i類樣本的數(shù)目,tn(i)是非第i類樣本中被預(yù)測(cè)正確的樣本數(shù)目。MCC指標(biāo)取值0至1,取值越高說明分類器的性能越好,當(dāng)MCC取1時(shí),所有樣本均被正確識(shí)別;當(dāng)MCC取0時(shí),分類器的判別效果與隨機(jī)指派的結(jié)果一樣,這樣的分類器是最差的。

【參考文獻(xiàn)】

[1]徐建華,朱家勇.生物信息學(xué)在蛋白質(zhì)結(jié)構(gòu)與功能預(yù)測(cè)中的應(yīng)用[J].J Med Mol Biol, 2005,2(3):227-232.

[2]張樹波,賴劍煌.蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)的機(jī)器學(xué)習(xí)方法[J].計(jì)算機(jī)科學(xué),2009,36( 4):29-33.

[3]張麗.蛋白質(zhì)亞細(xì)胞定位的序列編碼及預(yù)測(cè)方法研究[D].湖南:湖南大學(xué)計(jì)算與通信學(xué)院,2010.

[4]郭麗麗,陳月輝.基于機(jī)器學(xué)習(xí)的蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)[J].信息技術(shù)與信息化,2011,5:73-75.

[5]吳文佳.蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)方法研究[D].南京:南京航空航天大學(xué),2008.

[6]趙禹,趙巨東,姚龍.用離散增量結(jié)合支持向量機(jī)方法預(yù)測(cè)蛋白質(zhì)亞細(xì)胞定位[J].生物信息學(xué),2010,8(3):241-244.

[7]吳澤月,陳月輝.蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)研究[J].山東師范大學(xué)學(xué)報(bào),2012,4(27):33-37.

[責(zé)任編輯:謝慶云]

主站蜘蛛池模板: 欧美日韩在线第一页| 亚洲综合色吧| 美女一级毛片无遮挡内谢| 992tv国产人成在线观看| 国产亚洲视频中文字幕视频| 一本色道久久88| 精品91视频| 欧美亚洲日韩中文| 精品一區二區久久久久久久網站| 婷婷综合亚洲| 台湾AV国片精品女同性| 91小视频在线观看| 国产精品久线在线观看| 久久香蕉欧美精品| 狠狠综合久久久久综| 天天综合网站| 国产精品人莉莉成在线播放| 精品成人一区二区三区电影| 99精品福利视频| 国产成人亚洲精品无码电影| 国产18在线播放| 国产黑丝视频在线观看| 国产在线精品人成导航| 亚洲天堂.com| 在线观看av永久| 国产成人精品一区二区不卡| 国产白丝av| 欧洲一区二区三区无码| 国产精品成人免费视频99| 国产精品第5页| 国产精品偷伦在线观看| 免费观看成人久久网免费观看| 欧美在线伊人| 精品国产污污免费网站| 久久香蕉国产线看观看精品蕉| 特级精品毛片免费观看| 99爱视频精品免视看| 岛国精品一区免费视频在线观看| 久久天天躁狠狠躁夜夜躁| 精品一区二区久久久久网站| 亚洲日本中文字幕乱码中文| 中文字幕在线看视频一区二区三区| 国产97公开成人免费视频| 一本视频精品中文字幕| h网址在线观看| 999精品视频在线| 最新加勒比隔壁人妻| 国产精品亚洲片在线va| 国产精品第一区| 一级在线毛片| 宅男噜噜噜66国产在线观看| 无码AV日韩一二三区| 99国产在线视频| 高清色本在线www| 一级毛片免费高清视频| 亚洲天堂啪啪| 青青草原国产av福利网站| 国产成人久久综合777777麻豆 | 国产www网站| 亚洲无码日韩一区| 在线欧美一区| 毛片手机在线看| 亚洲av日韩综合一区尤物| 国产超碰在线观看| 91麻豆国产视频| 性激烈欧美三级在线播放| 99久久国产精品无码| 91人人妻人人做人人爽男同| 91福利免费| 91成人在线观看视频| 亚洲免费黄色网| 国产女同自拍视频| 99久久精品国产麻豆婷婷| 日韩欧美中文| 精品无码国产一区二区三区AV| 黄网站欧美内射| 日韩视频免费| 午夜无码一区二区三区| 99热免费在线| 国产乱人免费视频| 日韩精品一区二区深田咏美| 99ri精品视频在线观看播放|