基于特征加權(quán)的蛋白質(zhì)交互識(shí)別

2016-02-23 09:07:52吳紅梅

計(jì)算機(jī)技術(shù)與發(fā)展 2016年2期

關(guān)鍵詞：單詞分類特征

吳紅梅，牛耘

(南京航空航天大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，江蘇南京 210016)

基于特征加權(quán)的蛋白質(zhì)交互識(shí)別

吳紅梅，牛耘

(南京航空航天大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，江蘇南京 210016)

在以單詞為特征的模型中，如果特征單詞在不同類別中的使用情況存在明顯差異，那么它對(duì)分類有著很重要的影響。因此文中基于大規(guī)模語料庫(kù)，研究不同的特征加權(quán)方法對(duì)PPI識(shí)別的影響。首先，通過搜索醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫(kù)建立蛋白質(zhì)對(duì)的簽名檔，以單詞作為描述蛋白質(zhì)對(duì)關(guān)系的特征,構(gòu)建向量空間模型；然后，選擇不同的加權(quán)方法描述單詞重要性；最后，以K近鄰和SVM分類方法構(gòu)建分類器判斷蛋白質(zhì)對(duì)是否存在交互關(guān)系。實(shí)驗(yàn)結(jié)果表明，根據(jù)特征向量單詞的重要性進(jìn)行加權(quán)，PPI識(shí)別精確度、召回率和準(zhǔn)確率有了明顯的提高。

蛋白質(zhì)交互；大規(guī)模語料；特征加權(quán)；K近鄰；支持向量機(jī)

0 引言

蛋白質(zhì)是組成細(xì)胞最重要的成分，是生命的物質(zhì)基礎(chǔ)，是生命活動(dòng)的主要承擔(dān)者。蛋白質(zhì)交互(Protein-ProteinInteraction,PPI)是生物學(xué)研究的重要內(nèi)容，也是解決大量醫(yī)學(xué)難題的關(guān)鍵信息。因此，為了構(gòu)建蛋白質(zhì)交互網(wǎng)絡(luò)，生物醫(yī)學(xué)領(lǐng)域的專家從醫(yī)學(xué)文獻(xiàn)中手工整理信息以統(tǒng)一的格式錄入數(shù)據(jù)庫(kù)，構(gòu)建了HPRD[1]、IntAct[2]、MINT[3]等數(shù)據(jù)庫(kù)。

然而，隨著生物醫(yī)學(xué)的發(fā)展，越來越多的蛋白質(zhì)交互關(guān)系被發(fā)現(xiàn)，記載這些蛋白質(zhì)交互信息的醫(yī)學(xué)文獻(xiàn)也隨之急劇增多，手工收集PPI信息的方式也難以滿足需求。為了幫助生物醫(yī)學(xué)領(lǐng)域的專家從文獻(xiàn)中獲取有效的信息，基于自然語言處理的蛋白質(zhì)交互識(shí)別已成為一項(xiàng)重要的研究?jī)?nèi)容。

1 相關(guān)工作

目前，常用于從醫(yī)學(xué)文獻(xiàn)中識(shí)別PPI信息的技術(shù)主要包括：基于同現(xiàn)的方法[4]、基于規(guī)則的方法[5]和基于機(jī)器學(xué)習(xí)的方法[6-7]。基于同現(xiàn)的方法通過統(tǒng)計(jì)兩個(gè)蛋白質(zhì)的共現(xiàn)次數(shù)來判斷蛋白質(zhì)對(duì)之間的關(guān)系，這種方法只能抽取頻繁出現(xiàn)的模式，識(shí)別結(jié)果召回率較高而精確度較低[8]。基于規(guī)則的方法通過建立一些模式規(guī)則來匹配可能出現(xiàn)的PPI關(guān)系，雖然提高了精確度但召回率較低。然而，由于PPI關(guān)系模式的多樣性，預(yù)定義的規(guī)則不可能包含所有的PPI關(guān)系模式，并且手工建立規(guī)則需要巨大的開銷[9]。例如，F(xiàn)undel等[10]提出的規(guī)則是基于句子句法規(guī)則結(jié)構(gòu)中的依賴關(guān)系。Temkin等[11]利用帶語法產(chǎn)生規(guī)則的句子分析器來識(shí)別PPI。這些系統(tǒng)著眼于分析整個(gè)句子的句法特點(diǎn)，充分揭示句中成分之間的關(guān)系，能夠獲得更高的準(zhǔn)確率，但需要更高的計(jì)算能力和時(shí)間復(fù)雜度。

近年來，越來越多的PPI識(shí)別技術(shù)采用基于機(jī)器學(xué)習(xí)的方法，主要包括兩大類：基于特征的方法和基于核函數(shù)的方法。基于特征的方法主要是從標(biāo)注有交互關(guān)系的蛋白質(zhì)對(duì)的句子中抽取重要特征，例如詞匯、語法和語義特征建立模型，進(jìn)而判斷蛋白質(zhì)對(duì)之間是否存在交互關(guān)系[12-13]。基于核函數(shù)的方法通過對(duì)句子結(jié)構(gòu)的深入分析來構(gòu)建核函數(shù)。HausslerD[14]提出了針對(duì)離散結(jié)構(gòu)的卷積核；LodhiH等[15]將特征空間特定長(zhǎng)度詞語子序列的內(nèi)積作為核函數(shù)的計(jì)算方式，提出了字符串核；BunescuRC等[16]提出了最短依賴路徑核，將句子以樹的形式表示，用兩個(gè)實(shí)體之間的最短路徑表示實(shí)體之間的關(guān)系。

然而，目前的機(jī)器學(xué)習(xí)方法主要以單個(gè)句子為依據(jù)，從句子的句法、語法以及依賴關(guān)系等方面進(jìn)行研究。這些方法能很好地從句子層面對(duì)蛋白質(zhì)交互關(guān)系進(jìn)行描述及判斷，但是這種以句子為依據(jù)的判斷方法也存在著局限性。由于語法的復(fù)雜性和交互關(guān)系描述的間接性，僅僅依賴單個(gè)句子中的信息進(jìn)行交互關(guān)系分析，往往難以得到準(zhǔn)確的判斷。

因此針對(duì)以上問題，文獻(xiàn)[17-18]提出了基于大規(guī)模語料庫(kù)的PPI自動(dòng)識(shí)別方法，將PPI自動(dòng)識(shí)別問題轉(zhuǎn)化為文本分類問題，能夠更充分利用文本的上下文信息挖掘更多蛋白質(zhì)對(duì)交互識(shí)別的影響因素。然而，這個(gè)工作對(duì)所選擇特征單詞的重要性研究不足，因此文中研究不同的特征單詞重要性計(jì)算方法，通過向量加權(quán)方法研究特征單詞加權(quán)對(duì)蛋白質(zhì)對(duì)識(shí)別的影響。實(shí)驗(yàn)結(jié)果表明，根據(jù)特征單詞進(jìn)行加權(quán)后明顯提高了PPI識(shí)別精確度、召回率和準(zhǔn)確率。

2 基于特征加權(quán)的PPI識(shí)別

有交互關(guān)系的描述常用到一些單詞，而這些單詞在無交互關(guān)系的蛋白質(zhì)對(duì)的關(guān)系描述中卻很少出現(xiàn)，例如，interact、bind。因此，加強(qiáng)這部分單詞的作用有助于PPI識(shí)別。文中以特征加權(quán)的方法，著重研究特征單詞權(quán)重對(duì)PPI識(shí)別的影響，具體步驟如下：

首先，從醫(yī)學(xué)文獻(xiàn)中收集包含目標(biāo)蛋白質(zhì)對(duì)的句子，以對(duì)應(yīng)的句子集合作為該目標(biāo)蛋白質(zhì)對(duì)的簽名檔；然后，從簽名檔中提取特征，采取一定策略評(píng)估特征重要性，對(duì)特征加權(quán)，構(gòu)建向量空間模型；最后，采用KNN和SVM這兩種分類算法對(duì)蛋白質(zhì)對(duì)進(jìn)行分類，判斷蛋白質(zhì)對(duì)是否存在交互關(guān)系。

2.1 獲取簽名檔

生物醫(yī)學(xué)文本數(shù)據(jù)庫(kù)PubMed[19]是建立蛋白質(zhì)交互網(wǎng)絡(luò)的重要信息來源。現(xiàn)有的PPI識(shí)別工作都是建立在對(duì)PubMed一個(gè)子集上的分析。PubMed數(shù)據(jù)庫(kù)由美國(guó)國(guó)立醫(yī)學(xué)圖書館建立，收錄了全球70多個(gè)國(guó)家及地區(qū)出版的3 400余種生物醫(yī)學(xué)期刊上所發(fā)表的論文，已收錄超過2 100萬篇生物醫(yī)學(xué)文獻(xiàn)，提供生物醫(yī)學(xué)方面論文以及摘要的搜索。但是，PubMed數(shù)據(jù)庫(kù)未提供直接搜索句子的接口，所以文中分以下兩步來獲取包含目標(biāo)蛋白質(zhì)對(duì)的句子：

(1)在PubMed數(shù)據(jù)庫(kù)中獲取同時(shí)含有目標(biāo)蛋白質(zhì)protein1和protein2的文獻(xiàn)摘要；

(2)在第一步得到的文獻(xiàn)摘要中找出同時(shí)包含protein1和protein2的句子。

因此，每個(gè)蛋白質(zhì)對(duì)都會(huì)有一個(gè)句子集合與之對(duì)應(yīng)，形成蛋白質(zhì)對(duì)的簽名檔。在建好簽名檔之后，就可以利用上下文信息分析蛋白質(zhì)對(duì)是否存在交互關(guān)系。

2.2 向量空間模型—特征提取

從簽名檔中提取特征，采取一定策略評(píng)估特征的重要性，對(duì)特征進(jìn)行加權(quán)處理。文獻(xiàn)[17]中選擇了單詞、短語結(jié)構(gòu)特征和依賴關(guān)系作為特征，實(shí)驗(yàn)結(jié)果表明只以單詞為特征的識(shí)別結(jié)果較好。

因此，文中將簽名檔中所有的句子去除停止詞、單字符單詞和數(shù)字，選擇至少在25篇簽名檔中出現(xiàn)的單詞作為特征。最終得到了4 867個(gè)特征，用這些特征單詞標(biāo)注蛋白質(zhì)，構(gòu)建向量空間模型。

2.3 向量空間模型—特征加權(quán)

在蛋白質(zhì)對(duì)簽名檔中，常用于描述有交互關(guān)系的單詞較少用于描述無交互關(guān)系。因此，通過特征加權(quán)的方法，著重研究這部分單詞的重要性。選擇了信息檢索(Information Retrieval)和情感分析(Sentiment Analysis)中的權(quán)重計(jì)算方法，并設(shè)計(jì)了新的加權(quán)方法，研究特征加權(quán)對(duì)PPI識(shí)別的影響，具體見表1。

表1 權(quán)重公式

注：N表示蛋白質(zhì)對(duì)總數(shù)；N+表示有交互關(guān)系蛋白質(zhì)對(duì)數(shù)；N-表示無交互關(guān)系蛋白質(zhì)對(duì)數(shù)；a表示出現(xiàn)特征i的有交互關(guān)系蛋白質(zhì)對(duì)的簽名檔數(shù)；c表示出現(xiàn)特征i的無交互關(guān)系蛋白質(zhì)對(duì)的簽名檔數(shù)。

表1中，tp(termpresence)表示二值權(quán)重(0/1)，即特征單詞出現(xiàn)權(quán)值為1，不出現(xiàn)權(quán)值為0。實(shí)驗(yàn)中，以tp權(quán)重公式的實(shí)驗(yàn)結(jié)果為基準(zhǔn)。idf(inversedocumentfrequency)是信息檢索中較為常見的權(quán)重公式，是一個(gè)詞語普遍重要性的度量。dsidf和dbidf是PaltoglouG[21]等對(duì)idf的一種改進(jìn)。

在這兩個(gè)公式中，當(dāng)有交互蛋白質(zhì)對(duì)和無交互蛋白質(zhì)對(duì)的簽名檔的數(shù)量相近時(shí)，而含有某個(gè)特征單詞的有交互蛋白質(zhì)對(duì)的簽名檔數(shù)多于無交互蛋白質(zhì)對(duì)簽名檔數(shù)，那么這個(gè)特征單詞的權(quán)重較大。這兩種權(quán)值計(jì)算公式比較適合特征單詞在不同類別文檔中分布差異很大的語料集上使用。

在特征單詞分布分析過程中發(fā)現(xiàn)，有交互蛋白質(zhì)對(duì)和無交互關(guān)系蛋白質(zhì)對(duì)的簽名檔數(shù)量相近。而對(duì)一些特征單詞而言，包含它的有交互關(guān)系蛋白質(zhì)對(duì)的簽名檔的數(shù)量是無交互關(guān)系簽名檔數(shù)量的數(shù)十倍。筆者認(rèn)為這些單詞對(duì)于識(shí)別有交互蛋白質(zhì)很重要，因此，提出了power這一權(quán)重公式，著重研究特征單詞對(duì)有交互關(guān)系蛋白質(zhì)對(duì)的識(shí)別的影響。根據(jù)公式power，若含有某個(gè)特征單詞的有交互關(guān)系的蛋白質(zhì)對(duì)的簽名檔數(shù)較多，無交互關(guān)系的蛋白質(zhì)對(duì)的簽名檔數(shù)較少，則它的權(quán)重較大。

2.4 分類算法

文中采用KNN和SVM這兩種分類算法構(gòu)建分類器。基于相似性的KNN分類器中，以余弦相似度作為衡量標(biāo)準(zhǔn)。

2.4.1K近鄰分類

(1)

余弦值越大，蛋白質(zhì)對(duì)相似度就越高;反之，蛋白質(zhì)對(duì)相似度越低。

得到蛋白質(zhì)對(duì)實(shí)例的相似性之后，基于相似性采用K近鄰分類(KNN)算法對(duì)蛋白質(zhì)對(duì)進(jìn)行分類。查詢訓(xùn)練數(shù)據(jù)中與目標(biāo)蛋白質(zhì)對(duì)最相似的K個(gè)蛋白質(zhì)對(duì)實(shí)例。這K個(gè)實(shí)例中哪種類別的實(shí)例多，就將目標(biāo)蛋白質(zhì)對(duì)分為哪一類。在此算法中，若多個(gè)實(shí)例與目標(biāo)蛋白質(zhì)對(duì)的距離一樣，則這個(gè)實(shí)例類別取這些實(shí)例中占多數(shù)的類別。

2.4.2SVM分類

SVM已被大量實(shí)驗(yàn)證實(shí)為一種非常有效的分類算法，是基于機(jī)器學(xué)習(xí)的蛋白質(zhì)交互關(guān)系識(shí)別所采用的重要分類模型。文中采用LIBSVM[22]建立蛋白質(zhì)交互識(shí)別的分類器。

3 實(shí) 驗(yàn)

3.1 實(shí)驗(yàn)數(shù)據(jù)及設(shè)置

將有交互關(guān)系的蛋白質(zhì)對(duì)作為正類樣例，無交互關(guān)系的蛋白質(zhì)對(duì)作為負(fù)類樣例。正類蛋白質(zhì)對(duì)來源于由專家手工收集信息建立的PPI數(shù)據(jù)庫(kù)HPRD，從中抽取在PubMed數(shù)據(jù)庫(kù)中存在的蛋白質(zhì)對(duì)作為有交互關(guān)系的蛋白質(zhì)對(duì)訓(xùn)練集，共1 420對(duì)。而對(duì)于負(fù)類，文中根據(jù)HPRD中包含的蛋白質(zhì)采用隨機(jī)組合的方法產(chǎn)生負(fù)類蛋白質(zhì)對(duì)(刪除HPRD已包含的蛋白質(zhì)對(duì))，最后只保留那些被PubMed數(shù)據(jù)庫(kù)中文獻(xiàn)記載的蛋白質(zhì)對(duì)作為無交互蛋白質(zhì)對(duì)的訓(xùn)練集，共有1 353對(duì)。因此，實(shí)驗(yàn)數(shù)據(jù)集中共包含2 773對(duì)蛋白質(zhì)對(duì)。

SVM分類算法識(shí)別過程中，采用五折交叉驗(yàn)證，將正類蛋白質(zhì)對(duì)和負(fù)類蛋白質(zhì)對(duì)平均分成五份，分別從正類和負(fù)類中取出一份組合作為測(cè)試集，其余四份組合作為訓(xùn)練集。KNN算法識(shí)別過程中，采用留一交叉驗(yàn)證法(leave-one-out)進(jìn)行測(cè)試，即將一個(gè)蛋白質(zhì)對(duì)作為測(cè)試樣例，其余2 772對(duì)作為訓(xùn)練樣例。在以KNN算法為分類算法的實(shí)驗(yàn)中，tp在K值為7時(shí)取得了最好的結(jié)果。所以，在其余的權(quán)重公式識(shí)別過程中將K值設(shè)置為7,將它們的識(shí)別結(jié)果與tp的識(shí)別結(jié)果進(jìn)行比較。

3.2 實(shí)驗(yàn)結(jié)果及分析

分類結(jié)果見表2和表3。

表2 KNN分類結(jié)果 %

從表2可以發(fā)現(xiàn)，以idf為權(quán)重公式的PPI識(shí)別結(jié)果與tp相比未有提升。以dbidf和dsidf這兩種方法為權(quán)重公式的PPI識(shí)別結(jié)果提升較明顯，正類、負(fù)類的F值和準(zhǔn)確率有近3%～5%的提升。筆者設(shè)計(jì)的權(quán)重公式取得了最高的正類的召回率，正類的召回率比tp提升了5.5%，正類F值也有一定的提升。采用dbidf、dsidf和power這三種加權(quán)方法的KNN分類算法，蛋白質(zhì)交互關(guān)系的識(shí)別結(jié)果都有了一定的提升。這說明，特征單詞在正類和負(fù)類蛋白質(zhì)對(duì)簽名檔有很大的差別，對(duì)蛋白質(zhì)對(duì)交互關(guān)系識(shí)別起到很大的幫助。

表3 SVM分類結(jié)果 %

從表3中發(fā)現(xiàn)，idf、dbidf和dsidf這三種方法的識(shí)別結(jié)果較tp沒有明顯提升。而筆者設(shè)計(jì)的權(quán)重公式正類精確度達(dá)到了92.7%,比tp提高了18.9%。負(fù)類蛋白質(zhì)對(duì)的F值比tp提高了7%，并且總體分類準(zhǔn)確率較tp提高了3.3%。這說明，采用power為權(quán)重公式的分類器能有效識(shí)別有交互關(guān)系的蛋白質(zhì)對(duì)，被誤分的負(fù)類蛋白質(zhì)對(duì)較少。在需要準(zhǔn)確識(shí)別有交互蛋白質(zhì)對(duì)的系統(tǒng)中，提出的方法能夠起到很好的效果。

在簽名檔集中，正類和負(fù)類蛋白質(zhì)對(duì)的簽名檔的數(shù)量相近，一些特征在正類蛋白質(zhì)對(duì)的簽名檔中較常出現(xiàn)，在負(fù)類蛋白質(zhì)對(duì)的簽名檔中較少出現(xiàn)。這些特征單詞有助于識(shí)別有交互關(guān)系的蛋白質(zhì)對(duì)，因此，采用的dbidf、dsidf和power這三種公式賦予了這些單詞較大的權(quán)重,使正類蛋白質(zhì)對(duì)的特征向量能明顯區(qū)別于負(fù)類蛋白質(zhì)對(duì)的特征向量，提高蛋白質(zhì)對(duì)交互關(guān)系的識(shí)別。在正類和負(fù)類簽名檔中分布存在明顯差異的單詞對(duì)于蛋白質(zhì)對(duì)交互關(guān)系識(shí)別有著很大的作用，給這部分單詞賦予一個(gè)較大的權(quán)值，有助于識(shí)別有交互關(guān)系的蛋白質(zhì)對(duì)。

4 結(jié)束語

區(qū)別于其他基于單句的機(jī)器學(xué)習(xí)方法，文中直接以蛋白質(zhì)對(duì)為研究對(duì)象，根據(jù)現(xiàn)有的PPI數(shù)據(jù)庫(kù)構(gòu)建大規(guī)模語料庫(kù)為依據(jù)提取特征，用特征向量表示蛋白質(zhì)對(duì)的關(guān)系。根據(jù)特征單詞在正類和負(fù)類蛋白質(zhì)對(duì)簽名檔中分布的差異，采用不同的權(quán)值計(jì)算公式研究特征詞語的重要性。最后，采用K近鄰和SVM分類算法構(gòu)建分類器，通過文本分類的方法識(shí)別目標(biāo)兩個(gè)蛋白質(zhì)對(duì)之間是否存在依賴關(guān)系。

大量的蛋白質(zhì)對(duì)交互關(guān)系信息隱藏在文獻(xiàn)中，而基于大規(guī)模語料庫(kù)的PPI識(shí)別能充分利用已有的PPI數(shù)據(jù)，無需進(jìn)行額外的人工標(biāo)注，識(shí)別結(jié)果可直接用于PPI網(wǎng)絡(luò)的構(gòu)建。文中著重研究特征詞語的重要性，從實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn)，根據(jù)特征單詞在不同類別文檔中出現(xiàn)的差異，對(duì)特征向量根據(jù)特征詞語重要性進(jìn)行加權(quán)后，PPI的識(shí)別結(jié)果有了明顯提升。

[1]PrasadTSK,GoelR,KandasamyK,etal.Humanproteinreferencedatabase-2009update[J].NucleicAcidsResearch,2009,37:767-772.

[2]KerrienS,Alam-FaruqueY,ArandaB,etal.IntAct-opensourceresourceformolecularinteractiondata[J].NucleicAcidsResearch,2007,35:561-565.

[3]CeolA,AryamontriAC,LicataL,etal.MINT,themolecularinteractiondatabase:2009update[J].NucleicAcidsResearch,2010,38:532-539.

[4]BunescuR,MooneyR,RamaniA,etal.Integratingco-occurrencestatisticswithinformationextractionforrobustretrievalofproteininteractionsfromMedline[C]//Proceedingsoftheworkshoponlinkingnaturallanguageprocessingandbiology:towardsdeeperbiologicalliteratureanalysis.[s.l.]:AssociationforComputationalLinguistics,2006:49-56.

[5]KoikeA,KobayashiY,TakagiT.Kinasepathwaydatabase:anintegratedprotein-kinaseandNLP-basedprotein-interactionresource[J].GenomeResearch,2003,13:1231-1243.

[6] 楊志豪,洪莉,林鴻飛,等.基于支持向量機(jī)的生物醫(yī)學(xué)文獻(xiàn)蛋白質(zhì)關(guān)系抽取[J].智能系統(tǒng)學(xué)報(bào),2008,3(4):361-369.

[7] 崔寶今,林鴻飛,張霄.基于半監(jiān)督學(xué)習(xí)的蛋白質(zhì)關(guān)系抽取研究[J].山東大學(xué)學(xué)報(bào):工學(xué)版,2009,39(3):16-21.

[8]GrimesGR,WenTQ,MewissenM,etal.PDQWizard:automatedprioritizationandcharacterizationofgeneandproteinlistsusingbiomedicalliterature[J].Bioinformatics,2006,22(16):2055-2057.

[9]AnaniadouS,KellDB,TsujiiJ.Textmininganditspotentialapplicationsinsystemsbiology[J].TrendsinBiotechnology,2006,24(12):571-579.

[10]FundelK,KüffnerR,ZimmerR.RelEx-relationextractionusingdependencyparsetrees[J].Bioinformatics,2007,23(3):365-371.

[11]TemkinJM,GilderMR.Extractionofproteininteractioninformationfromunstructuredtextusingacontext-freegrammar[J].Bioinformatics,2003,19(16):2046-2053.

[12]QianW,FuC,ChengH.Semi-supervisedmethodforextractionofprotein-proteininteractionsusinghybridmodel[C]//Proceedingsofthe2013thirdinternationalconferenceonintelligentsystemdesignandengineeringapplications.[s.l.]:IEEEComputerSociety,2013:1268-1271.

[13] Niu Y,Otasek D,Jurisica I.Evaluation of linguistic features useful in extraction of interactions from PubMed;application to annotating known,high-throughput and predicted interactions in I2D[J].Bioinformatics,2010,26(1):111-119.

[14] Haussler D.Convolution kernels on discrete structures[R].California:University of California at Santa Cruz,1999.

[15] Lodhi H,Saunders C,Shawe-Taylor J,et al.Text classification using string kernels[J].Journal of Machine Learning Research,2002,2(3):419-444.

[16] Bunescu R C,Mooney R J.A shortest path dependency kernel for relation extraction[C]//Proceedings of the conference on human language technology and empirical methods in natural language processing.[s.l.]:Association for Computational Linguistics,2005:724-731.

[17] 封二英,牛耘,魏歐,等.基于關(guān)系相似性的蛋白質(zhì)交互自動(dòng)識(shí)別[J].計(jì)算機(jī)科學(xué),2013,40(6):229-232.

[18] 封二英,牛耘,魏歐.基于大規(guī)模文本的蛋白質(zhì)交互關(guān)系自動(dòng)提取[J].計(jì)算機(jī)應(yīng)用,2012,32(S1):147-150.

[19] U.S.National Library of Medicine.PubMed[EB/OL].2011.http://www.ncbi.nlm.nih.gov/pubmed/.

[20] Sparck J K.A statistical interpretation of term specificity and its application in retrieval[J].Journal of Documentation,1972,28(1):11-21.

[21] Paltoglou G,Thelwall M.A study of information retrieval weighting schemes for sentiment analysis[C]//Proceedings of the 48th annual meeting of the association for computational linguistics.[s.l.]:Association for Computational Linguistics,2010:1386-1395.

[22] Chang C C,Lin C J.LIBSVM:a library for support vector machines[J].ACM Transactions on Intelligent Systems & Technology,2007,2(3):389-396.

Identification of Protein-protein Interaction Based on Feature Weighted

WU Hong-mei，NIU Yun

(School of Computer Science and Technology,Nanjing University of Aeronautics and Astronautics,Nanjing 210016,China)

In a model characterized by word,if the use of feature word in different categories exists obvious differences,it will have a very important impact on classification.Based on a large-scale corpus,study the effects of different methods of feature weighting on protein-protein interaction identification.Firstly,the signature of a protein pair is obtained by searching large scale biomedical text.Taking the words as the features which describe the relationship between the protein pair,construct Vector Space Model (SVM).Then,select different weighting methods to describe the importance of words.Finally,KnearestneighborandSVMclassifierareappliedtoidentifyPPIs.Accordingtotheexperimentalresults,PPIrecognitionaccuracyandrecallandprecisionhavebeensignificantlyimprovedwhenthefeaturevectorsareweighted.

protein-protein interaction;large-scale corpus;feature weighted;Knearestneighbor;SVM

2015-05-10

2015-08-13

時(shí)間：2016-01-26

國(guó)家自然科學(xué)基金資助項(xiàng)目(61202132，61170043)作者簡(jiǎn)介：吳紅梅(1991-)，女，碩士研究生，研究方向?yàn)樽匀徽Z言處理；牛耘，博士，副教授，CCF會(huì)員，研究方向?yàn)樽匀徽Z言處理。

http://www.cnki.net/kcms/detail/61.1450.TP.20160126.1517.026.html

1673-629X(2016)02-0114-04

10.3969/j.issn.1673-629X.2016.02.026

基于特征加權(quán)的蛋白質(zhì)交互識(shí)別

0 引 言

1 相關(guān)工作

2 基于特征加權(quán)的PPI識(shí)別

3 實(shí) 驗(yàn)

4 結(jié)束語

0 引言