999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于最大期望算法的蛋白質(zhì)交互關(guān)系識(shí)別

2018-08-21 01:59:44蔡松成
關(guān)鍵詞:特征方法

蔡松成,牛 耘

(南京航空航天大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 南京 211106)

0 引 言

隨著人們對(duì)文本中分子途徑和分子交互關(guān)系等信息需求的不斷增加,蛋白質(zhì)交互作用關(guān)系(protein-protein interaction,PPI)的自動(dòng)抽取在分子生物學(xué)領(lǐng)域變得越來(lái)越重要。PPI是指細(xì)胞內(nèi)兩個(gè)蛋白質(zhì)之間的交互作用,這種交互作用環(huán)環(huán)相扣,深刻影響著整個(gè)細(xì)胞生理作用的調(diào)節(jié)。起初生物醫(yī)學(xué)領(lǐng)域的專家手工地從醫(yī)學(xué)文獻(xiàn)中收集這些信息錄入統(tǒng)一格式的數(shù)據(jù)庫(kù)中,如HPRD[1]、IntAc[2]、MINT[3]和BIND[4]等。然而隨著生物醫(yī)學(xué)文獻(xiàn)的急劇增加,新的蛋白質(zhì)之間的關(guān)系也在產(chǎn)生。手工錄入蛋白質(zhì)之間的交互信息顯然遠(yuǎn)不能滿足實(shí)際需要,因此自動(dòng)地從醫(yī)學(xué)文獻(xiàn)中抽取PPI已經(jīng)成為一項(xiàng)重要的研究?jī)?nèi)容。

在此背景下,基于自然語(yǔ)言處理的PPI自動(dòng)識(shí)別技術(shù)正在快速發(fā)展并已取得了很大的進(jìn)展。目前PPI識(shí)別是采用有監(jiān)督的機(jī)器學(xué)習(xí)方法,以單句為依據(jù)來(lái)識(shí)別句子之間的交互關(guān)系,需要大量人工標(biāo)注的數(shù)據(jù),代價(jià)高昂,所以將遠(yuǎn)監(jiān)督的思想運(yùn)用到PPI識(shí)別上,解決了訓(xùn)練數(shù)據(jù)不足的問(wèn)題。但是由于遠(yuǎn)監(jiān)督思想的缺陷,引入了大量噪音,影響現(xiàn)階段PPI識(shí)別的精度。針對(duì)這個(gè)問(wèn)題,采用一種基于最大期望算法的多實(shí)例多標(biāo)記學(xué)習(xí)(multi-instance multi-label,MIML)方法來(lái)進(jìn)行蛋白質(zhì)交互關(guān)系的識(shí)別,有效消除了簽名檔中噪音對(duì)交互關(guān)系識(shí)別的影響。

1 相關(guān)工作

目前,用于從生物醫(yī)學(xué)文獻(xiàn)中抽取PPI的技術(shù)主要包括:基于同現(xiàn)的方法[5]、基于規(guī)則的方法和基于機(jī)器學(xué)習(xí)[6-8]的方法。基于同現(xiàn)的方法通過(guò)統(tǒng)計(jì)兩個(gè)蛋白質(zhì)在句子中的共現(xiàn)頻率來(lái)判斷是否存在交互關(guān)系,識(shí)別結(jié)果召回率高但精確度低;基于規(guī)則的方法可以取得較高的精確度但是召回率較低,而且通過(guò)手動(dòng)建立規(guī)則的方法需要大量的人力物力,且制定的規(guī)則只適用于某些特定領(lǐng)域的數(shù)據(jù),無(wú)法普遍應(yīng)用。

隨著機(jī)器學(xué)習(xí)的流行,研究者們?cè)絹?lái)越多地采用基于機(jī)器學(xué)習(xí)的方法進(jìn)行PPI的識(shí)別。基于機(jī)器學(xué)習(xí)的方法主要包括兩大類:基于特征的方法和基于核函數(shù)的方法。基于特征的方法從標(biāo)注有交互關(guān)系的句子中抽取重要特征,包括詞匯特征、語(yǔ)法特征和語(yǔ)義特征,建立模型來(lái)判斷蛋白質(zhì)之間的交互關(guān)系[9-10]。基于核函數(shù)的方法首先深入研究句子結(jié)構(gòu),通過(guò)設(shè)計(jì)核函數(shù)進(jìn)一步利用句子結(jié)構(gòu)表示(如字符串序列、句法依賴或句法分析)上的隱含特征,然后使用支持核函數(shù)的分類器進(jìn)行PPI關(guān)系的識(shí)別。Haussler D[11]提出了針對(duì)離散結(jié)構(gòu)的卷積核;Lodhi H等[12]將特征空間特定長(zhǎng)度詞語(yǔ)子序列的內(nèi)積作為函數(shù)的計(jì)算方式,提出了字符串核;Bunescu R C等[13]提出了最短依賴路徑核,將句子以樹(shù)的形式表示,用兩個(gè)實(shí)體之間的最短路徑表示實(shí)體之間的關(guān)系。然而目前利用機(jī)器學(xué)習(xí)方法來(lái)進(jìn)行PPI關(guān)系識(shí)別一般都是以句子為單位,分析一句話中出現(xiàn)的任意一對(duì)蛋白質(zhì)對(duì)之間是否存在交互關(guān)系。這種方式能夠在句子級(jí)別上提供蛋白質(zhì)對(duì)交互關(guān)系的描述和證據(jù),但是也存在一定的局限性。這種方式所需的訓(xùn)練集要求對(duì)每一個(gè)句子中出現(xiàn)的每一對(duì)蛋白質(zhì)是否存在交互關(guān)系進(jìn)行標(biāo)注,當(dāng)訓(xùn)練語(yǔ)料不足時(shí),PPI關(guān)系識(shí)別的效果會(huì)大打折扣。但人工標(biāo)注大規(guī)模文本需要耗費(fèi)大量的人力物力。

針對(duì)這些不足,文中試圖采用遠(yuǎn)監(jiān)督思想來(lái)進(jìn)行PPI關(guān)系的抽取。遠(yuǎn)監(jiān)督方法已經(jīng)用于關(guān)系識(shí)別領(lǐng)域,遠(yuǎn)監(jiān)督思想假設(shè)如果兩個(gè)實(shí)體之間存在某種關(guān)系,那么包含這兩個(gè)實(shí)體的所有句子都在一定程度上表達(dá)了這種關(guān)系。基于上述假設(shè),遠(yuǎn)監(jiān)督通過(guò)將知識(shí)庫(kù)中的實(shí)體和訓(xùn)練語(yǔ)料文本中的實(shí)體進(jìn)行匹配,產(chǎn)生大量帶標(biāo)注的訓(xùn)練數(shù)據(jù),避免了人工標(biāo)注數(shù)據(jù)的繁重勞動(dòng)。對(duì)于PPI關(guān)系識(shí)別,同樣存在標(biāo)注數(shù)據(jù)不足的問(wèn)題,所以可以將遠(yuǎn)監(jiān)督[14-15]方法運(yùn)用到PPI關(guān)系抽取上。

但是基于遠(yuǎn)監(jiān)督方法的PPI識(shí)別也存在一個(gè)問(wèn)題。對(duì)于有交互關(guān)系的蛋白質(zhì)對(duì)事實(shí)上并非其簽名檔中的所有句子都表達(dá)了該蛋白質(zhì)對(duì)的交互關(guān)系,其中很多句子是不表達(dá)交互關(guān)系的,從而這部分?jǐn)?shù)據(jù)成為了訓(xùn)練過(guò)程中的噪音,最終會(huì)影響蛋白質(zhì)對(duì)交互關(guān)系的識(shí)別結(jié)果。

針對(duì)遠(yuǎn)監(jiān)督的PPI抽取方法存在的問(wèn)題,文中采用一種基于最大期望算法的多實(shí)例多標(biāo)記的學(xué)習(xí)方法。多實(shí)例多標(biāo)記是一種新型的關(guān)系抽取的學(xué)習(xí)框架[16],在該框架中,每個(gè)對(duì)象由多個(gè)實(shí)例描述,同時(shí)對(duì)象可以擁有多個(gè)類別標(biāo)記,這個(gè)框架尤其適用于多義性的對(duì)象。多實(shí)例多標(biāo)記學(xué)習(xí)框架已被成功應(yīng)用于圖像文本分類[17]、視頻標(biāo)注[18]、基因圖像識(shí)別[19]等任務(wù)中,既充分利用了蛋白質(zhì)對(duì)簽名檔的信息,同時(shí)又改善了利用遠(yuǎn)監(jiān)督思想來(lái)標(biāo)記簽名檔中的句子帶來(lái)的噪音問(wèn)題。在此基礎(chǔ)上又對(duì)特征加以改進(jìn),有效消除了其他蛋白質(zhì)對(duì)目標(biāo)蛋白質(zhì)對(duì)交互關(guān)系識(shí)別的影響。

2 基于最大期望算法的PPI識(shí)別

基于最大期望算法的多實(shí)例多標(biāo)記學(xué)習(xí)方法,是在基于遠(yuǎn)監(jiān)督方法的基礎(chǔ)上,從大規(guī)模生物醫(yī)學(xué)文獻(xiàn)中搜索得到的蛋白質(zhì)對(duì)簽名檔中提取特征,構(gòu)建向量空間模型(vector space model,VSM)。在此基礎(chǔ)上引入隱變量,將蛋白質(zhì)對(duì)的簽名檔和標(biāo)簽構(gòu)建為多實(shí)例多標(biāo)記的學(xué)習(xí)框架,利用最大期望算法迭代地消除噪音。最終采用監(jiān)督學(xué)習(xí)的方法來(lái)預(yù)測(cè)未知蛋白質(zhì)對(duì)的交互關(guān)系。

2.1 關(guān)系提取

PubMed數(shù)據(jù)庫(kù)作為建立PPI網(wǎng)絡(luò)重要的數(shù)據(jù)來(lái)源,收錄了超過(guò)一千八百萬(wàn)篇生物醫(yī)學(xué)文獻(xiàn)摘要。從PubMed數(shù)據(jù)中獲取蛋白質(zhì)對(duì)簽名檔的過(guò)程包括:

(1)調(diào)用PubMed數(shù)據(jù)庫(kù)提供的接口,搜索包含目標(biāo)蛋白質(zhì)對(duì)的摘要。

(2)使用伊利諾州大學(xué)Urbana-Champaign分校認(rèn)知計(jì)算研究組開(kāi)發(fā)的句子識(shí)別工具來(lái)識(shí)別摘要集合中的句子,保留包含目標(biāo)蛋白質(zhì)對(duì)的句子作為簽名檔的內(nèi)容。

最終每一個(gè)目標(biāo)蛋白質(zhì)對(duì)都會(huì)有一個(gè)包含多個(gè)句子的集合與之對(duì)應(yīng),這個(gè)句子集合即為蛋白質(zhì)對(duì)的簽名檔,接下來(lái)將簽名檔作為蛋白質(zhì)對(duì)交互關(guān)系的特征來(lái)源進(jìn)行處理。

2.2 特征表示

實(shí)驗(yàn)中使用到了兩個(gè)邏輯回歸分類器來(lái)進(jìn)行PPI關(guān)系的識(shí)別。一個(gè)是對(duì)蛋白質(zhì)對(duì)簽名檔中的句子進(jìn)行交互關(guān)系判斷的句子級(jí)分類器,另一個(gè)是對(duì)蛋白質(zhì)對(duì)進(jìn)行分類的頂層分類器。兩個(gè)分類器的主要差別在于特征的表示上,句子級(jí)分類器利用提取得到的句子的語(yǔ)言學(xué)特征進(jìn)行分類,而頂層分類器通過(guò)當(dāng)前簽名檔中句子的分類結(jié)果形成特征進(jìn)行分類。句子級(jí)分類器特征的形成主要是選取訓(xùn)練集中所有句子中重要的單詞特征作為向量的每一維。具體處理過(guò)程為:首先對(duì)句子進(jìn)行分詞,去除無(wú)意義的標(biāo)點(diǎn)符號(hào)以及停用詞;然后選取句子中出現(xiàn)在兩個(gè)目標(biāo)蛋白質(zhì)之間的單詞,以及第一個(gè)目標(biāo)蛋白質(zhì)左邊2個(gè)單詞和第二個(gè)目標(biāo)蛋白質(zhì)右邊2個(gè)單詞;最終將這些單詞作為句子中蛋白質(zhì)對(duì)的上下文特征來(lái)構(gòu)建向量空間模型。若在句子的上下文特征中出現(xiàn)了某個(gè)特征詞,則在向量中對(duì)應(yīng)于出現(xiàn)特征詞的某一維用1記錄,否則用0記錄。

對(duì)于頂層分類器中蛋白質(zhì)對(duì)的實(shí)際交互關(guān)系,采取簽名檔中判斷為有交互關(guān)系的句子數(shù)占簽名檔中所有句子的比例作為特征構(gòu)建一維向量。

2.3 多實(shí)例多標(biāo)記學(xué)習(xí)模型

在該模型中,對(duì)于訓(xùn)練集中的每一個(gè)蛋白質(zhì)對(duì),都有已知的唯一標(biāo)記,即有無(wú)交互關(guān)系,但對(duì)于簽名檔中的每一個(gè)句子并不知道其真實(shí)的標(biāo)記。所以,引入一個(gè)隱變量z來(lái)代表句子的標(biāo)記。z=non-interactive表示在該句中目標(biāo)蛋白質(zhì)對(duì)之間沒(méi)有交互關(guān)系;z=interactive表示目標(biāo)蛋白質(zhì)對(duì)之間存在交互關(guān)系。對(duì)于PPI關(guān)系抽取中的關(guān)系是互補(bǔ)的,兩個(gè)蛋白質(zhì)之間的關(guān)系就分為有交互和無(wú)交互兩種。在該模型中,如圖1所示,由兩層構(gòu)成,包含一個(gè)對(duì)蛋白質(zhì)對(duì)簽名檔中的句子進(jìn)行分類的句子級(jí)二元分類器(z分類器)和一個(gè)對(duì)蛋白質(zhì)對(duì)進(jìn)行分類的頂層二元分類器(y分類器)。

圖1 多實(shí)例多標(biāo)記學(xué)習(xí)框架

圖中,n表示蛋白質(zhì)對(duì)的數(shù)目;Mi表示第i對(duì)蛋白質(zhì)對(duì)簽名檔的數(shù)目;x表示輸入的一個(gè)句子;wz表示z分類器的權(quán)重向量;wy表示y分類器的權(quán)重向量。

2.3.1 訓(xùn) 練

由于蛋白質(zhì)對(duì)簽名檔中的句子標(biāo)記是未知的,而最大期望算法是估計(jì)隱變量的有效方法,所以文中采用最大期望算法來(lái)訓(xùn)練多實(shí)例多標(biāo)記的學(xué)習(xí)框架。最大期望算法主要由M步和E步構(gòu)成,M步訓(xùn)練句子級(jí)分類器(z分類器)和頂層分類器(y分類器),E步根據(jù)得到的兩個(gè)分類器來(lái)更新句子的標(biāo)記,經(jīng)過(guò)多次迭代使句子的標(biāo)記更加接近于真實(shí)的標(biāo)記。

在以下的公式中,向量zi代表第i個(gè)蛋白質(zhì)對(duì)所有句子的標(biāo)記構(gòu)成的一個(gè)向量;yi用來(lái)表示第i個(gè)蛋白質(zhì)對(duì)的標(biāo)記,用公式表示為:

(1)

其中,Pi為關(guān)系正例,表示第i對(duì)蛋白質(zhì)對(duì)具有的關(guān)系;Ni是關(guān)系負(fù)例,表示第i對(duì)蛋白質(zhì)對(duì)不具有的關(guān)系。

文中使用最大期望算法來(lái)最大化極大似然函數(shù)的下界,也就是說(shuō)最大化數(shù)據(jù)庫(kù)中每個(gè)蛋白質(zhì)對(duì)的聯(lián)合概率,得到:

(2)

E-step:在此步驟,對(duì)于每個(gè)蛋白質(zhì)對(duì)的簽名檔,給定蛋白質(zhì)對(duì)的標(biāo)記集合,以及目前模型學(xué)習(xí)得到的z分類器和y分類器的權(quán)重向量,推斷出蛋白質(zhì)對(duì)句子級(jí)別的分類結(jié)果。

(3)

通過(guò)近似化,將向量z進(jìn)行拆分,分開(kāi)考慮每個(gè)句子的分類結(jié)果。對(duì)于每個(gè)蛋白質(zhì)對(duì)i=1,2,…,n中的每個(gè)句子m∈Mi,計(jì)算:

(4)

M-step:此步驟利用E-step得到的句子分類結(jié)果zi通過(guò)最大化似然函數(shù)的下界,得到對(duì)應(yīng)的wz和wy。實(shí)際上就是通過(guò)學(xué)習(xí)來(lái)更新句子級(jí)和蛋白質(zhì)對(duì)級(jí)權(quán)重參數(shù),具體公式如下:

(5)

(6)

2.3.2 預(yù) 測(cè)

(1)對(duì)于一個(gè)給定的蛋白質(zhì)對(duì),首先預(yù)測(cè)其簽名檔中句子的分類結(jié)果。

(7)

(2)利用頂層分類器來(lái)決定該蛋白質(zhì)對(duì)是否具有交互關(guān)系。

(8)

2.3.3 實(shí) 現(xiàn)

初始化:由于最大期望算法并不是全局最優(yōu)算法,因此初始值的設(shè)置對(duì)最后的結(jié)果有著重要的影響。在該模型中,初始值為簽名檔中句子的類別分布zi。利用原始的簽名檔數(shù)據(jù)來(lái)訓(xùn)練一個(gè)分類器,然后通過(guò)此分類器對(duì)簽名檔中的句子進(jìn)行分類,將分類結(jié)果作為初始值z(mì)i。

2.4 特征改進(jìn)

通過(guò)對(duì)目標(biāo)蛋白質(zhì)對(duì)簽名檔數(shù)據(jù)的觀察,發(fā)現(xiàn)在包含目標(biāo)蛋白質(zhì)對(duì)的同一個(gè)句子的描述中往往還存在其他蛋白質(zhì),這些蛋白質(zhì)可能會(huì)對(duì)目標(biāo)蛋白質(zhì)交互關(guān)系的判斷造成影響。基于這個(gè)原因,需要對(duì)句子級(jí)分類器原始的特征加以改進(jìn)。

文中利用一個(gè)生物醫(yī)學(xué)文本命名實(shí)體識(shí)別工具ABNER來(lái)識(shí)別句子中其他蛋白質(zhì)的名稱。ABNER在NLPBA和BioCreative語(yǔ)料庫(kù)上進(jìn)行訓(xùn)練,在兩個(gè)語(yǔ)料庫(kù)上識(shí)別的F值分別達(dá)到了72.6%和69.9%。

通過(guò)觀察蛋白質(zhì)對(duì)的簽名檔,可以發(fā)現(xiàn)描述交互作用的句子中經(jīng)常會(huì)出現(xiàn)bind、interact、activate、inhibit、down-regulate等表示蛋白質(zhì)交互作用的單詞。這些單詞通常被認(rèn)為是識(shí)別蛋白質(zhì)交互關(guān)系的關(guān)鍵詞。關(guān)鍵詞對(duì)于蛋白質(zhì)交互關(guān)系識(shí)別尤為重要,已經(jīng)作為線索運(yùn)用到基于模式匹配的PPI抽取方法中。文中選擇關(guān)鍵詞作為一維特征對(duì)原有特征加以改進(jìn),采用的關(guān)鍵詞集合利用了Joshua M.Temkin[20]提出的關(guān)鍵詞列表。

觀察以下描述蛋白質(zhì)交互關(guān)系的句子:

#arnt# mRNA appeared to be slightly but significantly down-regulated by BaP as well as by flavonoids while expression of #aip# was not or only slightly modulated.

用##標(biāo)注出來(lái)的是兩個(gè)目標(biāo)蛋白質(zhì),而用標(biāo)注的是利用ABNER工具識(shí)別出來(lái)的其他蛋白質(zhì),蛋白質(zhì)全部由黑體顯示。在這個(gè)句子中,有一個(gè)關(guān)鍵詞“down-regulated”的出現(xiàn),很有可能說(shuō)明目標(biāo)蛋白質(zhì)對(duì)(arnt,aip)之間存在交互關(guān)系,但由于在目標(biāo)蛋白質(zhì)之間出現(xiàn)了一個(gè)其他蛋白質(zhì)Bap,這個(gè)關(guān)鍵詞事實(shí)上表達(dá)出來(lái)的是其他蛋白質(zhì)Bap和目標(biāo)蛋白質(zhì)arnt之間的交互關(guān)系,所以有必要將包含目標(biāo)蛋白質(zhì)對(duì)的同一個(gè)句子中的其他蛋白質(zhì)識(shí)別出來(lái)。

在保留2.1節(jié)所有特征的基礎(chǔ)上,又新增了5個(gè)特征來(lái)對(duì)句子級(jí)分類器進(jìn)行改進(jìn)。首先對(duì)簽名檔中的每一個(gè)句子,抽取出第一個(gè)蛋白質(zhì)左邊的7個(gè)單詞和第二個(gè)蛋白質(zhì)右邊的7個(gè)單詞以及兩個(gè)蛋白質(zhì)中間的所有單詞。然后將第一個(gè)蛋白質(zhì)左邊和第二個(gè)蛋白質(zhì)右邊是否有關(guān)鍵字和其他蛋白質(zhì)的名稱以及目標(biāo)蛋白質(zhì)中間有沒(méi)有其他蛋白質(zhì)作為5維特征添加到原有特征中,權(quán)重采用二值權(quán)重,若有則置為1,否則置為0。增加了這5維特征后,以第一個(gè)蛋白質(zhì)左邊的兩個(gè)特征為例,若出現(xiàn)了關(guān)鍵詞和其他蛋白質(zhì),則很有可能表示的是其他蛋白質(zhì)和第一個(gè)目標(biāo)蛋白質(zhì)之間的交互關(guān)系。

3 實(shí) 驗(yàn)

3.1 實(shí)驗(yàn)數(shù)據(jù)及設(shè)置

采用的訓(xùn)練數(shù)據(jù)來(lái)自于現(xiàn)有的PPI數(shù)據(jù)庫(kù),無(wú)需額外的人工標(biāo)注。將有交互關(guān)系的蛋白質(zhì)對(duì)視為正樣例,無(wú)交互的視為負(fù)樣例。實(shí)驗(yàn)中有交互關(guān)系的蛋白質(zhì)對(duì)是直接從HPRD數(shù)據(jù)庫(kù)中查詢獲取,并且只保留被PubMed數(shù)據(jù)庫(kù)中一篇以上摘要包含的那些蛋白質(zhì)對(duì)。而對(duì)于無(wú)交互關(guān)系的蛋白質(zhì)對(duì),采用生物醫(yī)學(xué)領(lǐng)域常用方法,將蛋白質(zhì)隨機(jī)組合成蛋白質(zhì)對(duì),去除已被HPRD數(shù)據(jù)庫(kù)包含的蛋白質(zhì)對(duì)以及未被PubMed數(shù)據(jù)庫(kù)記載的蛋白質(zhì)對(duì)。以兩個(gè)待考察的蛋白質(zhì)為查詢條件,通過(guò)PubMed數(shù)據(jù)庫(kù)的應(yīng)用程序接口查詢目標(biāo)蛋白質(zhì)對(duì)的文獻(xiàn)摘要,然后對(duì)摘要文本集合進(jìn)行處理,找出包含目標(biāo)蛋白質(zhì)對(duì)的句子,形成簽名檔。最終總共得到有交互關(guān)系和無(wú)交互關(guān)系的蛋白質(zhì)對(duì)分別為576對(duì)和578對(duì),合計(jì)1 154對(duì)。

實(shí)驗(yàn)采用的結(jié)果性能評(píng)價(jià)指標(biāo)是當(dāng)前PPI抽取系統(tǒng)主要使用的三個(gè)指標(biāo):精確度(precision=TP/(TP+FP))、召回率(recall=TP/(TP+FN))和F值(F-Score=2P×R/(P+R))。為了避免簡(jiǎn)單應(yīng)用模型而產(chǎn)生過(guò)擬合問(wèn)題,利用五折交叉驗(yàn)證來(lái)評(píng)估模型的性能。將原始數(shù)據(jù)按照蛋白質(zhì)對(duì)平均劃分為5折,將每個(gè)子集數(shù)據(jù)分別做一次驗(yàn)證集,其余的4組子集數(shù)據(jù)作為訓(xùn)練集,這樣會(huì)得到5個(gè)模型,用這5個(gè)模型最終驗(yàn)證集的平均性能作為評(píng)價(jià)整個(gè)方法性能的指標(biāo)。

3.2 實(shí)驗(yàn)結(jié)果及分析

為了比較使用原始特征和改進(jìn)后特征的實(shí)驗(yàn)結(jié)果,以第一折數(shù)據(jù)為例,取最大期望算法迭代的前六次(迭代6次以后實(shí)驗(yàn)結(jié)果基本趨向局部最優(yōu)解),結(jié)果如表1、表2所示。

表1 采用原始特征的識(shí)別結(jié)果

表2 采用改進(jìn)特征的識(shí)別結(jié)果

從這兩張表可以發(fā)現(xiàn),隨著迭代次數(shù)的增加,采用改進(jìn)以后的特征在精確度、召回率和F值上都有明顯提高。最終結(jié)果是要把五折數(shù)據(jù)識(shí)別的平均結(jié)果作為該模型PPI識(shí)別的性能,如表3所示。

表3 五折交叉驗(yàn)證識(shí)別結(jié)果比較

從上述識(shí)別結(jié)果發(fā)現(xiàn),對(duì)特征加以改進(jìn)后,識(shí)別的準(zhǔn)確率雖然稍有下降,但是召回率提高了3.6%,整體F值提高1%。說(shuō)明改進(jìn)后,算法考慮了其他蛋白質(zhì)對(duì)目標(biāo)蛋白質(zhì)識(shí)別的影響,使模型取得了更好的性能。

4 結(jié)束語(yǔ)

由于基于遠(yuǎn)監(jiān)督的PPI抽取方法存在大量噪音問(wèn)題,文中采用基于最大期望算法的多實(shí)例多標(biāo)記學(xué)習(xí)框架,同時(shí)在此基礎(chǔ)上對(duì)特征加以改進(jìn),消除了簽名檔中其他蛋白質(zhì)對(duì)目標(biāo)蛋白質(zhì)對(duì)交互關(guān)系判斷的影響。實(shí)驗(yàn)結(jié)果表明,該方法取得了更高的識(shí)別精度。

下一步將利用蛋白質(zhì)對(duì)簽名檔中包含的豐富信息對(duì)句子級(jí)分類器得到的結(jié)果進(jìn)行改進(jìn),使句子級(jí)的分類更加準(zhǔn)確,從而能進(jìn)一步提高PPI識(shí)別的效果。

猜你喜歡
特征方法
抓住特征巧觀察
新型冠狀病毒及其流行病學(xué)特征認(rèn)識(shí)
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
學(xué)習(xí)方法
抓住特征巧觀察
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 国产你懂得| 国产91精选在线观看| 国产一级妓女av网站| 亚洲成A人V欧美综合天堂| 国产成人无码综合亚洲日韩不卡| 国产精品免费入口视频| 性视频久久| 人妻21p大胆| 成人国产精品2021| 全部免费毛片免费播放| 五月综合色婷婷| 高清无码一本到东京热| 亚洲成aⅴ人在线观看| 亚洲无码日韩一区| 自拍偷拍欧美| 亚洲欧洲日韩久久狠狠爱| 久久精品波多野结衣| 欧美亚洲国产精品第一页| a在线亚洲男人的天堂试看| 毛片大全免费观看| 久久黄色视频影| 成人欧美日韩| 国产网友愉拍精品| 老司国产精品视频91| 毛片三级在线观看| 精品国产免费观看一区| 中文毛片无遮挡播放免费| 久久久久人妻一区精品色奶水 | 91麻豆精品国产91久久久久| 999国产精品永久免费视频精品久久 | 人妻丰满熟妇AV无码区| 国产精品私拍在线爆乳| 日韩中文欧美| 中文无码毛片又爽又刺激| 九色国产在线| 无码综合天天久久综合网| 日韩精品免费一线在线观看| 99久久亚洲综合精品TS| 欧洲精品视频在线观看| 国内精品小视频福利网址| h网站在线播放| 伊人成人在线| 久久国产精品电影| 8090午夜无码专区| 3D动漫精品啪啪一区二区下载| 精品一區二區久久久久久久網站| 天天综合网色| 国产欧美日韩在线在线不卡视频| 成年av福利永久免费观看| 久久久久久久蜜桃| 日韩成人在线网站| 日韩精品无码一级毛片免费| 欧美综合激情| 日韩精品欧美国产在线| 亚洲欧美日韩久久精品| 一级片一区| 亚洲aaa视频| 国产网站一区二区三区| 亚洲精品中文字幕无乱码| 在线播放精品一区二区啪视频| 一本二本三本不卡无码| 亚洲中文字幕国产av| A级毛片无码久久精品免费| 九一九色国产| a级毛片在线免费| 美女一级毛片无遮挡内谢| 国国产a国产片免费麻豆| 99久久精品无码专区免费| 亚洲国产精品VA在线看黑人| 国产人人乐人人爱| 日本伊人色综合网| 免费人成视频在线观看网站| 国产精品无码影视久久久久久久| 制服丝袜 91视频| 97成人在线视频| vvvv98国产成人综合青青| 免费在线成人网| 午夜少妇精品视频小电影| 国产精品亚洲天堂| 欧美亚洲第一页| 中字无码精油按摩中出视频| 伊伊人成亚洲综合人网7777 |