999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

生物醫學文獻中的蛋白質關系抽取研究

2018-08-17 07:10:44趙哲煥楊志豪林鴻飛
中文信息學報 2018年7期
關鍵詞:句法利用方法

趙哲煥,楊志豪,孫 聰,林鴻飛

0 引言

蛋白質相互作用關系(protein-protein interactions,PPIs)對于構建蛋白質相互作用網絡和研究生物過程中分子的工作機制有至關重要的作用。當前,已經存在許多PPI數據庫(如IntAct[1]、MINT[2]、BioGRID[3]等),但是還有許多PPI仍然隱藏在數目日益增長的相關生物醫學文獻中。由于人工從海量生物醫學文獻中挖掘出有價值的PPI需要大量的時間和精力,所以自動從相關文獻中抽取出PPI信息變得非常重要。

針對蛋白質關系抽取任務,研究者們提出了許多方法[4-7],但是這些方法普遍停留在二元關系抽取上。即只判斷兩個蛋白質是否存在交互關系,而不區分具體的交互關系類型(如綁定(bind)、抑制(inhibit)、激活(active)、磷酸化(phosphorylate)等),而關系類型信息對后續的蛋白質交互作用研究是至關重要的。

在通用領域,一些研究利用開放式信息抽取(open information extraction,Open IE)方法解決關系類型丟失的問題[8-11]。Open IE方法可以自動地抽取出實體間關系“實體1,關系詞,實體2”,其中“關系詞”是表示“實體1”和“實體2”之間關系類型的詞。Open IE可以抽取任意兩個實體間的關系,不需要提前確定實體類型。但是,在生物醫學領域,研究者只關心生物醫學實體(蛋白質、基因、疾病、藥物等)之間的相互作用關系。因此,利用Open IE方法從生物醫學文獻中抽取生物醫學實體關系的過程中,需要對實體類型進行限制。例如,在Nebot等人[12]提出的語義感知Open IE系統中,對于輸入的生物醫學文本,首先利用語義標注工具[13]和UMLS[14]識別出所有的生物醫學實體。然后,通過模板匹配方法找出生物醫學實體之間的關系。而與Nebot等人的策略不同,Nguyen等人[15]首先利用謂詞—參數結構(predicate-argument structure,PAS[16])模板從海量生物醫學文獻中抽取出大量的實體關系。然后,對于模板匹配出的關系,進行如下兩步后處理,完成實體類型過濾工作: ①刪除實體的詞性不是名詞類型(動詞、介詞、形容詞等)的關系; ②刪除實體不是生物醫學實體的關系。以上兩步后處理均利用MeteMap[17]工具完成。

利用Open IE方法可以自動地從生物醫學文獻中抽取出PPI。但是,Open IE是基于規則的方法,由于無法通過人工總結出覆蓋所有情況的規則,導致在PPI抽取問題上,規則方法的召回率普遍低于機器學習方法的召回率[5-6,18-19]。

針對基于規則的OpenIE方法抽取PPI召回率較低的問題,本文利用機器學習方法可以獲得較高召回率的特點,提出了一種混合的蛋白質關系抽取框架。本文框架分為三個階段: 首先,利用多標簽卷積神經網絡(multiple label convolutional neural network,ML-CNN)[20]從生物醫學文獻中識別出蛋白質實體。然后,對上一步識別出的蛋白質實體,利用句法卷積神經網絡(syntax convolutional neural network,SCNN)模型[21]抽取出存在某種關系的蛋白質實體對。最后,對于存在某種關系的蛋白質實體對,利用基于規則的關系詞抽取方法找出表示蛋白質之間關系類型的關系詞。該方法在AImed[22]語料上進行實驗,獲得了40.18%的F值,比Stanford Open IE方法的結果高出20.02%。其中,召回率的提升(39.9% vs. 6.7%)成為了F值提升的主要原因。最終,本文通過將機器學習方法與規則方法相結合,改善了規則方法召回率低的問題。

1 關系抽取方法

本文中提出了一種混合的關系抽取方法,具體的抽取流程在圖1中給出,分為三個步驟: 步驟1,利用ML-CNN 從生物醫學文獻中識別出蛋白質實體。步驟2,利用SCNN在上一步驟找到的蛋白質實體中抽取出有關系的蛋白質對。步驟3,對于上一步驟抽取出的蛋白質實體對,利用1.3節提出的關系詞抽取方法找出表示當前關系類型的關系詞,形成完整的蛋白質關系“蛋白質1,關系詞,蛋白質2”(p1,r,p2)。下面對圖1中每個模塊用到的方法進行詳細介紹。

圖1 混合關系抽取方法的流程圖

1.1 ML-CNN方法

對于蛋白質實體識別工作,本文采用了ML-CNN模型[20]。如圖2所示,ML-CNN是一種基于卷積神經網絡的命名實體識別模型,它建立在一個假設的基礎上,即一個詞的上下文信息足以判斷該詞是不是蛋白質實體。因此,ML-CNN方法把蛋白質實體識別任務抽象成一個詞級別的分類問題,只有目標詞Wi和該詞的前后若干個詞(Wi-1,Wi+1,等)的信息作為模型的輸入。ML-CNN將輸入的每個詞,表示成對應的詞向量、字符向量和詞典向量。其中,字符向量和詞典向量通過隨機初始化得到的,詞向量利用Word2Vec*http: //word2vec.googlecode.com/svn/trunk/對大規模的未標注語料訓練得到。上述三個向量將被當作模型參數的一部分,會在訓練模型的過程中自動調整。以上三個輸入中只有詞典特征需要人工設計,所以ML-CNN需要很少的特征工程。其次,本文方法提出多標簽機制獲取相鄰輸出標簽之間的依賴關系。多標簽機制需要同時預測目標詞和目標詞的前后詞的標簽,通過擴充輸出層節點個數就可以實現。然而,其他深度學習方法[23-24]往往通過添加一個條件隨機場(conditional random field,CRF)[25]層獲取相鄰輸出標簽之間的依賴關系。但是,添加一個CRF層需要額外維護一個狀態轉移概率矩陣,使深度學習模型更加復雜。ML-CNN模型的超參數使用原文中給出的最優參數組合。

1.2 SCNN方法

對于在上一步抽取出的蛋白質實體,本文利用SCNN方法[21]找出它們之間的關系。如圖3所示,SCNN方法是基于卷積神經網絡的關系抽取模型。該方法提出包含句法信息的詞向量——句法詞向量,將對關系抽取問題有重要作用的句法信息[26]引入到模型中。其中,詞向量[27]指將每個單詞映射為相同維度實數向量的映射函數。每個單詞映射成句法詞向量之后,利用位置特征[28]和詞性特征對其進一步擴展,并通過卷積層和Max pooling操作得到卷積特征向量。除了卷積特征之外,該方法還抽取了上下文特征和最短路徑特征。其中最短路徑特征的表示形式(one-hot表示)為稀疏的0-1向量,而卷積特征和上下文特征(基于詞向量)的表示形式為稠密的實數向量。為了減少特征表示形式的差異對特征融合效果的影響,SCNN方法先將稀疏0-1向量(最短路徑特征)通過自編碼(auto-encoder[29])轉換成稠密的實數向量,再與卷積特征和上下文特征融合。

圖2 ML-CNN結構圖

圖3 SCNN卷積特征抽取方法

1.3 關系詞抽取方法

識別出存在某種關系的蛋白質實體對之后,本文進一步抽取出表示兩個蛋白質間關系類型的關系詞。Temkin等人[30]利用詞典匹配方法抽取表示兩個蛋白質之間關系的關系詞。但是,該關系詞抽取方法的性能完全依賴于詞典的質量和規模。而通過人工總結出的詞典很難保證其完整性。為了解決該問題,本文提出了結合詞典匹配和句法模板匹配的關系詞抽取方法。該關系詞抽取方法的具體流程在圖4中給出。

圖4 關系詞抽取流程圖

對于輸入的實例,首先,利用斯坦福句法分析器*https: //nlp.stanford.edu/software/lex-parser.html進行句法分析,得到對應的句法結構,并找出在句法結構上連接兩個實體的最短路徑。然后,在最短路徑上,利用句法模板和關系詞詞典找出對應的關系詞。具體步驟如下:

第1步,在實體間最短路徑上進行句法模板匹配。如果匹配成功,且匹配出的關系詞包含在關系詞詞典里,則完成關系詞抽取。否則執行第2步。

第2步,在最短路徑上進行詞典匹配,如果匹配成功,則完成關系詞抽取。否則執行第3步。

第3步,在擴展的最短路徑上進行詞典匹配。

如果匹配成功,則完成關系詞抽取。否則執行第4步。其中,擴展的最短路徑由與最短路徑上的節點直接相連的其他節點構成。

第4步,在最短路徑上進行句法模板匹配,如果匹配成功,則完成關系詞抽取。否則關系詞抽取失敗。

可以看出,本文算法認為模板匹配出的關系詞同時也在關系詞詞典里出現的時候,該詞成為關系詞的可信度是最高的。其次是詞典匹配方法匹配出的關系詞。當以上兩種策略均沒有成功匹配出關系詞的時候,使用句法模板方法進行補充。

當詞典匹配方法匹配出多個關系詞的時候,選擇優先級最高的詞。其中,特定關系詞的優先級高于通用關系詞(參考1.3.1節);在一個句子中出現在兩個實體之間的關系詞的優先級高于出現在其他位置的關系詞。

本文關系詞抽取算法將詞典匹配方法和句法模板匹配方法合理地結合在一起,并利用兩種方法的互補性,提升關系詞抽取的召回率。本文算法中用到的關系詞詞典和句法模板將在以下一節中進行詳細介紹。

1.3.1 關系詞詞典

Temkin等人[30]整理出的表示蛋白質之間關系的關系詞詞典,包含170個關系詞,其中包括一個詞的多種時態表示。例如,decrease關系可以產生decrease、decreased和decreases等三個關系詞。

通過人工閱讀和分析大量蛋白質關系相關文獻,本文在Temkin等人提供的關系詞詞典基礎上進一步擴展,得到包含581個表項的蛋白質關系詞詞典。對于這些關系詞,又將其分成兩種類型: 通用關系詞和特定關系詞。

通用關系詞指可以用于描述任意兩種實體間關系的關系詞,這些關系詞不具有領域特殊性。通用關系詞包括interact、associate、affect等。特定關系詞指只能用于描述特定兩種實體類型之間關系的詞,如phosphorylate、negative、regulate、bind等,通常只用于描述蛋白質之間的關系。

與Temkin等人的做法類似,我們將一個關系詞的多種時態表示,即一般現在時、一般過去時、動名詞形式、名詞形式和名詞復數形式等,都作為某種關系的關系詞。例如,interact關系可以派生出interact、interacts、interacted、interaction、interactions等關系詞。

1.3.2 句法模板

本文使用斯坦福句法分析器對每個實例進行句法分析,得到相應的依存句法信息,并對其進行詳細地分析,總結出如下七個句法模板(表1)。模板中E1和E2分別表示第一個蛋白質實體和第二個蛋白質實體;Key表示關系詞;X表示任意一個詞;“nmod: x”中的x表示具體的介詞;“nmod: x+”中的“+”表示“nmod: x”關系至少出現一次;appos、nmod: x、nsubj、acl: relcl和dobj為具體的依存關系類型,分別表示對應的兩個詞之間存在同位語關系、主-謂關系、介詞關系、賓語從句關系和謂-賓關系。以模板1為例,該模板表示當連接兩個蛋白質實體E1和E2之間的最短路徑為E1-appos-Key-nmod: x-E2的時候,Key表示的詞就是對應的關系詞。圖5給出了每個模板對應的實例。

表1 句法模板

圖5 句法模板示例

圖5 句法模板示例

2 實驗結果與分析

2.1 實驗設定

本文選擇在AImed語料[22]驗證中提出的混合關系抽取方法。該語料為目前PPI抽取問題上使用最廣泛的語料,由5 655個實例組成,其中包括1 000個正例和4 655個負例。每個實例中包含兩個蛋白質實體的位置信息和該實體對是否存在關系的標注信息。由于AImed語料沒有區分訓練集和測試集,需要在該語料上進行十倍交叉驗證。本文采用信息抽取領域常用的三個評價指標: 準確率(Precision,P)、召回率(Recall,R)和綜合分類率(F-score,F)。其定義具體如下:

其中TP表示判斷為正例的實例中真實正例的個數,TN表示判斷為負例的實例中真實負例的個數,FP表示判斷為正例的實例中負例的個數,FN表示判斷為負例的實例中正例的個數。

AImed語料中,只標注了蛋白質實體信息和二元關系信息,并沒有給出關系詞信息。因此,關系詞抽取的評價需要進行人工審核。關系詞抽取可以看作是詞級別的分類問題,一個句子中關系詞是正例,剩下的詞都是負例。

2.2 關系詞抽取結果分析

關系詞抽取是本文的主要工作。因此,本節將對關系詞抽取方法的性能進行詳細分析。關系詞抽取是指針對存在某種關系的實體對找出表示具體關系類型的關系詞的過程。本文的關系詞抽取方法結合了詞典匹配和句法模板匹配方法。將本文方法應用到AImed語料中1 000個正例上,并對其抽取的結果進行人工審核得到如下結果。對于語料中的1 000個正例,本文抽取出了914個關系詞,其中795個是正確的。本文還單獨將詞典匹配方法和句法模板匹配方法應用到同樣的1 000個正例上,分別抽取出了881和378個關系詞,其中正確的關系詞數為731和297。根據以上統計數據可以計算出相應的P/R/F值,詳細結果在表2中給出。

表2 關系詞抽取性能比較

從表2的數據可以看出,利用提出的關系詞抽取方法將詞典匹配方法和句法模板匹配方法整合之后,取得的性能相對于較高的詞典匹配方法提升了5.3%的F值。其中,召回率的提升是因為兩種方法具有互補性,利用句法模板可以匹配出部分詞典匹配方法遺漏的關系詞。準確率的提升是因為本文關系詞抽取方法將兩種方法合理地結合在一起,產生了相輔相成的效果。首先,本文算法在第1步抽取出滿足句法模板且屬于關系詞詞典的關系詞,其可信度比兩個獨立的方法高。該步驟抽取出294個關系詞,其中正確的為275個,準確率高達93.54%。之后,在第2步和第3步利用詞典匹配方法進行關系詞抽取。在該部分抽取出的關系詞中,有60個實例也可以被句法模板匹配到。對于該60個關系詞,詞典匹配方法和句法模板匹配方法正確匹配的個數分別為46個和11個。即本文算法通過合理分配任務,將對于句法模板匹配方法有難度的部分實例提前用詞典匹配方法進行解決,從而提升整體的準確率。

只利用句法模板匹配的方法可以正確地抽取297個關系詞。而該297個關系詞分別由表1中給出的七個句法模板匹配得到。圖6給出了每個模板抽取出的關系詞數目對應的柱狀圖。從中可以看出模板7(E1-nsubj-Key-nmod: x+-E2)為描述兩個蛋白質實體間關系最常用的句式。例如,“E1 interacts with E2”,“E1 is affected by E2”,“E1 associates with E2”,等等。而模板1(E1-appos-Key-nmod: x-E2)和模板4(E1-nsubj-X-dobj-Key-nmod: x-E2)匹配出的關系詞卻非常有限。

圖6 不同句法模版正確匹配出的關系詞數目

2.3 與Open IE方法的性能比較

研究者們通常使用Open IE方法從文獻中自動地抽取完整的生物醫學實體關系“實體1,關系詞,實體2”。通用領域中的Open IE方法可以抽取任意兩個實體間的關系,但是在生物領域往往只關注特定的生物醫學實體間的關系。因此,Open IE在生物領域需要對實體類型進行限制。例如,先識別生物醫學實體,再利用規則方法抽取對應生物醫學實體間的關系[12];或者先抽取任意實體間的關系,再通過后處理過濾掉非生物醫學實體間的關系[15]。由于生物醫學領域的Open IE方法[12,15]沒有提供源碼,本文方法將與通用領域目前性能最優的Stan-ford Open IE(SOIE)方法[11]進行實驗對比。模仿Nguyen等人[15]的做法,本文將利用AImed語料提供的蛋白質實體信息,對SOIE方法抽取出的結果進行后處理,只保留蛋白質關系。AImed語料提供的實體信息為人工標注產生,利用其進行后處理顯然要比Nguyen等人提出的基于MetaMap的后處理方法更加可靠。為了保證實驗結果的可比性,本文提出的方法利用ML-CNN進行實體識別之后,同樣利用AImed語料提供的實體信息進行后處理,只保留語料提供的蛋白質實體。

SOIE方法是基于規則的方法,不需要訓練模型,可以直接在AImed語料上進行關系抽取。而本文提出的混合方法結合了機器學習方法和規則方法,實體識別和關系抽取階段需要訓練模型。因此,在實體識別和關系抽取階段,先進行十倍交叉驗證,再將十倍交叉驗證的預測結果合并在一起得到完整語料的預測結果。最后,在該完整語料的預測結果上計算性能評價指標(P/R/F)。表3中給出了本文提出的混合方法與SOIE方法的關系抽取結果。首先,本文利用ML-CNN方法識別出所有的蛋白質名稱,其識別結果可以達到90.92%的F值。然后,利用AImed語料提供的實體信息對其進行過濾,只保留語料中給出的實體。語料中每個實例包含兩個蛋白質信息,當某個實例的兩個蛋白質實體沒有都被ML-CNN方法識別出來時,則該實例在二元關系抽取階段會被判為無關。而對于兩個實體都被ML-CNN方法識別出的實例,則利用SCNN方法進行二元關系抽取,其結果達到48.44%的F值。對于識別出的關系蛋白質對,再利用1.3節提出的關系詞抽取算法抽取出表示當前兩個實體間關系的關系詞,最終得到40.18%的F值。在關系抽取階段判斷正確的實例,如果抽取的關系詞是錯的,則最終判為錯誤的關系。SOIE方法并沒有對關系抽取工作分步處理,可以直接從AImed語料中抽取實體關系。然后,利用AImed語料中提供的實體信息進行過濾,只保留蛋白質關系,獲得的F值為11.42%。

表3 AImed語料上的性能對比

對于關系抽取結果,本文的混合方法優于SOIE方法(取得的F值40.18% vs. 11.42%)。該文方法與SOIE方法相比,其準確率很接近(40.47% vs. 38.73%),但是召回率差距巨大(39.9% vs. 6.7%)。SOIE方法是基于規則的方法,而基于規則的方法由于無法設計出覆蓋所有情況的規則,往往導致召回率較低。本文方法通過將機器學習方法與規則方法相結合,先利用ML-CNN方法和SCNN方法進行實體識別和二元關系抽取,然后再利用規則方法進行關系詞抽取,改善了只利用規則方法進行關系抽取時召回率低的問題。

3 結論

本文提出了一種混合的蛋白質關系抽取框架。該框架把關系抽取分成三步去解決。首先,利用ML-CNN方法識別出蛋白質實體名稱。然后,利用SCNN二元關系抽取模型找出可能存在某種關聯的蛋白質對。最后,結合句法模板和關系詞詞典匹配方法抽取出表示兩個蛋白質實體間具體關系類型的關系詞。該混合方法在AImed語料上進行實驗,取得了40.18%的F值。同時,本文提出的關系詞抽取方法在AImed語料中正例上進行實驗,取得了83.02%的F值。

目前,本文方法只對蛋白質間關系進行了抽取,而生物醫學文獻中蘊含著豐富的生物醫學實體交互關系(蛋白質—藥物關系,藥物—疾病關系,疾病—基因關系等)。因此,在未來的工作中,將對該方法進行改進,構建統一模型,可以同時完成不同實體間的關系抽取工作。

猜你喜歡
句法利用方法
利用min{a,b}的積分表示解決一類絕對值不等式
中等數學(2022年2期)2022-06-05 07:10:50
句法與句意(外一篇)
中華詩詞(2021年3期)2021-12-31 08:07:22
述謂結構與英語句法配置
利用一半進行移多補少
利用數的分解來思考
Roommate is necessary when far away from home
句法二題
中華詩詞(2018年3期)2018-08-01 06:40:40
詩詞聯句句法梳理
中華詩詞(2018年11期)2018-03-26 06:41:32
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 天堂亚洲网| 国产91色在线| 五月婷婷丁香色| 成人中文在线| 亚洲国产中文欧美在线人成大黄瓜| 色婷婷狠狠干| 中文字幕亚洲电影| 久久婷婷六月| 青青久视频| 日本免费新一区视频| 天堂成人av| 久热re国产手机在线观看| 亚洲三级成人| 曰韩人妻一区二区三区| 日本不卡在线播放| 色吊丝av中文字幕| 久久久久88色偷偷| 中文国产成人精品久久| 亚洲无码在线午夜电影| 熟妇丰满人妻| 国产成人高清亚洲一区久久| 九九九国产| aa级毛片毛片免费观看久| 在线欧美一区| 一区二区三区毛片无码| 好吊色国产欧美日韩免费观看| 国产亚洲欧美在线中文bt天堂| 99在线视频网站| 亚洲午夜国产精品无卡| 国产a v无码专区亚洲av| 韩日免费小视频| 中国精品自拍| 青青青视频91在线 | 国产日本一线在线观看免费| 日韩不卡免费视频| 91区国产福利在线观看午夜| 欧美亚洲一区二区三区在线| 看国产一级毛片| 久久精品这里只有精99品| 国产青青草视频| 操美女免费网站| 国产精品白浆无码流出在线看| 国产精品思思热在线| 亚洲国产精品VA在线看黑人| 欧美影院久久| 人妖无码第一页| 91在线高清视频| 天堂成人在线| 日韩精品中文字幕一区三区| 亚洲欧美日韩中文字幕一区二区三区| 国产凹凸视频在线观看| 99久久人妻精品免费二区| 97一区二区在线播放| 黄色在线不卡| 国产极品美女在线| 成人福利一区二区视频在线| 久久久久中文字幕精品视频| 久久免费视频6| 精品成人一区二区三区电影| 99一级毛片| 99国产精品一区二区| 五月婷婷综合网| 国产女人水多毛片18| 丁香六月激情婷婷| 小13箩利洗澡无码视频免费网站| 免费人成在线观看视频色| 国产一在线观看| 亚洲日韩日本中文在线| 亚洲欧美另类视频| 一区二区三区国产| 色偷偷综合网| 丁香六月综合网| 亚洲女人在线| 亚洲中文字幕在线精品一区| 九九九精品成人免费视频7| 国产好痛疼轻点好爽的视频| 国产色网站| 色精品视频| 2018日日摸夜夜添狠狠躁| 黄网站欧美内射| 亚亚洲乱码一二三四区| 香蕉视频国产精品人|