999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

生物醫(yī)學(xué)文獻(xiàn)中的蛋白質(zhì)相互作用抽取研究

2016-12-01 01:36:30周玉新
山東工業(yè)技術(shù) 2016年20期
關(guān)鍵詞:規(guī)則信息方法

周玉新

(內(nèi)蒙古民族大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,內(nèi)蒙古 通遼 028000)

生物醫(yī)學(xué)文獻(xiàn)中的蛋白質(zhì)相互作用抽取研究

周玉新

(內(nèi)蒙古民族大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,內(nèi)蒙古 通遼 028000)

在最近幾十年中,生物醫(yī)學(xué)取得了令人矚目的巨大發(fā)展,涌現(xiàn)出了大量實(shí)驗(yàn)性和可計(jì)算生物醫(yī)學(xué)數(shù)據(jù),同事,相關(guān)的生物醫(yī)學(xué)文獻(xiàn)呈現(xiàn)出了指數(shù)增長(zhǎng)。同時(shí),科學(xué)界一直對(duì)利用文本挖掘工具發(fā)現(xiàn)諸如蛋白質(zhì)關(guān)系等對(duì)特定分析任務(wù)相關(guān)和有用的知識(shí)有巨大的興趣。本文提供了一個(gè)生物醫(yī)學(xué)領(lǐng)域蛋白質(zhì)相互作用發(fā)現(xiàn)的一個(gè)基本輪廓,同時(shí)討論了該領(lǐng)域進(jìn)一步發(fā)展所面臨的挑戰(zhàn),并且討論了可能的解決方案。

生物醫(yī)學(xué)文獻(xiàn);蛋白質(zhì)相互作用;信息抽取

1 引言

在后基因組時(shí)代,蛋白質(zhì)被認(rèn)為是復(fù)雜蛋白質(zhì)作用網(wǎng)絡(luò)中的重要因素,蛋白質(zhì)—蛋白質(zhì)作用(PPI)在細(xì)胞的結(jié)構(gòu)性和功能性組織的各個(gè)方面發(fā)揮著關(guān)鍵作用,關(guān)于PPI的知識(shí)揭示了生物過(guò)程的分子機(jī)制。然而,這類知識(shí)大部分隱藏在已發(fā)表文獻(xiàn)、科技期刊、書(shū)籍和技術(shù)報(bào)告中。迄今為止,超過(guò)1600萬(wàn)此類文章的引用可以在MEDLINE數(shù)據(jù)庫(kù)中獲得,并且還建立了許多數(shù)據(jù)庫(kù)以存儲(chǔ)關(guān)于PPI信息的各種類型。然而,為了確保數(shù)據(jù)得正確性,這些數(shù)據(jù)庫(kù)中的數(shù)據(jù)主要是以手工采集的,但也因此限制了將純文本信息轉(zhuǎn)換為結(jié)構(gòu)信息的速度。

目前,已經(jīng)開(kāi)發(fā)了很多系統(tǒng)來(lái)進(jìn)行PPI信息的抽取,這些系統(tǒng)一般需要包括分區(qū)模塊、蛋白質(zhì)名稱識(shí)別模塊、PPI抽取模塊和可視化模塊等三到四個(gè)模塊。分區(qū)模塊主要將文檔劃分為基本的塊;蛋白質(zhì)名稱識(shí)別模塊主要用于蛋白質(zhì)名稱的識(shí)別;PPI抽取模塊則是系統(tǒng)的最主要環(huán)節(jié);而可視化模塊雖不像前三個(gè)模塊那樣關(guān)鍵,但是它為用戶提供了一個(gè)友好的接口從而允許用戶可以深入研究所抽取的知識(shí)

為了評(píng)估一個(gè)信息抽取系統(tǒng)的性能,通常采用的評(píng)估指標(biāo)主要有正確率、召回率和F值,它們的定義如下:

正確率=識(shí)別出的正確實(shí)體數(shù)/識(shí)別出的實(shí)體數(shù);召回率=識(shí)別出的正確實(shí)體數(shù)/樣本中的實(shí)體數(shù)。

兩者的取值都在0和1之間,數(shù)值越接近1,正確率或召回率就越高。在實(shí)際應(yīng)用中需要綜合考慮它們的加權(quán)調(diào)和平均值,也就是F值,其中最常用的F1值,當(dāng)F1值較高時(shí)說(shuō)明試驗(yàn)方法比較有效。F1值定義如下:

F1值=(2*正確率*召回率)/(正確率+召回率)

本文側(cè)重于PPI抽取模塊,對(duì)現(xiàn)有方法進(jìn)行了簡(jiǎn)單綜述。通常,現(xiàn)有的方法依賴于一個(gè)或多個(gè)領(lǐng)域的技術(shù),包括信息檢索、機(jī)器學(xué)習(xí)、自然語(yǔ)言處理、信息抽取和文本挖掘等。早期的所用的方法主要依賴于命名實(shí)體共現(xiàn)和模式匹配,而后期則主要采用可以處理復(fù)雜句子中關(guān)系的可計(jì)算語(yǔ)言學(xué)技術(shù)。

2 方法

通常,現(xiàn)有的方法可以被分為三類:基于計(jì)算語(yǔ)言學(xué)的方法、基于規(guī)則的方法和基于機(jī)器學(xué)習(xí)和統(tǒng)計(jì)的方法。

2.1 基于計(jì)算語(yǔ)言學(xué)的方法

基于計(jì)算語(yǔ)言學(xué)的方法采用語(yǔ)言學(xué)技術(shù)從句子中提取語(yǔ)法結(jié)構(gòu)或語(yǔ)義。在這種方法中,首先對(duì)語(yǔ)料庫(kù)進(jìn)行解析以獲取每個(gè)句子的形態(tài)學(xué)和句法信息,在這之后才能完成識(shí)別PPI信息等復(fù)雜的任務(wù)。然而,對(duì)生物學(xué)領(lǐng)域中的非結(jié)構(gòu)化文本進(jìn)行解析是非常困難的。

這類方法可以根據(jù)所采用語(yǔ)言學(xué)方法的復(fù)雜性進(jìn)一步劃分為淺解析或深解析。淺解析執(zhí)行句子結(jié)構(gòu)的部分解析,它旨在通過(guò)犧牲分析的完整性和深度來(lái)從文本中高效可靠地提取句法信息。它首先將句子分為非重疊塊,接著抽取塊間的局部依賴而不重建整個(gè)句子結(jié)構(gòu)。淺解析在捕獲一個(gè)句子實(shí)體間相對(duì)簡(jiǎn)單的二元關(guān)系方面表現(xiàn)良好,但是無(wú)法識(shí)別關(guān)系子句中更加復(fù)雜的關(guān)系。對(duì)包含三個(gè)或更多實(shí)體間復(fù)雜關(guān)系的句子來(lái)說(shuō),淺解析方法通常會(huì)產(chǎn)生錯(cuò)誤的結(jié)果,這時(shí)采用基于全句的深解析方法往往更加精確。深解析以構(gòu)造語(yǔ)法的方式為基礎(chǔ)分析整個(gè)句子,這通常可以得到較好的性能,但是卻具有較高的計(jì)算復(fù)雜度。基于深解析的方法可以被分為通過(guò)人工定義語(yǔ)法的唯理論方法和通過(guò)觀察自動(dòng)生成語(yǔ)法的經(jīng)驗(yàn)主義方法。

2.2 基于規(guī)則的方法

在基于規(guī)則的方法中,需要定義建立在單詞或詞性標(biāo)記上正規(guī)表達(dá)式的規(guī)則集,并以此為基礎(chǔ)識(shí)別實(shí)體間的關(guān)系。

通常,理論上來(lái)說(shuō),使用預(yù)定義的規(guī)則可以產(chǎn)生令人滿意的結(jié)果,然而在實(shí)際應(yīng)用中卻是不可行的,因?yàn)楫?dāng)轉(zhuǎn)移到另一個(gè)域時(shí),仍需要繁重的工作以重新定義規(guī)則集。

現(xiàn)有的基于規(guī)則的方法可以通過(guò)突破被抽取的互相作用集合上的整體局限和被處理句子的復(fù)雜性進(jìn)行識(shí)別規(guī)則的擴(kuò)展。但是,這些方法經(jīng)常忽略許多復(fù)雜的實(shí)例,比如跨越文本多個(gè)句子的互相作用。基于規(guī)則方法的缺點(diǎn)是它們無(wú)法處理除比較短的以及直接陳述以外的任何句子,而基于規(guī)則的方法能夠處理的句子在正常的生物醫(yī)學(xué)文獻(xiàn)中是相當(dāng)少的。這種方法忽視了句子結(jié)構(gòu)的很多重要方面,比如句子的語(yǔ)氣、情態(tài)和否定,而這些都可以顯著改變甚至完全顛倒句子的意思。

2.3 基于機(jī)器學(xué)習(xí)和統(tǒng)計(jì)的方法

在生物信息學(xué)領(lǐng)域,已經(jīng)應(yīng)用了很多機(jī)器學(xué)習(xí)方法,這些方法涵蓋了從在術(shù)語(yǔ)共現(xiàn)基礎(chǔ)上推斷術(shù)語(yǔ)間關(guān)系的簡(jiǎn)單方法到采用NLP技術(shù)的復(fù)雜方法。

很多以蛋白質(zhì)名稱共現(xiàn)的發(fā)現(xiàn)為基礎(chǔ)的機(jī)器學(xué)習(xí)和統(tǒng)計(jì)方法已經(jīng)被用于PPI信息抽取,如果以挖掘單位為基礎(chǔ),它們可以被進(jìn)一步分為三種類型,如摘要、句子等。后來(lái)的系統(tǒng)采用了其他的技術(shù),如隱馬爾科夫模型和支持向量機(jī)來(lái)識(shí)別描述PPI的句子。一般來(lái)說(shuō),使用基于機(jī)器學(xué)習(xí)和統(tǒng)計(jì)的方法檢測(cè)PPI的過(guò)程可以被分為三個(gè)階段:建立訓(xùn)練和測(cè)試語(yǔ)料庫(kù)、構(gòu)建判別詞和通過(guò)討論P(yáng)PI的可能性對(duì)測(cè)試語(yǔ)料庫(kù)中的每個(gè)摘要進(jìn)行評(píng)分。

一般來(lái)說(shuō),基于蛋白質(zhì)共現(xiàn)的簡(jiǎn)單統(tǒng)計(jì)方法往往不能精確地描述蛋白質(zhì)間的關(guān)系,因而會(huì)產(chǎn)生比較低的F1值。相反,復(fù)雜的統(tǒng)計(jì)模型需要大量訓(xùn)練數(shù)據(jù)估計(jì)模型參數(shù),但這在實(shí)際應(yīng)用中通常難以實(shí)現(xiàn)。在實(shí)際應(yīng)用中,許多現(xiàn)存的系統(tǒng)都采用了結(jié)合來(lái)自兩個(gè)或更多上面所提方法的混合方法以獲得較好的性能。

3 所面臨的挑戰(zhàn)和可能的解決方案

在不久的將來(lái),知識(shí)發(fā)現(xiàn)工具將在系統(tǒng)生物學(xué)中起到關(guān)鍵的作用。近些年來(lái),生物醫(yī)學(xué)的信息抽取已經(jīng)從簡(jiǎn)單的基于規(guī)則的模式匹配發(fā)展到復(fù)雜的、應(yīng)用計(jì)算語(yǔ)言學(xué)技術(shù)的混合解析器。但是知道現(xiàn)在,仍存在一些諸如性能差、無(wú)法處理生物實(shí)體間可變關(guān)系以及被抽取的知識(shí)自相矛盾等障礙,以后的發(fā)展,必將以解決這些問(wèn)題作為首要的問(wèn)題。

[1]陳謀通,劉建軍.蛋白質(zhì)相互作用的研究方法[J].生物技術(shù)通報(bào),2009.

[2]冀俊忠,劉志軍,劉紅欣等.蛋白質(zhì)相互作用網(wǎng)絡(luò)功能模塊檢測(cè)的研究綜述[J].自動(dòng)化學(xué)報(bào),2014,40(04):577-593.

[3]劉念,馬長(zhǎng)林,張勇等.基于樹(shù)核的蛋白質(zhì)相互作用關(guān)系提取的研究[J].華中科技大學(xué)學(xué)報(bào) (自然科學(xué)版),2013(02).

10.16640/j.cnki.37-1222/t.2016.20.207

猜你喜歡
規(guī)則信息方法
撐竿跳規(guī)則的制定
數(shù)獨(dú)的規(guī)則和演變
讓規(guī)則不規(guī)則
Coco薇(2017年11期)2018-01-03 20:59:57
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
TPP反腐敗規(guī)則對(duì)我國(guó)的啟示
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚(yú)
展會(huì)信息
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 亚洲无线国产观看| 色综合热无码热国产| 亚洲欧美国产五月天综合| 午夜国产理论| 国产乱子伦手机在线| 九九九久久国产精品| 国产精品手机在线观看你懂的| 国产国模一区二区三区四区| 99久久精品免费看国产免费软件| 色偷偷一区二区三区| 毛片基地美国正在播放亚洲 | 国产电话自拍伊人| 精品超清无码视频在线观看| 精品亚洲国产成人AV| 动漫精品啪啪一区二区三区| 美女高潮全身流白浆福利区| av一区二区无码在线| 91亚洲精选| 国产精品爽爽va在线无码观看 | 婷婷午夜天| 日韩欧美中文在线| 亚洲精品成人片在线观看| 制服无码网站| 欧美日韩成人| 久久久久久国产精品mv| 亚洲成aⅴ人在线观看| 国产自无码视频在线观看| 欧美一区二区三区国产精品| 少妇极品熟妇人妻专区视频| 日本精品视频一区二区| 国产浮力第一页永久地址| 无码精品国产dvd在线观看9久 | 久久毛片基地| 四虎精品国产AV二区| 亚洲h视频在线| 国产精品视频猛进猛出| 色网站免费在线观看| 国产精品久久自在自2021| 久久青草免费91观看| 欧美国产精品不卡在线观看| 77777亚洲午夜久久多人| 国产精品短篇二区| www.av男人.com| 欧洲亚洲一区| 亚洲第一香蕉视频| 久久这里只精品国产99热8| 亚洲无码视频图片| 亚洲制服丝袜第一页| 国产91精选在线观看| 高清视频一区| 男女精品视频| 91在线一9|永久视频在线| 无码区日韩专区免费系列| 国产精品香蕉在线| 三级视频中文字幕| 日本91视频| 亚洲欧美日韩天堂| 欧美成一级| 国产无码在线调教| 天天综合天天综合| 中国毛片网| 尤物精品视频一区二区三区| 国产第一页屁屁影院| 超碰免费91| 免费观看男人免费桶女人视频| 亚洲AV人人澡人人双人| 亚洲女同欧美在线| 亚洲中文字幕在线观看| 国产精品部在线观看| 国产成人AV大片大片在线播放 | 中文字幕 日韩 欧美| 2020国产精品视频| 午夜人性色福利无码视频在线观看| 久久精品女人天堂aaa| 国产不卡网| 国产美女叼嘿视频免费看| 日本欧美视频在线观看| 国产日产欧美精品| 亚洲成aⅴ人片在线影院八| 91九色国产porny| 色综合天天操| 国产特级毛片aaaaaa|