999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

生物信息學(xué)中的文本挖掘

2016-05-30 13:03:04周玉新
科技風(fēng) 2016年17期
關(guān)鍵詞:文本挖掘信息檢索

周玉新

摘 要:隨著生物信息學(xué)領(lǐng)域的發(fā)展,信息抽取和信息檢索廣泛應(yīng)用于生物信息學(xué)領(lǐng)域。文章總結(jié)了近幾年來生物信息學(xué)中信息抽取和信息檢索方法的應(yīng)用,作為生物信息學(xué)中文本挖掘的重要工具,其研究價(jià)值正得到越來越多的認(rèn)可和重視。

關(guān)鍵詞:生物信息學(xué);信息抽取;信息檢索;文本挖掘

在過去的十幾年中,隨著生物醫(yī)學(xué)文獻(xiàn)的飛速增長,基因組學(xué)和蛋白質(zhì)組學(xué)領(lǐng)域的生物醫(yī)學(xué)數(shù)據(jù)出現(xiàn)了巨量增長。人類基因組序列排序標(biāo)志著大規(guī)模基因組學(xué)和蛋白質(zhì)組學(xué)時(shí)代的開始。雖然可以進(jìn)行涉及基因和蛋白質(zhì)的大規(guī)模實(shí)驗(yàn),但對它們的解釋仍然是一個(gè)關(guān)鍵問題。例如,到目前為止,許多基因組數(shù)據(jù)的大規(guī)模分析都側(cè)重于基因表達(dá)模式,并且在基因表達(dá)基礎(chǔ)上建立基因聚類,而解釋形成的基因聚類需要進(jìn)行更進(jìn)一步的分析。

當(dāng)前,最常使用的生物醫(yī)學(xué)摘要源是由美國國家生物醫(yī)學(xué)技術(shù)信息中心(NCBI)維護(hù)的PubMed,它包含超過12,000,000篇生物醫(yī)學(xué)科技文獻(xiàn)摘要,每天被遍及世界的數(shù)百萬用戶訪問。

PubMed中的典型相關(guān)文獻(xiàn)搜索是一個(gè)布爾查詢,需要用戶提供相應(yīng)的搜索項(xiàng)或搜索項(xiàng)組合,然后返回所有滿足查詢的摘要集合。但是,PubMed并不提供基于相似度的工具以幫助用戶訪問這些返回的摘要集中與相關(guān)文檔相似的文檔。

為了提高文獻(xiàn)搜索的效率和精度,一些研究人員提出了一些自動(dòng)文獻(xiàn)搜索方法,主要分為兩種方法:一種是建立在信息抽取和自然語言處理基礎(chǔ)上的生物信息學(xué)信息抽取;另一種是建立在信息檢索基礎(chǔ)上的生物信息學(xué)信息檢索,它在檢索粒度上解決了文獻(xiàn)挖掘問題。

1 生物信息學(xué)信息抽取

迄今為止,多數(shù)生物醫(yī)學(xué)文獻(xiàn)挖掘的工作都側(cè)重于自動(dòng)信息抽取,在生物信息學(xué)背景下,信息抽取系統(tǒng)旨在發(fā)現(xiàn)關(guān)于一個(gè)給定基因或關(guān)于特定基因間相互關(guān)系的信息。

Leek利用隱馬爾科夫模型(HMM)抽取文獻(xiàn)中討論染色體上基因定位的句子。基因和染色體名稱利用簡單的啟發(fā)式識別,而實(shí)驗(yàn)方法以及定位標(biāo)志在一個(gè)預(yù)定義列表中給出,HMM自身的狀態(tài)概率和轉(zhuǎn)移概率從被標(biāo)注的OMIM項(xiàng)中學(xué)習(xí)。訓(xùn)練和測試集都由幾百個(gè)句子組成,系統(tǒng)性能用準(zhǔn)確率和召回率度量。

Craven等在這一工作上進(jìn)行了擴(kuò)展,他們開發(fā)了用于從枯燥的句子中鑒別描述事實(shí)句子的系統(tǒng)。系統(tǒng)被設(shè)計(jì)成用于識別兩種類型的事實(shí):蛋白質(zhì)亞細(xì)胞定位和基因疾病之間的關(guān)聯(lián)。Ray & Craven進(jìn)一步擴(kuò)展了這一工作,他們利用描述句子結(jié)構(gòu)的HMMs識別那些討論基因與疾病間相關(guān)聯(lián)的句子。該工作不使用預(yù)定義的詞匯,而有關(guān)基因和蛋白質(zhì)句子的正確識別也仍局限于在訓(xùn)練模型中使用過的名稱。

Rindflesch等和Friedman等在傳統(tǒng)NLP基礎(chǔ)上提出了基于解析和使用主題詞表的方法,該方法可以從文檔中抽取關(guān)于基因和蛋白質(zhì)的相關(guān)信息。他們的不同之處在于Rindflesch等的工作關(guān)注藥物對細(xì)胞中基因活性的作用,而Friedman等則關(guān)注于基因和作為調(diào)控途徑的蛋白質(zhì)之間的相互作用。

Blachke等使用了一種更簡單的方法,該方法依賴于句子中基因和蛋白質(zhì)的共現(xiàn),而不是機(jī)器學(xué)習(xí)方法或先進(jìn)的NLP,其目標(biāo)是在一個(gè)與蛋白質(zhì)相關(guān)的預(yù)定義集合中抽取蛋白質(zhì)相互作用的信息。它使用了一個(gè)蛋白質(zhì)名稱列表和一個(gè)相互作用,通過查找兩個(gè)共現(xiàn)的蛋白質(zhì)被一個(gè)表示相互作用的單詞分割的句子來識別蛋白質(zhì)相互作用。Blashke & Valencia擴(kuò)展了這一工作,在該工作中他們使用了一個(gè)蛋白質(zhì)名稱檢測模塊,并對句子中的否定進(jìn)行了處理。

到目前為止所有的方法都是被應(yīng)用于較小的樣本集,Jenssen等邁出了在大規(guī)模分析上的重要一步。他們利用一個(gè)預(yù)定義的蛋白質(zhì)名稱列表,通過一個(gè)布爾查詢查找PubMed中提及這些基因的所有摘要,并在此基礎(chǔ)上建立了一個(gè)以基因作為節(jié)點(diǎn)和連接在相同文獻(xiàn)中提及基因?yàn)檫叺膱D,邊的權(quán)重表示共現(xiàn)的次數(shù)。與此類似,許多基于蛋白質(zhì)/基因名稱共現(xiàn)的系統(tǒng)通常建立在一個(gè)從公用數(shù)據(jù)中收集而來的詞庫基礎(chǔ)上。

雖然研究人員對于使用信息抽取和自然語言處理的方法投入了很多努力,但這些方法通常強(qiáng)依賴于預(yù)定義信息,但很多預(yù)定義信息往往難以獲得。

2 生物信息學(xué)信息檢索

最常用的信息檢索已經(jīng)被研究者廣泛應(yīng)用于搜索感興趣的文章,同樣,在生物信息學(xué)領(lǐng)域已經(jīng)開發(fā)出許多基于信息檢索的大規(guī)模生物醫(yī)學(xué)分析方法。

該領(lǐng)域的最初工作是由Shatkey等完成的,他們的目標(biāo)是發(fā)現(xiàn)基因間的功能性關(guān)系而不強(qiáng)依賴于基因名稱或句子結(jié)構(gòu),該方法是建立在許多基因和它們的功能已經(jīng)在文獻(xiàn)中討論這一假設(shè)基礎(chǔ)上。

其他一些研究者將一些信息檢索方法應(yīng)用于生物信息學(xué)領(lǐng)域,主要是聚類和分類的變形。Renner & Azodi提出一個(gè)蛋白質(zhì)標(biāo)注聚類方法。Iliopoulos等將k-means聚類應(yīng)用到一個(gè)較小的PubMed摘要集以獲取有意義的子集,每一個(gè)子集討論一些共同的主題,該主題由聚類中抽取的詞項(xiàng)來描述。Marcotte等使用一個(gè)依賴于辨別詞的Bayers分類器來識別討論P(yáng)PI的摘要。

信息檢索技術(shù)的另一個(gè)應(yīng)用是蛋白質(zhì)的同源性領(lǐng)域。Donaldson等開發(fā)了PreBind/Textomy系統(tǒng),該系統(tǒng)為了從文獻(xiàn)中發(fā)現(xiàn)PPI,組合了信息檢索和信息抽取。

在信息檢索階段,訓(xùn)練了一個(gè)SVM分類器來區(qū)分摘要是否討論了PPI,然后分類器被用于識別和檢索與PPI相關(guān)的摘要。一旦檢索到相關(guān)摘要,則應(yīng)用信息抽取來識別文本間的相互作用。

3 結(jié)語

隨著生物信息學(xué)領(lǐng)域的發(fā)展,信息抽取和信息檢索廣泛應(yīng)用于生物信息學(xué)領(lǐng)域。文章總結(jié)了近幾年來生物信息學(xué)中信息抽取和信息檢索方法的應(yīng)用,作為生物信息學(xué)中文本挖掘的重要工具,其研究價(jià)值正得到越來越多的認(rèn)可和重視。

參考文獻(xiàn):

[1] 于躍,徐志健,王珅等.基于雙聚類方法的生物醫(yī)學(xué)信息學(xué)文本數(shù)據(jù)挖掘研究[J].圖書情報(bào)工作,2012,56(18):133-136.

[2] 齊彬,呂婷.共現(xiàn)分析技術(shù)在生物醫(yī)學(xué)信息文本數(shù)據(jù)挖掘中的應(yīng)用[J].中華醫(yī)學(xué)圖書情報(bào)雜志,2009(3):41-43.

猜你喜歡
文本挖掘信息檢索
基于同態(tài)加密支持模糊查詢的高效隱私信息檢索協(xié)議
數(shù)據(jù)挖掘技術(shù)在電站設(shè)備故障分析中的應(yīng)用
基于LDA模型的95598熱點(diǎn)業(yè)務(wù)工單挖掘分析
文本數(shù)據(jù)挖掘在電子商務(wù)網(wǎng)站個(gè)性化推薦中的應(yīng)用
商(2016年34期)2016-11-24 16:28:51
從《遠(yuǎn)程教育》35年載文看遠(yuǎn)程教育研究趨勢
醫(yī)學(xué)期刊編輯中文獻(xiàn)信息檢索的應(yīng)用
新聞傳播(2016年18期)2016-07-19 10:12:06
在網(wǎng)絡(luò)環(huán)境下高職院校開設(shè)信息檢索課的必要性研究
新聞傳播(2016年11期)2016-07-10 12:04:01
慧眼識璞玉,妙手煉渾金
文本觀點(diǎn)挖掘和情感分析的研究
基于神經(jīng)網(wǎng)絡(luò)的個(gè)性化信息檢索模型研究
主站蜘蛛池模板: 一级毛片免费高清视频| 亚洲美女视频一区| 亚洲无码精品在线播放| 成人另类稀缺在线观看| 国产乱人伦精品一区二区| 一区二区三区精品视频在线观看| 草逼视频国产| 91香蕉国产亚洲一二三区 | 国产日韩欧美在线视频免费观看| 久久性视频| 国产成人高清精品免费软件 | 黑色丝袜高跟国产在线91| 国产精品观看视频免费完整版| 老色鬼久久亚洲AV综合| 精品福利视频导航| 精品视频福利| 在线观看精品自拍视频| 亚洲国产成人精品无码区性色| 午夜国产理论| 极品国产一区二区三区| 97在线公开视频| 国产一级无码不卡视频| 99久久国产精品无码| 亚洲综合色婷婷中文字幕| 91久久天天躁狠狠躁夜夜| 亚洲最大情网站在线观看| 久久国产精品国产自线拍| 91精品日韩人妻无码久久| 日韩一二三区视频精品| 国产乱人视频免费观看| 国产麻豆另类AV| 成人福利在线视频| 国产福利不卡视频| 91亚洲国产视频| 88av在线看| 九九香蕉视频| 久久国产V一级毛多内射| 亚洲自拍另类| 福利视频久久| 久久不卡国产精品无码| 97在线视频免费观看| 欧美a级完整在线观看| 浮力影院国产第一页| 中日韩一区二区三区中文免费视频| 亚洲中文字幕在线观看| 蜜臀AV在线播放| 在线免费无码视频| 国产成年女人特黄特色毛片免| 国产欧美精品午夜在线播放| 国产成人精品日本亚洲77美色| 国产在线无码av完整版在线观看| 成人精品视频一区二区在线| 国产日产欧美精品| 亚洲欧美另类专区| 在线观看免费AV网| 波多野结衣久久高清免费| 国产亚洲精品97在线观看| 久久综合五月婷婷| 激情亚洲天堂| 国产黄色视频综合| 国产性生大片免费观看性欧美| 久久狠狠色噜噜狠狠狠狠97视色 | 免费一级毛片| 精品无码一区二区在线观看| 不卡色老大久久综合网| 99热这里只有精品免费国产| 亚洲国产日韩一区| 欧美亚洲激情| 思思热精品在线8| 亚洲日韩第九十九页| 国产肉感大码AV无码| 中文字幕中文字字幕码一二区| 一区二区三区在线不卡免费| 免费人成视频在线观看网站| 国产亚洲精品自在久久不卡 | 特级aaaaaaaaa毛片免费视频| 一本大道香蕉久中文在线播放| 中国成人在线视频| 成人小视频在线观看免费| 全午夜免费一级毛片| 亚洲欧美在线精品一区二区| 国产性爱网站|