999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

生物信息學中的文本挖掘

2016-05-30 13:03:04周玉新
科技風 2016年17期
關鍵詞:文本挖掘信息檢索

周玉新

摘 要:隨著生物信息學領域的發展,信息抽取和信息檢索廣泛應用于生物信息學領域。文章總結了近幾年來生物信息學中信息抽取和信息檢索方法的應用,作為生物信息學中文本挖掘的重要工具,其研究價值正得到越來越多的認可和重視。

關鍵詞:生物信息學;信息抽取;信息檢索;文本挖掘

在過去的十幾年中,隨著生物醫學文獻的飛速增長,基因組學和蛋白質組學領域的生物醫學數據出現了巨量增長。人類基因組序列排序標志著大規模基因組學和蛋白質組學時代的開始。雖然可以進行涉及基因和蛋白質的大規模實驗,但對它們的解釋仍然是一個關鍵問題。例如,到目前為止,許多基因組數據的大規模分析都側重于基因表達模式,并且在基因表達基礎上建立基因聚類,而解釋形成的基因聚類需要進行更進一步的分析。

當前,最常使用的生物醫學摘要源是由美國國家生物醫學技術信息中心(NCBI)維護的PubMed,它包含超過12,000,000篇生物醫學科技文獻摘要,每天被遍及世界的數百萬用戶訪問。

PubMed中的典型相關文獻搜索是一個布爾查詢,需要用戶提供相應的搜索項或搜索項組合,然后返回所有滿足查詢的摘要集合。但是,PubMed并不提供基于相似度的工具以幫助用戶訪問這些返回的摘要集中與相關文檔相似的文檔。

為了提高文獻搜索的效率和精度,一些研究人員提出了一些自動文獻搜索方法,主要分為兩種方法:一種是建立在信息抽取和自然語言處理基礎上的生物信息學信息抽取;另一種是建立在信息檢索基礎上的生物信息學信息檢索,它在檢索粒度上解決了文獻挖掘問題。

1 生物信息學信息抽取

迄今為止,多數生物醫學文獻挖掘的工作都側重于自動信息抽取,在生物信息學背景下,信息抽取系統旨在發現關于一個給定基因或關于特定基因間相互關系的信息。

Leek利用隱馬爾科夫模型(HMM)抽取文獻中討論染色體上基因定位的句子。基因和染色體名稱利用簡單的啟發式識別,而實驗方法以及定位標志在一個預定義列表中給出,HMM自身的狀態概率和轉移概率從被標注的OMIM項中學習。訓練和測試集都由幾百個句子組成,系統性能用準確率和召回率度量。

Craven等在這一工作上進行了擴展,他們開發了用于從枯燥的句子中鑒別描述事實句子的系統。系統被設計成用于識別兩種類型的事實:蛋白質亞細胞定位和基因疾病之間的關聯。Ray & Craven進一步擴展了這一工作,他們利用描述句子結構的HMMs識別那些討論基因與疾病間相關聯的句子。該工作不使用預定義的詞匯,而有關基因和蛋白質句子的正確識別也仍局限于在訓練模型中使用過的名稱。

Rindflesch等和Friedman等在傳統NLP基礎上提出了基于解析和使用主題詞表的方法,該方法可以從文檔中抽取關于基因和蛋白質的相關信息。他們的不同之處在于Rindflesch等的工作關注藥物對細胞中基因活性的作用,而Friedman等則關注于基因和作為調控途徑的蛋白質之間的相互作用。

Blachke等使用了一種更簡單的方法,該方法依賴于句子中基因和蛋白質的共現,而不是機器學習方法或先進的NLP,其目標是在一個與蛋白質相關的預定義集合中抽取蛋白質相互作用的信息。它使用了一個蛋白質名稱列表和一個相互作用,通過查找兩個共現的蛋白質被一個表示相互作用的單詞分割的句子來識別蛋白質相互作用。Blashke & Valencia擴展了這一工作,在該工作中他們使用了一個蛋白質名稱檢測模塊,并對句子中的否定進行了處理。

到目前為止所有的方法都是被應用于較小的樣本集,Jenssen等邁出了在大規模分析上的重要一步。他們利用一個預定義的蛋白質名稱列表,通過一個布爾查詢查找PubMed中提及這些基因的所有摘要,并在此基礎上建立了一個以基因作為節點和連接在相同文獻中提及基因為邊的圖,邊的權重表示共現的次數。與此類似,許多基于蛋白質/基因名稱共現的系統通常建立在一個從公用數據中收集而來的詞庫基礎上。

雖然研究人員對于使用信息抽取和自然語言處理的方法投入了很多努力,但這些方法通常強依賴于預定義信息,但很多預定義信息往往難以獲得。

2 生物信息學信息檢索

最常用的信息檢索已經被研究者廣泛應用于搜索感興趣的文章,同樣,在生物信息學領域已經開發出許多基于信息檢索的大規模生物醫學分析方法。

該領域的最初工作是由Shatkey等完成的,他們的目標是發現基因間的功能性關系而不強依賴于基因名稱或句子結構,該方法是建立在許多基因和它們的功能已經在文獻中討論這一假設基礎上。

其他一些研究者將一些信息檢索方法應用于生物信息學領域,主要是聚類和分類的變形。Renner & Azodi提出一個蛋白質標注聚類方法。Iliopoulos等將k-means聚類應用到一個較小的PubMed摘要集以獲取有意義的子集,每一個子集討論一些共同的主題,該主題由聚類中抽取的詞項來描述。Marcotte等使用一個依賴于辨別詞的Bayers分類器來識別討論PPI的摘要。

信息檢索技術的另一個應用是蛋白質的同源性領域。Donaldson等開發了PreBind/Textomy系統,該系統為了從文獻中發現PPI,組合了信息檢索和信息抽取。

在信息檢索階段,訓練了一個SVM分類器來區分摘要是否討論了PPI,然后分類器被用于識別和檢索與PPI相關的摘要。一旦檢索到相關摘要,則應用信息抽取來識別文本間的相互作用。

3 結語

隨著生物信息學領域的發展,信息抽取和信息檢索廣泛應用于生物信息學領域。文章總結了近幾年來生物信息學中信息抽取和信息檢索方法的應用,作為生物信息學中文本挖掘的重要工具,其研究價值正得到越來越多的認可和重視。

參考文獻:

[1] 于躍,徐志健,王珅等.基于雙聚類方法的生物醫學信息學文本數據挖掘研究[J].圖書情報工作,2012,56(18):133-136.

[2] 齊彬,呂婷.共現分析技術在生物醫學信息文本數據挖掘中的應用[J].中華醫學圖書情報雜志,2009(3):41-43.

猜你喜歡
文本挖掘信息檢索
基于同態加密支持模糊查詢的高效隱私信息檢索協議
數據挖掘技術在電站設備故障分析中的應用
軟件導刊(2016年12期)2017-01-21 15:55:21
基于LDA模型的95598熱點業務工單挖掘分析
文本數據挖掘在電子商務網站個性化推薦中的應用
商(2016年34期)2016-11-24 16:28:51
從《遠程教育》35年載文看遠程教育研究趨勢
醫學期刊編輯中文獻信息檢索的應用
新聞傳播(2016年18期)2016-07-19 10:12:06
在網絡環境下高職院校開設信息檢索課的必要性研究
新聞傳播(2016年11期)2016-07-10 12:04:01
慧眼識璞玉,妙手煉渾金
文本觀點挖掘和情感分析的研究
基于神經網絡的個性化信息檢索模型研究
主站蜘蛛池模板: 亚洲精品自产拍在线观看APP| 99无码中文字幕视频| 国产欧美日韩精品综合在线| 亚洲视频免| 国产成年女人特黄特色毛片免| 精品日韩亚洲欧美高清a | Aⅴ无码专区在线观看| 欧美一级大片在线观看| 四虎精品国产永久在线观看| 欧美综合中文字幕久久| 114级毛片免费观看| 五月天香蕉视频国产亚| 狠狠色丁婷婷综合久久| 一本色道久久88综合日韩精品| 国产精品hd在线播放| 99视频只有精品| 久久视精品| 国内熟女少妇一线天| 99热国产这里只有精品9九| 国产精品永久久久久| 亚洲最大综合网| 国外欧美一区另类中文字幕| 亚洲AⅤ波多系列中文字幕| 无码高清专区| 欧美三级日韩三级| 幺女国产一级毛片| av在线人妻熟妇| 亚洲一区二区三区中文字幕5566| 一级毛片高清| 高清国产在线| 亚卅精品无码久久毛片乌克兰| 欧美精品伊人久久| 国产黄色免费看| 国产精品三级av及在线观看| 国产成人免费高清AⅤ| 国产精品久久自在自2021| 内射人妻无码色AV天堂| 欧美在线视频不卡| AV老司机AV天堂| 国产一级裸网站| 国产高清在线精品一区二区三区 | 99热这里只有精品5| 色老二精品视频在线观看| 久久婷婷色综合老司机| 亚洲高清资源| 亚洲欧美日韩成人高清在线一区| 日韩经典精品无码一区二区| 欧美日韩另类在线| 五月综合色婷婷| 啊嗯不日本网站| 国产 日韩 欧美 第二页| 国模在线视频一区二区三区| 久久国产成人精品国产成人亚洲| 国产精品无码在线看| 美女亚洲一区| 四虎精品国产AV二区| 日韩精品久久久久久久电影蜜臀| 天堂网国产| 99久久国产综合精品2020| 日韩精品资源| 色婷婷成人| 亚洲国产无码有码| 一本大道视频精品人妻| 成人国产免费| 国产成人盗摄精品| 免费A∨中文乱码专区| 老司机精品久久| 激情视频综合网| 成人一区专区在线观看| 色综合成人| 亚洲免费毛片| 黄色网页在线播放| 久久综合丝袜日本网| 熟妇丰满人妻| 国产色爱av资源综合区| 日韩欧美网址| 最新国产你懂的在线网址| 久久亚洲天堂| 国产精品成人不卡在线观看| 亚洲制服中文字幕一区二区| 亚洲品质国产精品无码| 日本精品影院|