999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

文本挖掘技術在生物醫學文獻管理中的應用

2012-04-12 00:00:00樓婷淵孟志青胡強
現代營銷·學苑版 2012年10期

摘要:生物醫學文獻以非結構化的文本形式存在,文本挖掘能夠從海量的生物醫學文獻中發現有趣的知識和模式,可以提高對生物醫學文獻的管理和建設效率。本文針對生物醫學領域,闡述了文本挖掘的具體過程,論述了生物醫學文本挖掘現有的研究方法,詳細討論了生物醫學文獻的分類和關系抽取,最后對文本挖掘在生物醫學領域的應用前景做了展望。

關鍵詞:文本挖掘 生物醫學文獻 文本分類 關系抽取

一、引言

信息爆炸時代,各行業每時每刻都在產生和積累大量的以各種形式保存的信息,這些信息以指數級的速度不斷積累和增長,如何快速準確地從這些紛亂的數據中提取出有價值的信息是急待解決的問題。文本挖掘是指從大量文本數據中抽取事先未知的、可理解的、最終可用的知識的過程,同時運用這些知識更好地組織信息以便將來參考[1]。如今文本挖掘已經成為國際上非常活躍的一個研究領域。

隨著生物醫學領域的快速發展,生物醫學文獻呈指數級增長,成為一座巨大的知識寶庫。然而面對如此大規模的、快速增長的科學文獻數據,即便是該領域內的專家也無法依賴手工方式從中獲取感興趣的信息。由于生物醫學文獻絕大多數都是以非結構化的形式存在于文本文件中,因此采用文本挖掘技術對生物醫學文獻數據進行管理是非常有必要的。

二、文本挖掘過程

文本挖掘通常包括文本數據預處理、特征信息提取和數據挖掘三個步驟。文本挖掘過程如圖1所示:

圖1 文本挖掘過程

文本數據預處理的質量會直接影響到最終的結果,英文文本數據預處理包括無用詞過濾和詞干化處理。文本特征信息提取是將非結構化或半結構化的文本數據轉化為挖掘工具可以處理的中間形式的過程,特征提取首先要識別文本中包含重要信息的特征項。本文采用數學模型來表示這些特征項,常用的特征表示模型有布爾模型、向量空間模型和概率模型,通過特征表示得到的向量維數較高,特征抽取的基本思想是利用映射的方法將高維特征映射到低維空間中,特征抽取一般是構造一個評價函數,然后對每個特征向量進行評估,刪除評估分數較低的特征向量。經過特征信息提取之后,文本數據以結構化形式存儲在數據庫中,因此計算機就可以對文本數據的特征信息進行分類、聚類、關聯分析和趨勢分析等數據挖掘處理。

三、文本挖掘技術在生物醫學文獻管理中的應用

將文本挖掘技術應用到生物醫學領域中,通過挖掘文本數據發現生物醫學的規律,能夠提高生物醫學文獻管理的效率。

(一)生物醫學文獻分類

對生物醫學文獻進行合理分類可以對文獻的組織和搜索帶來極大的便利,也為進一步的數據處理打下基礎。文本分類是指將文本數據映射到預先定義好的類別中,我國常用的分類方法有基于距離的方法、決策樹分類法、貝葉斯分類法等。生物醫學文獻語料庫是對生物醫學文獻分類的基礎,目前國際上可以公開獲取的生物醫學語料庫有:GENIA語料庫、Yapex語料庫、PDG語料庫等。另外由于生物醫學文獻中的專用術語較多,有些術語在文獻中出現次數不多但非常重要,具有很強的分類特征,因此如何在已有的分類方法的基礎上設計出符合這一特點的算法來提高生物醫學文獻分類的準確率和效率是亟待解決的問題。

(二)生物醫學文獻關系抽取

生物醫學文獻關系抽取的目的是從文獻信息中找出生物實體之間的關系,例如基因與某種疾病之間的關系。由于生物醫學文獻中同一概念有多種不同的表示方法,同時文獻中也可能出現很多語料庫中不存在的新概念,因此生物醫學文獻關系抽取的難度較大,國際上常用的關系抽取方法有共現方法、關鍵詞方法、機器學習方法和自然語言處理方法[2]。這些方法在生物醫學文獻關系抽取中都存在一些不足之處,有學者提出利用向量空間模型來識別文獻中生物實體間的關系,在現有方法的基礎上進行開發或多種方法融合運用以期獲得更準確的關系抽取結果。

本文主要介紹了生物醫學文獻的分類和關系抽取,當前生物醫學文本挖掘的研究熱點主要集中在文獻分類、信息檢索、自動摘要、生物醫學領域實體識別、文獻信息關系抽取等方面。通過文本分類可以縮小搜索范圍,為后續的數據處理做準備;通過信息檢索可以幫助用戶在海量的文本信息中快速找到有價值的信息;通過自動摘要技術計算機可以自動地從原始生物醫學文獻中提取出主要內容,使研究者不用花費較多時間就可以從海量的生物醫學文獻中獲得有價值的信息。通過文獻信息關系抽取技術可以從生物醫學文獻中抽取出特定的事實信息,對生物知識網絡的建立、生物體關系的預測和新藥的研制等均具有重要的意義。

四、總結

文本挖掘是當今國內外學者研究的熱點問題,其在生物醫學領域的研究具有廣闊的應用前景和重要的現實意義。本文概述了在生物醫學文獻中文本挖掘的具體過程,重點論述了文本挖掘在生物醫學文獻的分類和關系抽取中的應用和研究狀況。文本挖掘技術在生物醫學文獻管理中的應用在近年來已取得了一定成果,但在很多方面仍需要更深入地研究和探索,文本挖掘技術的提升將會推動生物醫學領域的發展進步。

參考文獻:

[1]楊斌,孟志青.一種文本分類數據挖掘的技術[J].湘潭大學自然科學學報,2001,23(4):34-37

[2]王浩暢,趙鐵軍.生物醫學文本挖掘技術的研究與進展[J],中文信息學報,2008,22(3):89-98

主站蜘蛛池模板: 欧美中文字幕在线二区| 黄色网址免费在线| 国产白浆视频| 欧美日韩另类国产| 午夜一区二区三区| 国产精品无码制服丝袜| 亚洲天堂久久| 四虎在线观看视频高清无码 | 波多野结衣一区二区三区AV| 91极品美女高潮叫床在线观看| 无码精油按摩潮喷在线播放 | 久久综合AV免费观看| 中文字幕在线视频免费| 成人亚洲视频| 国产人人乐人人爱| 国产成人精品免费av| 色婷婷在线播放| 91精品啪在线观看国产| 中文字幕日韩久久综合影院| 欧美va亚洲va香蕉在线| 456亚洲人成高清在线| 亚洲欧洲综合| 欧美日韩v| 91免费国产高清观看| 久久这里只有精品国产99| AV在线天堂进入| 日韩在线播放中文字幕| 欧美精品三级在线| 亚洲黄色片免费看| 欧美成人第一页| 亚洲精品久综合蜜| 国产免费怡红院视频| 欧美亚洲日韩不卡在线在线观看| 精品国产欧美精品v| 青青网在线国产| 成人午夜视频免费看欧美| 好吊妞欧美视频免费| 午夜日本永久乱码免费播放片| 精品久久久无码专区中文字幕| 欧美劲爆第一页| 日韩中文字幕亚洲无线码| 韩日无码在线不卡| 亚洲欧美天堂网| 欧美一级一级做性视频| 69视频国产| 天天爽免费视频| 国产不卡国语在线| 9cao视频精品| 91麻豆国产视频| 免费aa毛片| 午夜视频在线观看免费网站| www.日韩三级| 亚洲天堂首页| 亚洲制服丝袜第一页| P尤物久久99国产综合精品| 国产一区二区三区在线精品专区| jizz在线观看| 亚洲精品视频免费| 黄色不卡视频| 一区二区影院| 日本三区视频| 亚洲天堂网在线视频| 欧美人与性动交a欧美精品| 青草娱乐极品免费视频| 亚洲中字无码AV电影在线观看| 亚洲高清在线播放| 免费在线看黄网址| 不卡无码h在线观看| 在线免费无码视频| 国产福利一区二区在线观看| 亚洲人成网站18禁动漫无码| 天天摸天天操免费播放小视频| 视频二区中文无码| 国产女人18毛片水真多1| 日韩久草视频| a毛片免费看| 日韩精品一区二区三区视频免费看| 久久人与动人物A级毛片| 首页亚洲国产丝袜长腿综合| 黄网站欧美内射| 日本a级免费| 2020精品极品国产色在线观看|