999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

文章發表時間對生物醫學文獻知識發現的影響

2017-03-21 01:08:16,,
中華醫學圖書情報雜志 2017年5期
關鍵詞:關聯

, , ,,

科技文獻是科研工作者獲取科學假設的重要途徑。如何更好地基于文獻進行知識發現,是未來知識服務的重要方向。傳統的檢索平臺能夠幫助用戶快速查找文獻,但檢索的文獻數量龐大,要從候選文獻集中獲得有效的知識,費時費力。基于文獻的知識發現研究通過間接關聯的挖掘來獲得科學假設,影響間接關聯挖掘的因素研究是目前該領域的熱點之一。

通過間接關聯的挖掘來獲得科學假設,即如果A與B存在關聯,同時B與C也存在聯系,得到A與C可能通過B存在間接聯系的假設[1]。目前生物醫學領域開發的一些文獻知識發現系統,如Arrowsmith[2],Facta+[3],CoPub[4]等,具有較強的可操作性,但由于無法明確間接關聯的語義關系,導致混雜的候選關系數成指數遞增,從中篩選出真正有效的關系變得困難。現有方法不斷強化對關聯的語義性評價,而關聯性強弱只是影響發現用戶感興趣的特異性關聯的因素之一。研究文獻知識發現過程中影響間接關聯挖掘的因素,以便篩選出更多更有效的間接關聯。因此,本文利用PubMed的文獻數據,分析不同時期的文獻在間接關聯挖掘中的作用,探討時間因素在生物醫學文獻知識發現過程中的影響,這對科研人員探索文獻知識發現關聯篩選的新方法具有重要意義。

1 研究設計

文獻知識發現的實施主要包括概念實體A、B和C的識別,關聯的抽取及間接關聯的相關度計算3個部分。對于一個文獻知識發現系統來說,用戶輸入概念A,計算A-B-C之間的關聯強度,獲得按關聯強度由大到小排序的有序列表[5]。返回的候選結果的數量較大時,排在前面的結果通常是用戶最關心的。因此,給定每一個A-B-C間接關聯,計算其關聯性評價的分值SAC,利用SAC對所有候選結果集進行排序,確保排序靠前的多是關聯性較好的結果,即只關注分值最高的靠前關聯集的準確度P(Precision),P越大效果越好。

為了探索文章發表時間對生物醫學文獻知識發現的影響,將給定文獻集按發表時間(年份)分成訓練集Ttrain和Ttest(圖1),并在y12時間點將訓練集Ttrain分成T1和T2兩部分(其中T1

圖1 文獻集按時間劃分為訓練集Ttrain和測試集Ttest

1.1 關聯建模

利用圖對關聯知識進行建模,是目前相關領域最常用的方法。通常一個簡單的無向無權網絡,可記為G=(V ,E),其中集合V稱為節點集,V={v1,v2,…,vn},集合E稱為邊集,E={e1,e2,…,em},任意一條邊對應一個節點的二元組:ex=(vi,vj),E是V×V的一個子集。筆者根據文獻中的語義單元即概念實體及其關聯,對文獻中蘊含的知識進行網絡結構化,構建文獻關聯知識網絡。因此,在生物醫學文獻關聯知識網絡G=(V,G)中,節點集V是從生物醫學文獻中提取的實體集合(如基因、蛋白質、化合物或疾病等各類概念實體),邊集E 是實體之間來自文獻的信息關聯的集合。

1.2 關聯提取

基于句子共現的方法進行實體關聯的提取[6],利用NLTK(www.nltk.org)自然語言處理包實現文獻文本處理與關聯提取(包括分詞、詞性標注、分塊及名詞短語提取),并利用MeSH(Medical Subject Headings)醫學主題詞表輔助進行詞干化,主要過程如下。

識別出句子的實體NP(Noun Phrase)及其位置:

如果在同一個句子中得到的實體按其在句子中的順序依次為NP1、NP2、NP3,則得到關聯:(NP1,NP2),(NP1,NP3),(NP2,NP3)。

例如,文獻標題(PMID: 20856896):β1-syntrophin modulation by miR-222 in mdx mice.提取得到實體及其位置的列表為:

[(β1-syntrophin modulation,1),(miR-222,4),(mdx mouse,6)]

進一步得到關聯:(β1-syntrophin modulation,miR-222),(β1-syntrophin modulation,mdx mouse),( miR-222,mdx mouse)。

在實體識別過程中,未對提取到的名詞詞項進行語義限定與分類,即得到的關聯知識網絡不是一個由特定實體構成的關聯網絡,而是盡量收集文獻中出現的各類實體,以滿足通用性和覆蓋率的要求。雖然生物醫學文獻中出現的同義詞項、縮寫詞及實體識別算法本身的假陽性率會帶來一定的噪聲,但從總體富集的效果來觀察,不會影響結果的整體表現。

1.3 間接關聯的評價

目前已有多種指標用于評價A-B-C三者之間的關聯性[7]。筆者選擇常用的絕對詞頻(Absolute Word Frequency,AWF)計算A-B-C之間的潛在關聯性SAC,以輔助比較不同時期文獻用于實施知識發現時的準確率:

SAC=min(w(A,B),w(B,C))

其中,w(A,B)與w(B,C)分別為A與B、B與C的共現次數。

1.4 計算準確率

給定測試文獻數據集,將文獻數據集按時間分成訓練集和測試集,分別建立訓練網絡G1=(N1,E1)和測試網絡G2=(N2,E2)。從N1中隨機選擇m個詞作為種子詞項集A,其中A取訓練網絡與測試網絡中共同擁有的詞項,即A∈N1∩N2。

在訓練網絡G1中,以種子集A中的節點為起點提取其間接節點,得到間接節點集C,計算所有關系鏈(A-Btrain-C)的一個分值SAC。對結果集C按SAC值從大到小排序,取有序結果集CSorted中前L個詞項,得到CSorted_TopL={c1,c2,…cL}。

在測試網絡G2中,以種子節點集A中的節點為起點提取其直接關聯節點,得到關聯節點集Btest。

計算有序結果集CSorted前L個詞項集CSorted_TopL的準確率P:

其中,CSorted_TopL∩Btest指CSorted_TopL和Btest的交集即共同擁有的詞項,|CSorted_TopL∩Btest|為交集的節點數量,|Btest|指Btest集的節點數量。

2 數據測試

2.1 數據準備

以關鍵詞“miRNA or MicroRNA”從PubMed中檢索得到51 118條結果,將標題數據集按時間分成訓練集和測試集,分別建立訓練網絡G1=(N1,E1)和測試網絡G2=(N2,E2)。以2012年為分開點,2013-2015年的文獻數據作為Ttest測試集,2003-2012年的文獻數據作為Ttrain訓練集。其中將訓練集以2009年為中間點,2003-2009年作為T1時間段的訓練集,2010-2012年作為T2時間段的訓練集。從T1時間段訓練集中隨機選取50個關鍵詞作為種子詞項A1,從T2時間段訓練集中隨機選取50個關鍵詞作為種子詞項A2。

此外,在計算T1時間段的準確率時,必須從Ttest中去除A1在T2時間段中已經形成的關聯,才能保證剩下的新關聯是在Ttest時期形成的。

2.2 測試結果

取L=0.1,0.2,0.3,…,1,即取有序結果集Csorted前10%、20%、10%、20%、30%、40%、50%、60%、70%、80%、90%、100%的詞項時,計算T1和T2的準確率P,結果如圖2所示。

圖2 L=0.1,0.2,0.3,… ,1.0時T1和T2的準確率P

進一步取靠前的區間,取 L=0.01,0.02,0.03,…,0.1,即取有序結果集Csorted前1%、2%、3%、4%、5%、6%、7%、8%、9%、10%的詞項時,計算T1和T2的準確率P,結果如圖3所示。

圖3 L=0.01,0.02,0.03,…,0.1時T1和T2的準確率P

根據圖2與圖3的測試結果,觀察不同時期的文獻用于間接關聯挖掘時的表現,發現由T2時期文獻獲得的準確率顯著大于T1時期文獻所獲得的準確率,即近期文獻集相比早期文獻集在知識發現時獲得的準確率要高,表明文章發表時間對生物醫學文獻知識發現具有積極影響。因此,在實際文獻知識發現時,科研人員多是基于特定領域文獻實施知識發現的研究,在間接關聯性評價過程中考慮時間因素,可以顯著提升知識發現工作的效率。此外,從整體上看,利用T1與T2時期的文獻集都未能獲得較高的準確率,一方面是因為實體抽取時未過濾那些寬泛概念,如“cell”“gene”“miRNA”等,這些概念存在大量的關聯,但在具體關聯發現過程中無實際意義;另一方面,不同時間段內相關領域都存在相應的熱點研究內容,種子詞的選擇對結果的準確率影響很大,如果選擇熱點種子詞項,會顯著提升準確率。

3 總結與討論

面對大數據時代知識獲取的需求與挑戰,基于文獻的知識發現研究對完成從文獻到知識的轉化具有重要作用,已成為醫學情報分析與輔助科研的一種重要理論與方法。筆者探討了時間因素在生物醫學文獻知識發現過程中對間接關聯挖掘的影響。從測試實驗的結果來看,近期文獻比早期文獻在知識發現過程中獲得有效新關聯的效果要好,表明文章發表時間對生物醫學知識發現具有一定積極影響,即更新的文獻對下一步科研假設的形成具有非常重要的促進作用。

由于文獻知識發現是一個啟發式的過程,利用知識發現工具輔助科研時篩選出的關聯仍然是需要進一步確證的假設。因此,在不斷提高文獻文本中實體及其關系提取質量的同時,間接關聯篩選的新方法探索變得越來越重要。研究時間因素在文獻知識發現過程中對間接關聯挖掘的作用,能為新方法的探索提供一種新視角、新思路,不失為一種積極而有意義的嘗試。

猜你喜歡
關聯
不懼于新,不困于形——一道函數“關聯”題的剖析與拓展
“苦”的關聯
當代陜西(2021年17期)2021-11-06 03:21:36
船山與宋學關聯的再探討
原道(2020年2期)2020-12-21 05:47:06
“一帶一路”遞進,關聯民生更緊
當代陜西(2019年15期)2019-09-02 01:52:00
新制度關聯、組織控制與社會組織的倡導行為
奇趣搭配
基于廣義關聯聚類圖的分層關聯多目標跟蹤
自動化學報(2017年1期)2017-03-11 17:31:17
智趣
讀者(2017年5期)2017-02-15 18:04:18
探討藏醫學與因明學之間的關聯
西藏科技(2016年5期)2016-09-26 12:16:39
GPS異常監測數據的關聯負選擇分步識別算法
主站蜘蛛池模板: 亚洲精品视频网| 亚洲av色吊丝无码| 国产乱子伦视频在线播放| 亚洲一道AV无码午夜福利| 三级视频中文字幕| 浮力影院国产第一页| 欧美日本不卡| 最近最新中文字幕在线第一页| 夜夜爽免费视频| 午夜老司机永久免费看片 | 欧美激情首页| 91麻豆精品国产高清在线| 国产理论精品| 999国产精品| 国产在线拍偷自揄拍精品| 日韩欧美国产另类| 日韩高清欧美| 亚洲无码精品在线播放| 亚洲欧美极品| 国内精品久久人妻无码大片高| 日韩在线成年视频人网站观看| 国产精品视频白浆免费视频| 丁香婷婷激情综合激情| 国产一级裸网站| 国产一国产一有一级毛片视频| 亚洲全网成人资源在线观看| 伊在人亚洲香蕉精品播放| 91国语视频| 又黄又爽视频好爽视频| 欧美午夜理伦三级在线观看| 国产一区二区三区免费观看| 国产99久久亚洲综合精品西瓜tv| 国产精品久久久久久久久kt| 亚洲国产黄色| 中文字幕亚洲电影| 丁香婷婷久久| 亚洲自偷自拍另类小说| 亚洲熟女偷拍| 国产又爽又黄无遮挡免费观看| 国产黄色爱视频| 伊人久综合| 青草午夜精品视频在线观看| 专干老肥熟女视频网站| 免费毛片在线| 欧美日韩成人| 精品视频一区在线观看| 波多野结衣视频一区二区| 亚洲男人天堂网址| 无码专区在线观看| 全免费a级毛片免费看不卡| 久久99国产精品成人欧美| 亚洲黄色高清| 国产人成在线观看| 国产91色| 亚洲成aⅴ人在线观看| 日韩免费中文字幕| 午夜一级做a爰片久久毛片| 手机永久AV在线播放| 日本日韩欧美| 中文字幕1区2区| 欧美日本激情| 中字无码av在线电影| 日韩一二三区视频精品| 亚洲天堂自拍| 国产精品白浆无码流出在线看| 国产av一码二码三码无码| 午夜久久影院| 毛片在线播放网址| 国产午夜在线观看视频| 666精品国产精品亚洲| 国产成人精品无码一区二| 亚洲女同一区二区| 色窝窝免费一区二区三区| 曰韩免费无码AV一区二区| 国产成人精品高清不卡在线| 国产三区二区| 美女国内精品自产拍在线播放| 欧美成人午夜影院| 亚洲美女一级毛片| 久久夜色撩人精品国产| 欧美性精品| 精品国产成人国产在线|