999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

網絡特征對文獻間接關聯發現的評價作用

2016-03-21 11:34:04,,,,
中華醫學圖書情報雜志 2016年8期
關鍵詞:關聯概念

, ,,,

文獻是科研工作者獲取科學假設的重要途徑。傳統的文獻檢索平臺能夠幫助用戶快速查找目標文獻,但候選文獻數量依然龐大,要從大量的候選文獻集中獲得有效的知識,需要人工閱讀分析,這是一項費時費力甚至是不可能實現的工作[1]。基于文獻的知識發現(Literature-based Discovery, LBD)研究通過潛在的關聯挖掘推斷出新的科學假設。根據LBD的ABC模型[2],必須明確A、B、C元素才可以獲得一條有用的知識發現關系鏈,B 的出現為科研人員提供有益的啟發和關鍵性的引導,幫助認識和發現潛在有用的知識片斷間的關聯,為揭示新關系規劃可行的研究路線。如有關魚油和雷諾病的兩類文獻報道,雷諾病人(C)有典型的血液和血管相關的血黏度、血小板凝集度升高、血管收縮等生理改變稱為B。魚油(A)及其活性成分可降低血黏度和血小板凝集度,且魚油可以引起血管舒張。由此得出,魚油A可能對雷諾病C有治療作用,即形成了A和C之間的關聯,即得到了一條A(魚油)-B(生理改變)-C(雷諾病)的知識發現路徑[3]。

文獻知識發現的實施主要包括概念實體A、B和C的識別、概念間的相關度計算以及關聯的源文獻檢索3個重要部分。用戶輸入概念A,計算A-B-C之間的關聯強度,獲得按關聯強度由大到小的有序列表。在生物醫學信息學領域現已存在相關知識發現系統,比如Facta+[4], CoPub[5], Arrowsmith[6]等,這使文獻知識發現的工作具有更強的可操作性。然而,文獻知識發現過程是一個啟發式的過程,獲得的潛在關聯知識是需要進一步確證的假設,不同種類、不同相關程度的關聯都可能是激發新假設的知識。盡管現有系統極大地提高了知識發現的效率,但由于無法明確A-B-C三者之間的語義關系,導致混雜的候選關聯數呈指數遞增,從中篩選出真正有效的關系鏈變得非常困難。因此,研究對候選詞項進行排序篩選的關聯性評價指標是當前該領域研究重點之一。

本文主要研究網絡特征在文獻知識發現中間接關聯的評價作用,通過整合共現統計信息與網絡結構特征,嘗試建立間接關聯性評價計算的新指標,這對于提高文獻知識發現效率與構建相關知識系統都具有重要意義。

1 關聯建模

利用圖來對關聯知識進行建模,是目前相關領域最常用的方法。通常一個簡單的無向無權網絡,可記為G= (V ,E),其中集合 V 稱為節點集,V={v1,v2,…,vn},集合E稱為邊集,E={e1,e2,…,em},任意一條邊對應一個節點的二元組:ex=(vi,vj),E是V ×V的一個子集。因此,我們將文獻集中的內容相關性轉化為基于關聯信息存在的圖結構數據模型,即根據文獻中的語義單元即概念實體及其關聯信息,對文獻中所蘊含的知識進行網絡結構化,構建文獻關聯知識網絡。在關聯知識網絡G=(V, G) 中,節點集V 是各種從生物醫學文獻中提取而來的實體的集合,如基因、蛋白質、化合物或疾病等等,邊集E 是實體之間的關聯集合。

1.1 問題定義

在文獻知識發現實施過程中,科研工作人員給定概念A,先得到相關聯的B。然而,接下來根據B獲得C時,必須滿足兩個條件:1) A與C之間不直接關聯,2)A與C之間的潛在關聯性不一定就表明B與C存在強關聯性,即B與C之間的弱關聯也有可能導致A與C存在潛在關聯。關聯知識網絡把文獻集中的知識以網絡形式表示出來,即表示出知識之間的聯系,也過濾了冗余知識而以最簡化的形式表示,從而為發現未直接報道的兩個對象間的隱含關系提供了方便。文獻知識發現的目標是希望獲得較好的ABC關聯路徑,因此,文獻知識發現的核心問題即為如何基于B建立與評價A與C的關聯。如何建立節點A與C的關聯,即應該按照怎樣的路徑建立它們之間的關聯,等價于給定節點A,提取A-B-C路徑,然后從所有的路徑中篩選出關聯性強的ABC關系鏈,即按照ABC關系鏈的關聯強度對所有路徑進行排序,得到有序的鏈列表,使強關聯鏈路能夠處在候選鏈列表的前面位置,如圖1所示。

圖1 A-B-C關聯路徑發現的示意圖

1.2 ABC關聯性計算

由于ABC鏈是一條啟發性的關系鏈,不同于常規的兩個直接共現的實體間的二維關系。但一條關聯路徑在全局上是否存在有效的相關性,則必須很好地評價詞項B的質量。在關聯網絡中,節點的度對間接關系的影響很大,度小的節點對A與C的關聯具有積極的作用,而且度過大的概念往往是那些寬泛的通用概念,這些概念實體缺乏具體的語義[7]。一方面,我們希望AB與BC之間都能保持強的關聯;另一方面,我們希望中間詞B不是一些通用概念,而是可以傳遞出具體語義的概念實體。

因此,我們綜合考慮共現統計與節點度兩個因素,建立了新的全局關聯度計算的評價指標NBW(Network-Based Weight)如下:

其中W(A, B),W(B,C)分別表示A和B、B和C的共現頻數,degree(B)表示節點B在關聯網絡中的度。NBW指標給度小的概念實體之間的頻繁共現的關聯賦予更高的權重,因為每一關聯路徑中的共現次數較小的關聯,對整個鏈路具有至關重要的作用,只要中間連接有一個不連通,顯然整個關聯路徑很難形成很強的聯系。

1.3 方法評價

給定測試文獻數據集,將文獻數據集按時間分成訓練集和測試集,分別建立訓練網絡G1=(N1,E1)和測試網絡G2=(N2,E2)。從N1中隨機選擇m個詞作為種子詞項集A,其中A取訓練網絡與測試網絡中共同擁有的詞項,即A∈N1∩N2。

(1)在訓練網絡G1中,以種子集A中的節點為起點提取其間接節點,得到間接節點集C,計算所有關系鏈(A-Btrain-C)的NBW,對結果集C按NBW值從大到小排序,取有序結果集CNBW中前L個詞項,得到CNBW-TopL={c1,c2,…cL};

(2)在測試網絡G2中,以種子節點集A中的節點為起點提取其直接關聯節點,得到關聯節點集Btest;

(3)計算有序結果集CNBW前L個詞項集CNBW-TopL的準確率P(Precision):

其中,CNBW-TopL∩Btest指CNBW-TopL和Btest的交集,即共同擁有的詞項,|CNBW-TopL∩Btest|為交集的節點數量,|Btest|指Btest集的節點數量。

對于一個文獻知識發現系統來說,返回的候選結果的數量比較大時,排在前面的結果通常是用戶最關心的。利用NBW對候選結果集從大到小排序之后,在有序的結果列表中,確保排序靠前的多是全局關聯強度較好的結果,即只關注于分值最高的前L條關系鏈(A-B-C)的準確度P,P越大效果越好。

1.4 傳統的計算指標

(1)平均最小權重(Average Minimum Weight, AMW):

AMW(A-B-C)=min(MIM(A,B),MIM(B,C))

其中n是A與C共同包含的中間詞項B的數量,AB、BC的互信息計算MIM (Mutual Information Measure)[8]為:

其中,Pmn是詞項m與n在同一個句子共現的概率,Pm與Pn分別是詞項m與n在所有句子中出現的概率。

(2)絕對詞頻(Absolute Word Frequency,AWF):

AWF(A-B-C)=min(W(A,B),W(B,C))

其中w(x,y)分別為x與y的共現次數。

(3)相對詞頻(Relative Word Frequency, RWF):

RWF(A-B-C)=min(F(A,B),F(B,C))

其中F(x,y)分別為x與y的頻率,其計算公式如下:

其中w(x)、w(y)是指在預設的知識庫中x、y出現的次數,w(x,y)是x,y共現的次數。

2 數據測試

2.1 數據準備

以關鍵詞“miRNA or MicroRNA”從PubMed中檢索得到51 118條結果,取標題數據,基于句子水平共現的方法,提取兩個概念間的關聯信息,將關聯的共現頻數作為邊的權重,構建關聯知識網絡[9]。關聯提取的基本步驟如下。

第一步,根據自然語言處理的方法識別出句子的實體NP及其位置,

第二步,如果在同一個句子中得到的實體按其在句子中的順序依次為NP1、NP2、NP3,則得到關聯:(NP1,NP2),(NP1,NP3),(NP2,NP3)。

例如:文獻標題(PMID: 20856896):β1-syntrophin modulation by miR-222 in mdx mice. 提取得到實體及其位置的列表為:

[(β1-syntrophin modulation, 1),(miR-222, 4),(mdx mouse, 6)]

進一步得到關聯:(β1-syntrophin modulation, miR-222 ),(β1-syntrophin modulation , mdx mouse),( miR-222, mdx mouse)。

這里直接利用自然語言處理的方法,從文獻中提取以名詞短語為基礎的概念實體,不針對特定的生物醫學實體,不但能提取到關鍵詞,而且能夠盡量多收集到文獻中出現的實體,以滿足通用性和覆蓋率的要求。

以2012年作為時間分割點,將2002-2012年的數據作為訓練集,2013-2015年的數據作為測試集,得到訓練網絡G1包含節點20998,邊102363;測試網絡G2包含節點28325,邊130369。隨機選擇m=50個詞作為種子詞集。

2.2 與傳統計算指標的比較

在給定的測試數據集上,比較NBW指標與傳統指標(AWF,RWF,AMW)的準確率P。

一是取 L=0.1,0.2,0.3,…,1,即取有序結果集CNBW前10%、20%、10%、20%、30%、40%、50%、60%、70%、80%、90%、100%的詞項時,計算得到準確率P的結果(圖2)。

二是進一步取靠前的區間,取 L=0.01,0.02,0.03,…,0.1,即取有序結果集CNBW前1%、2%、3%、4%、5%、6%、7%、8%、9%、10%的詞項時,計算得到準確率P的結果(圖3)。

綜合圖2、圖3的測試結果,可以發現,如果兩個節點A與C之間存在關聯的假設,是因為存在一條強關聯的ABC路徑,即A-B-C關聯越強,A與C越可能存在有效的聯系。很明顯,對結果集進行關聯置優排序的應用中,基于網絡模型方法NBW的準確率比其他方法(AWF,RWF,AMW)表現較好,即在靠前的結果中按照NBW指標置優的關聯數量越多,準確率越高。

圖2 L=0.1,0.2,0.3,… ,1.0時準確率P的比較

圖3 L=0.01,0.02,0.03,…,0.1時準確率P的比較

雖然以上4種評價方法都可篩選出有用的潛在關聯,但因為自然語言描述的文獻文本中本身存在太多寬泛概念,如“cell”“gene”“miRNA”等,使其在具體關聯發現過程中反而無實際用途,導致不同評價方法都未能獲得很高的準確率。因此,已有的很多文獻知識發現系統都進一步提供預定義概念集進行語義過濾,限定了幾類重要的生物概念實體,如基因、疾病、癥狀等,以便縮小用戶篩選的范圍。

3 總結與討論

本文通過引入網絡特征評價計算文獻知識發現中間接關聯的,從測試數據來看,整合網絡的結構特征與共現統計的信息可以提高間接關聯評估的準確性,更好地發現有效的ABC關系鏈。對于間接關聯的獲取,關系鏈中的中間節點具有及其重要的“橋”的作用;從網絡結構上來看,節點的度可以直觀地表示出節點在全局中的權重,因為僅僅從關鍵詞出現的頻率來判斷,哪些頻率很大的節點往往是一些寬泛的概念,而一些頻率較小的節點或關聯反而很可能表達出重要的意義。利用節點度的特征較好地對中間詞B的特征進行了一定控制,如果結合語義過濾可能會發現一些更好的結果。

然而,從測試數據的結果來看,A-B-C評價面臨的一個最大的瓶頸仍是因“噪聲”的關聯太多導致的整體準確性不高,一是實體概念提取過程中存在很多寬泛的概念,二是大量已有關聯對于發現新的知識作用不大。因此,知識發現系統提供分步式交互,每一步通過友好的人工交互界面提供便捷的手工語義過濾的功能,一定程度可以提高知識發現的效率。

猜你喜歡
關聯概念
Birdie Cup Coffee豐盛里概念店
現代裝飾(2022年1期)2022-04-19 13:47:32
不懼于新,不困于形——一道函數“關聯”題的剖析與拓展
“苦”的關聯
當代陜西(2021年17期)2021-11-06 03:21:36
幾樣概念店
現代裝飾(2020年2期)2020-03-03 13:37:44
“一帶一路”遞進,關聯民生更緊
當代陜西(2019年15期)2019-09-02 01:52:00
學習集合概念『四步走』
奇趣搭配
聚焦集合的概念及應用
智趣
讀者(2017年5期)2017-02-15 18:04:18
論間接正犯概念之消解
主站蜘蛛池模板: 亚洲欧州色色免费AV| 99久久精品无码专区免费| 欧美精品在线视频观看| 精品无码国产一区二区三区AV| 99精品在线视频观看| 女人毛片a级大学毛片免费| 天堂av综合网| 国产成人精品2021欧美日韩| 中文字幕乱码二三区免费| 91小视频在线观看免费版高清| 青青草国产在线视频| 色综合久久综合网| 色香蕉影院| 亚洲男人天堂网址| 这里只有精品国产| 啊嗯不日本网站| 2021国产v亚洲v天堂无码| 免费看黄片一区二区三区| 曰AV在线无码| 国产欧美精品一区二区| 啊嗯不日本网站| 九色在线观看视频| 亚洲欧美日韩动漫| 91黄色在线观看| 日韩无码黄色网站| 国产精品女同一区三区五区| 无码国产偷倩在线播放老年人| 欧美在线精品怡红院| 青草91视频免费观看| 国产综合色在线视频播放线视| 国产精品免费露脸视频| 成人福利在线看| 三上悠亚精品二区在线观看| 国产精品毛片一区| 欧美国产精品不卡在线观看| 久久一日本道色综合久久| 欧美亚洲日韩中文| 久草网视频在线| 日韩免费成人| 欧亚日韩Av| 国产黄色爱视频| 久久久成年黄色视频| 91精品久久久久久无码人妻| 99re经典视频在线| 亚洲天堂在线免费| 理论片一区| vvvv98国产成人综合青青| 天堂成人av| 欧美一级爱操视频| 日本黄色a视频| 欧美特级AAAAAA视频免费观看| 国产精欧美一区二区三区| 色婷婷亚洲综合五月| 久久精品国产一区二区小说| 国产精品久久久久久久久久98| a色毛片免费视频| 欧美啪啪一区| 亚洲激情区| 亚洲无码高清视频在线观看| 熟女日韩精品2区| 中日韩欧亚无码视频| 国产女人水多毛片18| 婷婷五月在线| 国产精品无码在线看| 国产自在线播放| 波多野结衣无码视频在线观看| 国产精品久久精品| 极品国产在线| 3344在线观看无码| 97se亚洲综合| 亚洲婷婷六月| 日本一区高清| 国产亚洲欧美在线专区| 18禁黄无遮挡免费动漫网站| 视频一本大道香蕉久在线播放 | 18禁色诱爆乳网站| 国产视频大全| 国产精品国产三级国产专业不| 国产视频a| 日本91视频| 成人精品在线观看| 亚洲成人一区二区|