999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于復雜關聯網絡的生物醫學研究結構的挖掘

2015-03-22 03:17:30,,,,
中華醫學圖書情報雜志 2015年8期
關鍵詞:關聯研究

,, ,,

隨著文獻數量的急速增長,文本挖掘技術不斷應用于大規模文獻處理,基于文獻的知識發現已經成為文獻挖掘領域的重要內容。1986年,Swanson教授提出基于文獻的知識發現思想,即對非相關的文獻進行整合分析,發現其中隱含的聯系,進而形成新的科學假設[1-2]。基于文獻的知識發現的核心是通過ABC模型來挖掘概念間的間接關系,即當不相關的實體A與C同時與實體B相關時,A與C也可能相關,這種關聯假設的方法在藥物發現、藥物重定位[3-4]等領域得到了較好的應用。隨著大量文獻富集,內容相關性會涌現出知識網絡,并通過知識網絡進行關聯挖掘。如通過對文獻詞語共現網絡的研究,總結出當前的研究熱點,分析科研結構,發現研究內容的相關性等[5-6]。還有一些研究針對具體實體的關聯網絡進行分析,如基因調控網絡、蛋白質相互作用網絡等[7]。此外,部分研究轉向系統層面上考察信息間的整合分析,通過多領域多數據源交叉融合,發現間接的隱含聯系[8]。然而,面對龐大的關聯知識網絡,如何從網絡微觀結構與關聯形成的規律,探討其對文獻知識發現的影響,對提高知識發現的效率具有重要作用。

本文基于免費開放的PubMed文獻數據集,構建了一個由文獻數據衍生出的生物醫學實體關聯演化網絡,從而整合不同時期文獻中的關聯知識,并利用復雜網絡理論分析該關聯網絡的拓撲特征,從系統層面分析研究大量文獻集中于科學知識的結構及相關性,為文獻的知識發現引入新的視角與方法,提高知識發現的效率,引導科研人員進行知識發現。

1 網絡簡介

1.1 網絡的定量描述

一個簡單的無向無權網絡可標記為G=(V,E)。其中集合V稱為節點集:V={v1,v2,…,vn},集合E稱為邊集:E={e1,e2,…,em},任意一條邊對應一個節點的二元組:ex=(vi,vj),E是V×V的一個子集。對于用節點和邊描述的圖,可以用幾個定量指標來描述圖的性質,包括節點的度、連通性、路徑與聚類系數。

節點的度:即節點V在圖G的度,指圖G中與節點V連接的邊數,記為d(v)或k(v)。節點的度主要用于描述節點的連通性。

連通性:若G中每對不同節點U,V之間都存在一條通路,則G是連通的,即G為連通圖。

路徑:即圖的路徑,指兩個與邊交替出現的序列,且所有節點與邊都不相同。路徑長度是連接兩個節點之間邊的數量,網絡距離可以通過路徑長度來描述,一般采用最短路徑作為連接兩個節點的路徑。平均路徑長度是網絡中所有節點對之間最短路徑長度的平均值。

聚類系數:表示圖中節點聚集程度的系數,定義為其鄰居真實連接數目占鄰居最大可能連接數比例的平均。

1.2 網絡的拓撲性質

圖是一種用來表示實際系統的一種模型。對于圖G=(V,E),如果存在一個映射函數f,即

f:E→V×V(公式1)

若將網絡中的邊映射到節點對,那么圖是結構化的,即圖存在一定的拓撲結構;如果映射是隨機的,那么圖就是隨機的。通常按度序列分布與熵定義圖的結構,其中度序列分布按拓撲對圖的分類提供了一種機制,而熵提供了一種對隨機性的測量。一般來說,度序列分布表達了圖的結構信息,熵則表達了圖的結構是否具有規則性。

網絡規模很大但平均距離卻很小的性質被稱為小世界效應。小世界網絡一般是指具有相對較小的平均路徑長度、相對較大的聚類系數的網絡。如果一個圖的度序列分布符合冪函數的形式,由于冪函數是標度不變的,通常稱這類圖為無標度網絡。無標度網絡同小世界網絡類似,很多真實網絡都具有無標度特征。

2 生物醫學實體關聯網絡的構建與分析

2.1 基于共現方法的實體關聯提取

生物醫學文獻挖掘研究通常利用共現方法來提取實體的關聯,即當兩個詞語共現于一定的語境中時,詞語之間存在一定的語義相關性[9]。對于實體共出現而言,以句子為最大分析單元最常見。本文基于句子共現的實體關聯提取的基本步驟如下。

根據基于自然語言的方法識別出句子的實體NP及其位置。

如果在同一個句子中得到的實體按其在句子中的順序依次為NP1、NP2、NP3,則得到關聯(NP1,NP2),(NP1,NP3),(NP2,NP3)。例如,文獻標題(PMID: 20856896):β1-syntrophin modulation by miR-222 in mdx mice,提取得到實體及其位置的列表為:

[(β1-syntrophin modulation, 1),(miR-222, 4),(mdx mouse, 6)]

進一步得到關聯:(β1-syntrophin modulation, miR-222),(β1-syntrophin modulation, mdx mouse),(miR-222, mdx mouse)。

2.2 網絡構建

考慮到PubMed數據庫中所有摘要的數據量過大,本文以PubMed中2000-2009年共10年記錄的標題數據為實驗數據集,抽取其中的實體及關聯后,建立關聯知識網絡。為了觀察科學研究的動態結構,構建了按時間(年)增長的演化網絡序列,如表1所示。

由于網絡過于龐大,本文未能給出關聯網絡的可視化效果,但從表1的統計結果來看,仍可以觀察到一些有用的特征與規律。從網絡的演化情況來看,網絡的節點與關聯每年都在增長,表明整個研究領域的知識量是不斷增加的,這與每年文獻數量不斷增長的情況是一致的。在關聯知識網絡中,每年都存在新節點新關聯的加入,表明在生物醫學研究領域每年都有新發現,而且每年新增加的關聯數遠大于新增加的節點數。這也反映在較短的時間內,真正具有較大創新性的發現相對較少,大部分文獻仍然是在已有研究問題基礎上的延續研究。總的來說,通過關聯知識網絡的演化分析,一定程度上反映了知識的形成與發展的規律。關聯網絡中節點與關聯的增長,都能反映出新知識的不斷出現。

表1 關聯演化網絡的基本信息

2.3 關聯網絡的拓撲結構分析

2.3.1 網絡的連通性

從表1的計算結果可知,提取到的關聯網絡是一個非連通網絡。從2000年開始,每一年的關聯網絡都有很多個連通分支,比如2009年的關聯網絡有11 770個連通分支。盡管存在如此多的大小不一的連通分支,但每個關聯網絡都有一個最大連通分支,能夠覆蓋網絡的絕對多數的節點與邊,比如2009年的關聯網絡中最大連通分支包含1 294 509個節點與6 667 590條邊,分別占整個網絡中節點的98.03%以及邊的99.78%。因此,主要對最大連通分支進行網絡的特征分析。

除了最大的連通分支,關聯網絡中其他連通分支的規模都很小,表明科學研究的專業化變得更精細,生物醫學領域研究內容極具豐富性與多樣性;同時也表明在一些特定的領域,領域之間缺乏互通融合,形成了一個個獨立的知識“孤島”。出現大量的相對極小的連通分支,也說明在整個領域存在一些比較“冷門”的研究。

2.3.2 網絡的度序列分布

如圖1所示,關聯知識網絡呈現冪函數形式,是一個無標度網絡。根據冪律分布的特性,絕大多數節點擁有較少的連接數,而少量的節點擁有極大的連接數。這些擁有極大連接數的節點是關聯網絡的HUB節點,基本都是一些生物醫學研究領域通用的概念。盡管它們無法代表整個領域的研究重點或研究熱點,但其他眾多概念都圍繞它們展開。說明它們在整個生物醫學科研體系中起著非常重要的連接橋梁的作用,而一些連接數較少的節點只代表某個具體的研究對象。關聯知識網絡的無標度特征表明在生物醫學領域中研究重點突出,而圍繞研究重點開展了很多細致的研究工作。

圖1 2000-2009年的關聯網絡的度序列分布雙對數坐標(Log-Log)

2.3.3 計算網絡的聚類系數

考慮到計算能力的限制,我們僅以2000年的數據作為測試數據,計算得到網絡的平均聚類系數為 0.209390339012,而最大連通分支的平均聚類系數為0.215289709462。接下來構建與原網絡、最大連通分支的節點數邊數都相同的隨機網絡,其平均聚類系數分別為3.37415559158e-05與4.98993799995e-05。顯然,關聯網絡的聚類系數遠大于隨機網絡的聚類系數,表明關聯網絡具有高集群性。

關聯網絡的高集群性說明圍繞一個研究主題所開展的各種研究之間具有很高的相關性,相關研究之間更容易形成連接,而它們之間的連接可以形成新的研究成果,這有助于對研究主題進行更深層次的分析和挖掘。根據綜合聚類系數與冪律分布的特征,可推斷出關聯網絡中存在很多集團,集團內部成員之間聯系緊密,而集團之間的聯系相對疏遠,這表明某領域中存在一些研究重點和研究熱點。圍繞這些重點和熱點所展開的大量相關研究之間聯系緊密,形成網絡結構中的集團,并使得集團內部成員的聚類系數很大,最終使得整個網絡的聚類系數較大。

2.3.4 計算網絡的平均距離

根據網絡距離的定義,當網絡不連通時,網絡的平均距離是無窮大,該關聯網絡是不連通的,因此只計算關聯網絡中最大連通分支的平均距離。以最小的2000年的關聯網絡的最大連通分支作為測試對象,該連通分支的平均距離長度為3.76923247599,表明關聯網絡中的節點平均只需經過4步就可到達其他節點。然后根據2000年的關聯網絡的最大連通分支的大小,建立一個相同大小的隨機網絡模型。該隨機網絡的平均路徑長度約為5.79725740556,顯然,相對于相同大小的關聯網絡來說其平均路徑長度相當小。綜合關聯網絡的聚類系數與平均路徑長度,表明該實體關聯網絡是一個小世界網絡。

關聯網絡的小世界特征表明,在生物醫學研究領域,研究主題和研究內容之間關聯的緊密程度非常高,而平均路徑長度很小則說明主題與內容相互之間存在很強的影響。此外,小世界特征也說明在同一個大的研究領域中,從一個研究對象可以很快轉移到另外一個研究對象,二者結合很容易形成新的研究內容。

3 結語

基于自然語言處理方法得到的網絡是一個普適的由文獻衍生的關聯知識網絡,它不同于已有的衍生于文獻的生物網絡,不依賴于任何領域特異性的實體關系。因此,通過該網絡可以更好地研究知識本身的發展規律,反映科研問題、概念間的相互關系。

從測試數據衍生而來的關聯網絡的演化情況來看,網絡的節點與關聯每年都在增長,表明整個研究領域的知識量在不斷增加,每年都有新節點新關聯的加入。同時,關聯知識網絡的小世界無標度特征,表明在生物醫學研究領域,研究主題和研究內容之間關聯的緊密程度非常高。在同一個研究領域中,從一個研究對象可以很快轉移到另外一個研究對象,二者結合很容易形成新的研究內容,這也驗證了基于文獻的知識發現的思想。

總的來說,關聯知識網絡的演化分析,一定程度上反映了知識的形成與發展的規律。關聯知識網絡中節點與關聯的增長,反映出新知識的不斷出現,而且知識網絡的結構與相關性可以更好用于發現有用的關聯,提高文獻的知識發現效率。

猜你喜歡
關聯研究
FMS與YBT相關性的實證研究
不懼于新,不困于形——一道函數“關聯”題的剖析與拓展
“苦”的關聯
當代陜西(2021年17期)2021-11-06 03:21:36
2020年國內翻譯研究述評
遼代千人邑研究述論
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
“一帶一路”遞進,關聯民生更緊
當代陜西(2019年15期)2019-09-02 01:52:00
EMA伺服控制系統研究
奇趣搭配
新版C-NCAP側面碰撞假人損傷研究
主站蜘蛛池模板: 女人毛片a级大学毛片免费| 色噜噜在线观看| 久久国产精品麻豆系列| 狠狠综合久久久久综| 国产成人精品日本亚洲| 国产理论一区| 久久影院一区二区h| 日韩av电影一区二区三区四区| 国产www网站| 天天综合网在线| 无码'专区第一页| 污污网站在线观看| 国产高潮视频在线观看| 欧美精品在线看| AV不卡在线永久免费观看| 国产手机在线小视频免费观看| 国产欧美日韩91| 91成人在线免费观看| 99热这里只有成人精品国产| 国产一级无码不卡视频| 一个色综合久久| 极品性荡少妇一区二区色欲| 欧美精品一区在线看| 波多野结衣中文字幕一区二区 | 日韩在线欧美在线| 99热精品久久| 大陆国产精品视频| 国产一区三区二区中文在线| 久久午夜影院| 亚洲av日韩av制服丝袜| 亚洲精品无码专区在线观看| 影音先锋丝袜制服| 婷婷色一二三区波多野衣| 91视频首页| 99re热精品视频国产免费| 久草国产在线观看| 99热最新在线| 2021国产精品自产拍在线观看| 国产成人综合在线视频| 亚洲中文字幕av无码区| 精品福利视频导航| 亚洲区第一页| 全午夜免费一级毛片| 综合人妻久久一区二区精品| 久久精品人妻中文系列| 亚洲天堂日韩av电影| 中文字幕在线一区二区在线| 国产丝袜第一页| 亚洲无码精品在线播放| 国产99视频免费精品是看6| 免费jizz在线播放| 国产精品精品视频| 精品三级网站| 国产午夜无码专区喷水| 欧美19综合中文字幕| 国产在线精彩视频二区| 亚洲人成网站18禁动漫无码| 久久香蕉国产线看精品| 久久久久无码国产精品不卡| 99视频在线观看免费| 国产青榴视频| 亚洲精品动漫| 亚洲免费人成影院| 四虎永久在线| 国产黄色视频综合| 国产黑人在线| 亚洲欧洲一区二区三区| 婷婷亚洲最大| 国产亚洲欧美日韩在线一区二区三区| 丰满人妻中出白浆| 日韩欧美中文亚洲高清在线| 国产福利小视频在线播放观看| 国产精品尹人在线观看| 亚洲成人播放| 久久精品无码一区二区国产区| 久久网欧美| 午夜视频www| 日本久久免费| 日本妇乱子伦视频| 欧美日韩第二页| 九九香蕉视频| 国产一区在线视频观看|