MEDLINE數據庫中主要主題詞與全部主題詞的共現網絡無標度性與小世界特性的檢驗分析

2015-03-22 00:45:02，

中華醫學圖書情報雜志 2015年10期

關鍵詞：分析

，

自然界中許多復雜系統都可以通過構建網絡加以描述。一個典型的網絡是由許多節點與連接兩個節點的邊組成的，其中節點用來代表真實系統中的不同個體，而邊則用來表示個體之間的關系[1]

在情報學界，許多研究者通過構建網絡的方法來研究知識的流動關系(通過引文網絡)或科研合作關系(通過合著網絡)。為了深入研究知識的結構和演化過程，研究者往往選擇構建共詞網絡。共詞網絡是一種具有認知意義的知識網絡，其節點是最基本的知識單元——關鍵詞。共詞網絡的形成與演化既反映了科學知識單元的生產過程，又反映了科學共同體對科學知識結構的認知狀態[2]。

以往的詞共現網絡分析主要是基于作者關鍵詞，這些詞是作者投稿時添加的自然語言詞匯，用于揭示論文主題?！白髡哧P鍵詞”雖然反映了作者對研究課題最的理解，但不一定是最適合論文主題標引的詞匯，缺乏準確性和規范性，不同作者在表達同一語義時可能選擇不同的詞。而主題詞(也稱敘詞)是指以規定概念為基準，經過規范化和優選處理，具有組配功能，并能顯示詞間語義關系的動態性的詞或詞組。美國國立醫學圖書館(NLM)即依據MeSH主題詞表對MEDLINE中的每篇文獻進行主題詞標引，以保證相對完整且精煉地揭示該文獻的主題內容。MEDLINE文獻記錄中標引兩種不同的主題詞信息，分別是該文獻的主要主題詞+副主題詞、特征詞。主要主題詞+副主題詞能表達文獻的主要論點；而特征詞是代表某些特殊概念的一組標引詞，是專門為生物醫學的基礎或臨床科研人員設置的具有特殊意義的詞匯[3]。這兩種MeSH詞在文獻內容揭示方面具有不同的信息含量和重要性。

因此，本文從MEDLINE中收集文獻記錄，提取主題詞+副主題詞、特征詞，分別構建主題詞共現網絡。比較這兩種知識網絡屬性上的差異，有利于準確探索知識網絡的基本結構與特征，為進一步開展網絡演化研究奠定基礎。首先檢驗節點中心性指標，然后根據節點的度分布，檢驗兩種網絡的節點度分布的無標度性，同時通過兩種網絡的整體屬性(平均距離和聚集系數)檢驗其小世界效應，便于根據不同的分析目的選擇合適的詞共現網絡。

1 材料與方法

1.1 數據收集

本文選取發展較為成熟的學科藥理學作為研究主題。在Journal Citation Records(JCR)中以“PHARMACOLOGY & PHARMACY”為學科主題，選取其中在2013年影響因子排名前5的期刊：Pharmacological Reviews，Advanced Drug Delivery Review，Trends in Pharmacological Science，Pharmacology & Therapeutics，Drug Metablism Review。在PubMed中分別檢索這5種期刊2009-01-01至2013-12-31刊發的全部文獻，共得到2044篇文獻，下載并保存為XML格式。

1.2 數據提取并構建共詞矩陣

將收集到的2 044篇文獻導入BICOMB(Bibliographic Item Co-Occurrence Matrix Builder，書目共現分析系統)，提取并統計全部主題詞+副主題詞、主要主題詞+副主題詞的詞頻信息，按出現頻次從高到低排列，分別選取前970個詞構建兩種共詞矩陣。為了顯示具體的提取結果，以文獻Purinergic Signaling and Blood Vessels in Health and Disease(PMID：24335194)為例，顯示這兩種不同的主題詞提取結果(表1)，最左側的一列為該文獻在MEDLINE中主題詞標引信息。

表1 示例文獻的不同主題詞提取結果

1.3 生成詞共現網絡

分別將上述兩種共詞矩陣導入社會網絡分析軟件UCINET，并用UCINET內置的NetDraw生成詞共現網絡，保存為Pajek可分析的網絡格式，用于下一步詞共現網絡屬性分析。為了簡便起見，將全部主題詞+副主題詞共詞矩陣生成的詞共現網絡稱為詞共現網絡1，主要主題詞+副主題詞共詞矩陣生成的詞共現網絡稱為詞共現網絡2。

1.4 計算網絡屬性

1.4.1 兩種網絡節點中心性分析方法

將上一步生成的兩種詞共現網絡分別導入社會網絡分析軟件Pajek，分別計算兩種網絡的各個節點的3種中心性(centrality)指標：點度中心度(degree)、接近中心度(closeness)、中介中心度(betweenness)。

1.4.2 兩種網絡無標度性的分析方法

通過Pajek計算出每個網絡的節點的度值，并且使用R語言畫出每個網絡的度分布圖和累積度分布圖，用Python的powerlaw包[3]計算度值大于某個值時的冪指數γ的值，并進行統計學假設檢驗。

1.4.3 兩種網絡小世界效應的分析方法

采用Mark等[4]提出的復雜網絡小世界效應的判斷方法，網絡G的平均距離記為Lg，聚集系數記為Cg。聚集系數采用Watt和Strogatz定義的算法[5]，節點的聚集系數為該節點的鄰居節點之間的連邊數占該節點所有鄰居節點之間最大連邊數的比例，網絡的聚集系數為所有度值大于1的節點聚集系數的均值。與該網絡有相同節點數和連邊數目的隨機網絡的平均距離記為Lrand，聚集系數記為Crand。如果Lg>=Lrand且Cg>>Crand，則認為網絡G具有小世界效應。

為了消除產生隨機網絡時的誤差，用Pajek軟件分別為兩種共詞網絡產生與其節點數目和平均度值相等的1 000個隨機網絡，并計算共詞網絡和隨機網絡的平均距離和聚集系數，最后用小世界效應測度S判斷共詞網絡是否有小世界效應。

2 結果與分析

2.1 兩種詞共現網絡節點中心性指標分析和比較

一個節點的點度中心度就是它的點度，即直接與它相連的節點的個數。節點的點度中心度是衡量節點重要性最簡單最直接的方法，一般而言，一個節點的度越大，就意味著這個節點越重要，但并不是所有網絡中度大的節點都是重要的[1]。Kitsak等人指出，節點的傳播影響力與節點所處的網絡的位置有關。如果節點處于網絡的核心位置，即使其連接度很小，也往往具有高的影響力；相反，即使大度節點，如果它處于網絡的邊緣，也不會有高的影響力[6]。于是人們又提出了其他用于衡量節點重要性的指標，如接近中心度就是一種與最短路徑相關的中心性指標。有文獻將它定義為節點與網絡中其他所有節點最短距離的平均值[7]，也有文獻將它定義為該節點與網絡中其他各個節點之間最短距離之和[8]。這兩種定義方法都提示，如果一個節點到達網絡其他節點的最短距離均值(或之和)越小，即其接近中心度的值越小，該節點可能更加重要。為了使節點的接近中心度值與其重要性看上去“正相關”，本文采取另一種接近中心性的定義方法，即一個節點的接近中心度為其他節點數除以該節點與其他節點的最短距離之和[9]。此外，還有一種與最短距離有關的節點中心性指標為節點的中介中心度。一個節點的中介中心度為經過該節點最短距離的數量與網絡中所有其他節點之間最短距離的數量之比。

兩種詞共現網絡的以上3種中心性指標排名前10的節點信息分別見表2和表3。

比較詞共現網絡1和詞共現網絡2的3種中心度指標，發現詞共現網絡1的3種中心性指標較高的詞都是比較籠統和宏觀的詞，如Humans、Animals、Drug Delivery Systems、Drug Design等，尤其是中心性指標最高的詞Humans和Animals，它們在主題標引時作為特征詞。由于本文選擇的研究主題為藥理學，藥理學又屬于生物醫學，在進行文獻標引時，大部分文獻都需要標引這種特征詞。由于詞共現網絡1是由全部主題詞和副主題詞構成的，含有不能表述文獻主要論點的特征詞，而這些特征詞又是大部分生物醫學文獻標引時都會用到的，使得中心性指標最高的詞為特征詞。因此在詞共現網絡1中，Humans和Animals不僅出現頻次最高，中心性指標也是最高的。但從分析研究主題的角度來看，Humans和Animals卻不能表示該研究主題的主要研究方向。而詞共現網絡2是僅由主要主題詞和副主題詞構成的，其3種中心性較高的詞就較為具體和專指，并且由于有副主題詞限定，使得這些詞在表述研究內容方面更加詳細。例如詞共現網絡2的3種中心性指標排名前4位的詞為Drug Delivery Systems，Drug Delivery Systems / methods，Neoplasms / drug therapy，Drug Design。從這些詞可看出，藥理學研究熱點具體為藥物傳遞系統、腫瘤的藥物治療、藥物設計等，與實際研究情況較為相符。根據對詞共現網絡1和詞共現網絡2的中心性指標較高的詞的分析，可以發現在有的網絡中，中心性指標最高的節點或許是對網絡結構較為重要的節點，但在具體的專業背景下，這些節點可能并不是最重要的或是最能為我們帶來一定啟發的節點。因此，在采用構建網絡的方法來分析某一研究領域的問題時，不能盲目地認為中心性指標最高的節點就一定是最關鍵的節點，對中心性指標較高的節點的分析應結合一定的專業知識才能得出可靠的結論。

表2 詞共現網絡1節點中心性指標排名前10的節點信息

表3 詞共現網絡2節點中心性指標排名前10的節點信息

2.2 兩種詞共現網絡無標度特性的分析

近年來的實證研究表明，很多真實網絡的度分布都近似地遵從冪函數形式，即P(k)～k-γ,γ稱為冪指數[10]。由于這類冪函數是標度不變的，因此這類網絡也被稱作無標度網絡。Barabási和Albert的開創性研究激起了無標度網絡研究的熱潮[11]。Barabási發現，冪指數γ決定網絡的性質；γ的值越小，大度值節點在網絡中越重要；當γ>3時，度值的大小與該節點在網絡中的重要性與否則關系不大；當2<γ<3時，度值最大的節點與整個網絡中一小部分節點相連；當γ=2時，易形成中心輻射狀網絡，度值最大的節點與網絡中大部分節點相連[12]。網絡無標度性質的發現掀起了一場大規模的針對實際網絡的實證研究。研究者發現，在自然界、工程界以及社會界中幾乎所有的實際網絡都具有無標度特性，并且絕大多數實際網絡的度分布冪指數γ均位于2-3[13]。需要注意的是，冪律分布僅適用于點度分布的右側尾部，即點度較高的取值區間，且無標度特征只會出現在大型網絡中。

詞共現網絡1和詞共現網絡2都只有970個節點，節點數量較少，不能算作大型網絡，且詞共現網絡1的度值在3-996之間，詞共現網絡2的度值在0-154之間，度值的變異范圍不夠大，以至于無法確定它們是否為無標度分布。但本文還是按照正常分析流程作圖(圖1，圖2)，并計算度值分布右側尾部冪指數γ的值。

圖1 詞共現網絡1的度分布圖(左)和累計度分布圖(右)

圖2 詞共現網絡2的度分布圖(左)和累計度分布圖(右)

冪律分布曲線在雙對數坐標軸上是一條向右下方傾斜的直線。詞共現網絡1和詞共現網絡2的度分布圖和累計度分布圖都采用雙對數坐標軸。詞共現網絡1的度分布圖(圖1)似乎是一條向右下傾斜的線，由于收集的數據不夠多，本文僅收了詞頻排名前970的詞用于構成詞共現網絡，且這些詞中度值最低的詞Xenobiotics的度值為3。因此無法顯示小于3的低點度區的節點的度值分布特征，且高點度值區域由于度值的變異程度較大，所以度分布圖不直觀，故采用累積度分布圖。累積度分布圖的縱坐標為點度值大于某值的所有節點的累積頻數，可以看到，在度值大于40左右時，累積度分布近似呈一條向右下方的直線。 Python的powerlaw包可自動計算出詞共現網絡1在最小度值為45時冪律分布擬合較好，對應的冪指數γ的值為2.843180。Python的powerlaw還可以比較冪律分布和其他幾種重尾分布，檢驗冪律分布是否為最優擬合。

詞共現網絡1冪律分布的統計推斷結果見表4。從表4可看出，冪律分布和指數分布相比，更契合數據，且p值(0.005337)小于0.05，有統計學意義，而其他三種重尾分布雖然比冪律分布契合數據，但無統計學意義，所以可以得出詞共現網絡1在度值大于45的尾部符合冪律分布。詞共現網絡2的度分布圖(圖2)在度值在10-20之間近似為一條向右下方傾斜的直線，高點度區和低點度區的變異程度較大，可能也是由于數據不足造成的。它的累積度分布圖在度值大于10左右的區域近似呈一條向右下傾斜的直線。在用Python的powerlaw包計算得最小度值為9，對應的冪指數γ為2.845157。

表4 詞共現網絡1冪律分布的統計推斷結果

詞共現網絡2冪律分布的統計推斷結果見表5。根據表5的結果，分析方法同詞共現網絡1，可以認為詞共現網絡2在度值大于9的的尾部符合冪律分布。表5顯示，即使分析所用的詞共現網絡1和詞共現網絡2不是大型網絡，但其冪指數γ的值類似于許多實測網絡的γ值，在2-3之間，因此可近似認為詞共現網絡1和詞共現網絡2具有無標度特征。

表5 詞共現網絡2冪律分布的統計推斷結果

2.3 兩種詞共現網絡小世界效應的分析比較

兩種詞共現網絡小世界測度S見表6。從表6可看出，兩種詞共現網絡的小世界效應測度S的平均值、最大值、最小值都大于1，因此可以認為這兩種詞共現網絡都具有小世界效應。

兩種詞共現網絡的各屬性值詳見表7。若將平均距離和聚集系數相比，詞共現網絡1的比值約為4.0257，詞共現網絡2的比值約為7.8696，提示詞共現網絡1比詞共現網絡2的小世界效應更強。詞共現網絡1的平均距離約為2，詞共現網絡1的任意兩個詞之間的語義相關性只需要跨過兩個詞；詞共現網絡2的平均距離約為3，詞共現網絡2的任意兩個詞的語義相關性則需要跨過3個詞?？赡苁窃~共現網絡1中有表述較為宏觀且非專指的特征詞如Humans、Animals等，這些詞和其他主題詞共同來標引一篇文獻，使得這些高中心性值的詞將詞共現網絡1中的其他詞(即節點)凝結到一起，所以顯示出較強的小世界效應。

表6 兩種詞共現網絡小世界測度S

表7 兩種詞共現網絡各屬性值

3 分析與展望

本文根據主題詞構建了兩種詞共現網絡，詞共現網絡1由全部主題詞+副主題詞構成，詞共現網絡2由主要主題詞+副主題詞構成。通過比較這兩種詞共現網絡的節點中心性指標發現，詞共現網絡1高中心性指標的節點都是較為宏觀和籠統的詞，而詞共現網絡2高中心性指標的詞較為專指，由于與副主題詞組配，更能顯示高中心性指標的詞的具體表述內容，較詞共現網絡1更適合構建學科專業知識網絡，并用于分析該學科的研究熱點和關鍵詞匯。對這兩種詞共現網絡中心性指標較高的詞的對比分析發現，選用不同的數據集構建的不同網絡，其中心性指標較高的節點對于我們進行分析有不同意義。有的網絡中，中心性指標較高的節點不一定就是對研究分析最有貢獻或最關鍵的節點，對中心性指標較高的節點的分析應根據一定的專業知識來分析，才能得出較為可靠的結論。

最后，本文就網絡的無標度特性和小世界效應進行了分析。由于網絡的無標度特性只出現在大型網絡中，節點的冪律分布僅適用于點度分布的右側尾部。本文所研究的兩種網絡都不算大型網絡，且節點的度值變異范圍較小，故無法得出網絡是否具有無標度特性。但本文還是按照正常分析流程計算出了冪指數γ的值，發現兩個網絡的γ在2-3之間，因此可以近似認為這兩個詞共現網絡均具有無標度特征。

為了分析網絡的小世界效應，本文采用Mark等人定義的小世界效應測度S，發現兩種詞共現網絡都具有小世界效應。而詞共現網絡1的小世界效應較詞共現網絡2的更強，可能因為是詞共現網絡1中有Humans、Animals等詞，大部分文獻的其他主題詞都需要和這些特征詞共同標引一篇文獻，這些較為宏觀和籠統的詞將網絡中其他節點連在一起，使得詞共現網絡1的平均距離較小。因此可以認為詞共現網絡1較詞共現網絡2更適用于復雜網絡的屬性分析，網絡2適用于學科主題內容分析。

本文僅選擇了藥理學這一專業構建詞共現網絡，且選擇的是近5年的數據，可以嘗試用其他專業，收集較大的時間跨度的數據，構建不同詞共現網絡，分析網絡的節點中心性指標等屬性。另外，本文構建網絡的節點數選擇較少，可以嘗試選擇較多的節點構建詞共現網絡，分析大型網絡的無標度特征等，或許會得到不同的結果，這將為進行學科熱點分析和關鍵詞分析以及進行復雜網絡屬性分析提供不同的詞共現網絡構建方法。