999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

科學數據引用網絡建模及演化特征分析

2024-05-25 00:00:00楊寧張志強黃飛虎等
現代情報 2024年5期

關鍵詞: 科學數據; 數據引用; 網絡建模; 結構特征

DOI:10.3969 / j.issn.1008-0821.2024.05.004

〔中圖分類號〕G203 〔文獻標識碼〕A 〔文章編號〕1008-0821 (2024) 05-0001-02

科學數據主要指在科研活動過程中加工產生或再利用的數據產品或數據資料, 通常可以按照來源劃分為實驗數據、觀測數據和計算數據, 或者按照產生方式劃分為原始數據、驗證數據和衍生數據[1] 。隨著開放科學實踐受到越來越多的關注, 科學數據從共享、發布、重用到引用的各個環節都得到了大量研究, 尤其是科學數據引用作為數據評價和數據溯源的重要手段, 在科學數據相關研究中扮演著至關重要的角色。

數據引用通常指研究人員在文獻中以引用標注的方式, 表明其所使用數據來源出處的行為[2] 。近年來, 雖然科研人員已經逐步意識到數據引用的重要性, 一些國際組織如OECD、ESIP、DCC 等也紛紛制定了科學數據引用規范[3] , 但由于數據隱私及版權保護機制不健全、不同學科領域數據形式差異較大等原因, 學術界和出版界在數據引用標準上尚未達成共識, 數據引用仍然缺乏廣泛適用的統一標準, 研究人員在數據引用方面依舊較為隨意, 這給依賴于數據引用的后續研究帶來了極大挑戰。此外,隨著科學數據數量的不斷增長, 數據之間的關系也變得錯綜復雜, 對于數據的挖掘和利用變得愈發困難。國際數據公司(IDC)在其白皮書“Data Age 2025”中指出, 截至2020 年, 全球信息化數據總量已經超過47ZB, 并有望在2025 年達到175ZB, 但僅有3%左右的數據得到開發和利用[4] 。

隨著科學數據開放共享與重復利用的需求日益顯著, 科學數據之間形成了一個龐大的復雜網絡,利用數學和統計學的理論方法進行科學數據的研究已無法全面反映科學數據的發展脈絡和全局特征。如何利用數據引用關系建立引用網絡, 分析挖掘科學數據網絡的結構特征和演化規律, 成為一個亟需研究的現實問題。因此, 本研究的開展一方面有利于細粒度挖掘科學數據之間的隱含聯系, 發現網絡中具有較高影響力的數據節點, 了解科研方向的發展史與知識鏈, 快速獲取研究課題所需的數據集合;另一方面對于加速數據資源的獲取和重用, 提升自身所共享數據的影響力和傳播效果, 加強科學數據的管理與評價等工作都具有十分重要的研究價值和現實意義。

1 相關研究

科學數據引用的研究最早可以追溯到20 世紀70 年代。1979 年, Dodd S A[5] 就提出了引用數值數據文件的指導性建議, 從而可以更容易確定數據文件的可用性。隨后, 著名學者White H[6] 也指出,社會科學學者們應該在著作中引用所使用的數據文件, 并以區別于正文的規范化參考格式列出。然而科學數據引用實踐的開展并不順利, 相關研究也大多處于起步階段, 當前圍繞科學數據引用的研究主要包括4 個方面的問題, 即科學數據引用的參與主體、標準規范、技術方法和行為特征[7] 。

1.1 科學數據引用的參與主體

科學數據的生命周期包括數據產生、共享到重用的多個階段, 這也注定了科學數據引用是一個由多主體共同參與的活動。當前, 國內外眾多學者從各種角度探討了科學數據引用的參與主體, 概括起來主要包括政府協會、研究(資助)機構、數據機構、出版機構、圖書情報機構和科學家等。具體來說, 政府協會是科學數據引用標準和政策的制定者,是科學數據引用發展規劃的頂層機構[8] ; 研究(資助)機構是科學數據引用發展的重要推動者, 王思明等[9] 從科學數據引用流程出發, 指出并肯定了研究(資助)機構在科學數據提交、引用評價等階段發揮的重要作用; 數據機構主要包括數據中心和數據倉儲, 由于科學數據學科差異大的特點, 學科數據中心和特色數據倉儲成為了科學數據引用原則與規范制定的重要參與者[10] ; 出版機構包括數據庫商和學術期刊, 隨著科學數據的重要程度越來越高,出版機構成為科學數據引用實踐的開拓者; 圖書情報機構作為文獻資料的核心管理者, 在科學數據管理和引用中也發揮著重要作用, 劉曉慧等[11] 提出,學術圖書館推動數據引用的4 種角色, 即數據引用規范的制定者、數據引用服務的提供者、數據引用意識的宣傳者和數據引用平臺的建設者; 最后, 科學家是科學數據引用的執行者, 是科學數據生產與引用的關鍵主體。

1.2 科學數據引用的標準規范

科學數據引用的標準規范對于科學數據管理和評價極其重要。因此, 國外早在2007 年就開始了相關研究, Altman M 等[12] 發表研究論文, 對數據引用所需包含的最小元素集、可選元素等進行了詳細分析, 并提出了數據引用標準規范的早期建議。此后, 眾多致力于數據引用的國際標準化組織和主要數據中心等紛紛提出了自己的科學數據引用規范指南文件, 如DataCite、OECD、PANGAEA、DCC 等。2013 年, 數據引用綜合工作組成立, 并于2014 年1 月正式發布《科學數據引用原則聯合聲明》, 聲明中提出的8 項原則, 包括重要性、信用與屬性、證據性、唯一標識、訪問獲取、持續性、明確性與可驗證性、互操作性與靈活性, 該聲明得到眾多科學數據相關主體的支持, 成為當前科學數據引用的基本原則。Starr J 等[13] 回顧了《科學數據引用原則聯合聲明》的主要內容, 提出了具體可實施的數據引用框架和標識符方案。我國國家標準自2018 年7 月起正式實施, 與《科技資源標識》國家標準一起, 構建了具備我國自主特色的科學數據引用標準和標識系統。朱艷華等[14] 對我國《科學數據引用》國家標準的內容進行了解讀, 指出該國家標準的發布將為我國的科學數據共享和數據知識產權保護提供政策保障。

1.3 科學數據引用的技術方法

科學數據引用的技術研究主要集中在元數據和永久標識符兩個方面, 元數據主要包括數據引用的必備元素、推薦元素和可選元素, 黃如花等[15] 以DataCite 為例, 對其元數據內容及引用規范中的元數據元素進行了詳細介紹與分析; 在引用標識符研究方面, 目前國際上較為通用的科學數據資源引用標識符包括基于數字化對象的標識符DOI、基于對象的標識符OID、基于科技資源的標識STRI、我國科技資源標識CSTR 等, 國際目前使用最廣泛的標識系統是DOI[16] 。而科學數據引用的方法研究主要集中在對科學數據引用的識別方面, 科學數據的引用方式一般可以分為通過參考文獻列出的正式引用和通過正文提及等方式列出的非正式引用。由于當前科學數據引用規范問題還未得到很好地解決,科學數據還依賴于在文獻全文中進行數據引用的識別和抽取。因此, 當前科學數據引用識別主要集中在數據引用識別和抽取技術方法的研究, 主要方法可以歸納為基于人工標注、術語搜索、特定規則和監督學習4 類[17] 。周佳茵等[18] 對現有數據引用實踐中的引用特征和數據引用識別方法, 進行了總結分析, 并對存在的問題和未來發展方向進行了展望。

1.4 科學數據引用的行為特征

科學數據引用的行為特征研究涵蓋范圍較廣,既包括對于科學數據引用和重用行為特征規律的研究, 也包括科學數據引用和計量方面的研究。ParkH 等[19] 通過調研生物醫學領域科學數據引用現狀后發現, 數據非正式引用比參考文獻中的數據正式引用更為常見, 這給數據引用計量和評價造成了極大誤差和困難。王雪等[20] 對生物信息學領域的數據引用行為特征進行分析, 構建了基于文獻計量和網絡計量的數據引用行為評價模型。Henderson T等[21] 通過數據集名稱、下載地址、作者等信息,識別并分析了達特茅斯大學CRAWDAD 無線數據集的被引情況, 發現論文中的數據引用仍然存在諸多不規范的問題。焦紅等[22] 通過模式識別方法對生物醫學論文中提及的科學數據集, 進行識別和抽取, 并分析了該領域科學數據集的復用特征, 研究發現科學數據能夠在一定程度上擴大研究成果的影響力。沈婷婷[23] 通過內容分析法分析了社會學領域數據重用及評估的實踐特點和發展趨勢, 并對圖書館科學數據情報服務提出參考建議。張瑩等[24]以管理學權威期刊論文為分析樣本, 揭示了國內管理學領域科研人員的數據重用行為特征。

從當前研究可以看出, 圍繞科學數據引用的各層面研究都還處于起步階段, 尤其是科學數據引用網絡的研究還鮮有開展。這是因為數據引用網絡的建立非常依賴于出版商或科學數據庫提供的數據引用信息, 而由于相關信息的缺失和難以獲取等問題,導致此類研究的數據規模和范圍都難以滿足研究需求。因此, 本研究將以生物醫學領域為研究對象,通過模式識別方法在大規模論文全文中抽取數據集的提及信息, 構建論文與數據集間的引用關系, 并基于該引用關系構建全領域科學數據引用網絡, 再利用社會網絡分析方法, 從網絡結構的角度分析生物醫學領域科學數據的引用特征和演化趨勢。

2 數據和方法

2.1 網絡建模

基于科學數據的元數據信息和論文與數據的引用信息可以分別構建1-模網絡和2-模網絡。其中,利用科學數據的作者、機構等元數據信息可以構建作者合作網絡、機構合作網絡等網絡模型, 進而分析個人、機構、國家的合作網絡特征, 理解不同層面的科學數據共享合作模式, 反映出科學合作對科學數據共享與重用的加強效果。該網絡為1-模網絡, 節點為科學數據的作者、機構等實體, 邊為實體間的合作關系; 利用論文與數據的引用信息可以構建數據引用網絡, 進而從宏觀角度揭示科學數據在不同學科論文中的引用行為特征, 發現數據引用網絡的演化機制。該網絡不同于傳統引文網絡, 是一個由論文和數據組成的2-模網絡, 該網絡的節點為論文和數據, 邊為論文與論文、論文與數據之間的引用關系; 利用數據與數據之間的共被引關系可以構建數據共被引網絡, 該網絡模型既能從宏觀角度揭示數據共被引網絡的拓撲結構和演化特征,也可以從微觀視角觀察網絡中的核心與邊緣節點,發現并挖掘出有價值的科學數據。該網絡為1-模網絡, 節點為科學數據, 邊為數據與數據之間的共被引關系。3 種網絡模型如圖1 所示。

2.2 數據獲取

由于科學數據在論文中常以提及等非規范引用形式出現, 為使本研究具備更強的普適性和魯棒性,避免現有數據引用庫信息滯后或不夠全面等問題,科學數據引用關系的識別和抽取將采用基于規則的識別方法, 從生物醫學領域科學文獻全文中進行獲取并構建引用網絡。其中, 文獻數據來自NCBI 提供的免費生物醫學期刊文獻全文數據庫PubMedCentral(PMC), 通過其提供的FTP 服務共獲得3 219 908篇文獻。科學數據集數據來自于全球性基因表達綜合數據庫( Gene Expression Omnibus,GEO), 該數據庫是由NCBI 創建并維護的全球性高通量分子豐度數據庫[25] , 同時也是當前全球存儲規模最大、數據最全面的基因表達數據庫, 收錄了世界各國(地區)研究者提交并共享的基因芯片數據和高通量測序數據。GEO 數據庫將用戶或科研人員遞呈和共享的數據進行分類存儲并為其分配一個唯一且永恒不變的登錄號(Accession Number), 并要求共享數據的研究文獻在公開發表后, 將數據進行公開便于其他科研人員利用該數據進行后續研究。

GEO 的原始數據分為平臺(Platform)、樣本(Sample)和系列(Series)。其中, 平臺包含用戶測定表達量所使用的芯片或測序平臺的描述信息和注釋信息, 通常包含多個樣本, 數據集名以“GPL”為前綴; 樣本用于記錄單樣本的基因表達測序信息,是原始實驗結果的基本單位, 數據集名以“GSM”為前綴; 系列是由多個樣本組成的一項完整研究的數據, 還包括整個研究的描述和總結分析, 數據集名以“GSE” 為前綴。本研究采用正則表達式, 對文獻中的登錄號信息進行抽取, 規則為“G(?:PL|SM|SE) \d+”, 最終經過抽取并清洗得到57 841個GEO 數據集被39 189篇文獻所引用, 引用次數合計294 517次, 存在GEO 數據集引用行為的文獻數量占全部文獻數量的1.22%。GEO 數據集的平均被引次數為5 次, 篇均引用數據集數量約為1.5 個。

因為本文關注和研究的重點在于科學數據本身, 所以采用只包含數據節點和關系的數據共被引網絡模型進行建模, 該網絡模型中節點為數據集,邊為數據共被引關系, 并從整體、個體和網絡社區3 個角度了解分析科學數據引用網絡的結構和演化情況。網絡構建過程如圖2 所示。

2.3 測度指標

社會網絡分析是研究社會復雜系統的有效定量分析方法, 可以了解網絡整體關系結構以及網絡結構對群體內部個體的影響, 常用的分析指標包括節點和連邊數量、度和度分布、網絡密度、平均聚集系數、中心度、網絡社區等。

針對整體網絡結構及演化情況, 本文分別從節點數、連邊數、度分布、網絡密度、平均聚集系數、平均路徑長度等維度進行分析。網絡密度表示整個網絡各個節點之間連接的緊密程度, 反映了各節點之間的合作緊密度以及網絡整體是向著“互鎖式網絡” 還是“輻射式網絡” 發展; 平均聚集系數表示局部節點之間的相互連接程度, 反映了相鄰節點間的緊密程度; 平均路徑長度與網絡的整體流動性相關, 反映了網絡中信息傳播的效率。

針對網絡核心個體, 本文主要從節點中心性角度進行分析, 主要包括度數中心度、中介中心度和接近中心度3 個指標。其中, 度數中心度表示一個節點的直接影響力, 可以反映出與之直接相連節點數量的多少以及節點的中心性程度; 中介中心度表示網絡中一個節點對其他節點間交流起到的中轉功能, 反映了節點對資源的控制能力; 接近中心度表示網絡中一個節點到其他節點的效率高低, 反映了在傳遞信息方面對其他節點的依賴程度。

針對網絡的社區結構, 本文采用Leiden 社區發現算法進行網絡社區劃分, 并針對模塊度最大的社區劃分結果, 從社區整體結構、社區內部結構、社區機構合作、社區研究主題等角度進行分析解讀。本文所使用的主要社會網絡分析指標及參數說明, 如表1 所示。

3 結果分析

3.1 整體網絡結構及演化分析

在全部被引用的57 841個數據集中, 有50 005個數據集存在共被引情況, 占總數的86. 5%, 共被引次數2 739 214次。其中, 最早被共被引的數據集出現在2004 年, 研究人員使用了3 個數據集GPL205、GPL218、GPL356 進行微陣列數據分析工具校正問題的測試和研究。在此之后, 數據共被引網絡中節點和連邊數量呈顯著增加趨勢, 尤其在2014 年有了一次跨越式的增長, 節點和連邊數量分別由2013 年的8 319個和121 041條猛增至2014年的12 996個和1 319 215條, 數據集被共同引用的規模急劇增加。

度和度分布能夠體現網絡中數據節點之間的連接規模和特點。經計算, GEO 數據共被引網絡中最大度為4 847, 該節點為昂飛(Affymetrix)公司提供的商業數據集GPL570。平均度由2004 年的2 增長至2014 年的203, 其后一直穩定在100 以上, 即平均每個數據集與100 個以上的數據集被共同引用,網絡整體連接規模較好, 節點平均度的年度分布如圖4(a)所示。對數據共被引網絡節點度分布進行雙對數坐標表示, 如圖4(b)所示, 可以發現絕大部分節點度很小, 只有少數節點度很大, 即大多數節點和其他節點具有很少的聯系, 只有為數不多的一些節點和其他節點有較多的聯系。GEO 數據共被引網絡的度分布近似于冪律分布, 表明該網絡具備“無標度網絡” 特性。但與傳統BA 模型的冪律分布存在一定區別, 網絡中有一部分特殊節點的數量和度都較大, 這也導致網絡節點的平均度較大。

平均路徑長度可以衡量網絡的整體連通性和全局效率, GEO 數據共被引網絡的平均路徑長度為4.7, 任意兩個數據集平均只需要經過4 次連接就可以相互影響, 網絡的傳播效率較高, 具備“小世界” 特征。網絡密度反映的是共被引網絡整體節點間關聯的緊密程度, 網絡密度越大說明數據的某些維度越相似, 容易被共同使用來進行一項研究。由圖5 可以發現, GEO 數據共被引網絡的整體密度隨時間逐步遞減, 隨著測序技術的更新換代及研究物種的不斷豐富, GEO 的數據共被引網絡的節點不斷增加, 結構呈現出輻射式網絡結構發展態勢, 加之數據的類型不斷增多, 節點間的相似度不斷降低。聚集系數反映了網絡局部的聚集程度, 即如果某兩個數據集同時與第3 個數據集之間存在共被引關系, 則這兩個數據集之間存在共被引關系的概率。圖中可以發現, GEO 數據共被引網絡的平均聚集系數一直穩定在0.8 以上, 說明局部相同領域內的數據集被共同引用的概率極大。

3.2 網絡核心個體分析

網絡的整體結構特征無法觀察節點在網絡中位置的完整信息, 而利用中心度指標則可以進一步研究各節點在網絡中的重要程度, 具體包括度數中心度、中介中心度和接近中心度3 個指標。

度數中心度的概念來自于社會計量學中的“明星” 概念, 即該點與網絡中的其他點有較多的直接聯系, 擁有較多的連邊。在GEO 數據共被引網絡中, 數據集的度數中心度就是與該數據集直接相連的其他數據集的個數, 度數中心度高的數據集居于局部網絡的中心, 是其所在某個局部領域的核心數據集。GEO 數據共被引網絡的度數中心度前10 位的數據集信息, 如表2 所示。

由表2 可以看出, GEO 數據共被引網絡的度數中心度前10 位的數據集公開時間分布于2002—2013 年。其中, 前4 位的數據集類型為平臺數據,其余為系列數據。除美國生物芯片公司昂飛(Affy?metrix)、因美納(Illumina) 提供的商業數據集外,美國華盛頓大學共享的SARS 研究方面的數據集也得到了大量共被引, 體現出其在微生物及病毒研究方面的極強實力。

接近中心度是一種測度節點是否處于網絡核心位置的指標, 與度數中心度不同的是, 節點的連接數多少并不代表其是否處于整體網絡的核心位置。在GEO 數據共被引網絡中, 數據集的接近中心度即數據集到網絡中所有其他數據集路徑長度之和的倒數, 數據集的接近中心度越大, 該節點越接近網絡幾何結構的中心位置。GEO 數據共被引網絡的接近中心度前10 位的數據集信息, 如表3 所示。

由表3 可以看出, GEO 數據共被引網絡的接近中心度前10 位的數據集中, 公開時間分布于2002—2011 年, 共有4 個數據集也出現在度數中心度前10 位中, 包括GPL570、GPL96、GPL6244和GPL10558。其中, 平臺數據與系列數據各占5位, 除前文提到的兩個美國公司以外, 還出現了美國安捷倫(Agilent)、杰羅科(Gene Logic)等公司提供的商業數據集。其余發布機構為科研機構和大學,包括荷蘭伊拉斯姆斯醫學中心、西奈山醫學院和臺灣大學, 這些機構和大學提供的肝癌、肺癌和腫瘤基因組數據集在各自的研究領域中都處于較為核心的位置, 對相關研究起到非常重要的關鍵作用。

中介中心度用于測量網絡個體對資源的控制程度, 即測量一個點在多大程度上位于圖中其他點對最短路徑的中間位置。在GEO 數據共被引網絡中,如果一個數據集處于其他許多數據共被引對的捷徑上, 該數據集就具有較高的中介中心度。中介中心度與度數中心度沒有絕對的關聯, 一個點度中心度相對較低的數據集也可能起到重要的“中介” 作用, 具有信息獲取優勢和資源控制的重要地位。GEO 數據共被引網絡的中介中心度前10 位的數據集信息, 如表4 所示。

由表4 可以看出, GEO 數據共被引網絡的中介中心度前10 位的數據集中, 公開時間分布于2002—2013 年, 這些數據集在GEO 數據共被引網絡中的活躍度較高, 數據集之間的中轉較依賴于這些數據集。有39 486個數據集的中介中心度為0,表明近78 9%的數據集在網絡中極不活躍, 不承擔任何中介功能且對應的度值也較低。除商業公司提供的平臺數據外, 由唐納德植物科學中心(Don?ald Danforth Plant Science Center)、北京大學、華盛頓大學、神經分泌生物科學公司(Neurocrine Biosci?ences)共享的各類物種和病毒的基因組測序數據集在網絡中都具備較強的控制能力, 在跨物種的交叉研究中起到重要的中介作用。

3.3 網絡社區結構特征及演化分析

GEO 數據共被引網絡的最大連通子圖包含34 404個節點和2 135 286條邊, 對其進行社區劃分后共得到113 個社區, 最優模塊度Q = 0.683, 表明網絡的社區結構顯著且劃分結果準確度高。113個社區中, 規模最大的社區包含7 970個數據集,規模最小的社區僅包含3 個數據集, 社區規模存在顯著異質性, 社區的整體結構分布如圖6 所示。

圖中節點大小與社區節點數量成正比, 由圖6可以發現, 網絡中存在3 個大型社區, 社區的節點數量均超過4000, 而排名前10 位的社區節點總數達到26 551, 約占網絡節點總數的77. 2%。以社區內部節點間的共被引關系構建獨立的社區共被引網絡, 計算節點數量前10 位的社區網絡結構指標,結果如表5 所示。

由表5 可知, GEO 數據共被引網絡的社區內部連通性和密度都好于整體網絡, 規模較大的社區1和社區3 的平均聚集系數和網絡密度接近整體網絡,但其他社區的網絡結構指標均優于整體網絡。尤其是社區4、社區8 和社區10 的平均度、網絡密度和平均聚集系數都較高, 表明這3 個社區內部連接頻繁、聚集程度極高。10 個社區的平均路徑長度均值為3.077, 說明同一社區內的兩個數據集只需經過3 次連接就可以相互影響, 少于整體網絡的4次連接。網絡指標充分表明, GEO 數據共被引網絡的社區結構穩定, 內部節點相互影響較深, 已經形成多個數據共被引群體。

按照社區進行研究方向分析, 分別計算各個社區中數據集的樣本來源分布概率, 可得到GEO 數據共被引網絡社區的樣本來源分布, 如表6 所示。

由表6 可知, GEO 數據共被引網絡社區的樣本來源呈現明顯的團體結構, 根據樣本來源可以較為清晰地分辨出各個社區的主要研究方向和研究內容, 如社區3 的數據集主要用于淋巴細胞生物學相關的研究, 社區4 的數據集主要用于肺組織相關的癌癥及傳染疾病的研究, 社區5 的數據集主要用于植物方面的研究等, 社區分布具有較為明顯的研究領域集群特征。

按照社區進行研究機構和科研合作分析, 分別計算各個社區中數據集貢獻機構的分布概率, 可得到GEO 數據共被引網絡社區的科研機構分布, 如表7 所示。

由表7 可知, GEO 數據共被引網絡社區的科研機構和科研合作呈現明顯的團體結構, 社區邊界清晰。除ENCODE 和布羅德研究所同屬于社區3和社區8 外, 各社區的科研機構基本不存在重疊現象。如果某一個或幾個科研機構在社區內處于絕對的領先地位, 則代表該社區中的數據集基本來自于這些科研機構, 研究領域和科研方向具備高度集中性, 這也導致此類社區內部的網絡密度和連通性極高, 數據集被共同引用情況頻繁, 如社區4 的華盛頓大學、社區8 的ENCODE 等。

按照社區進行測序平臺分析, 分別計算各個社區中數據集測序平臺的分布概率, 可得到GEO 數據共被引網絡社區的測序平臺分布, 如表8 所示。

由表8 可知, GEO 數據共被引網絡社區的測序平臺也呈現較為明顯的團體結構, 除社區1 和社區2 使用GPL570 和GPL96 平臺較多外, 其他社區的數據集基本都來自于不同的測序平臺。對平臺數據進行進一步研究發現, 同一社區內部的平臺數據基本都來自于同一測序設備或設備制造公司。如社區3 的GPL11154、GPL13112、GPL9250 等平臺數據均出自因美納公司的Genome Analyzer、HiSeq 2000等基因測序設備, 社區4 的GPL6480、GPL7202、GPL4134 等平臺數據均出自安捷倫公司的測序產品。這種現象說明, 出自同一平臺或同一公司的數據進行處理與合并分析得到的效果更好, 可以避免前期數據處理的復雜問題, 因此常被用于同一項研究。

最后, 分別取2005 年、2010 年、2015 年、2020年為時間節點生成網絡的整體結構, 可以更加直觀看到網絡整體結構的演化情況, 如圖7 所示。

根據圖7 可以看出, GEO 數據共被引網絡在2005 年初期發展階段, 由于數據的數量較少, 這些數據被共同引用的次數較多, 但總體結構比較清晰, 甚至開始形成了兩個較大網絡社區, 社區之間的界限也較為明顯。隨著數據的逐漸增多, 到2010年整個網絡的規模開始增大, 社區結構仍然較為明顯, 各社區節點數量趨向均勻, 但社區之間的連接增多, 說明GEO 的數據的學科領域、物種、研究方向開始細分, 但不同領域的數據還存在關聯, 因此常被共同使用和引用。到了2015 年, 網絡規模呈指數級增長, 但從整體來看, 網絡中的社區結構依然較為清晰, 社區與社區之間存在一定聯系, 但研究邊界依然存在。到2020 年, 網絡核心區域的社區已經開始逐漸模糊, 各社區之間聯系明顯增強,網絡中也形成了幾個超大規模社區, 占據了網絡的主要位置。

4結論

本研究以生物醫學領域著名基因表達數據庫GEO 中的科學數據集為研究對象, 以數據集為節點, 數據集之間的共被引關系為邊, 構建了GEO數據共被引網絡。同時, 運用社會網絡分析方法對網絡的整體結構演化和核心個體進行分析, 并在此基礎上運用Leiden 算法進行社區劃分, 進而分析其群體分布和結構特征, 得到以下結論:

1) GEO 數據共被引網絡的規模隨著時間增長迅速, 尤其是2014 年后隨著科學范式的發展轉變,網絡規模形成了指數級增長態勢。數據集的度和度分布差異明顯, 分布趨勢近似于冪律分布, 呈現出“無標度網絡” 特征。此外, GEO 數據共被引網絡具有較短的平均路徑長度和較大的平均聚集系數,網絡平均路徑長度僅為4.7, 意味著該網絡雖然規模龐大, 但大部分數據集之間都可以通過4 次中轉取得聯系, “小世界網絡” 特征明顯。

2) 知名生物技術公司提供的商業數據集在網絡中占據絕對的核心地位, GPL570、GPL96、GPL6244等平臺數據集均具備較大的接近中心度和中介中心度, 在網絡中處于幾何位置中心的同時也承擔了主要中介功能。另外, 78.9%的數據集在網絡中極不活躍, 不承擔任何中介功能且對應的度值也較低,在網絡中處于邊緣的端點位置。

3) GEO 數據共被引網絡中的數據集可劃分為113 個社區, 超過1 000個節點的社區有5 個, 100~1 000個節點的社區有29 個, 其余79 個社區包含的數據集節點在100 以內, 社區規模差異較大。社區內部的網絡密度、平均聚集系數、平均路徑長度均優于整體網絡, 社區的結構穩定, 內部節點相互影響程度深, 目前已經形成了多個數據共被引群體。

4) 通過樣本來源、科研機構和測序平臺的分布, 可以較為明顯地分析出社區形成的原因。首先,不同社區包含的樣本來源可以較為明顯地凸顯出社區所屬的研究領域; 其次, 不同社區的科研機構也體現出了社區的研究領域和科研方向具備高度集中性, 與科研機構的研究領域和合作方向有著緊密關聯; 最后, 通過社區內測序平臺的分布可以發現,出自同一平臺或同一公司的數據進行處理與合并分析得到的效果更好, 因此常被科研人員用于同一項研究中。

5) 從網絡整體結構演化趨勢看, GEO 數據知識擴散網絡的規模日益增大, 網絡中形成幾個超大規模社區, 占據了主要的資源位置。網絡結構變得日趨復雜, 社區與社區間的界限變得模糊, 信息交換變得更加頻繁, 不同領域、物種、平臺的數據被共同使用和引用的現象變得越來越多。

本文研究只針對GEO 數據庫中的科學數據集進行研究和建模, 研究范圍存在一定局限性。此外,對于數據引用網絡的研究目前還處于起步階段, 對于網絡的拓撲結構特征以及網絡的演化過程關注較多。希望本文能夠為相關研究提供思路, 便于后續研究利用更深入的理論和技術, 挖掘出科學數據引用更深層次的特征和規律。

(責任編輯: 郭沫含)

主站蜘蛛池模板: 91麻豆精品视频| 国产清纯在线一区二区WWW| 99精品视频在线观看免费播放| 国产精品永久免费嫩草研究院| 国产av无码日韩av无码网站| 色综合国产| 色噜噜综合网| 极品国产在线| 成人福利在线视频免费观看| 日韩欧美在线观看| 久久99国产乱子伦精品免| 日本a∨在线观看| 亚洲码一区二区三区| 中文字幕在线视频免费| 日韩国产一区二区三区无码| 人妻精品全国免费视频| 亚洲天堂免费在线视频| 美女啪啪无遮挡| 九九线精品视频在线观看| 麻豆精品视频在线原创| 人人妻人人澡人人爽欧美一区| 大乳丰满人妻中文字幕日本| 欧美日韩中文国产va另类| 久热re国产手机在线观看| 日韩欧美国产中文| 中文字幕啪啪| 亚洲国产综合精品一区| 久久国产精品麻豆系列| av大片在线无码免费| 欧美日韩第二页| 国产白浆在线观看| 欧美中文字幕在线播放| 国产成人精品一区二区秒拍1o| 免费欧美一级| 国产精品视频猛进猛出| 波多野结衣在线se| 2021无码专区人妻系列日韩| 东京热一区二区三区无码视频| 97se亚洲| 婷婷在线网站| 国产精品hd在线播放| 亚洲区欧美区| 国产精品hd在线播放| 国产成人久久777777| 亚洲伊人天堂| 情侣午夜国产在线一区无码| 国产亚洲精| 免费观看无遮挡www的小视频| 美女免费精品高清毛片在线视| 亚洲精品卡2卡3卡4卡5卡区| 91精品亚洲| 四虎影视库国产精品一区| 国产福利拍拍拍| 国产最新无码专区在线| 亚洲天堂在线视频| 免费女人18毛片a级毛片视频| 欧美中文字幕在线播放| 福利在线一区| 精品综合久久久久久97超人| 永久免费av网站可以直接看的| 欧美日韩一区二区三区四区在线观看 | 亚洲Aⅴ无码专区在线观看q| 五月婷婷中文字幕| 日本不卡在线视频| 亚洲天堂精品在线| www.youjizz.com久久| 九九这里只有精品视频| 国产成人a在线观看视频| 亚洲av日韩av制服丝袜| 成人综合久久综合| 夜夜高潮夜夜爽国产伦精品| 中日无码在线观看| 中文字幕人成人乱码亚洲电影| 欧美在线视频不卡第一页| 狠狠v日韩v欧美v| 日本在线视频免费| 国产区人妖精品人妖精品视频| 夜夜拍夜夜爽| 精品国产乱码久久久久久一区二区| 精品免费在线视频| 国产精品30p| 亚洲综合狠狠|