劉小平 賈夏利
關鍵詞: 學科交叉; 知識圖譜; Science Overlay Map; LDAvis; 納米科技
DOI:10.3969 / j.issn.1008-0821.2023.05.012
〔中圖分類號〕G250.2 〔文獻標識碼〕A 〔文章編號〕1008-0821 (2023) 05-0123-12
隨著社會發展和科學內部需求的不斷驅動, 學科交叉融合現象日益明顯。一百多年來, 所有學科都出現了學科交叉性的增長, 且沒有放緩的跡象[1] 。與此同時, 學科交叉研究使得兩門或多門學科的知識相互融合, 相互滲透, 不斷催生新的學科前沿、科技領域和創新形態。在新一輪科技革命的前沿領域, 如人工智能、量子信息等重點新興前沿學科比單一學科領域有著更廣的基礎知識需求, 依賴于多學科的交匯融通。為占據科技制高點, 我國正投入大量資源以推動學科的交叉融合研究。在《中共中央關于制定國民經濟和社會發展第十四個五年規劃和二0三五年遠景目標的建議》中重點強調, 要推進學科交叉融合, 以學科交叉融合服務國家戰略需求。在此背景下, 研究學科交叉現象, 把握學科交叉發展方向, 識別學科交叉點成為關鍵問題。
研究某領域的學科交叉問題, 可以把握該領域與其他領域的學科交叉現狀, 識別新的領域學科交叉生長點, 為相關學者開展學科研究提供借鑒, 為高校、科研機構管理者確立學科發展策略和制定人才培養方向提供參考。如何發現領域學科交叉文獻, 對領域學科交叉文獻進行主題識別, 并對主題識別結果進行直觀的解釋成為領域學科交叉研究需要解決的問題。
對學科交叉程度的計量主要基于學科交叉測度指數, 可以測度文獻、期刊、學科等維度的學科交叉多樣性程度。隨著文本挖掘研究的進步, 基于概率主題模型的主題挖掘與識別已成為科技文獻文本挖掘的重要工具。知識圖譜以可視化的形式對科學知識進行直觀展示, 同時能夠揭示科學知識的發展進程與結構關系。因此, 本研究基于學科多樣性測度指數對海量的領域科技文獻數據進行分析, 研究學科交叉現象, 發現領域學科交叉文獻; 基于主題模型對領域學科交叉文獻進行主題識別, 判定學科交叉點; 基于知識圖譜對多樣性測度結果和主題識別結果進行可視化研究, 直觀地揭示領域學科交叉關系和特點, 展示學科交叉研究的熱點方向和趨勢; 并以納米科技領域為例進行領域學科交叉知識圖譜實證分析, 發現納米科技領域學科交叉研究主題和主題間的聯系, 以期為相關領域研究者提供參考與借鑒。
1相關研究
學科交叉研究, 與跨學科研究的概念等價, 對應的英文術語都為Interdisciplinary Research(IDR)。最早源于1926 年Woodworth R S 在美國社會科學研究委員會議上提出用“Interdisciplinary Work” 來指7 個成員學會中涉及兩個及以上學會的綜合研究[2] 。目前關于學科交叉研究尚未有統一的定義, 如Qin J等[3] 提出, 學科交叉研究是指通過學科間知識的整合而進行的研究; 劉仲林[4] 認為, 學科交叉研究是把不同學科理論、方法或思維融合為一體的研究活動; Repko A F[5] 指出, 學科交叉研究是一項提出、回答或解決超過某一單一學科所能處理范圍的某個問題的過程。從不同的定義可以看出, 學科交叉研究主要側重通過不同學科之間知識整合與交叉而開展的科學研究。
隨著學科交叉研究的不斷增多, 以學科交叉研究為研究對象, 對學科交叉進行理論探討和實證分析的研究也越來越多。在情報學領域, 有關學科交叉研究主要可分為兩個研究方向: 一是基于各種計量學指標, 從文獻、期刊、研究領域、作者、機構、國家等層面的學科交叉程度進行測度, 分析測度目標領域內學科交叉本質特征及規律; 二是基于文本挖掘算法對學科交叉文獻進行內容特征的更深層次主題識別, 把握學科交叉發展方向, 揭示學科交叉主題的內在聯系。
知識圖譜是一系列靜態或動態圖譜形式的圖形, 旨在通過可視化技術對知識機構以及知識發展進程進行直觀描述[6] 。在情報學領域, 知識圖譜最早可以追溯到1980 年布魯克斯提出的知識地圖(Knowledge Map)[7] , 知識地圖一般是將特定組織機構內的顯性和隱性知識通過構造地圖的方法呈現,其主要展示知識之間的關聯性, 很少說明知識單元之間的親緣關系和結構[8] 。2005 年, 陳悅等[9] 將“Mapping Knowledge Domains” 引入國內并命名為知識圖譜, 也稱為科學知識圖譜, 是指以知識域為對象, 通過詞頻分析、共詞分析、共被引分析、網絡分析等方法將領域知識發展進程與結構關系進行可視化展示, 通過二維或者三維圖形使各個主題區域及其關系更直觀的展示, 將復雜的數據轉換為易于理解的可視化信息。2012 年, 谷歌提出“KnowledgeGraph” 的概念, 以圖結構的形式來表示知識, 也被翻譯為知識圖譜, 旨在描述真實世界中存在的各種實體或概念, 數據來源和研究對象主要為特定網絡信息資源, 被廣泛應用于語義搜索、推薦系統和人工智能等領域[10] 。
知識地圖、科學知識圖譜、谷歌知識圖譜之間存在著交叉, 且不完全等同。本研究所討論的知識圖譜, 主要指的是科學知識圖譜(Mapping Knowl?edge Domains), 即基于科學文獻數據, 對科學知識的結構特征和知識關聯關系進行可視化呈現。基于學科交叉的兩個主要研究方向, 本部分主要綜述基于計量學指標和文本挖掘算法的學科交叉知識圖譜的相關研究現狀。
1.1基于計量學指標的學科交叉知識圖譜
科技文獻自身研究方向、合作者所屬的專業和學院以及論文參考文獻的研究方向都能夠反映出論文的學科交叉情況, 通過構建不同的指標進而可以測度學科交叉程度。因此, 根據測度對象的不同,學科交叉測度的方法主要分為共類分析、作者分析、引文分析等。引文分析認為, 一篇文章的引文所屬的不同學科類別數可以表示該文章的學科交叉程度, 而文章引文所屬的學科可以通過刊載該文章期刊的學科類別表示。研究人員通常會以引用參考文獻的形式說明其研究受何種學科知識的啟發, 引文分析能夠更好地反映學科交叉的知識流動規律。
基于引文分析測度研究領域學科交叉多樣性的研究所使用的測度指標目前已發展為三代多樣性測度指標[11] , 分別為以香農熵和Gini-Simpson 指數[12] 為代表的第一代多樣性測度指標, 以Rao-Stirling 指數[13] 為代表考慮學科間距離和相似性的第二代多樣性測度指標, 以及以Leinster-Cobbold 多樣性指標為[14] 代表的第三代多樣性測度指標。
通過對文獻引文的學科分布進行分析, 不僅可以對文獻學科交叉程度進行測度, 還可以通過共現分析度量不同學科之間的相似性, 基于相似性構建知識圖譜, 更好地把握學科間的交叉關系和交叉程度。如Leydesdorff L[15] 基于余弦相似度度量指標構建79 種納米相關期刊之間的引用模式圖譜, 展示納米科技領域與應用物理、化學和生命科學之間的學科交叉關系; Porter A L 等[16] 通過提出新的跨學科指標, 構建學科類別相似度矩陣, 并通過因子分析和主成分分析進行分組和降維, 基于科學覆蓋圖(Science Overlay Map)測量和繪制生物技術與應用微生物學, 工程、電氣與電子等領域的跨學科研究演變; 楊良斌[17] 利用超敏反應領域10 年的引文類共現矩陣, 通過K-Core 聚類得到超敏反應領域10年間的領域學科交叉圖。
1.2基于文本挖掘算法的學科交叉知識圖譜
為了對文獻學科交叉情況進行深入的內容分析, 許多學者開始將文本挖掘算法引入學科交叉研究。文本挖掘算法通過分布分析、關聯規則、聚類分析、概率統計等算法, 將具有共同特性的文本聚集到一起, 識別可以解釋數據中可能的、潛在的內容和結構(關系)的單詞或短語。
Salton G 等[18] 提出的TF-IDF 算法是目前信息檢索領域較為主流的文本挖掘特征提取方法, 將文本信息用向量空間模型(Vector Space Model, VSM)等進行特征表示, 轉化為諸如K-means 等聚類分析算法可處理的數據, 通過聚類分析將表達主題含義相同或相近的文章聚集在一起, 從而識別文章的主題。基于主成分分析等降維技術將高維空間映射到二維平面上, 進而可以對主題進行可視化展示,構建學科交叉知識圖譜。如魏建香[19] 對情報學與計算機兩個學科近十年的期刊文獻構建向量空間模型, 進行改進的免疫粒子群與模糊C 均值相融合的文檔聚類, 并利用基于學科交叉知識可視化軟件VIK 及CiteSpace 與UCINET 繪制情報學與計算機學科交叉知識圖譜, 發現兩學科的交叉研究方向。
近年來, 許多基于概率的主題模型在機器學習和數據挖掘領域被提出。如Blei D M[20] 提出的LDA(Latent Dirichlet Allocation) 模型, 將文檔、主題、詞語的選取都定義為概率生成過程, 即文檔、主題和詞語組成的三級分層貝葉斯產生式模型。由于主題模型通常基于大規模數據集開展建模, 基于主題模型推斷出的結果往往很難被解釋。已有學者對主題識別結果進行可視化研究, 構建知識圖譜更好地理解主題和挖掘主題之間的關系。如Chuang J 等[21]提出Termite 工具, 基于可視化分析來評估文本主題模型, 使用表格布局來對潛在主題之內和之間的術語進行比較, 揭示聚類結構并提高相關術語的可讀性。Sievert C 等[22] 開發LDAvis 工具, 通過使用R 和JavaScript 數據可視化函數庫D3(Data-DrivenDocument)構建LDA 主題模型可視化平臺, 定義術語與主題相關性, 通過交互式的操作來探索主題—術語間關系。
綜上所述, 基于計量學指標的領域學科交叉知識圖譜展示的是領域和領域之間的相似距離, 可以宏觀地展示領域與其他領域之間的聯系和交叉程度, 但無法進行深度內容分析識別具體學科交叉主題。基于文本挖掘算法的學科交叉知識圖譜雖然可以挖掘更深層的學科交叉主題和主題之間的聯系,但由于輸入數據集的局限性無法展示與某領域相關的全部學科交叉主題, 以及識別領域高度學科交叉文獻的研究主題。因此, 本文提出基于可視化學科多樣性測度指數和主題模型的領域學科交叉知識圖譜構建框架, 采用基于計量學指標和文本挖掘算法相結合的方法對領域學科交叉進行測度和主題識別, 基于Science Overlay Map 和改進的LDAvis 構建領域學科交叉知識圖譜, 引入領域本體概念和知識體系對學科交叉主題識別結果進行概念和實體關系的進一步歸納。既能從宏觀上把握領域與其他領域之間的交叉關系, 又能從微觀上發現領域具體學科交叉主題以及主題之間的聯系, 提高學科交叉主題識別結果的可解釋性, 并通過實證研究驗證該方法的有效性。
2可視化學科多樣性測度指數和主題模型的領域學科交叉知識圖譜研究框架
本研究提出的可視化學科多樣性測度指數和主題模型的領域學科交叉知識圖譜研究框架, 如圖1所示, 主要包括數據獲取和預處理、參考文獻學科歸屬、領域學科交叉文獻發現、領域學科交叉主題識別和領域學科交叉可視化5個系統流程。
2.1數據獲取
文獻計量學是建立在科學研究過程完整地被文獻記錄基礎上的, 即文獻反映了人們對科學活動的校正、評價和驗收活動的一般認識[23] 。文獻被刊載在不同的學術期刊上, 期刊被選擇性地收錄在不同的學術數據庫中, 這些數據庫就為基于文獻計量學的學科交叉測度評價提供原始數據。本研究選擇Web of Science(WoS)數據庫作為來源數據庫對某領域文獻進行檢索和導出, 得到包含文章標題、摘要、關鍵詞、作者、學科類別以及引用參考文獻等文獻題錄信息。其中參考文獻字段作為參考文獻學科歸屬、領域學科交叉文獻測度以及基于ScienceOverlay Map 的領域學科交叉科學地圖研究環節的原始數據; 標題、摘要、關鍵詞字段作為領域學科交叉主題識別、基于改進的LDAvis 的學科交叉主題可視化研究環節的原始數據。
WoS數據庫下載文獻題錄信息的參考文獻字段包括參考文獻作者、年份、來源期刊簡稱以及其對應的DOI 號4 個部分。僅根據參考文獻的題錄信息, 不能確定參考文獻所屬的學科類別。本研究基于科睿唯安公司旗下期刊引證報告(Journal CitationReports, JCR)數據庫系統所公開的期刊及其所屬學科類別信息, 對JCR 中的期刊和其所屬學科類別信息以及期刊縮寫與期刊全稱信息進行提取, 構建期刊—學科類別對照表。基于該表, 文獻題錄信息中的參考文獻被映射到其對應的學科類別。
2.2參考文獻學科歸屬
對下載的WoS 數據庫領域文獻信息進行處理,進行常規的去重、去除非相關學術文獻等數據清洗工作之后, 提取字段內容信息構建領域文獻關系型數據庫。基于期刊—學科類別對照表, 將領域文獻參考文獻根據其所刊載的期刊映射至相應的WoS學科類別。由于參考文獻不僅僅局限于WoS 數據庫收錄的期刊論文, 期刊—學科類別對照表不能完全涵蓋。為避免丟失大量參考文獻信息, 當參考文獻成功匹配比例過低時借助編輯距離算法[24] , 對于未匹配的參考文獻期刊進行學科歸屬判定。計算能夠替換成期刊—學科類別對照表中已知學科期刊的最小編輯距離, 篩選編輯距離小于等于3 的期刊替換結果結合人工判讀對未成功匹配期刊的所屬學科進行補全, 最終確保超過90%的領域文獻參考文獻歸屬到1 個或多個WoS 學科類別中。參考文獻學科歸屬流程和映射過程如圖2 所示。
通過對文獻引文的學科類別進行統計分析, 得到領域文獻參考文獻學科分布。參考文獻學科分布表示的是領域相關研究論文所引用的參考文獻分布在各個WoS 學科類別的數量, 數量越多, 表明領域研究引用該WoS 學科類別下的文章越多, 也在一定程度上說明領域與該WoS 學科類別產生的學科交叉研究越多。另外, 參考文獻學科分布數據同時也是基于Science Overlay Map 的領域學科交叉科學地圖的輸入數據。
2.3領域學科交叉文獻發現
本研究采用Rao-Stirling 指數對領域文獻集合中每篇文獻的學科交叉程度進行測度, 并根據測度結果設定閾值篩選學科交叉文獻[25] 。Rao-Stirling指數為目前常用的學科交叉測度指標, 已有學者研究基于Rao-Stirling 指數開展某一學科、機構[26] 以及期刊[27] 的學科交叉測度, 或探討科學研究的跨學科發展方向[28] 。Rao-Stirling 指數具體公式如式(1):
在文獻參考文獻—學科類別映射結果的基礎上, 構建文獻—參考文獻學科類別共現矩陣, 將學科間引用與被引用相似度矩陣作為計算學科間相似度距離參照, 對每篇文獻Rao-Stirling 指數進行計算并測度整個領域學科交叉多樣性程度, 對測度結果進行統計分析, 并查閱相關文獻, 設定領域學科交叉文獻閾值。提取Rao-Stirling 指數大于閾值的文獻, 即領域學科交叉文獻集合, 其中包括領域學科交叉文獻的標題、摘要、關鍵詞字段, 為基于LDA 的領域學科交叉主題識別的輸入數據。
2.4領域學科交叉主題識別
本研究選擇LDA 模型進行領域學科交叉文獻主題識別。基于Rao-Stirling 指數學科交叉測度得到領域學科交叉文獻后, 對待分析文獻的標題、摘要、關鍵詞進行數據處理, 包括數據映射、文本分詞、去停用詞以及詞語歸一化處理等。數據處理后構建LDA 模型進行主題識別。LDA 是生成概率模型, 模型中文檔被表示為潛在主題的隨機混合, 每個主題都是以詞語的分布為特征。
雖然LDA 模型在識別文檔之間潛在的語義關系和解決一詞多義問題方面具有很大的優勢, 但是構建LDA 模型需要預先設置主題的數量, 不同主題的數量直接關系到主題提取效果。如何評價LDA模型聚類結果的好壞并確定最優主題數成為LDA應用中的普遍問題。本研究將困惑度(Perplexity)、對數似然性(Log-likelihood)等定量評估方法與人工經驗判讀定性評估方法相結合, 嘗試從不同的角度確定待分析文本最佳主題數目。
困惑度由LDA 模型的創建者Blei D M 等[29] 提出并使用, 通過評估聚類結果的好壞可以確定最佳主題數目。困惑度越低, 說明不確定性越小, 該語言模型可以給測試文本中的詞語賦予較高的可能性, 即主題聚類效果越好。具體公式如式(2):
與困惑度不同, 對數似然性越大, 意味著模型聚類效果越好。使用Gibbs 采樣進行主題模型參數估計, 不同主題數量的模型邊際似然性是可以比較的, 從而可以得到模型最佳主題數量[30] 。對于Gibbs 采樣, 對數似然性表示如式(3):
通過困惑度和對數似然性指標對模型定量評估后, 可以將最優主題數目大致設定在某一區間內。通過區間內主題數目依次LDA 建模, 獲得不同主題數目下的LDA 建模結果, 并對結果進行人工判讀定性評估, 結合相關資料查閱, 最終確定主題數目, 得到領域學科交叉主題識別結果。對主題識別結果進行解釋和標注, 從而把握領域學科交叉研究方向。同時, 基于LDA 主題識別結果也作為輸入數據用于后續基于LDAvis 的領域學科交叉主題可視化研究。
2.5領域學科交叉可視化
對領域文獻引文學科分布進行可視化展示, 可以直觀地把握領域文獻引文的學科交叉情況。學科疊加圖(Science Overlay Map)是Rafols I 等[25] 提出的一種基于引文相似性構建的科學地圖, 對待研究文獻在全學科背景下所處的位置進行一個可視化展示。學科疊加圖基于已制作好的基準圖(Basemap),通過構造學科類別引用關系矩陣并計算余弦相似度進行歸一化, 基于矩陣繪制全學科關系圖。為了便于可視化展示, 根據相似性矩陣通過因子分析—主成分分析對學科類別進行分組, 將學科類別劃分到相應的學科大類, 即宏觀學科, 通過主成分分析最終得到18 個宏觀學科。通過數據覆蓋技術將領域引文學科分布數據進行疊加從而得到疊加圖, 可以幫助研究者了解所研究的領域在整個科學體系中的學科交叉情況。
學科疊加圖可以從宏觀上直觀地展示領域與其他領域的學科交叉情況, 但無法對領域間的具體學科交叉內容進行微觀可視化呈現。本研究嘗試引入LDA 模型可視化方法, 與學科覆蓋圖相結合, 多角度地系統展示領域學科交叉具體方向。LDAvis 是由Sievert C 等[31] 開發的基于R 的網絡交互式主題模型可視化工具, 也是常用的實現主題模型結果的可視化解讀的方法。通過使用R 和JavaScript 數據可視化函數庫D3(Data-Driven Document)構建LDA 主題模型可視化平臺, 定義術語與主題相關性, 使用戶可以通過交互式的操作探索主題—術語間關系, 從而能夠更好地解釋LDA 模型主題識別結果。
雖然LDAvis 可以可視化解釋每個主題的具體意義以及主題間的相關性, 但構建領域知識圖譜還須對不同術語之間的概念和層次關系進行進一步的歸納與抽象。本研究引入領域本體對LDAvis 進行一定程度的改進, 基于Tanaka M[32] 提出的納米科學本體論, 嘗試通過構建術語分類規則來對主題識別結果進行概念歸類, 將主題識別結果歸屬到納米科技的五大子領域, 包括納米物理學、納米化學、納米材料科學、納米生物以及納米工程, 并在子領域層面結合LDAvis 工具進行領域學科交叉知識圖譜的可視化呈現。
3實證分析
納米科技領域被認為是高度跨學科領域, 選擇納米科技領域作為研究對象, 可以更好地驗證上文提出的基于Science Overlay Map 和LDAvis 的領域學科交叉知識圖譜研究框架的有效性和適用性。研究團隊已開展基于WoS 數據庫的納米科技領域學科交叉文獻發現[33] 和主題識別研究[34] 。正如Por?ter A L 等[35] 所說, 納米科技是一個大而分散的領域, 在構建檢索式檢索納米科技領域文獻集合時,沒有絕對的標準來衡量召回率和精確率。在構建納米科技領域文獻集合時, 需要根據不同的研究意圖來設置不同的檢索式。為保證納米科技文獻集合的精確率, 本研究將Web of Science(WoS) 數據庫Web of Science 核心合集中學科分類為納米科技領域(WC = (“Nanoscience & Nanotechnology”)) 的文獻作為納米科學領域文獻集合, 將出版年限定為2020 年, 文獻類型限定為ARTICLE, 文獻數量為47 242篇。
3.1基于Science Overlay Map 的領域學科交叉科學地圖
對領域文獻集合的題錄信息進行提取, 生成關系數據庫, 包括納米科技領域文獻的ID、標題、摘要、作者、關鍵詞、擴展關鍵詞、來源出版物、文獻類型、參考文獻等字段。得到47 242篇文獻共計2 203 822條參考文獻記錄。基于期刊—學科類別對照表, 將所下載的每篇文獻的參考文獻根據其所屬期刊映射至1 個或多個WoS 學科類別中。共匹配成功2 027 788條參考文獻, 成功匹配比例超過90%, 因此不再進行基于編輯距離的期刊學科歸屬補全。對參考文獻學科類別進行統計分析, 得到納米科技領域文獻引文學科分布, 如表1 所示。
基于納米科技領域文獻引文學科類別分布, 繪制納米科技領域跨學科疊加圖( Science OverlayMap)。如圖3 所示, 可以直觀地把握納米科技領域文獻引文的學科分布情況。圖中每一個節點表示1 個學科類別(SC), 代表1 個子學科, 點的大小表示該學科包含引文數量多少。線條表示兩個學科類別間的相似程度, 線條越粗表示學科間相似性越強。標簽表示通過SPSS 進行因子分析得到的18 個宏觀學科(SC 分組)。可以看出, 納米科技領域文獻與材料科學(Materials Sciences)、化學(Chemis?try)、生物醫學(Biomedical Sciences)、工程學(En?gineering)、物理學(Physics)等領域學科都有密切的學科交叉。而與生態學(Ecology Science)、農學(Agriculture Science)、傳染病學(Infectious Disea?ses)、經濟管理(Business & Management)等領域學科交叉情況較少。
3.2基于改進的LDAvis的領域學科交叉主題交互圖
利用Python編程, 將文獻的參考文獻所屬學科類別轉換為矩陣的形式表示。編寫R 程序, 用Rao-Stirling 多樣性指數分別測度每篇文獻學科交叉程度, 測度結果如圖4 所示, Rao-Stirling 指數越大, 則該文獻學科交叉程度越高。通過統計分析并查閱相關文獻將閾值設定為0 6, 即將Rao-Stirling指數大于0 6 的共計4 736篇文獻定義為納米科技領域高度學科交叉文獻, 用于下一步的領域學科交叉主題識別研究。
通過文獻ID 號與原始數據進行映射, 得到納米科技領域學科交叉文獻的標題、摘要、關鍵詞字段作為領域學科交叉主題識別研究階段的待分析文本。對待分析文本進行預處理, 包括基于詞組的切詞、去停用詞以及通過模糊處理和創建敘詞表對詞語進行歸一化。構建LDA 模型對領域學科交叉文獻進行主題識別。通過對數似然性、困惑度兩種定量評估方法與人工經驗判讀定性評估方法相結合的方式進行最優主題數目的確定, 繪制對數似然性曲線, 如圖5 所示。從圖中可以看出, 對數似然性曲線在主題數目設置為20 時出現最大值, 意味著此時模型聚類效果最佳。結合不同主題數目下主題識別結果的人工判讀以及之前研究設定主題數目的經驗, 將主題數目定為20, 最終得到納米科技領域學科交叉文獻的主題—詞組分布以及主題—文檔分布。
通過對每個主題下的詞語進行歸納, 并對應每個主題下文獻內容對主題進行概括, 將每個主題根據納米領域本體歸屬相應子領域中, 得到納米科技學科交叉文獻主題概括, 如表2 所示。表中用不同的顏色更直觀地展示20 個主題的子領域歸屬情況。從結果中可以看出, 大多數課題屬于納米生物領域, 其次是納米物理領域, 這與上文納米科學領域文獻參考文獻學科分布結果有很大的差異性。從參考文獻學科分布結果來看, 納米科學與材料科學、化學領域的關系最為密切, 這也說明了納米科學起源于材料科學、化學學科, 但納米科學領域的研究往往不集中在一個學科上, 反映了所有學科的融合, 且具備很強的應用性, 有望對社會產生廣泛的影響。
利用LDA 進行主題建模后, 基于R 的LDAvis包進行主題識別結果的可視化分析。對主題建模結果構建LDAvis 所需要的主題—文檔分布矩陣、主題—詞語分布矩陣、詞匯表、每篇文檔長度以及詞頻等輸入數據。由于原有LDAvis 可視化方法每一主題用單一顏色展示, 對主題的領域歸屬無法直觀呈現。本研究基于納米領域本體將領域歸屬結果與LDAvis 結合, 將不同主題的所屬領域用不同顏色呈現, 最終得到主題識別交互式可視化結果, 如圖6和圖7 所示。
圖中圓圈代表一個主題, 圓圈的顏色表示主題的不同領域歸屬。選中某個圓圈后, 會在右側展示圓圈所對應主題相關的詞語, 按照出現概率由高到低排列, 默認詞語數目為30。紅色水平條表示估計的每個主題中產生對應術語的次數, 藍色水平條表示每個詞語在語料庫中的總體概率。當選擇了某個特定的詞語后, 會出現主題—詞語圈, 如圖7 所示,圓圈的大小表示該詞語由對應主題生成的概率[36] 。
從圖中可以看出, LDA 主題識別結果聯系較為緊密。20 個主題主要分為6 個類別, 其中主題1、5、7 為孤立主題, 分別代表納米粒子癌癥治療,納米生物材料體內、體外機制, 納米粒子藥物載體作用機制等; 主題2 和主題4 為一個類團, 主要為納米粒子細胞毒性相關內容, 包括抗菌活性、氧化應激等研究; 主題6、10、12、14 為一個類團, 主要為對疾病治病機制的病理生理以及生物化學研究等; 剩余主題3、8、9、11、13、15、16、17、18、19、20 為一個類團, 且聯系較為緊密, 主要是納米材料在各個領域的基礎研究, 包括傳感器靈敏度、表面活性、運輸動力、成像、理化性質、結構、擴散性能等方面。
4討論與結論
本研究在總結學科交叉知識圖譜相關研究現狀后, 基于可視化學科多樣性測度指數和主題模型的領域學科交叉知識圖譜構建研究框架, 并選擇納米科技領域進行學科交叉主題識別的實證分析, 驗證研究方法的有效性。基于Science Overlay Map 的領域學科交叉科學地圖, 從全學科的角度展示納米科技領域與其他學科的交叉情況, 基于LDAvis 結合領域本體的學科交叉主題交互圖, 聚焦具體的學科交叉主題和主題之間的相互關系, 二者的結合可以讓研究者從宏觀和微觀上更清晰地把握納米科技領域與其他學科的交叉情況。本研究將引文分析方法與主題識別方法進行組合應用, 一方面解決了基于引文分析的學科交叉測度方法的學科交叉知識圖譜無法進一步揭示領域具體研究主題的局限性; 另一方面彌補了基于主題識別方法的知識圖譜發現學科交叉主題受算法復雜性的影響難以發現某領域相關的全部學科交叉主題的局限性。此外, 本研究嘗試嵌入領域本體隨主題間關系進行進一步歸納, 提高知識圖譜的可解釋性, 從而為領域學科交叉知識圖譜研究提供了一種解決方案的新視角。
本研究基于LDA模型對領域學科交叉文獻進行主題識別和主題識別結果的可視化展示。通過對比傳統的基于共詞分析的聚類方法得到的學科交叉結果和可視化知識圖譜發現, LDA 概率生成模型可以識別詞語間背后的語義關系, 能將出現概率相同的詞聚在一起, 而不必對一詞多義、多詞一義進行嚴格處理, 大大減少文本預處理的時間。LDA模型通過將出現概率相同的詞語聚成一個主題, 達到降維的目的, 解決了向量空間模型因為特征向量的增加, 模型的維度增加而增加算法復雜度的局限性。且諸如K-means的聚類結果可視化多以多維尺度分析散點圖的方式呈現, 僅能看出文檔所屬主題以及文檔之間相似距離, 難以通過可視化結果直觀地了解領域學科交叉研究現狀, 且這一問題在數據量規模增大時局限性更加明顯。
本研究的不足之處主要包括: 領域學科交叉知識圖譜尚未展示學科交叉的發展和演化規律, 由于只選擇一年的納米科技領域文獻開展實證分析, 無法發現領域學科交叉隨時間的變化情況。另外, 本研究僅對領域本體嵌入主題識別知識圖譜進行初步的探索研究, 尚未在詞語粒度上將詞語的概念和詞語間關系嵌入到知識圖譜中, 這些將成為下一步改進和繼續研究的方向。