馬勇

探究學科領域知識網絡當中知識主題及其演變過程,有助于快速掌握領域知識網絡研究現狀及其變遷行為。
21世紀以來,隨著科技技術的進步,各種科技文獻數量與日俱增。對于科研工作者們而言,從早先對相關研究領域文獻獲取的困難轉變為當前文獻資源選取的困難。如何有效地在海量科技文獻當中,識別出科學研究主題以及其變化行為成為研究重點。近年來,學術界對于領域知識網絡的探測開始注重從知識之間的結構關系出發。如在圖書情報界,學者們在知識網絡當中基于宏觀結構發現了“小世界”網絡以及“無標度”網絡的特征,基于微觀結構則發現了網絡當中的“模體”特征。而知識群落則是介于宏觀與微觀結構之間的網絡結構特征。知識群落基于時間序列的演化變遷,為揭示領域知識網絡科研主題的演化過程、規律以及對于新興主題的探測具有至關重要的意義。
本研究以復雜網絡分析方法融入關鍵詞網絡,基于關鍵詞之間的結構關系進行關鍵詞網絡層次提取,結合時間序列因素,在層次提取的基礎上,采取兼顧節點以及節點之間的關聯頻次改變的Louvain(魯汶)算法對知識群里演化進行分析研究。
研究數據與流程
在圖書情報領域,對于某一領域的研究主題識別和發現,傳統的計量學方法存在著種種缺陷,而且研究發現,即便通過知識群落算法將網絡分成了不同的知識群落,但是在知識網絡演化生長過程中充斥著大量頻次為1的關系結構,網絡當中許多知識之間的聯系存在偶然性或隨機性。知識關聯頻次的強弱不同,代表知識群落當中緊密的知識團體的區分。為了排除這種隨機性,需要基于關聯頻次進行層次提取,將不生長的知識體系剔除,使網絡當中更加緊密、顯著的知識結構凸顯出來,從而了解網絡中成長的核心知識體系。
本文以中國知網的數據庫為數據獲取來源,以主題詞“Folksonomy”或“社會化標注”或“社會標注”或“大眾分類”為檢索公式進行高級檢索。期刊級別鎖定為CSSCI,檢索時間跨度從2002—2018年,累計獲取相關文獻194篇,關鍵詞數量369個,關鍵詞關聯關系對數1019對。具體數據如表1所示。
文中構建的關鍵詞知識網絡,節點代表關鍵詞,不同的關鍵詞出現在同一篇文獻當中,所形成關聯關系構成網絡當中的邊;以關鍵詞之間的關聯頻次作為權重,所構建的關鍵詞知識網絡為無向加權網絡。隨著時間序列的推移,網絡當中比較活躍的關鍵詞知識節點將與其他活躍的關鍵詞知識節點建立關聯關系,從而形成關鍵詞網絡當中更加密集、顯著的知識群體。
四項研究結論
通過基于復雜網絡的理論方法融合時間序列因素,對中國知網中的特定領域的相關文獻以及文獻當中的關鍵詞、關鍵詞關聯關系進行抓取,分別對原網絡、層次網絡展開分析,以及通過層次知識網絡與原網絡的對比,初步可以得出以下結論:
第一,采取關聯頻次提取使得原始關鍵詞知識網絡一些規模較小的動態知識群落得以突出呈現。原網絡當中2018年時間窗口下,知識群落KC2—5最大僅有5個節點。在經過頻次提取后仍然保留兩個節點“網絡信息檢索工具”“因特網大眾分類法”,并且形成唯一的知識群。提取包含該關鍵詞的兩篇相關文獻發現,文獻《因特網大眾分類法的本質屬性》被引頻次達到25次,另一篇《因特網大眾分類法若干問題的探討》則達到7次。這也間接說明,即便是小規模的知識群里也同樣有較大的學術價值。采取關聯頻次提取,則使得這些動態生長的小規模的知識群落當中的核心知識得以凸顯。
第二,經過層次提取后的知識網絡所形成的知識群落更加規則。在原關鍵詞知識網絡當中,度值較大的關鍵詞知識節點經常出現在規模小的知識群落當中,高Hub(多端口轉發器)節點往往沒有良好的成團優勢,這不利于對網絡當中的Hub知識群里進行追蹤。而在經過層次提取的關鍵詞網絡所形成的知識群演化過程中,規模越大的知識群里其當中擁有的Hub節點的度值更大。知識群落更加有序化,這有助于捕捉Hub節點以及知識群落的演化路徑。
第三,經過層次提取后的知識網絡仍然保留了原網絡當中的重要屬性,并沒有破壞原有知識網絡的演化變遷特征。在原網絡當中,2013年時間窗口下知識群里發生裂變行為,這一特征在經過層次提取后關鍵詞知識網絡所形成的知識群落演化過程中仍然保留。另外,經過層次提取后,剩下的知識節點覆蓋了原網絡中幾乎所有動態生長的知識群,這一現象在網絡中后期越發突出,并且包含了原網絡當中大部分高度的節點。原關鍵詞知識網絡當中顯著知識節點,以及動態生長知識群落等重要的屬性特征都得以保留。
第四,經過關聯頻次提取后的知識節點更加緊密。以關聯頻次為層次提取標準,保證了每一個節點都具有生長性,同時保全高Hub節點與低度值節點的可能緊密結構關系。對比核心知識體系的組成,依托知識間共同生長的緊密關系,而非完全來源于Hub節點構成,使得一些潛力或者重要的知識節點得以保留。同時也反映了真實知識網絡核心知識團體的重要特征,并非度值越高的知識節點關聯關系就越緊密。
采取層次提取后的知識網絡,極大地簡化了原有的網絡規模,凸顯了原網絡當中所有生長型知識群里和顯著性知識節點。這些將有助于在當前海量的文獻資源當中,快速精準定位某一領域中所有熱門,以及具有潛力的知識群里以及當中的核心知識。但同時這種方法也存在局限性,需要下一步的研究當中,采取動態閾值的提取方來保障提升基于知識之間關系結構層次的有效性。
(作者單位:寧波大學科學技術學院)