韓 儀,馮 鑫,周金連,吳 曄,肖井華
(1. 北京郵電大學理學院 北京 海淀區 100876;2. 燕山大學經濟管理學院 河北 秦皇島 066004;3. 中山大學傳播與設計學院 廣州 510275;4. 北京師范大學計算傳播學研究中心 北京 海淀區 100875)
知識是在社會化合作進程中的產物之一。在線問答社區是知識生成和交流的一種眾包平臺,用戶可以在其中自主互動。以在線問答平臺知乎為例,用戶可以根據個人認知對問題進行標注。通過出現在同一個問題上的標簽之間建立的連接,構建出一個標簽的共現網絡。標簽信息具有可使用性,用其作為導航和推薦能有效挖掘出用戶的行為和偏好[1],提高個性化系統推薦的準確性[2]。標簽網絡是一種人工知識網絡[3],它反映了現實世界中知識單元間的復雜關系,通過運用網絡分析的方法,找出社會知識系統中的一些特征。例如:度比較大的節點代表知識元素的核心,標簽網絡中的度分布代表社會知識體系中的宏觀主題結構等。此外,通過探索標簽網絡的動態演化機制,也可以進一步發現知識網絡生成和演進的規律。
復雜網絡的無標度特性,即冪律分布主導著復雜網絡,而非度分布的特定平均指標。以往的研究大多使用抽樣數據來驗證靜態標簽網絡的無標度特性,證明了高頻標簽相對較少,而低頻標簽則相反。文獻[4]從2004 年-2007 年間用戶在Flikr 平臺發布的照片中隨機抽取了5 200 萬張包含了至少一個標簽的照片[2],證明標簽頻率分布和每張照片的標簽數量分布都遵循冪律分布。另外一項研究隨機選擇了20 萬個問題,發現大約50%的問題包含3 個或數量更多的標簽[4]。文獻[5]對《美國國家科學院院刊》關鍵詞的統計特性和進化性質進行了頻率分布、時間縮放行為和衰減因子分析等經驗研究,研究顯示1991-2006 年間所有關鍵詞出現的頻率近似遵循Zipf 定律,指數為0.86。文獻[6]從知乎和Quora 社區隨機抽取了100 萬個問題,觀察到問題標簽遵循重尾Zipf 分布,其中98%以上的標簽(Quora=99.02%,Zhihu=98.43%)出現次數不超過500 次。同時,許多研究采用復雜網絡動態建模的方法研究社會標簽規模的增長規律。其中,文獻[7]在del.icio.us(美味書簽)上研究了用戶對圖書的標注行為,發現在平臺的早期,用戶的標注行為在一定程度上呈現出隨機性。然而,隨著時間的推移,標簽規模的分布服從Zipf 定律,基于用戶標注行為相互模仿機制的模型能很好地解釋標簽的分布特征。文獻[8]以del.ico.us 和BibSonomy 作為數據源,進一步發現標簽增長符合Heaps 定律。即隨著新標簽的增加,系統中不同標簽的數量呈指數增長。文獻[9]發現已有用戶的背景知識可以解釋標簽增長的Heaps 定律。事實上,Zipf 定律和Heaps 定律并不獨立,這兩個定律經常同時出現。文獻[10]對Zipf 定律和Heaps 定律之間的關系進行了清晰描述,即Heaps 定律是Zipf 定律的衍生現象。這類研究探索了網絡動態演化過程,但主要關注的是標簽網絡的增長規律。
綜上所述,現有的標簽網絡研究還存在兩個不足之處:一是大部分的研究使用了抽樣數據,而在實際的社會系統和網絡中,社會標簽的分類具有復雜、隨機、數據量巨大等特點,采樣數據可能存在樣本代表性的問題;二是靜態網絡只能表示數據采集時間節點時的網絡的最終狀態,不能反映標簽網絡的動態演化過程。而文獻[11]提出無標度網絡的冪律特性可以由以下兩種機制產生:其一為增長,即實際的網絡并不是靜態的、不變的,而是通過不斷地加入新的節點進行增長;其二為優先連接,即在添加新節點時,與舊節點的連接不是隨機的,而是一個存在優先選擇的過程;從而提出了Barbési-Albert 模型(BA 模型)。基于這兩種機制,BA 模型可以模擬無標度網絡的動態演化,因此被廣泛應用于互聯網、科學引文網絡、短信通信網絡、演員合作網絡等。自其被提出以來,研究者們陸續在BA 模型基礎上提出了許多變種模型,主要是通過增加新影響因素來擬合復雜網絡的生成結構和統計特征,其中文獻[12]提出可以調整優先鏈接中節點被選中的概率來控制網絡結構;文獻[13]則從增加重連功能入手討論網絡變化;文獻[14]提出可增加節點老化特性來模擬節點隨著“年齡”增長而競爭力下降的情形,此外還有學者增加了復制特性來描述引文網絡中多重引用的情形[15]。
上述基于BA 模型的眾多衍生研究都表明,BA網絡作為一個基礎普適性模型意義重大且影響深遠,但在描述現實生活中一些具體網絡時卻不能較好地適配,知乎中的知識標簽網絡就是一個典型例子,它是一種用戶生成的社會化知識標簽網絡,統計分析結果表明它存在無標度特性,且其在動態演化過程中也有增長和優先連接機制。因此,本文利用BA 模型模擬了標簽網絡的形成過程。然而,基礎BA 模型只反映了復雜網絡演化的最基本特征。本文根據知乎平臺標簽網絡演化的特點對模型進行了以下改進:首先,新標簽是以用戶提出問題的形式生成的,一個問題可以由多個新標簽標記,即一次可以在網絡中涉及多個標記節點,其中新標記的數量并不一定是一個。其次,在生成連邊的過程中,多個標簽之間都會產生連邊,而不是像傳統的BA模型,只在新節點和舊節點之間產生連邊。即知乎上問題的產生將改變網絡中舊標簽的連接狀態。因此,本文研究主要涉及兩個方面:首先,以知乎平臺的數據為基礎,驗證標簽數量的分布特征。然后,通過2011-2018 年共計9 年間年的數據,探索標簽網絡的動態演化機制,由此探究社會化知識網絡的演化規律。
在知乎平臺上,每個問題都可用多個標簽進行標記。由問題標簽數據定義的標簽網絡反映了標簽間連接關系,節點代表標簽,節點間邊代表標簽共現關聯,即兩個標簽同時標記某一問題其間會有連邊。為了獲得標簽網絡的拓撲特征和時間演化規律,本文使用了完整的知乎數據集,包含問題創建時間和標簽,涵蓋了2011-2018 年的問題。經過清洗,一共有來自2 034 404 個問題的76 379 個不同標簽。圖1 繪制了2011-2018 年問題的累計數量和不同標簽累計數量的曲線,研究了數據集的拓撲特征和動態演化趨勢,找出了數據的分布特征和演化特征,為建立合理模型提供統計支持。對知乎標簽被使用次數與排名之間關系進行分析,未呈現冪律關系,故不符合Zif 定律,如圖2 所示。再探索不同標簽的數量與累積標簽使用數間的關系,基本呈現冪律關系,符合Heaps 定律如圖3 所示。

圖2 知乎標簽被使用次數與排名的的概率分布密度曲線圖

圖3 知乎不同標簽的數量與累積標簽使用數的概率分布密度曲線圖
度分布是圖理論和網絡科學中的一個重要概念[16],反映了網絡的結構特點。網絡度分布p( k)一般定義為網絡中度為k的節點占比。在隨機網絡中,因其節點之間隨機連邊,度分布呈現泊松分布。無標度網絡是復雜網絡中另一種重要類型,其典型特點是網絡中大多數節點僅有極少邊,而少數節點具有大量邊,度分布為冪律分布,許多真實世界網絡屬于此類,如互聯網、金融系統網絡及社交網絡等。經典的BA 模型用來解釋復雜網絡的無標度特性。文獻[17]在對引文網絡的度分布進行研究時指出PR 的引文網絡的度分布呈現對數正態分布。而在知乎標簽網絡中出現了度分布從冪律分布到對數正態分布的演化,冪律分布是具有如下形式的概率分布,

盡管冪律分布很常見,但其檢測和描述仍是一個復雜問題,因其分布的尾部通常是波動的。常用冪律分布數據分析方法,如最小二乘擬合,可能會產生明顯的估計參數不準確的問題。本文使用python 工具包powerlaw 來解決此問題,它基于文獻[18-19]為了對復雜網絡的度分布進行分析和擬合而提出的冪律分布分析方法構建。在powerlaw中,可以使用distribution_compare 工具比較不同分布擬合數據的效果,返回值代表了不同的候選分布之間的對數似然比,如果返回值是整數,代表更加符合第一種分布,負數代表更加符合第二種分布。當使用這種方法法對比對數正態分布和stretched exponential 的擬合效果時,返回值是7.435 918 718 516 159 5,代表對數正態分布的擬合效果更好。構建一個全體數據的標簽網絡如圖4所示。藍色星形標記代表度分布數據,不同顏色實線代表多種擬合方法結果,標簽網絡的度分布(藍色星形曲線)明顯偏離了冪律分布而更加接近對數正態分布[20]。

圖4 2011-2018 年數據構建的標簽網絡的度分布和擬合結果圖
為了探究此現象成因,將數據按照時間以年為單位切片獲得8 個子網絡,計算其網絡參數,可得子網切片的度分布特征。比較不同切片間度分布的差別,觀察標簽網絡演化和發展的動態過程,為后續分析標簽網絡的度分布與冪律分布的偏差提供線索。
對2011-2018 年各年標簽網絡度分布進行分析和擬合,如圖5 所示,黑色點代表度分布數據,黑色實線代表冪律分布擬合結果,紅色實線代表對數正態分布擬合結果,前5 年更接近冪律分布,后3 年逐漸偏離更接近對數正態分布。綜上,在用真實知乎數據構建的標簽網絡中,總體網絡的度分布服從對數正態分布,對子網而言網絡度分布從冪律分布到對數正態分布的演變趨勢。

圖5 2011-2018 年年度標簽網絡的度分布與擬合結果圖
用冪律分布對8 個年份的子網進行擬合,可以觀察到冪律分布的指數變化,如圖6a 所示。可以發現知乎標簽網絡的度分布的冪指數明顯小于BA模型所給出的冪指數3,同時可以發現每年的指數總體呈下降趨勢,在powerlaw 工具中,當使用冪律分布對結果進行擬合時,會同時給出冪律分布的擬合指數及標準差sigma,當對8 年的度分布數據使用冪律分布擬合時,標準差結果如表1 所示。

圖6 2011-2018 年8 個子網絡的冪律分布的指數和全局集聚系數的變化圖

表1 2011-2018 年冪律分布擬合指數的標準差
這說明度值極大的節點的占比逐漸增加,知乎標簽網絡中度分布的異化情況逐漸減弱,度值的分布相較以往逐漸呈現一定的平均化趨勢。
網絡中,節點i 和j 的相互通信能力取決于其最短路徑,所有節點之間最短路徑的最大值定義為網絡直徑,在一定程度上反映網絡連通性。由計算得2011-2018 年的8 個子標簽網絡直徑,如表2 所示知乎標簽網絡中標簽間距離相對較近,盡管隨網絡規模逐年擴增,其直徑依舊基本穩定在8 左右,說明標簽間距離并未隨網絡規模增加而顯著增加,也從側面說明了網絡節點間連邊較為密集。

表2 2011-2018 年的8 個子標簽網絡直徑
表2 給出的每年的網絡直徑,對每年計算了一個最短路徑等于直徑的通路,結果表3 所示。2016年開始,因為網絡規模極度增大,計算兩兩節點對之間的路徑算法復雜度很高,計算一個實例需要數十天,因此只計算了2011-2015 年的實例。

表3 tag 鏈條示例表
集聚系數常用來描述節點間聚集程度[21],也可以用于描述節點與鄰居的互連程度,可分為全局集聚系數和局部集聚系數兩種,前者可評價全網聚集程度,后者可度量每個節點局部聚集程度,如圖6b所示,集聚系數較大代表了網絡中節點較為密集,其下降代表明隨時間推移和網絡規模漸增,網絡逐漸變得稀疏。知乎標簽網絡全局聚集系數呈逐年穩步下降趨勢。
BA 模型基于增長過程和優先連接機制兩個假設,其構建過程為1)增長:從一個初始網絡G 開始,一次增加一個新節點;2)連接:每個新節點都會連接到 m個 舊節點上;3)優先連接: m個舊節點的選擇標準是度大優先,即一個已有節點i的度是di,則新節點選擇它的概率是:

BA 模型給出了無標度網絡生成機制簡潔且合理的解釋,已被成功應用于許多種實際網絡,但卻只能生成度分布冪指數為3 的網絡,故對知乎標簽網絡而言并不適用。這是因為二者生成機制不相符,且BA 模型難以解釋知乎標簽網絡度分布指數取值以及從冪律分布到對數正態分布的演化。觀察知乎標簽網絡生成過程及參數分布發現:1)每個問題都被一組標簽標記;2)在一組標簽中,新節點數量并不總是1;3)標記了同一個問題的一組標簽之間會產生連邊。
因此,基于BA 模型結合知乎標簽網絡特點,本文提出了知乎標簽網絡生成模型。相比前者,新模型主要做出了以下調整:1)批量增長(batch growing):網絡生成過程依賴新節點加入,但每次并非單一新節點加入而是有一組節點參與連接,總數為 m,其中新節點占比為p,故調整后新節點增量為mp,舊節點數量是m(1-p)。2)交叉連接(cross linking):所有 m個節點之間均可能產生連接,即新節點和新節點間、新節點和舊節點間、舊節點和舊節點間均可能產生連接,已有節點間連接關系可能發生改變。對比BA 模型新生邊必在新和舊節點間,即邊增長只發生于新和舊節點間。3)優先連接:舊節點的選擇準則依舊和BA 模型保持一致,度越大的舊節點具有越高優先度。基于上述改進,將新模型命名為“標簽網絡優先連接模型”。對比知乎標簽網絡生成過程,從定性角度看,不難發現標簽網絡有限連接模型與標簽批量標記和節點批量新增的機制更加吻合,也更能貼近真實地反映知乎標簽網絡的生成過程。
如前所述,BA 模型生成的無標度網絡與知乎標簽網絡的度分布有所差異:1)冪指數不同,前者恒定為3,后者明顯小于3 且出現了減小趨勢;2)度分布的分布類型發生了變化,后者在后期逐漸呈現了偏離冪律分布的對數正態分布。故為保證標簽網絡有限連接模式的有效性,它必須能生成度分布滿足冪律分布且冪指數可以發生變化的無標度網絡,也必須能生成度分布符合對數正態分布的復雜網絡。
為了驗證模型有效性,通過仿真來研究模型的特點。對于新模型,如果固定 m和p,可以生成一個符合冪律分布的網絡,如圖7,使用不同的p 值產生的網絡的度分布和使用冪律分布擬合的結果。藍色圓形數據點代表度分布數據,橙色實線代表使用冪律分布擬合的結果。而且冪律分布的指數可以通過p 進行調整,如圖8a 所示。此外,如果在網絡生成過程中,新節點的比例p 逐漸減小,可以得到一個符合對數正態分布的網絡,如圖8b 所示。這兩個仿真結果表明,本文提出的模型確實可以滿足知乎標簽網絡的度分布特點。圖8a 為圖7 中冪律分布的指數的變化,圖8b 通過在仿真過程中逐漸減小p 值得到的網絡的度分布以及使用對數正態分布擬合的結果,其中的藍色圓形數據點代表度分布數據,橙色實線代表使用對數正態分布擬合的結果。


圖7 度分布數據和使用冪律分布擬合

圖8 對數正態分布的網絡圖
為了進一步驗證提出的新生成模型適用于知乎標簽網絡,需要新模型能夠根據知乎標簽網絡的參數,生成仿真的復雜網絡。如果仿真的復雜網絡的度分布與知乎標簽網絡的度分布一致,說明本文提出的模型符合知乎標簽網絡的特點,是有效的。
因此,本文使用從真實數據中提取的 m和 p 值進行仿真,對比真實網絡的度分布和仿真網絡的度分布,結果如圖9,可以發現仿真網絡的度分布與真實網絡的度分布吻合較好。

圖9 度分布數據圖
使用從真實網絡中提取的p 值和 m值,對比通過仿真生成的網絡的度分布和真實網絡的度分布如圖9a~圖9h,圖中的紅色數據點代表真實網絡的度分布數據,黑色數據點代表仿真網絡的度分布數據。知乎標簽網絡的度分布從冪律分布逐漸向對數正態分布進行演化,在此過程中冪律分布的冪指數也逐步下降。度分布呈現冪律分布代表了網絡的度分布呈現一種異化的分布類型,即大多數節點的度都很小,而極少量的節點具有很大的值。冪指數越大,度值較大的節點的占比越小,度分布的異化越明顯。知乎標簽網絡的冪指數的下降以及從冪律分布到對數正態分布的演化都表明,知乎標簽網絡的度分布在晚期相較早期有一定的均勻化趨勢,度分布的異化程度逐漸降低。從知識演化的角度來看,這種變化也在一定程度上反映了社會群體對于知識點的關注從早期的集中化開始逐漸呈現了一定的平均化,也反映了隨著時間的發展社會群體的興趣逐漸呈現一定的多樣化趨勢。
通過圖中真實網絡的度分布與仿真網絡的度分布的對比,也可以看出根據模型仿真得到的結果十分貼近真實結果,說明了模型中提出的全連接和可變化的新節點比例的假設是有效的。綜上所述,該模型從定性和定量的角度都更加接近真實數據,可以解釋知乎標簽網絡的度分布以及演化規律。
本文基于2011-2018 年知乎2 034 404 條問答記錄的實證數據,深入分析了其標簽網絡生成特點和統計規律,總結出了知乎標簽網絡“批量增長”和“交叉連接”特性,并對經典BA 模型假設進行了符合上述特點的修改適配,提出了一種新的標簽網絡優先連接模型,能夠有效地解釋知乎標簽網絡的度分布規律和動態生成機制。
通過仿真模型和實證數據對比發現,知乎標簽網絡度分布從早期冪律分布逐漸趨于對數正態分布,因此經典BA 模型難以解釋此演化過程,且其度分布冪指數也明顯小于恒為3 的BA 模型冪指數,但本文提出的標簽網絡優先連接模型卻能很好地描述知乎標簽網絡的動態生成過程。該模型可以充分利用現有網絡節點和新舊節點間相互關系,實現批量交叉連接,能夠很好地擬合知乎標簽網絡的靜態結構參數及動態演化機制,這也表明其生成機制確實受到“批量增長”及“交叉連接”這兩個特性的控制,且其知識標簽的連接確實是不同類型節點間交叉組合連接兩兩互相連接,而非只有新舊節點間簡單隨機連接。該模型揭示了標簽網絡生成機制,還原了標簽網絡生成過程,實現了調節參數來生成其演化過程中不同冪指數的冪律分布以及對數正態分布,它也適用于其他多種生成過程與標簽網絡類似的共現網絡,如:引文網絡和科學家合作網絡[22]等。
知乎標簽網絡作為一種知識網絡,它可以代表社會群體對于知識的關注,知乎標簽網絡的度分布冪指數的減小以及從冪律分布到對數正態分布的演化在一定程度上可以代表人們對于知識的關注點從原本的集中化逐漸變得分散和多樣化。同時較小的網絡直徑和相對較大的集聚系數也代表著不同知識點和學科之間聯系比較緊密,在一定程度上體現了現在的學科融合和知識跨界的現象。對于這類知識網絡的研究可以幫助我們理解知識網絡的形成,為進一步研究社會知識的生成,知識結構的構成、演化與變遷[23],社會關注點的變化,乃至輿情監控[24]奠定基礎。