摘要:目前,有許多理論被用來識別輿論領袖。一般使用節點的度數、緊密度、介數和不同領域的PageRank算法等中心化指標來識別出輿論領袖,這些方法雖然簡單,但是由于它們僅利用了節點自身的外部屬性,因而識別率并不高。為此,文章提出了一種輿論領袖識別模型IDMS。該模型不但考慮了節點的外部屬性,而且還綜合考慮了節點的內部屬性,如文本內容的相關度。最后通過實驗,驗證了該模型可以更準確地識別出輿論領袖。
關鍵詞:網絡社區;影響力發現;輿論領袖
一、引言
“輿論領袖”的概念是由美國哥倫比亞大學的傳播學者Lazarsfeld、Berelson和Gaudet在1940年政治選舉研究中提出的。輿論領袖會表達他們有影響力的評論或觀點,提出指導意見,鼓勵和指導大眾去理解社會問題,因此輿論領袖的識別是非常重要而且是很有意義的。
基于在線網絡社區的網絡交往特征,人際互動關系已成為國內外學者的研究熱點,但是關于在線網絡社區中參與者重要性方面的研究并不多見,特別是針對在線網絡社區中輿論領袖的識別研究非常匱乏。社區參與者重要性評估、輿論領導者發現及其相關技術目前仍然處在起步階段,為此本文針對在線網絡社區中輿論領袖的識別問題進行研究。
首先,本文研究的網絡輿論領袖是指那些通過在新興媒體發表帖子(文本)或者回復其他網絡用戶發表的帖子這種基于文本的交流方式。將自己的見解、觀點傳遞給其他網絡用戶,引起他們內心的共鳴,進而影響、改變他們的觀點、思想和決策的網絡用戶。
其次,通過研究發現,很多的研究者在研究輿論領袖的識別方法方面存在一些不足:現有的研究工作側重于分析網絡用戶間的外部聯系,如發帖、回帖,忽略了內部聯系,如帖子的內容。
為此,本文提出了輿論領袖識別模型IDMS (Influence Diffusion Model Similarity),改進了影響力擴散模型IDM(In fluence Diffusion Model),增加了文本相似度的計算與分析。通過高頻關鍵詞識別出具有熱點話題的帖子,然后再通過熱帖識別出影響力大的網絡用戶,也就是從海量的具有回復關系的帖子中找出那些具有重要影響力的網絡用戶。只有影響力大的網絡用戶才是真正的輿論領袖。
二、輿論領袖識別模型
(一)基本思想
假設C={C1,C2,…,Cn}是一個帖子的集合,同時Ci(1≤i≤n)是指任意的一個帖子,同時本文給出了以下的定義。
定義1:外部聯系和內部聯系。對于任意的Ci和cj(1≤i,j≤n),假設Ci的發布時間早于Ci,如果Ci是Ci的回復,那么Cj和Ci就有外部聯系。如果它們沒有關系,但是ci和Cj之間有語義上的相似性(相同或不同)那么Cj和Ci之間就有內部聯系。
定義2:帖子網絡。對于任意的帖子會形成兩種網絡,內部聯系的網絡和外部聯系的網絡。
基于帖子內容和信息傳播結構的影響力計算模型多是從詞頻角度著手。
假設1:在BBS交流環境下。發帖和回復是BBS成員之間最直接的交互方式,人們通過發回帖來表達觀點和意見,可以認為論壇對話鏈體現影響力的傳遞結構,即論壇成員通過交互關系傳遞影響力。
假設2:論壇成員通過發帖表達觀點和看法,帖子的基本組成單位是詞語,可以認為論壇交流通過詞語來表達和傳播。
通過挖掘蘊含在網絡文本內容和回復結構中的規律來測量論壇參與者的活動,并假設論壇影響力最高的用戶就是論壇輿論領袖。這里分為兩種情況:一是在基于文本的論壇交流環境中,人們通過發帖、回帖表達自己的觀點,因此論壇回復鏈體現影響力的傳遞結構:二是詞語是組成帖子內容的基本單位,在基于文本的論壇交流環境中,交流通過詞語來表達和傳播。帖子影響力定義為帖子包含的詞語集合在回復鏈傳播的程度,采用回復關系的上下游帖子的詞語交集數與下游帖子詞語數之比來進行計算。帖子回復鏈結構表示了個體之間的關系,一個個體的影響力就是他提交的所有帖子的影響力的總和。因此,通過帖子的影響力計算就可以找到最有影響力的個體,也就是輿論領袖。
(二)影響力計算
帖子內容的主題相關性可以通過向量空間模型來計算。根據當前帖子和它回復帖子之間的主題相關度來分配影響力,計算的方法是對這些有回復鏈接關系的帖子的主題內容進行分析。
具體過程如下:兩個主題型帖子內容的相關性是根據兩個帖子出現的相似關鍵詞和高頻關鍵詞的次數總和進行計算的。計算帖子A和帖子B內容的主題相似度算法計算步驟如下。