一種鑒別博客空間意見領袖的算法研究

2012-09-11 10:17:02宋昭君黃東旭

微處理機 2012年6期

宋昭君，戴航，黃東旭

(西北工業大學自動化學院，西安 710072)

1 引言

博客是人們思想和觀點傳播的重要途徑。博客空間的意見領袖鑒別可以發掘出網絡中的主導觀念，跟蹤網絡輿情的走勢。近幾年來，博客空間意見領袖鑒別已成為網絡輿情中的熱點研究領域。

國內外在博客意見領袖鑒別上做了很多研究，但都具有一定的局限性。Nakajima［1］采用普通網頁的分析方法，從鏈接關系入手，但是該算法忽略了博客的鏈接較普通網頁稀疏的特點。鑒于此種缺陷，Adar［2］研究了博客空間的顯式鏈接結構以及隱式信息傳播途徑，增加了鏈接的密度。Ko Fujimura［3］提出的EigenRumor算法通過分析博文的鏈接并結合博主的信譽度，一同來鑒別意見領袖。Apostolos［3］從鏈接關系以及博文間的共同屬性提出Blogrank算法來研究重要的博客。但是上述研究策略并沒有考慮到博文的內容。Song.X［5］提出的InfluenceRank算法從博主是否為網絡提供新穎信息方面入手來鑒別意見領袖。最近幾年國內外對于博客空間意見領袖的研究主要集中在博文的鏈接關系上，對于博文的內容考慮不足。

因此綜合博文的內鏈接數，外鏈接數，評論數和文章長度，基于這四個屬性，提出了OLRank算法。實驗結果表明，與傳統的基于鏈接分析的算法比較，該算法在評估標準全路徑覆蓋率和話題多樣性下表現良好，可以更好的實現博客空間意見領袖的鑒別。

2 博客空間影響屬性分析

2.1 博客空間結構

博客在短短幾年的時間內發展成為繼E－mail，BBS，ICQ之后出現的第四種新型網絡交流方式。典型的博客站點，由許多按照時間倒序排列的條目(Entry)組成，如圖1所示。典型條目包括了文本、圖片，與別的博客站點或是網頁的鏈接，以及其他媒體指向該博客的鏈接［6］。博客空間(Blogosphere)是包括了許多博客站點的虛擬區。一般認為，活躍在人際傳播網絡中，經常為他人提供信息觀點或建議并對他人施加個人影響的人物，可以稱為意見領袖(opinion leader)［7］。意見領袖是網絡團體中最具信息力，最有影響力的節點，鑒別意見領袖可以了解網絡中的主導觀點，分析博客空間的輿情走勢。

圖1 典型的博客站點

2.2 博主的屬性分析

成為意見領袖的博主必然具備若干特點，例如擁有許多的跟隨者，發表的博文非常具有創新性、有說服性，博文評論也比較多。因此，先從博主具有的屬性入手，然后衡量博主的每篇博文的影響力得分，最后通過博文的影響力得分排名來找出意見領袖。

歸納的博主屬性有如下四點:

(1)認可度:即博主被別人承認的程度。認可度越高，就越有可能成為意見領袖，對他所在群體的影響力度就會越大。這里用博文的內連接數(inlinks)來衡量。內鏈接數是博主的文章被他人引用的數目，被引用的數目越多，也就認為該博主的認可度越高。

(2)創新度:就是博主文章的新穎程度。創新度越高，就認為該博主從其他博客，媒體獲取的信息越少，自主創新的程度就越好。這里用博文的外鏈接數(out－links)來衡量。外鏈接數是該博主引用他人文章的鏈接數目，外鏈接數越多，就認為該博主的創新度越低。

(3)活躍度:就是博主在博客空間中積極的程度。可以間接用博文獲得的評論數(comments)來衡量。換言之，如果一個博主發布的博文沒有評論或評論很少，也反映出他的話題有很少的追隨者。因此，大量的評論數反映出博主的文章影響了許多人，人們也有興趣針對該博文寫評論。

(4)說服度:意見領袖必須要有說服力。考慮意見領袖的說服力，可以從一篇博文傳遞的信息多少來衡量。文章的長度往往可測，且能夠在一定程度上反映一篇文章傳遞信息的多少和文章質量的好壞。因此用博文長度來衡量博文的質量度。

由以上可以看出，博主的四個屬性，可以用每篇博文的內鏈接數、外鏈接數、評論數、文章長度來衡量，分別用字母α、β、γ、σ來表示。

2.3 博主屬性量化修正

2.2 節中提出用博文獲得的評論數來衡量博主的活躍度。獲得的評論數越多，說明他對別人就越具有影響力，成為意見領袖的可能性也就越大。然而評論中存在不少垃圾評論。博客垃圾評論［8］的種類很多。文中主要涉及的垃圾評論是指重復評論，即一個博主的一篇博文可能會被同一個評論者進行多次評論且評論內容相同。可以借鑒文獻［9］的處理方法:如果發現來自同一個用戶對博主的同一篇博文評論內容相同，就將該用戶在同一篇博文中相同的評論條數降為1。

3 博客空間意見領袖排名算法(OLRank)

博客空間中的意見領袖是在所研究的博客空間中，最具影響力的前K名博主。設博主bx有L篇博文{P1，P2，...，PL}，假設這 L 篇博文都有一個影響力得分I(Pl)(1≤l≤L)。博主bx的影響力指數記做In(bx)，wl是博主bx每篇博文的權重值，In(bx)通過計算博文的影響力得分得到。研究對象擴大為一個包括 M 個博主{b1，b2，...，bM}的集合 U。集合Vj是集合U的第j個按博主影響力指數排序的子集，即 Vj?U。Vj包括 K 個博主{bj1，bj2，...，bjK}其中 K≤M，如按照影響力指數從大到小排序為In(bj1)≥In(bj2)≥...≥In(bjk)。對于集合U中的Vj集合外的任何一個博主by，只要滿足In(by)≥In(bjk)就可以歸為新的意見領袖集合中。因此鑒別Top－K名意見領袖，就是找出包含最具有影響力的子集Vj。根據2.2節中對于博主屬性的分析，可以得到博主影響力算法流程圖如圖2所示。

(1)博主的認可度與創新度

直觀起見，可以將研究的博客空間作為一個復雜網絡空間(network)，包含有許多個節點，每個節點代表一個博主。因此，鑒別意見領袖也就是鑒別網絡空間中的重要節點。由2.2節可知，節點包含四個屬性α、β、γ、σ。用I(P)表示一個節點的影響力得分，Link(p)表示一個節點由內鏈接數和外連接數決定的最后得分，計算公式如下:

win，wout分別表示內鏈接數和外連接數的權重值，取值范圍介于［0，1］。|α|，|β|分別代表內鏈接總數和外連接總數。從公式(1)可以很容易看出，一篇博文得到的內鏈接數越多，該博文的認可度越高。外連接數越少，該博文的新穎度越高，影響越廣泛。

圖2 OLRank算法流程圖

(2)博主的活躍度

考慮文章的評論數γ，博文P的影響力得分與該博文得到的評論數，最后的鏈接數得分成正比。即:

γsp垃圾評論數，wcom表示博文評論數γp提升博文P影響力得分的權重值，wcom∈［0，1］。

(3)博主的說服力

由2.2中，將博文質量作為博文影響力得分的因素之一，而博文質量好壞與傳遞信息的多少有關，我們采用博文長度σ來衡量這一因素。其中w(σ)是與博文長度有關的一個函數，用文本分析工具進行分析，計算博文影響力得分的公式如下:

(4)博主的影響力指數

以上三個公式給出了計算博文影響力得分的方法。鑒別意見領袖的方法，就是看博客空間中博主的影響力指數In(bx)，它的計算公式如下:

其中bx表示研究的博主，I(Pl)(1≤l≤L)表示博主bx的第l篇博文，wl是博主bx每篇博客的權重值表示所有博文權重值的絕對值之和，μ代表阻尼因子，一般情況下取0.85。有了影響力指數后，就可以在一個博客網站上進行博主排序，選出前K名意見領袖。

4 數據收集及仿真結果分析

4.1 實驗環境和實驗數據

采用新浪博客(http://blog.sina.com.cn)作為實驗的博客空間。實驗平臺為:操作系統，Microsoft Windows Vista Home Basic，CPU 2.80GHz，內存(RAM)2.00GB。采集工具為一款小巧方便的數據采集器“網絡神采”。數據采集的時間段為2011年11月10日到2011年12月10日，在此時間窗口內，共采集種子博主418位，博文6016篇，關鍵詞779個，評論數97859條，去除垃圾評論得到過濾后的數據為評論數83562條，內連接數為3742，外連接數為1044。

4.2 評估標準

為了評估第3節的意見領袖排名算法(Opinion Leader Rank algorithm)簡稱為OLRank算法的有效性，使用兩種評估標準。

(1)全路徑覆蓋率:網絡空間中，有影響力的節點直接或間接影響其他節點覆蓋范圍的比率［5］。應用到博客空間即為:博主直接或間接的被其他博主鏈接的數目與收集的博客集中所有鏈接的比率。計算公式如下:

集合M表示所研究的所有博主，Link(Pi)計算公式參照公式(1)。

(2)話題多樣性:給出每篇博文的關鍵詞，然后比較這些關鍵詞兩兩之間的相似度，如果相似度小，就認為話題比較多樣。給出關鍵詞 ti(i=1，2，3...，n)計算公式如下:

4.3 結果及分析

在確定的時間窗口內由OLRank算法得出Top－5的意見領袖，如表1所示。

表1 OLRank算法得到的Top－5

由OLRank算法得到的Top－5與新浪博客用流量得出的Top－5對比，可以看出兩種方法得到的Top－5排名順序基本相同，如表2所示。

選擇常用來計算網頁重要性的PageRank［10］算法(簡記為 PR)、HITS［11］算法、從采集的種子博主中隨機抽取K個博主的方法(簡記為RS)，這三種算法和本文的OLRank算法進行對比研究。四種算法在全路徑覆蓋率評估標準下對比結果如圖3所示。

表2 OLRank與流量得到的Top－5對比

圖3 四種算法全路徑覆蓋率對比

可以看出在全路徑覆蓋率這個指標下，PR算法和OLRank算法表現最好，但從Top6開始，OLRank較PR算法表現得更好。說明了PR算法適合于利用超鏈接計算Web頁面權重，而博客站點不同于Web頁面的是它不僅依賴于博客間的鏈接關系，還與博客的內容緊密相關。

四種不同算法得到的意見領袖在談論話題多樣性指標下的比較結果如圖4所示。

圖4 意見領袖話題多樣性比較

可以看出OLRank算法用于K＜15時對鑒別意見領袖話題多樣性很有效。隨著Top－K的增大，OLRank，PR，HITS三種算法話題多樣性指數相差不大。

5 結束語

從博客空間中博主具有的屬性出發，通過分析博文的內鏈接數、外鏈接數、評論數、文章長度來衡量一篇博文的影響力得分。然后在此基礎上提出OLRank算法來鑒別博客空間的意見領袖。從仿真結果也可以看出，該算法在評估標準全路徑覆蓋率和話題多樣性中相比傳統的基于鏈接分析的算法表現良好。最后在實驗仿真時，對權重采用的是相同的值，沒有考慮到這四個參數權重值不一樣的情況。因此在后續工作中，研究選取不同權重值來衡量這四個參數對博文影響力得分，將是下一步工作的重點。

［1］Nakajima S，Tatemura J，Hino Y，Hara Y，Tanaka K.Discovering Important Bloggers based on Analyzing Weblog Threads［J］.2nd Annual Workshop on the Weblogging Ecosystem:Aggregation，Analysis and Dynamics，2005:604－608.

［2］E Adar，L Zang.Implicit structure and Dynamic of Blogspace［J］.workshop on the weblogging Ecosystem:Aggregation，Analysisand Dynamic，2004，16989 －16995.

［3］Fujimura Ko，Inove T，Sugisaki M.The EigenRumor algorithm for ranking blogs［J］.In:Adar E，Glance N，Hurst M，eds.Proc.of the world wide web 2005 workshop on the weblogging Ecosystem:Aggregation，Analysis and Dynamic，2005，619 －622.

［4］Apostolos Kritikopoulos，Martha Sideri and Iraklis Varlami.Blogrank:ranking weblogs based on connectivity and similarity features［J］.In AAA － IDEA06:Proceedings of the 2nd International workshop on Advanced architectures and algorithms for internet delivery and applications，New York ACMPress，2006:467 － 474.

［5］Song X，Chi Y，Hino and Tseng B.Identifying opinion leaders in the blogosphere［J］.In proceedings of CIKM，2007:971－974.

［6］T Nanno，Y Suzuki，T Fujuki and Mokumura.Automatic collection and Monitoring of Japanese weblog［J］.www 2004workshop on the weblogging Ecosystem:Aggregation，Analysis and Dynamic，New York，2004:191－193.

［7］Cohen E，Krishnamurthy B.A short walk in the Blogistan［J］.Computer Networks，2006，50(5):615 －630.

［8］Abu－Nimeh S，Chen T.Proliferation and Detection of blog spam［J］.Security＆Privacy，2007:42 － 47.

［9］Zhai，Z.W，Hua X.Identifying opinion leaders In BBS［J］.IEEE Proceeding of Intelligenceant Intelligent Agent Technology，2008:398 －401.

［10］馮振明.Google核心—PageRank算法探討［J］.計算機技術與發展，2006(2):88－90.

［11］Nomura S，Oyama S，Hayamizu T，and Ishida T.Analysis and Improvement of HITS Algorithm for Detecting Web Communities［J］.The 2002 International Symposium on Applications and the Internet，2002:132 －140.

微處理機2012年6期

微處理機的其它文章: Open CV在嵌入式系統中的移植研究; 基于AD9833的ZPW－2000R移頻測試信號研究*; 基于COM架構的芯片試驗設計與實現; 基于QEMU的嵌入式系統仿真環境的構建; 多DSP的以太網并行系統任務下載技術研究; 電力變壓器遠程負荷監控系統設計