李 勇
(解放軍信息工程大學,河南 鄭州 450000)
微博(Microblog)是一種新型的網絡傳媒,它通過140字符左右的文字、圖片和鏈接等信息形式,實現信息的分享。當前中國正處于社會轉型時期,雖然經濟持續發展,但社會矛盾日益凸顯。無論是新疆暴亂、昆明暴恐,還是南海仲裁、釣島爭端等,這些重大突發輿情無一不受到人民的強烈關注。通過分析微博網絡中用戶的影響力,實時掌握準確輿情、制定解決方案、積極引導社會輿論,維護社會和諧穩定。
《現代漢語詞典》對“影響力(Influence)”的定義為:“對別人的思想或行為起作用的能力”。學界對影響力的定義也不盡相同。劉耀庭[1](2008)認為用戶的影響力指的是改變他人思想和行為的能力,其可以通過傳播實現。Benevenutoy[2](2009)認為用戶影響力是用戶之間的相互作用力,這種作用力產生的效果越大,其影響力也就越大。
文中將“用戶影響力”定義為對別人的思想或行為產生作用甚至使之改變的能力,也就是指用戶在微博消息傳播過程中所發揮的重要作用。主要從微博用戶影響力的兩類因素開展研究,第一類是用戶關系[3],包括用戶之間的關注和粉絲關系,可以認為是它的靜態屬性;第二類是用戶行為[4],包括用戶的發布、轉發、評論、點贊、@提及等操作,可以認為是它的動態屬性。如果微博用戶發布的信息有足夠的吸引力,那么他的微博將會被更多的人評論和轉發,也就會影響更多的用戶,他的影響力就會更大,同時該用戶所發布的信息就會傳播得越快越遠。
PageRank算法是由Google公司的拉里·佩奇和謝爾蓋·布林提出并發表。Google使用PageRank算法進行網頁排名,標識頁面等級,繼而評價網站的質量高低。PageRank算法通過網頁的鏈入數量和鏈入質量來標志頁面,并對其進行了量化。網頁的重要性[5]采用PR值來表示,每個網頁的PR值不僅僅要考慮被鏈接網頁的數量,還要考慮鏈接到該網頁的網頁質量和重要性的影響,如圖1所示。
PR值為100的網頁A將PR值平均分配給了2個網頁B和C,每個網頁獲得50;網頁B獲得網頁A和C的PR值,所以PRB=90;網頁C獲得網頁A的PR和其他網頁的PR,所以PRC=80。

圖1 PageRank算法PR值分配圖
PageRank算法的PR值計算公式如下所示:
(1)
其中,PR(x)表示x的PR值,Y(x)表示鏈入x的網頁集合,PR(y)表示y的PR值,N(y)表示網頁y的鏈接數量,d是規范化因子。經過大量的實驗,Google認為一般取d=0.85[3]。通過以上公式可知:頁面的PageRank值是由所有鏈入它的頁面的重要性決定的,并經過算法迭代實現。
PageRank算法主要依靠歷史節點(例如舊網頁)來進行判斷,并且由于不同節點(網頁)的類型不同,所以還存在一些缺陷。例如:PageRank算法僅僅依靠網頁反向鏈接的數量來決定PR值,鏈接數量決定了頁面的排名,并沒有區分反向鏈接頁面的質量,顯然垃圾網頁和權威頁面是不同的;同時PageRank算法將網頁權值平均分配給它的鏈出網頁,沒有區分其鏈出網頁的不同,同樣影響了頁面的排名質量。因此在將該算法應用到微博用戶影響力計算的同時,需要對以下兩個問題[6]進行重點解決:
(1)解決用戶粉絲的“陳舊”問題。
如果“舊粉絲”微博更新不及時,內容陳舊,這些微博用戶的影響力可參考性不高;“新粉絲”更新微博及時,能夠增加所關注的用戶影響力。
(2)解決用戶關注度權重平均的問題。
由于社交網絡中節點之間存在差異性,不同的微博用戶對于其關注者的關注度之間也存在明顯的差異。
在微博用戶網絡中,每個用戶都有自己的關注列表與粉絲列表,其中關注列表表示該用戶關注了哪些人,粉絲列表表示有多少粉絲關注該用戶,并能夠通過微博超級鏈接進行訪問和瀏覽[7-9]。基于上述分析,文中提出了基于PageRank思想的微博用戶影響力排名算法(microblog user influence,MBUInfluence),其理論依據如下:
(1)每個微博用戶的關注數量類似于Web頁面中的出度,粉絲數量類似于Web頁面的入度,因此微博具有與Web頁面相似的網絡結構。
(2)用戶在社交網絡中的影響力的評價,主要考慮用戶之間的關注和粉絲關系,通過計算影響力值來對社交網絡中的用戶進行排名。因為涉及的參考因素少,所以效率和結果較好。
文中對PageRank算法進行了改進,MBUInfluence算法涉及到的因素包括以下兩個方面:
(1)用戶自身行為權重:指的是算法中通過分析用戶自身行為(包括用戶自身微博總數、粉絲總數、是否被認證、所發微博被評論數和被轉發數等方面)綜合得到的用戶影響力指標。
(2)粉絲影響力:指的是粉絲自身對所關注的微博用戶影響力產生的貢獻,粉絲自身作為微博用戶,其影響力可以由下級粉絲的影響力來貢獻和衡量。

在MBUInfluence算法中,用戶的影響力由用戶自身行為權重和粉絲影響力組成,前者主要考慮粉絲數量、評論數、轉發數和是否認證用戶等因素,全面衡量得到微博自身的行為權重。后者主要考慮用戶粉絲的影響力分配,粉絲的重視程度決定分配多少影響力權重給該用戶[10-11]。基于上述分析,定義用戶m的影響力值MBUInf計算公式如下:
MBUInf(m)=SelfInf(m)+(1-dm)+
(2)
其中,SelfInf(m)表示用戶m自身的行為權重,公式的剩余部分基于PageRank算法改進而來,MBUInf(n)表示用戶m的粉絲用戶n的影響力,n:(n,m)∈E表示n是m的粉絲之一,E表示m的粉絲集合。MBUInf算法模型中的參數描述如下:
(1)SelfInf(m):表示用戶m自身的行為權重,其可以由用戶的活躍度、用戶的積極度、用戶的傳播度三個指標來衡量[12],具體如圖2所示。

圖2 微博用戶的行為權重
圖中,SelfInf(m)表示用戶n的行為權重,同時考慮用戶的活躍度、積極度和傳播度等三方面的信息,得到用戶m的行為權重計算公式:
SelfInf(m)=aXm+bYm+cZm
(3)
將Xm、Ym、Zm根據定義得到:
(4)
其中,T表示一個時間段,Um表示用戶更新微博的數量,Fm表示用戶轉發微博的數量,Cm表示用戶評論微博的數量,Zm表示用戶點贊微博的數量,A表示用戶是否是認證用戶。通過Um解決了PageRank算法的問題1(微博更新不及時問題)。a,b,c,d,e,f表示加權系數,文中做如下設定:a=0.4,b=0.6,c=0.1,d=0.5,e=0.3,f=0.2,然后通過上述公式可以計算Wi。
(2)參數dm:dm表示用戶m的微博消息被粉絲轉發的平均概率,數學公式定義如下:
(5)

(3)影響力分配比例A(n,m)。
A(n,m)表示用戶n的MBUInf值分配給其關注者m的比例,通過分配比例的不同,解決了PageRank算法的問題2(關注度權重平均問題),A(n,m)的數學公式定義如下:
(6)

通過上面的三個公式可以看出,關注度W(n,m)的計算是一個關鍵,關注度表示用戶n對m的微博消息的關注程度,體現了用戶n和m之間的親密關系。文中的關注度定義由用戶轉發關注者的微博、評論關注者的微博以及點贊關注者的微博構成。具體如下所示:

(7)
用戶之間的關注度W(n,m)的影響因素包含用戶n對m所發微博的轉發數、評論數和點贊數,用戶自身的行為權重SelfInf(m)的影響因素包括所有粉絲(包括n)對m所發微博的轉發數、評論數和點贊數,因此關注度W(n,m)的加權系數p、q、r認為與SelfInf(m)的系數d、e、f相同,因此系數p=0.5,q=0.3,r=0.2。
某時刻用戶m影響力值MBUInf的具體算法如下所示:
算法1:MBUInf微博用戶影響力算法
輸入:用戶m的元數據系列信息
輸出:用戶m的影響力值
過程:(1)根據式(4),計算出用戶m的自身行為權重SelfInf(m)。
(2)根據式(7),計算出用戶m的所有粉絲(包括n)對其的關注度W(n,m)。
(3)根據式(5)和步驟(2)所得結果,計算當前時刻,用戶m所有粉絲轉發其微博信息的概率dm。
(4)初始化用戶的影響力,設置用戶MBUInf的初始值為1。
(5)根據式(6)和步驟(2)所得結果,計算當前時刻,用戶m的每個粉絲給其關注度的分配比例A(n,m)。
(6)根據式(2),計算用戶m新的MBUInf值,并作為下次迭代的初始MBUInf值。
(7)重復步驟(6),直到用戶的MBUInf值收斂就停止計算,收斂條件設置為兩次迭代的MBUInf值的差小于極小值ε。
(8)得到用戶m的影響力值MBUInf。
通過對MBUInfluence算法的設計,將用戶的影響力與用戶自身行為權重和用戶粉絲的影響力結合起來,其中后者的計算需要進行迭代,當粉絲的迭代結果趨于收斂時,將得到穩定的微博用戶影響力值。該算法以社交網絡理論為基礎,結合PageRank算法,既考慮微博用戶網絡特征,充分考慮了粉絲的影響力,又考慮微博用戶的屬性特征,以及微博轉發率、評論率、點贊率等特征,能夠更好地反映用戶的綜合影響力。
實驗主要完成用戶影響力算法的評價與分析。實驗數據來源于新浪微博,首先設置采集條件進行微博搜索,然后采集發布這些微博的用戶詳細信息,采集結果數據使用json格式進行存儲。該實驗用戶數據采集詳細條件如表1所示。

表1 微博用戶數據采集條件
本小節將對MBUInfluence算法通過實驗進行對比與分析,對比的對象是用戶影響力研究領域中常見的算法和排名方法,它們是:
(1)FansRank算法[15]:該算法主要通過比較微博用戶的粉絲數量,來衡量用戶在某時刻的影響力大小。特點直觀,因此大多數學者都將它作為重要的算法來進行對比。
(2)PageRank算法:經典的PageRank算法將微博用戶看作Web頁面,規范化因子d取Google的經驗值0.85,計算用戶在某個時刻的影響力。
(3)ForwardRank算法[16-17]:該算法主要通過用戶微博的總轉發量,來衡量微博用戶在該時刻的影響力,原因在于轉發數表示了其他用戶對于該用戶所發微博的認可。
(4)微博風云榜:微博風云榜是一家面向社交媒體平臺來做數據統計、監測和挖掘分析的網站,提供微博和微信賬號的影響力與價值排名服務。
根據3.1節所述,從用戶數據庫中隨機抽取10個用戶并按照粉絲數排名,計算2015年12月15日用戶的影響力值并進行對比。對比用戶的基本信息如表2所示。

表2 用戶基本信息
下面將MBUInfluence算法從不同的角度與其他排名方法進行對比。
(1)同FansRank和ForwardRank算法的對比。
微博的用戶影響力體現了用戶節點對其他節點能夠施加的影響,具體表現形式包括評論、轉發或關注。其中評論動作表示粉絲對用戶發布的信息認同或者否定,同用戶之間進行的互動;轉發動作表示粉絲對用戶發布的信息認可,并且希望與自己的粉絲分享這條消息,客觀上加速了信息的傳播;關注表示粉絲瀏覽用戶的信息后,希望跟蹤該用戶發布的全部消息,所以粉絲會將該用戶加入關注列表。例如,在微博平臺上,許多人對于明星、意見領袖、知名媒體或者興趣相同的人感興趣,他們就會加這些用戶為關注者,繼而及時得到他們的相關信息。
通過MBUInfluence算法將得到用戶的MBUInf值,該算法的排名結果與FansRank和ForwardRank算法的排名結果對比分析情況如表3所示。

表3 MBUInf排名同FansRank、ForwardRank排名對比
通過表3可以看到,MBUInf值的排名結果與ForwardRank值的排名結果基本相同,但是與FansRank值的排名結果具有顯著差異,說明用戶的影響力與微博轉發次數具有強聯系,而與用戶粉絲數具有弱聯系。在相同的時間段內,MBUInf排名僅有第5、6名的結果與ForwardRank存在差異,ID為5591596171的用戶其微博被轉發的次數低于用戶5051675817,但他的MBUInf排名比后者靠前,經過進一步分析得到,用戶5591596171的粉絲數量比用戶5051675817多了2萬多名。MBUInf算法在分配MBUInf值的過程中,用戶將從自己的粉絲處得到被分配的MBUInf值,如果粉絲數量存在差異,那么得到的MBUInf值也會存在差別,所以如果兩個用戶的粉絲數如果存在巨大懸殊,那么幾乎可以肯定粉絲數高的用戶其MBUInf值也必然大。由于用戶5591596171的粉絲數高于用戶5051675817,那么如果他發一條微博消息,將會被更多人看到,他的信息將傳播的更廣,他的影響力也就相對更大。
(2)同PageRank算法、微博風云榜排名方法的對比。
根據式(1),用戶的粉絲數表示入鏈,關注數表示出鏈,能夠計算表2用戶的PageRank數值,然后進行排名,并與MBUInf排名進行對比。從表4可以看出,MBUInf的排名結果與PageRank排名完全不同,說明MBUInf雖然是基于PageRank思想,但是其排名與PageRank排名并沒有太大的相關性。
同時MBUInf的排名結果與用戶的粉絲數排名也沒有必然聯系,說明MBUInf不完全依賴于粉絲數。MBUInf的排名同微博風云榜的排名基本相同(除部分風云榜無法提供查詢用戶的排名外),說明該排名方法基本反映了微博用戶的實際影響力,具體排名信息如表4所示。

表4 MBUInf排名同PageRank排名對比
(3)不同時刻的MBUInf值對比。
MBUInfluence算法增加了時間因素,為了驗證不同時刻粉絲因素的影響,分別選取一個月前后用戶的MBUInf值進行對比,設定t1為2015年12月15日,t2為2015年11月15日。實驗結果如表5所示:

表5 不同時刻的MBUInf值對比關系
下面分析不同時刻用戶影響力的變化,主要從新增加粉絲的數量、質量(通過新增粉絲最高的MBUInf值來體現)來比較。
首先分析用戶3624248184和用戶2139796227,從t2時刻到t1時刻,第一二名的位置發生了變化,除了上文分析過的新增粉絲數量比較接近外,用戶3624248184有高影響力的粉絲關注他,由于該粉絲的影響力比較高,所以分給用戶3624248184的影響力也比較高。因此導致用戶3624248184的排名經過1個月超過了2139796227的排名。
用戶2085811113和用戶5591596171,其名次沒有發生變化,雖然兩個用戶粉絲最高MBUInf比較接近,但是由于用戶2085811113新增的粉絲較多,所以其排名仍然領先于用戶5591596171。
綜合以上分析,可以得出如下結論:微博用戶影響力在不同時刻的變化同新增粉絲的數量以及新增粉絲的質量相關。上述結論與實際情況相符合,在某個時間段內,如果用戶A得到高影響力的用戶關注,那么用戶A的影響力也將變高,成為“明星寵兒”;如果用戶A得到許多用戶的關注,即使沒有高影響力的用戶,用戶A的影響力也會變高,成為“草根領袖”。
通過考慮用戶之間的行為交互對PageRank算法進行改進,提出一個新的MBUInfluence算法來對用戶影響力進行分析,并將該算法得到的MBUInf排名與FansRank、ForwardRank、PageRank等排名方法進行比較,進一步分析它們之間的差異。
實驗結果表明,提出的算法所獲得的排名相對準確和高效。根據綜合分析可以得到以下結論:用戶影響力與用戶粉絲的絕對數量之間不存在必然聯系;用戶影響力與一段時間內新增粉絲的數量以及新增粉絲的質量存在聯系,上述兩種如果突出就將改變用戶的影響力排名;用戶影響力和用戶與粉絲之間的交互行為密切相關,這些交互行為包括轉發、評論等,不同交互行為對他人影響力的貢獻也不一樣。