張 琛,湯 鯤,彭艷兵
1(南京烽火軟件科技有限公司,南京 210019)
2(武漢郵電科學研究院,武漢 430074)
3(烽火通信科技股份有限公司,武漢 430073)
社交網絡用戶影響力的模糊綜合評價①
張 琛1,2,湯 鯤1,2,彭艷兵3
1(南京烽火軟件科技有限公司,南京 210019)
2(武漢郵電科學研究院,武漢 430074)
3(烽火通信科技股份有限公司,武漢 430073)
社交網絡平臺信息傳播迅速,為了有效地進行輿情預警,定量地評估用戶在消息傳播網絡中重要性,將模糊綜合評價方法引入用戶影響力建模問題中. 通過對用戶在社交平臺上的行為分析,構造了包含用戶活躍粉絲數以及平均轉發數等五項指標在內的評價體系. 并針對傳統的模糊綜合評價算法在應用于計算評價指標權重方面的缺陷與不足,提出改進模糊合成算子的方法構建用戶影響力評估模型. 利用新浪微博社交平臺上的真實數據,結合對比實驗和實際評估,改進的模糊合成算子能根據需求調整權重對評價結果的影響,同時該方法能較準確地反應社交網絡中用戶的實際影響力.
社交網絡; 用戶影響力; 模糊綜合評價; 模糊矩陣合成
近年來,社交網絡平臺的興起對人們的信息獲取和生活方式產生了不可低估的影響,快速增長的社交平臺用戶數量也導致信息總量的爆炸式增長. 如何使信息被更多的用戶所接收,即用戶影響力評估問題,已經成為社交網絡平臺及其應用的研究熱點之一. 在社交網絡中,消息傳播的速度、覆蓋的范圍以及深度反映了用戶影響力的大小. 因此,計算網絡中節點的影響力并分析消息在網絡中的傳播機制,可以有效地找出信息傳播網中的關鍵節點,從而能夠進行輿情預警和輿情分析,對保障網絡安全有重要的意義[1].
最早關于社交網絡中影響力的研究是以粉絲數作為衡量的標準. 近年來,國內外很多學者在這方面的研究又有了新的進展. 例如,康書龍等[2]重點考慮了用戶在社交網站上的不同行為方式,在PageRank算法的基礎上設計了BRR算法,并通過網絡節點的BRR值來計算用戶影響力值. Y Yamaguchi等[3]重點考慮了用戶與用戶之間的關系,提出了TURank模型來評價用戶的影響力. 這些研究的重點在于探究用戶與用戶之間的“好友關系”,通過確定“好友關系”的權重值,來反映不同用戶的影響力大小. 但在實際應用中,粉絲數和關注數這些“好友關系”并不能真實地反映用戶的影響力. 相反,諸如點贊、轉發、評論等這樣一些用戶行為卻能夠集中反映微博的實際影響力,對輿論產生實質性地影響.
賈沖沖等[4]為了減少低影響力的粉絲在評價用戶影響力過程中帶來的負面作用,提出了基于H指數的HRank模型來計算用戶的影響力. 宮秀文等[5]面對用戶影響力最大化的問題,提出一種基于改進PageRank算法的信息傳播模型PRP,利用貪心算法近似求解該問題. 胡勇等[6]在社交網絡意見領袖的識別及分析方向提出了通過用戶特征屬性來刻畫社交網絡領袖的領導力模型. 這些研究拓寬了研究用戶影響力的思路,從多維度、多角度綜合考慮影響力的評估問題. 但以上針對用戶影響力的研究多基于PageRank算法的改進或對網絡結構進行分析,能合理地評價用戶影響力. 但是在評價體系的確立以及評價指標權重的處理上仍有改進的空間.
本文在借鑒已有成果的基礎上,提出了基于模糊綜合評價的社交網絡用戶影響力評估模型. 一方面,本文對社交網絡用戶的行為特征進行提取和定量分析,劃分了屬性指標. 另一方面,在面對實施傳統的模糊綜合評價算法中常見的兩大難點,本文分別改進了權重的確定方法和模糊矩陣的合成算子,以此定量地衡量用戶的影響力. 對于改進后的模糊綜合評價算法,本文介紹了原理及實現過程,并設置對比實驗驗證該算法的有效性.
目前針對定量計算用戶影響力的問題,研究較多的方向是利用PageRank算法[7-9]. 但該算法在計算頁面的PR值的時候是均勻地分配到鏈出頁面,并沒有考慮到用戶行為所來帶的權值的改變. 而模糊綜合評價(Fuzzy comprehensive evaluation,簡記 FCE)算法能自由選擇評價指標,同時能較好地解決非確定性問題或難以量化的問題,把定性評價轉化為定量計算[10]. 因此非常適用于本文所研究的衡量用戶影響力大小的問題.
一般而言,模糊綜合評價算法描述如下: 設X={x1,x2,···,xm}為評價因素集,Y={y1,y2,...,yn}為評價集.Ri={ri1,ri2,···,rin}為因素評價集xi的單因素評價,也就是rij表示因素xi對評價yj的模糊評價值.W=[w1,w2,...,wm]為權重矩陣. 其中wi表示第i個因素在評價中的影響因子或重要程度. 如果多因素作用下的綜合評價結果設為B=[b1,b2,···,bn],則公式(1)給出了傳統的模糊綜合評價計算模型.

根據模糊集的運算方法,表1中給出了四種常用的模糊合成算子[11],公式(1)中的符號 ?表示表1中四種常用算子中的任意一種.

表1 四種常用模糊算子
在實際應用該模型的過程中,關鍵問題是確定權重矩陣W和單因素評價矩陣R. 下面將在第2節和第3節分別針對這兩難點介紹改進模糊綜合評價算法的實際應用.
在應用模糊綜合評價對用戶影響力作評估時,首要問題是解決哪些因素會對綜合評價結果產生影響,即指標的選取問題. 其次,由公式 (1)知,還需確定指標的權重矩陣W.
常見的社交網絡平臺諸如twitter,facebook,微博,人人網等. 社交網絡的影響力通過用戶與用戶之間的互動得以體現. 近年來,微博作為一種便捷的社交網絡平臺,日活躍用戶過億,已逐漸成為人們進行信息交流的重要媒介,影響著人們的生活和社交方式. 微博信息傳播快速,范圍廣,極易形成網絡輿情.
在新浪微博平臺,結合實際情況可知,用戶關注與被關注這樣的用戶關系; 用戶發微博數的數量、評論數、轉發等行為; 用戶是否經過官方認證等個人身份這些因素均與用戶影響力大小相關,鑒于此,本文從以下三個方面探究并分析.
首先,從用戶關系角度考慮. 用戶的粉絲數能在某種程度上反映用戶在社交網絡中受重視的程度. 由于目前有許多人為了擴大自己影響力購買“僵尸粉”或“水軍”,因此粉絲數的多少并不能直接代表用戶的影響力. 因此在對用戶影響力進行衡量時需要剔除這一部分粉絲.
定義1. 用戶活躍度和用戶活躍粉絲數. 假設用戶在統計時間為T的時間段內,進行原創微博數量為U0,轉發微博數量為Ur,提及他人的微博數量為Ua. 現定義用戶活躍度指標為

當用戶活躍度Ai低于一定的閾值的時候,可判定該微博用戶為不活躍用戶,在進行粉絲數統計時候不予考慮. 因此,剔除掉不活躍用戶后,將用戶活躍粉絲數記為A.
其次,從用戶行為的角度考慮. 微博中用戶的行為主要包括: 轉發、評論、提及. 其他行為例如,主持話題、參與微博活動、私信等等均是在這三種主要行為上的延伸. 另一方面,“提及”這一行為分主動和被動兩種情況. 除去由轉發這種情況引起的提及外,不難看出,無論是主動提及他人或者是被他人提及,均是兩個人或少數人之間的互動關系. 從中也只能反映出少數人之間有聯系. 因此,在分析用戶影響力這一問題上,僅考慮轉發和評論兩種用戶行為. 下面給出相關定義.


其中,T為統計時間段,n為該時段內用戶發布微博總數(包括原創和轉發),xir和xic表示第i個用戶對該條微博是否轉發和評論情況. 若轉發,則xir=1,否則為 0,xic同理. 其中第i個用戶屬于活躍用戶集合A.
最后,從用戶個人身份角度考慮. 對個人而言,可以認證職業、作品或者獲獎成就等. 并且對發微博數、粉絲數、好友質量等均有要求. 由此可以看出,認證用戶較普通用戶而言,身份更加真實可信. 因此,在傳播消息的過程中,會更加得到關注,影響范圍更廣.
現將新浪微博2017年2月每天熱搜排行榜前20名的用戶根據是否認證這一指標進行對比分析. 結果如圖1所示.

圖1 2017年2月熱搜前20名用戶認證數對比圖
可以看到,在這一個月的熱搜排行榜中,微博認證用戶的占比達到95%以上. 由此可見,是否是認證用戶在影響力評估過程中有較大影響.

常用的確定權重的方法分為主觀賦權法和客觀賦權法[12]. 其中主觀賦權法包括德爾菲法(專家法)、相鄰指標比較法、層次分析法等. 相應地,客觀賦權法包括模糊定權法、熵權法、相關系數法等. 為了全面客觀地衡量用戶影響力大小,本文在對評價指標權重進行計算的過程中,選取了主觀賦權法中的層次分析法[13]和客觀賦權法中的熵權法[14]進行對比.
層次分析法的特點是利用1-9之間整數及其倒數作為標度來構造兩兩比較的判斷矩陣. 比例的標度及含義見表2.

表2 比例標度
通過判斷矩陣可以求出各指標的權重分配. 目前,在層次分析法的應用中,一般都用近似的方法來求得最大特征值及對應特征向量的近似解. 如公式(5)和(6)所示.

標準化后可得評價指標的權重為:

根據信息論中對熵的定義,熵權法充分利用了熵的特性,即利用熵值來判斷指標的離散程度. 熵值越大表示指標的離散程度越大. 從而對綜合評價的結果影響也越大.
不同于層次分析法,熵權法在計算權重時是按列進行概率比重化處理,如公式(7)所示.

計算指標熵值:

評價指標的權重為:

現實情況下,人們對事物的綜合評價常常有著不同的方式. 根據實際需求,人們有時會需要知道最突出的指標. 有時則要求全面地考慮各個指標. 這些情況都可以通過不同的運算來實現.
考慮到在對用戶影響力進行評估時,指標平均轉發數和平均評論數的重要性略高于其他指標. 在實際情況中,可能出現權重并不能完全反映指標的重要程度的情況. 也就是說,倘若某個評價指標遠大于其他評價指標時,可以認為該指標非常具有區分度. 但可能會由于權重的原因,在應用某些算子的時候這個指標的影響力會被削弱,從而導致最終的評價結果與實際情況不符.
為解決上述問題,現對模糊合成算子進行改進,其形式如下:


(1) 單調性論證


(2) 極限值論證

因此評價結果有上界,這種函數會隨著自變量的增大而增大,但該函數值是平穩增加,不存在跳躍點.
(3) 各個指標評價因素相同時論證
當x1=x2=...=xi=C時,存在

證明:



因此,加入λ后,可以根據需求調整權重與評價結果之間的關系. 減小λ意味著重視權重的影響. 反之,增大λ表示評價結果受評價指標的影響更大.
綜上所述,通過對改進后的算法進行推導論證,證明理論上能夠實現根據需求調整權重與評價結果之間得而關系. 從而使評價結果更客觀.
示例. 選取微博用戶“迪士尼電影”與2017年1月31日發布的一條關于電影《美女與野獸》預告片的原創微博. 截至爬取這條微博相關內容的時間,這條微博共獲得了26532人轉發,4120條評論以及8025個點贊.
下面將根據本文提出的模糊綜合評價模型對參與這條微博傳播的用戶進行影響力評估. 爬取到該條微博的部分相關內容如表3所示.

表3 爬取微博部分內容示例


根據層次分析法確定的發微博數、活躍粉絲數、是否認證、平均評論數和平均轉發數這五個指標的權重為[0.069,0.069,0.170,0.269,0.422]T,而根據熵權法[15]確定的這五個指標權重為[0.185,0.185,0.193,0.202,0.234]T. 如表4 所示. 由此可以看出,不論是由層次分析法或者熵權法,得到的對用戶影響力影響最大的指標均是平均被轉發數.

表4 權重比較表
為避免出現非一致性的情況,下面需進行一致性檢驗. 公式如下:

為了驗證本文提出的改進模糊綜合評價算法是否有效,分別取加權平均型算子和主因素決定型算子建立模型進行對比實驗.


表5 A 組實驗結果

表6 B 組實驗結果
將A組和B組的實驗結果繪成折線圖如圖2和圖3所示.

圖2 A 組實驗結果

圖3 B 組實驗結果
根據圖2和圖3結果可以看到,在確定權重方面,由層次分析法確定的權重對五個指標的區分度都高于由熵權法確定的權重. 另一方面,M2模型由于采用了加權平均算子,因此對五個指標進行了平均,權重中平均轉發數這一指標被削弱,而發微博數這一指標被加強. 另外,M1模型采用主因素決定型算子,因此平均轉發數這一指標明顯高于其他指標,且其他四個指標之間的差異則變得不明顯,不利于綜合評判用戶的影響力.
相比之下,改進后的模糊合成算子表現較好. 由于可以調整權重對評價結果的影響,因此根據 λi的變化,M3-1、M3-2和M3-3的表現也體現出了差異. 經過多次實驗,該算法既能夠有效區分各個指標,又綜合考慮到多個指標對評價結果的影響,同時也不會過度重視權重占比最大的指標.
因此,采用改進模糊綜合評價模型對涉及這條微博的用戶進行影響力評估,推薦出前5名影響力最高的用戶,他們的排名和綜合得分如表7所示.

表7 影響力評分值前 5 名用戶
另外,用戶影響力與粉絲數并不一定成正比關系.現將影響力評分值前7名用戶的粉絲數顯示在表8中.由此可見,定義活躍用戶粉絲數這一指標是有必要性的.

表8 影響力評分值前 7 名用戶的粉絲數
本文以新浪微博為例,通過分析社交網絡中的用戶的關系、用戶的行為以及個人身份,選取發微博數、活躍粉絲數、是否認證、平均評論數和平均轉發數作為判斷用戶影響力的指標. 并對比了使用層次分析法和熵權法確定評價指標的權重過程中的差異. 目前在社交網絡中應用模糊綜合評價法的難點在于如何合理地在將用戶的影響力轉為定量評價. 考慮到傳統的模糊合成算子并不能充分利用指標的實際意義,因此本文對模糊綜合評價法進行了改進,提出了一種新的模糊矩陣合成方法評估用戶影響力. 經實驗證明評價結果較為合理.
同時本文仍存在一些沒有解決的問題. 一方面,本文提出的改進算法耗時較長,并且在確定可調參數λi時,需要嘗試多次實驗才能取得較滿意的結果. 因此,在提高算法的效率方面還有待加強. 另一方面,本文僅針對人為選擇的某一條微博中涉及的用戶進行影響力評估,涉及的范圍較窄,如何在更大的網路絡中定量計算用戶的影響力還需進一步的研究.
1丁兆云,賈焰,周斌,等. 社交網絡影響力研究綜述. 計算機科學,2014,41(1): 48–53.
2康書龍. 基于用戶行為及關系的社交網絡節點影響力評價——以微博研究為例[碩士學位論文]. 北京: 北京郵電大學,2011.
3Yamaguchi Y,Takahashi T,Amagasa T,et al. TURank:Twitter user ranking based on user-tweet graph analysis.Proc. of the 11th International Conference on Web Information Systems Engineering. Hong Kong,China. 2010. 240–253.
4賈沖沖,王名揚,車鑫. 基于 HRank的微博用戶影響力評價. 計算機應用,2015,35(4): 1017–1020. [doi: 10.11772/j.issn.1001-9081.2015.04.1017]
5宮秀文,張佩云. 基于PageRank的社交網絡影響最大化傳播模型與算法研究. 計算機科學,2013,40(S1): 136–140.
6胡勇,張翀斌,王楨學,等. 網絡輿論形成過程中意見領袖形成模型研究. 四川大學學報 (自然科學版),2008,45(2):347–351.
7Riquelme F,González-Cantergiani P. Measuring user influence on twitter. Information Processing and Management: An International Journal,2016,52(5): 949–975. [doi:10.1016/j.ipm.2016.04.003]
8Zhang Y,Mo JQ,He TT. User influence analysis on micro blog. Proc. of the 2nd International Conference on Cloud Computing and Intelligent Systems. Hangzhou,China. 2012.1474–1478.
9Kwak H,Lee C,Park H,et al. What is Twitter,a social network or a news media? Proc. of the 19th International Conference on World Wide Web. Raleigh,North Carolina,USA.2010. 591–600.
10張躍,鄒壽平,宿芬. 模糊數學方法及其應用. 北京: 煤炭工業出版社,1992: 15–28.
11李洪興,汪培莊. 模糊數學. 北京: 國防工業出版社,1994:67–72.
12陳衍泰,陳國宏,李美娟. 綜合評價方法分類及研究進展.管理科學學報,2004,7(2): 69–79.
13郭金玉,張忠彬,孫慶云. 層次分析法的研究與應用. 中國安全科學學報,2008,18(5): 148–153.
14章穗,張梅,遲國泰. 基于熵權法的科學技術評價模型及其實證研究. 管理學報,2010,7(1): 34–42.
15李玉琳,高志剛,韓延玲. 模糊綜合評價中權值確定和合成算子選擇. 計算機工程與應用,2006,42(23): 38–42. [doi:10.3321/j.issn:1002-8331.2006.23.012]
Fuzzy Comprehensive Evaluation of Social Network User’s Influence
ZHANG Chen1,2,TANG Kun1,2,PENG Yan-Bing3
1(Fiberhome Starrysky Co. Ltd.,Nanjing 210019,China)
2(Wuhan Research Institute of Posts and Telecommunications,Wuhan 430074,China)
3(Fiberhome Telecommunication Technologies Co. Ltd.,Wuhan 430073,China)
Information spreads quickly on social networking platform. In order to effectively carry out public opinion early warning and quantitatively evaluate the importance of users in social network,the fuzzy comprehensive evaluation method is introduced into the user influence modeling problem. Based on the analysis of the behavioral analysis of the user’s behavior on the social platform,the evaluation system including five indicators,such as user active number of fans and average forwarding number is constructed. A new fuzzy synthesis operator is proposed to construct the user influence evaluation model based on the shortcomings of the traditional fuzzy comprehensive evaluation algorithm in calculating the weight of the evaluation index. This operator can adjust the weight of the impact on the evaluation results according to the demand. Using the real data of Sina microblogging social platform,combined with comparative experiments and practical assessment,the method can more accurately reflect the actual impact of the user in the social network.
social network; user influence; fuzzy comprehensive evaluation; fuzzy matrix synthesis
張琛,湯鯤,彭艷兵.社交網絡用戶影響力的模糊綜合評價.計算機系統應用,2017,26(12):18–24. http://www.c-s-a.org.cn/1003-3254/6135.html
十二五國家科技支撐計劃項目(2015BAK20B05)
2017-03-31; 修改時間: 2017-04-20; 采用時間: 2017-04-24