楊揚,王鴦雨
(1.南京師范大學計算機科學與技術學院,南京 210023;2.南京師范大學教師教育學院,南京 210023)
一種基于用戶影響力的社交網絡傳播代價模型設計
楊揚1,王鴦雨2
(1.南京師范大學計算機科學與技術學院,南京210023;2.南京師范大學教師教育學院,南京210023)
近年來,以微博為代表的社交網絡得到迅速普及和發展,已成為廣大民眾獲取信息和發表觀點的重要平臺,不斷影響著人們的生活。由于社交網絡具有用戶規模龐大、話題更新頻繁、信息傳播迅速和影響范圍廣泛等特點,使其研究工作具有很重要的意義。
隨著互聯網的不斷發展,微博由于其快捷、方便等特征不斷發展,微博用戶不斷膨脹,并成為企業營銷推廣的重要渠道。隨著微博的熱門,越來越多的商家開始通過微博平臺推廣自己產品信息。此時,推廣方案的可行性與其價值的高低則需要通過建模進行有效的評估。這是一個很有研究價值的問題。
在微博中,用戶的影響力直接關系著傳播的代價[3];在商業推廣時,都希望自己的推廣消息能傳播的更為廣泛,能被更多的人看到,以影響到更多的用戶。根據用戶的粉絲數,得到發布消息的用戶數排名。綜合上述兩個指標建立社交網絡傳播代價模型,考量推廣方案的效果和價值。
在已有的研究中,都是將粉絲數作為社交網絡傳播代價的衡量標準;而本文在考慮粉絲數的同時,也考慮到用戶的關注數、發微博數,都作為用戶影響力的影響因子;與此同時,我們還考慮了發布消息用戶數排名前十的用戶集合,對其推廣價值進行比較,這樣得到的結果更優。
綜上建立更加完善的社交網絡傳播代價模型,綜合考量社交網絡傳播代價,并將其應用到商業推廣方案的推廣價值分析之中。
為了得到社交網絡傳播代價,我們建立了社交網絡傳播代價模型,建模過程描述如下:
①根據微博用戶的粉絲數、關注數、發微博數,綜合衡量微博用戶影響力。②根據每位用戶的粉絲用戶,利用貪心算法和全局算法,找到發布消息的用戶數排名的方案。③將微博用戶影響力、發布消息的用戶數排名結合,建立社交網絡傳播代價模型,得出代價最小的發布消息用戶集合。
本文結合微博數據,說明以下模型的可行性。
2.1PageRark 算法模型
首先,我們利用PageRank算法建模,其算法如下:
PageRank算法是用來衡量網絡中節點重要性的經典算法,算法基于網絡拓撲圖上的鏈接關系,計算網頁的重要程度。算法的表達式為:

圖1 PageRank程序

其中,d表示用戶在瀏覽某個頁面后繼續以(1-d)的概率瀏覽某一個鏈出的頁面,或者以d的概率重新選擇一個隨機頁面進行瀏覽。根據上述公式可以看出,如果某網頁有較多的鏈入網頁,說明較多的其他網頁認為該網頁是重要的;如果較高PR值的網頁指向某網頁,表明重要的網頁認為該網頁是更重要的,這種“更權威的認為”可以表明該網頁的重要性;如果其他網頁只有一個鏈出且指向該網頁,那么說明其他網頁認為只有該網頁是最重要的,所以推薦程度就更大。由此,我們可以基于PageRank算法評價微博用戶影響力。這里我們認為節點的重要性與影響力成正相關。
PageRank算法程序如圖1。
2.2層次分析法
利用 PASW Statistics 18軟件對數據進行主成分分析[5]。
進行數據初始化。通過PASW的數據標準化功能,將采集到的原始數據進行數據標準化。
對標準化之后的數據進行相關性分析,以判斷指標之間存在的替代關系.相關系數矩陣如表1所示。

表1 相關系數矩陣
從表1中可以看出,關注數與發微博數的相關度最高,表明用戶關注數越多,所發的微博數也越多。而粉絲數與關注數的相關度最低,表明粉絲數與關注數關系并不大。
(3)計算各個主成分的權重如表2所示。

表2 解釋的總方差
從表2中可以看出,粉絲數權重為33.805%,關注數權重為33.456%,發微博數權重為32.739%,得:
UI=33.805%×V1+33.456%×V2+32.739%×V3(2)
(其中UI表示用戶影響力,V1表示用戶粉絲數,V2表示關注數,V3表示用戶發微博數)
3.1貪心算法模型
(1)將i個用戶按照粉絲數進行降序排列,不妨令第1個用戶的粉絲數為n(1)。
(2)按順序依次往下,若用戶b中的粉絲號與之前b-1個用戶的粉絲號有重疊,將這些粉絲號刪除,得到用戶b與之前b-1個用戶粉絲號均不同的粉絲號,統計用戶b中的粉絲號的數量,得到第b個用戶的粉絲數為n(b)。
利用貪心算法,根據給定案例數據可以得出:當用戶為2000人時,m=102人;當用戶為10000人時,m= 286人。
3.2全局算法模型
(1)將i個用戶按照粉絲數進行降序排列,不妨令第1個用戶的粉絲數為n(1)。
(2)將第一個用戶的粉絲號均賦為0,并在剩余用戶中將與第一位用戶粉絲號相同的刪除,即將其他用戶所要刪除的粉絲號用其后一位粉絲號賦值,記fens (i,j)=fens(i,j+1),得到新的矩陣。
(3)再將i-1個用戶按照粉絲數進行降序排列,記此序列中第一個用戶的粉絲數為n(2)。
(4)重復步驟(2)。
利用全局算法,根據給定案例數據可以得出:當用戶為2000人時,m=93人;當用戶為10000人時,m=243人。

表3
比較貪心算法和全局算法的結果,貪心算法所得的值均大于全局算法的值,分析原因知:由于所得的成員是按照刪除前的粉絲數排序截得的成員,該順序下的成員數并不一定是降序排列,所以所得的值將偏大??梢姡炙惴ǖ慕Y果更優。
在已有的研究中,都是將粉絲數作為社交網絡傳播代價的衡量標準;而我們在考慮粉絲數的同時,將用戶的關注數、發微博數綜合考慮,綜合考慮用戶影響力的影響因子,從而更準確地衡量社交網絡傳播代價。
與此同時,我們還考慮了發布消息用戶數排名前十的用戶集合,對其推廣價值進行比較,這樣得到的結果更優。
為計算社交網絡傳播代價,我們將用戶影響力和所有用戶都能看到消息的前提下所需發布消息的用戶數進行逆序排名進行結合,分別求出發布消息用戶數排名前十的用戶集合的用戶影響力之和,與用戶集合的用戶成本之和求商。

其中傳播代價為value,所有用戶都能看到消息的前提下所需發布消息的用戶數為num,K用戶所對應的影響力為influence(k),k用戶成本為cost(k)。
本文提出的社交網絡傳播代價模型結合微博的用戶影響力、發布消息的用戶數量排名,建立社交網絡傳播代價模型,綜合各個因素考慮傳播代價,從而可以為商業圈可行性推廣方案進行價值評估,使其能夠以最小的成本得到最優的推廣。
[1]MATLAB數值計算.機械工業出版社[M],2010.1.
[2]姜啟源.數學模型(第三版)[M].高等教育出版社[M],2003:215-246.
[3]王琛.一種改進的微博用戶影響力評價算法.信息工程大學學報[J],2013,14.
[4]嚴蔚敏,吳偉民.數據結構(C語言版).清華大學出版社[M],2011.5.
[5]劉清,彭賡,呂本富.基于主成分分析法的微博影響力評估方法及實證分析——以“新浪微博”為例.數學的實踐與認識[J]. 2014.04
PageRank Algorithm;Analytic Hierarchy Process;Greedy Algorithm;Global Algorithm;Social Network Spread Cost Model
A Social Network Spread Cost Model Based on User Influence
YANG Yang1,WANG Yang-yu2
(1.College of Computer Science and Technology,Nanjing Normal University,Nanjing 210023;2.College of Teacher Education,Nanjing Normal University,Nanjing 210023)
1007-1423(2015)26-0043-04
10.3969/j.issn.1007-1423.2015.26.011
楊揚(1995-),女,安徽安慶人,本科,學生,專業方向為計算機
2015-07-07
2015-08-15
為了對社交網絡傳播代價進行評估,以微博為例,提出一種社交網絡傳播代價的評估方法。利用PageRank算法和層次分析法計算微博用戶影響力;采用貪心算法和全局算法,得出在所有用戶都能看到消息的前提下所需發布的用戶數量的排名,并對這兩個算法進行比較。綜合用戶影響力和微博的發布用戶數量排名建立社交網絡傳播代價模型。根據微博數據,對社交網絡傳播代價進行評估。
PageRank算法;層次分析法;貪心算法;全局算法;社交網絡傳播代價模型
王鴦雨(1993-),女,浙江臺州人,本科,學生,專業方向為數學教育
In order to assess the cost of the social network spread to blog,proposes a method to assess the cost of a social network communication. Based on PageRank algorithm and analytic hierarchy process,calculates the user influence.Uses greedy algorithm and global algorithm,infers the users releasing quantity rank when all users can see it,and compares the two algorithms.Considering the user influence and the user releasing quantity rank,establishes a social network spread cost model,according to the blog data,assesses the cost of the social network spread.