馮 勇,馬宇光,劉 建(遼寧大學(xué)信息學(xué)院,沈陽0036)
2(吉林大學(xué)符號計算與知識工程教育部重點實驗室,長春130012)
E-mail:83019554@qq.com
微博作為近年來發(fā)展日漸成熟的社交新媒體,憑借其強大的交互性、原創(chuàng)性、便捷性、實時性等特點,已經(jīng)深入到了人們生活中的方方面面,展現(xiàn)出巨大的商業(yè)價值.微博中重要用戶具有更大的影響力,能夠促進商品信息的快速傳播[1,2].挖掘微博平臺中的重要用戶[3],對其開展商品推薦、廣告投遞以及合作推廣等商務(wù)活動,正成為“微博營銷”領(lǐng)域的研究熱點.
目前關(guān)于重要用戶發(fā)現(xiàn)的方法,國內(nèi)外學(xué)者們做了廣泛的研究.國內(nèi)如王玨等人[4]通過網(wǎng)絡(luò)論壇用戶的特征值向量來發(fā)現(xiàn)論壇中的重要用戶.丁勇等人[5]構(gòu)造話題參與者的屬性矩陣,通過加權(quán)平均得到各用戶的綜合評價.吳凱等人[6]通過歸納決定微博用戶影響力的關(guān)鍵因素,提出了節(jié)點間影響率的概念,進而建立了用于用戶重要度量的WIR算法.國外如Luarn等人[7]通過研究微博話題信息的傳播規(guī)律,從話題傳播持續(xù)性和話題傳播范圍兩方面對微博用戶的影響力進行研究.Martin等人[8]基于無回溯矩陣,改進特征向量中心性,以便更準確的衡量用戶的重要度.Weng等人[9]以PageR-ank算法為基礎(chǔ),提出了TwitterRank算法,該算法主要基于網(wǎng)絡(luò)的拓撲結(jié)構(gòu),考慮了話題內(nèi)容的相似性來計算用戶在某一特定主題下的影響力.
雖然以上學(xué)者們對重要用戶發(fā)現(xiàn)的方法進行了研究與改進,但仍存在對用戶行為特征研究不夠全面的不足,缺少微博營銷背景下,對重要用戶行為特征的分析與研究.
PageRank算法[10]的基本思想是將互聯(lián)網(wǎng)中的所有網(wǎng)頁都抽象為一個個節(jié)點,每個節(jié)點的外鏈接視為對其他節(jié)點的投票,節(jié)點獲得的票數(shù)越高,說明該節(jié)點重要度越高,排名應(yīng)越靠前.經(jīng)典的PageRank計算公式如公式(1)所示:

PR(A)表示網(wǎng)頁A的PR值,PR(Bi)表示指向網(wǎng)頁A的網(wǎng)頁Bi的PR值,C(Bi)表示網(wǎng)頁B對外鏈接的個數(shù),n為網(wǎng)頁的總數(shù)量,d(0<d<1)為阻尼因子,表示用戶繼續(xù)訪問當前網(wǎng)頁的概率,通常取d=0.85[10].通過分析該公式不難發(fā)現(xiàn)算法存在的不足,即節(jié)點自身的PR值被均勻的分配給它所指向的節(jié)點,即整個網(wǎng)絡(luò)完全依賴于自身的網(wǎng)絡(luò)結(jié)構(gòu)來分配PR值,忽略了節(jié)點本身的重要度.
現(xiàn)有主流算法如吳渝等人[11]基于PageRank算法,綜合考慮用戶自身影響力和用戶之間的鏈接關(guān)系,提出一種對微博用戶意見領(lǐng)袖識別的UI-LR算法.王鵬等人[12]利用網(wǎng)絡(luò)中用戶發(fā)布信息的轉(zhuǎn)發(fā)率、評論率以及是否認證等行為因素,綜合用戶自身質(zhì)量與追隨者質(zhì)量,得到一種將用戶行為因素與PageRank算法相結(jié)合的URank算法來衡量用戶的重要性.朱顥東等人[13]結(jié)合時間反饋因子對用戶轉(zhuǎn)發(fā)、用戶評論和微博提及行為進行綜合分析,提出對微博用戶重要性度量的BSPR算法.這些算法雖然加入了對用戶行為特征的考量,但均缺少在微博營銷背景下,對用戶活躍度即用戶對商家的關(guān)注、用戶忠誠度即用戶對商品的關(guān)注等特定行為的分析與研究.
為彌補以上不足,本文提出一種微博營銷中融合行為分析的重要用戶發(fā)現(xiàn)方法(Important User Discovery Method,IUDM).該方法通過對微博營銷中用戶的行為特征進行分析,確定用戶活躍度、用戶忠誠度、用戶影響力為重要影響因素,并計算其權(quán)重;將權(quán)重整合并融入PageRank計算模型,之后經(jīng)過矩陣迭代計算,得到最終用戶重要度排名.
本文在分析微博營銷實際應(yīng)用場景基礎(chǔ)上,確定影響重要用戶發(fā)現(xiàn)的關(guān)鍵因素,即用戶活躍度、用戶忠誠度以及用戶影響力,籍此提出一種微博營銷中融合行為特征分析的重要用戶發(fā)現(xiàn)方法.
本文所提方法的主要思想是:以原始的PageRank計算模型為基礎(chǔ),形成以用戶為節(jié)點、關(guān)注關(guān)系為有向邊的有向圖,將微博營銷所涉及的用戶活躍度、用戶忠誠度以及用戶影響力三方面因素整合進計算模型,使新的計算模型能夠按照每個用戶的權(quán)重大小分配重要度.即首先求得用戶活躍度、用戶忠誠度以及用戶影響力的權(quán)重,之后對以上權(quán)重進行求和得到整合后的權(quán)重,再利用此權(quán)重對用戶的概率轉(zhuǎn)移矩陣進行加權(quán),得到加權(quán)后的概率轉(zhuǎn)移矩陣,之后利用矩陣迭代得到最終的用戶重要度排名.所提方法框架如圖1所示.
本文從企業(yè)微博營銷的角度,對用戶行為特征進行了全面的分析,確定微博營銷中重要用戶發(fā)現(xiàn)的相關(guān)因素有:
1)用戶活躍度:體現(xiàn)了用戶對商品信息關(guān)注以及共享商品信息的頻繁程度.用戶對商家博文評論越多、轉(zhuǎn)發(fā)量越大,說明對發(fā)布的商品越感興趣.
①用戶活躍度ACT(i)的計算如公式(2)所示:

LA(i)為評論活躍度,計算如公式(3)所示:


圖1 IUDM方法框架Fig.1 IUDM method framework
PA(i,j)為用戶i對商家j博文評論的次數(shù),Nj為商家j博文被評論的總次數(shù)為T時間內(nèi)用戶i對商家j博文評論的次數(shù) 為T時間內(nèi)商家j博文被評論的總次數(shù).PB(i,j)為用戶i對商家j博文評論的篇幅數(shù),Cj為商家j所發(fā)文章的總篇幅數(shù),為T時間內(nèi)用戶i對商家j文章評論的篇幅數(shù), 為T時間內(nèi)商家j所發(fā)文章的總篇幅數(shù).
②轉(zhuǎn)發(fā)活躍度LB(i)計算如公式(4)所示:

ZA(i,j)為用戶i對商家j博文轉(zhuǎn)發(fā)的次數(shù),Zj為商家j博文被轉(zhuǎn)發(fā)的總次數(shù)為T時間內(nèi)用戶i對商家j博文轉(zhuǎn)發(fā)的次數(shù) 為T時間內(nèi)商家j博文被轉(zhuǎn)發(fā)的總次數(shù).ZB(i,j)為用戶i對商家j博文轉(zhuǎn)發(fā)的篇幅數(shù),Cj為商家j博文被轉(zhuǎn)發(fā)的總篇幅數(shù)為T時間內(nèi)用戶i對商家j文章轉(zhuǎn)發(fā)的篇幅數(shù), 為T時間內(nèi)商家j博文被轉(zhuǎn)發(fā)的總篇幅數(shù).
本文在考慮活躍度時不僅考慮了“量”的問題,還加入了評論和轉(zhuǎn)發(fā)的篇數(shù)、發(fā)布時間等因素.在實驗過程中,考慮評論活躍度和轉(zhuǎn)發(fā)活躍度的作用同等重要,因此α1=α2=0.5.
2)用戶忠誠度:體現(xiàn)了用戶對商品的偏愛程度.用戶忠誠度LOY(i)的計算如公式(5)所示:

①內(nèi)容忠誠度SI(i):文獻[14]通過用戶相似度進行電影推薦,本文將該思想運用在商品中,即用戶所發(fā)文章與該商品信息的相似度越高以及相似文章的篇幅數(shù)越多,證明該用戶對商品的偏好程度越大.其計算如公式(6)所示:

Ai為用戶i所發(fā)文章,1<i<n,n為用戶所發(fā)文章的總篇幅數(shù),Bj為商品的信息即商家j所發(fā)文章為用戶i所發(fā)文章與商品j的內(nèi)容相似度之和,MAX為其中的最大值.C(i,j)為用戶i所發(fā)文章中與商品內(nèi)容相關(guān)的文章數(shù)量,Cj為商家j所發(fā)文章總數(shù).
②時間間隔度TK(i):用戶所發(fā)表與商品信息相關(guān)文章的時間跨度越大,說明用戶長期對該商品感興趣[15],即對該商品的忠誠度越高.其計算如公式(7)所示:

last(i)為用戶i最后一次發(fā)表與商品信息相關(guān)文章的發(fā)表時間,first(i)為用戶i第一次發(fā)表與商品信息相關(guān)文章的發(fā)表時間,Max為所有用戶中的最大時間間隔.
③時效性權(quán)重TX(i):用戶所發(fā)表與商品信息相關(guān)文章的時間越接近當下,說明用戶目前對商品忠誠的可能性越高.計算如公式(8)所示:

t為當下時間,t(i)為第i篇由用戶所發(fā)表與商品信息相關(guān)文章的時間(以天為單位),1<i<n,n為用戶所發(fā)表與商品信息相關(guān)文章的總數(shù),為了歸一化,max為所有用戶中的最大值.
④時間均勻度TL(i):用戶在固定時間間隔內(nèi),所發(fā)表與商品信息相關(guān)文章的數(shù)量越接近,說明用戶對商品關(guān)注的持續(xù)性越高.計算如公式(9)所示:

G(i)=∑aij(1≤i,j≤n-1),其中 n為等時間間隔的個數(shù),aij為時間均勻度矩陣A中的數(shù)據(jù)元素:

Di為等時間間隔d時間內(nèi)用戶所發(fā)表與商品信息相關(guān)文章的數(shù)量.aij代表等時間間隔用戶所發(fā)表與商品信息相關(guān)文章的數(shù)量之差,G(i)代表了所有等時間間隔之間用戶所發(fā)表與商品信息相關(guān)文章的數(shù)量之差值的總和,其值越大,表明用戶在不同時間段對商品關(guān)注程度差異較大,即該用戶對商品關(guān)注的持續(xù)性較低.實驗中 β1=β2=β3=β4=0.25.
3)用戶影響力:體現(xiàn)了用戶可以使商品信息在社交網(wǎng)絡(luò)中更好更快傳播的能力.用戶影響力INF(i)的計算如公式(10)所示:

①用戶粉絲質(zhì)量QUA(i):擁有眾多粉絲且粉絲質(zhì)量較高即粉絲中微博認證的粉絲數(shù)量較多,體現(xiàn)用戶具有強大影響力.其計算如公式(11)所示:

PI(i)為用戶i的粉絲數(shù)量,PI為所有用戶中粉絲數(shù)量的最大值.PR(i)為用戶i粉絲中微博認證的粉絲數(shù)量,PR為所有用戶粉絲中微博認證粉絲數(shù)量的最大值.
②用戶文章質(zhì)量CON(i):文章質(zhì)量高能吸引更多的粉絲,也是具有強大影響力的體現(xiàn).計算如公式(12)所示:

CI(i)為用戶i所發(fā)文章數(shù),CI為所有用戶發(fā)文章的最大值,CP(i)為用戶i文章評論數(shù),CP為所有用戶文章評論數(shù)的最大值,CZ(i)為用戶i文章轉(zhuǎn)發(fā)數(shù),CZ為所有用戶文章轉(zhuǎn)發(fā)數(shù)的最大值
③領(lǐng)域權(quán)威度AUT(i):用戶所發(fā)文章的相似度較高,說明該用戶可能是某領(lǐng)域權(quán)威人士的可能性較大,權(quán)威人士的影響力一般大于普通用戶.計算如公式(13)所示:

S為博文相似度矩陣,該矩陣為對稱矩陣,bij為用戶所發(fā)文章之間相似度,n為用戶所發(fā)文章數(shù).
通過上述分析,用戶特征行為的總權(quán)重W(i)的計算如公式(14)所示:

更新后的加權(quán)概率轉(zhuǎn)移矩陣V的計算如公式(15)所示:

K=(kki,j)為初始概率轉(zhuǎn)移矩陣.
IUDM算法描述如下:
輸入:G為用戶的社交網(wǎng)絡(luò)圖;d為阻尼系數(shù),ε為迭代終止條件.
輸出:用戶節(jié)點的PR值向量.

本文將新浪微博作為實驗平臺,數(shù)據(jù)均來源于數(shù)據(jù)堂1http://www.datatang.com,數(shù)據(jù)主要包括:
1)用戶信息{用戶uid,用戶昵稱,用戶主頁url,用戶性別,用戶認證信息,用戶粉絲數(shù),用戶關(guān)注數(shù),用戶粉絲id,用戶關(guān)注id,用戶微博數(shù),用戶收藏數(shù),用戶創(chuàng)建時間};
2)微博信息{微博mid,發(fā)表用戶uid,微博來源,微博發(fā)布時間,微博轉(zhuǎn)發(fā)時間,微博內(nèi)容,微博評論數(shù),微博轉(zhuǎn)發(fā)數(shù),微博被贊數(shù)}.
應(yīng)本文研究需要,對數(shù)據(jù)進行適當?shù)那逑垂ぷ魅コK數(shù)據(jù),最終形成包含6503個用戶節(jié)點,115986條有向邊的社交網(wǎng)絡(luò)圖.
IUDM方法包含三方面核心影響因素,即用戶活躍度、用戶忠誠度與用戶影響力.為了全面驗證方法的有效性,首先本文將分別對影響因素進行實驗對比來驗證影響因素的有效性,最后再將影響因素融合,驗證本文整體方法的有效性.
首先,用戶活躍度與用戶忠誠度體現(xiàn)了用戶自身對商品的關(guān)注以及偏愛程度.表1基于PageRank算法[10]、本文IUDM方法進行對比試驗,在本文IUDM方法只考慮用戶活躍度與用戶忠誠度兩方面因素(不包含用戶影響力)的情況下來驗證兩個影響因素的有效性.

表1 用戶排序?qū)Ρ萒able 1 User sort comparison
表1為兩種算法得到的不同用戶的排名結(jié)果,其中“守望好萊塢”作為好萊塢頻道的信息發(fā)布點,發(fā)布的文章大多關(guān)于好萊塢電影資訊,“Style美食”所分享的主要包含了世界各地的美食信息,而“萌寵部落格”發(fā)布的文章主要集中于寵物主題,由此可見,PageRank算法忽略了主題相關(guān)性,產(chǎn)生了“主題漂移”現(xiàn)象,而本文IUDM方法引入用戶活躍度與用戶忠誠度影響因素,以小米手機為目標商品,挖掘到的用戶,均為長期發(fā)表與目標商品相關(guān)博文且長期關(guān)注目標商品的微博用戶,彌補了PageRank算法的缺陷,也證實了本文考慮的用戶活躍度、用戶忠誠度影響因素的有效性.
之后,本文再從用戶之間信息傳播角度出發(fā),驗證本文所考慮的用戶影響力因素的有效性,為了驗證該因素有效性,如圖2中的IUDM方法只包含了用戶影響力因素.傳播率的計算公式如公式(16)所示:

其中,TOP-10用戶所能產(chǎn)生的影響E代表了對TOP-10用戶影響力傳播有貢獻的用戶數(shù)量(即對TOP-10用戶所發(fā)表的文章有評論和轉(zhuǎn)發(fā)行為的用戶數(shù)量),MAX(E)為三種對比算法中TOP-10用戶所能產(chǎn)生的影響E的最大值.

圖2 傳播率對比Fig.2 Dissemination rate comparison
本文通過分別計算 IUDM 方法、TwitterRank算法[9]與UI-LR算法[11]的傳播率來對三種算法進行對比.那么傳播率越高,說明用戶的影響力越大.通過圖2發(fā)現(xiàn),同時使用粉絲數(shù)量、文章絲質(zhì)量與領(lǐng)域權(quán)威度的IUDM方法比其他現(xiàn)有主流算法效果更優(yōu).

圖3 排序結(jié)果對比Fig.3 Sort result comparison
最后,在驗證了各影響因素有效性之后,將各影響因素融合,圖3為完整的IUDM方法下的TOP-10用戶,在其它對比算法下的排序情況,橫坐標為本文IUDM方法下排名前十的用戶,縱坐標為PR值.這些對比算法均為用戶重要度排序常用的經(jīng)典算法,包括 PageRank 算法[10]、Urank 算法[12]、BSPR算法[13].微互動頻繁,經(jīng)常對官微的文章進行轉(zhuǎn)發(fā)與評論,這更利于品牌信息的傳播,所以在本文IUDM方法中排名高于“小米校園”.在Urank算法中,“博數(shù)碼”以其粉絲數(shù)量的優(yōu)勢,排名要高于“小米SR”,但是綜合用戶忠誠度的考量,本文方法中“小米SR”的排名要高于“博數(shù)碼”,這是由于“小米SR”長期發(fā)表與手機產(chǎn)品(包括M品牌)相關(guān)的文章,且所發(fā)表的文章均有較大的轉(zhuǎn)發(fā)與評論量.可以看出“小米SR”不僅具有較強的影響力,更重要的是其本身也是手機類產(chǎn)品的發(fā)燒友,所以來自這類用戶所做出的宣傳、推薦將更具說服力.

表2 權(quán)重系數(shù)分配Table 2 Weight coefficient distribution
由圖4可知,當α,β,γ取不同值時,PR值也會隨之而產(chǎn)生變化,當 α =0.2,β=0.3,γ =0.5 時,即用戶影響力因素比重較大,而用戶活躍度和用戶忠誠度所占比重較小時,用戶的PR 值普遍較大,但當 α =0.3,β =0.5,γ =0.2 時,即用戶忠誠度所占比重較大時,整體PR值變化幅度不大,而當α=0.5,β=0.2,γ=0.3時,隨著用戶活躍度比重增大,用戶影響力與用戶忠誠度比重減小時,用戶的PR值也普遍偏小,由此可見,用戶影響力在PR值的計算中影響最大,而用戶活躍度在整個用戶PR值中影響相對較小.

圖4 PR值的變化Fig.4 PR value change
IUDM方法計算模型和傳統(tǒng)PageRank算法大致相同,但是本文引入了額外的加權(quán)計算,包括用戶活躍度、用戶忠誠度、用戶影響力等權(quán)重的計算.不過這些計算均可離線處理,所以二者復(fù)雜度方面大體一致,均可表示為0(N2),N為用戶節(jié)點個數(shù).本文在充分考慮了傳統(tǒng)的PageRank及其改進算法不足的同時,從企業(yè)微博營銷的需求出發(fā),加入了用戶活躍度、用戶忠誠度、用戶影響力的影響因素,使改進后的方法更適用于微博營銷需求下的用戶挖掘.傳統(tǒng)的PageRank及其改進算法大多僅考慮用戶影響力方面,而單純考慮影響力是不符合企業(yè)微博營銷需求的,若用戶只具備較強影響力,而對商品本身并不關(guān)注,也從不共享商品信息,那么該用戶對商品信息的傳播也并無貢獻.通過圖3可知,本文所提方法在考慮用戶自身影響力的基礎(chǔ)上,還考慮了用戶對商家關(guān)注程度即用戶活躍度、用戶對商品關(guān)注程度即用戶忠誠度等細節(jié),這顯然更符合企業(yè)的營銷需求,更適合于在微博營銷場景下用戶的精準挖掘.而由圖4可看出,企業(yè)還可以通過調(diào)節(jié)權(quán)重系數(shù)的大小來滿足不同的營銷需求,例如企業(yè)希望挖掘到的用戶可以在商品宣傳方面起到比較大的作用,那么就可以增大影響力的權(quán)重系數(shù),從而使挖掘到的用戶品牌傳播方面發(fā)揮出更大的作用,而如果需要直接的消費者,那么可以調(diào)大用戶活躍度與用戶忠誠度的權(quán)重系數(shù),這樣挖掘到的大多是對產(chǎn)品長期關(guān)注,并且感興趣的用戶,他們直接消費的可能性要更大.
5 結(jié)束語
隨著社交網(wǎng)絡(luò)的高速發(fā)展,人們的線上活動與線下生活已相互融合密不可分.在這種環(huán)境下,充分挖掘出微博平臺蘊含的商業(yè)價值,藉此提升網(wǎng)絡(luò)營銷能力對企業(yè)發(fā)展至關(guān)重要.本文首先分析了PageRank算法在企業(yè)微博營銷背景下存在的諸多不足,確定了用戶活躍度、用戶忠誠度、用戶影響力作為影響因素,然后將以上因素進行整合,最后將整合后的總權(quán)重融入PageRank計算模型,完成對方法的改進.經(jīng)實驗分析,證明本文所給出的方法對用戶行為特征的分析更為全面,可準確挖掘出企業(yè)所需要的重要微博用戶.