999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

微博用戶影響力模型研究①昆明理工大學 畢秋敏

2015-07-12 07:21:28云南財經大學倪明明曾志勇
中國商論 2015年24期

云南財經大學 倪明明 曾志勇

微博用戶影響力模型研究①昆明理工大學 畢秋敏

云南財經大學 倪明明 曾志勇

摘 要:本文建立的算法可用于在微博中尋找影響力大的用戶,并為控制虛假新聞的傳播提供有效的途徑。筆者在分析微博用戶的影響力中,發現本文提出的算法相對原始的PageRank算法更具有合理性;通過分析原始的PageRank與改進的PageRank的基礎上,我們考慮引進用戶內在影響力建立偏隨機游走的PageRank算法;基于偏隨機游走的PageRank對用戶的影響力具有更好的分析性。本文沒考慮到地域性的差異,怎么結合地域的特點來建立模型也是下一步研究的重點。如果能較好地結合時間性與地域性的特點,那么我們能更好地預測重點輿論爆發的時間,并且有效地進行控制。

關鍵詞:用戶影響力 PageRank 主題模型 內在影響力

Web2.0時代,基于互聯網的社交網絡正在成為人類社會中社會關系維系和信息傳播的重要渠道和載體。社會個體通過各種連接關系在社交網絡上構成“關系結構”;各類信息基于社交網絡的關系結構和網絡群體,得以快速發布并傳播擴散形成社會化媒體,并反饋到現實社會,從而使得社交網絡與現實社會間形成互動,并對現實世界產生影響[1]。

微博吸引了越來越多來自各個行業、擁有各種背景的人。人們可以自定義標簽,五花八門的內容體現出用戶的興趣需求點又廣又細。然而,除了一些大眾的需求,很多相對冷門的興趣點并沒有聚合起用戶。一方面,在當前嘈雜的微博環境中,信息一出現就很有可能被迅速淹沒,據數據顯示[1],只有很少量的微博才得以廣泛傳播;但是只要有一部分影響力大的用戶點贊或者轉發相應的微博就會使信息得到廣泛的關注。因此找到微博影響力大的用戶對輿論控制或者信息傳播是十分重要的。

目前有許多人應用了PageRank算法對微博用戶影響力進行排名。因此本文以新浪微博作為社交網絡的出發點,類似于偏隨機游走PageRank算法從一個新的角度構建微博用戶的影響力模型。

1 研究現狀

用戶影響力在微博領域的延伸始于鏈接分析,2010年Weng等基于PageRank設計了Twitter用戶和鏈接結構的話題相似性影響力排序算法[3]。2010年王曉光將新浪微博作為研究對象,考察用戶的基本行為特征和關系特征,分析用戶影響力的相關變量,最終建立出影響力回歸方程[4]。2010年Cha等選擇從用戶行為的角度,通過分析微博的粉絲、被轉發與用戶被@狀況對用戶影響力進行了考察[5]。Ye等將用戶粉絲數量影響力、回復影響力、轉發影響力、粉絲數、微博的數量、回復和轉發數作為排序的準則進行了計算和比較,認為從回復最多的角度得出的用戶影響力值最穩定,并按此進行影響力排序作為標準[6]。2011年邵晶晶等提出PageRank算法的阻尼因子值[7]。2012年原福永等通過用戶活躍度與微博影響力針對微博的排名機制進行研究,建構了微博用戶的用戶影響力指數模型[8]。2013年周志峰等應用h指數對博客的影響力進行分析[9]。何靜等基于改進PageRank算法的微博用戶影響力研究來控制僵尸粉的影響[10]。偏置游走模型針對PageRank的隨機游走模型進行改進,其基本思想很接近,不同點在于:智能游走模型考慮的是網頁內容和用戶查詢的相關性,而偏置游走模型考慮的是鏈接指向的網頁內容和當前游覽網頁內容之間的相似性[11]。Chakrabarti等指出一個網頁傾向于鏈向主題相關性的網頁,這從一定角度解釋了PageRank這一與查詢無關的排序方式在搜索結果排序中的有用性,更重要的是給研究者以提示:通過考慮網頁的主題特性可以改進PageRank的效果。

本文重點研究新浪微博社區中用戶的影響力。建立一個通過偏隨機游走建立的PageRank算法,利用微博社區網絡中用戶之間的相互關系作為微博影響力的因素,評價其在網絡中的影響力,找出微博社區網絡中的關鍵用戶,并且為PageRank算法提供新的思路。

2 方法描述

2.1 基于傳統PageRank算法的影響力模型

PageRank算法是用來衡量網絡中節點重要程度的經典算法[12],該算法基于用戶鏈接分析計算用戶的重要度。其基本思想是將用戶之間的鏈接作為一種投票行為。重要用戶投出的選票要比一般用戶投出的價值高。如果在最后一個用戶得到的選票越多說明該用戶越重要。雖然PageRank會一直傳遞,但經過佩奇等(1997)的證實,PageRank的計算是收斂的[13]。為此,拉里·佩奇和謝爾蓋·布林得到了簡易計算模型:

由于用戶在進行瀏覽別人博客時,會出現“疲勞”,也就是會跳至別的URL。因此需要對PageRank公式進行修正,的基礎上增加了阻尼系數d(一般為d=0.85)。所以得到修正后較為具體的PageRank。

PageRank算法運用用戶之間的關注情況來評價用戶的重要性,在一定程度上避免和減少了人為因素對排序結果的影響;一個用戶只能通過別的用戶關注對其引用來增加自身的PR值,且算法的均分策略使得一個用戶的關注越多,被關注的用戶所獲得的PR值就越少。因此,算法可以有效避免那些為了提高網站的搜索排名而故意使用鏈接的行為,但是原始的PageRank算法僅利用網絡的鏈接結構,無法判斷網頁內容上的相似性。我們針對這種情況在只有關注的與被關注的數據上對模型進行修正。

2.2 改進PageRank算法的影響力模型

僵尸粉是指已經注冊卻不活躍在平臺上的用戶,他們的特點往往是無頭像、極少內容、無粉絲、卻有大量關注,是一些虛假粉絲、“死粉絲”。現在一些用戶通過花錢購買僵死粉從而增加自己的粉絲數量,增加人氣值。僵尸粉的存在使得傳統的PageRank算法不合適。

改進的PageRank算法的思想:每位影響力很大的用戶,必須具備兩個條件:一是具有大量的粉絲;二是具有較少的關注數。兩者的比值是一個較大的數,結合實際生活中很多用戶是通過了解別人與之成為好友從而引發好友也關注他。這樣改進后,如果某個用戶被一個重要的用戶引用,則這個用戶可以流入一個較大的PR值。如果這個用戶被很多虛假用戶引用,流入的PR值也應該較小。通過這個方法,PR值大的用戶在分配給其他用戶時,其他用戶可以獲得較高PR值。對于虛假粉絲,具有很少粉絲卻具有較多關注的用戶,可以適當地降低他們對PR值的影響,有效地過濾掉了僵尸粉。因此可以引入一個條件系數m(粉絲數與關注數的比值)[10]。

由以上陳述現將改進的PageRank算法計算公式記為:其中d為調節因子,在經驗上通常取為0.85,其中為指向用戶的所有用戶集合;為入鏈的值為用戶從中獲得PR值表示用戶的關注數。

2.3 偏隨機游走的PageRank算法

對于傳統的模型或者是現有改進的模型來說,研究者常常是對原有網頁的PR進行加權或者刪去一些僵尸粉。我們發現這種直接把運用于網頁排名的PageRank算法應用于微博用戶影響力中具有不合理性,因此我們提出了一種修正的偏PageRank算法模型。針對傳統的PageRank模型而言,用戶在進行瀏覽微博時,會出現“疲勞”也就是會跳至別的URL。但是這種情況對應于微博影響力的排名中是不合理的,在影響力中不存在游覽疲勞。我們對疲勞游覽進行修正。

我們的解決方法類型:

(1)主題敏感的PageRank改進算法[5]類似,我們選取用戶共同好友的所在比例作為用戶的內在影響因素,稱為好友影響力。

(2)又因為即使沒有共同的好友,用戶之間還是有一點影響,稱為微弱影響。

通過以上方案(1)與(2)結合,我們根據原始的PageRank算法給出偏隨機游走PageRank。

由于公式(4)中表示以1-d的概率平均分到n個用戶上。在實際中,當用戶游覽微博時,不可能隨機調到其他用戶中,我們參照主題下的PageRank算法,建立有偏向的PageRank算法。在微博中,用戶關注的相同用戶越多就越容易對相互產生更大的影響。在這里稱這種影響力為好友影響力。我們假定用戶i的集合為其中如果用戶i關注了用戶j則為1,否則為0。通過比較用戶i與用戶j所公共關注的用戶,我們得到為共同關注的用戶數量。如果用戶共同關注的數量越多就越說明用戶屬于同一個主題的概率越大。但是微博用戶不關注的用戶對用戶還是有一定的潛在影響力。

3 實驗與結果分析

3.1 實驗數據

新浪微博為用戶提供了豐富的API接口,使用戶可以方便地抓取和采集微博數據。用戶使用新浪微博API的前提是需要通過身份認證。本文通過基于新浪微博開放的API來獲取信息[13]。

3.2 數據整理

在抓取的數據集中,實際數據存在著缺失的情況,比如A用戶的粉絲并不在所抓取的數據集中或者有些用戶和數據里面其他用戶沒有共同關注的對象。遇到這種情況,本文將刪去那些與其他用戶沒有共同觀注對象的用戶和只考慮在數據集中的粉絲。本文中的粉絲數與關注數都只是指關于用戶在所抓取數據里的粉絲與關注。

整理后的數據一共包含了12691個用戶,在用戶關系信息文件中包含了所有這些用戶的朋友關系,在用戶轉發信息文件中包含了所有這些用戶的轉發信息。在12691個用戶中,總共有1840290條朋友關系,每個用戶平均擁有145個朋友關系??偣灿?4565條轉發關系,平均每條轉發關系的轉發數為2.65條。在所有的朋友關系中,只有8.68%的朋友關系同時也是轉發關系。這些數據都說明了雖然微博上總體的轉發數量很大,但相對于微博上的用戶數以及朋友關系數,平均到每個用戶以及每條關系上的轉發微博數還是十分少的。

3.3 實驗結果與分析

首先,我們用原始的PageRank算法計算用戶影響力模型,并顯示用戶的粉絲數量,關注度,微博數量與微博被收藏次數,如表1所示。

表1 微博影響力狀況

通過表1分析得到原始PageRank算法計算出來有較高PR值的用戶,相應的他們的粉絲或者關注數量也比較多??梢缘玫皆糚ageRank算法對用戶影響力有一定的分析能力。

表2 偏隨機游走的PageRank影響力

通過表2我們看出原始PR算法與偏隨機PR算法比較接近。果粒那個橙用戶在原始的PR算法中有較大的下降。通過分析參考原始數據發現,在所挖掘的信息中,果粒那個橙用戶在用戶之間影響力較大。我們可以分析基于偏隨機游走的用戶的影響力與粉絲與關注度的關系。如圖1所示。

圖1 偏隨機游走的微博影響力

通過圖1,我們發現,用戶的粉絲與關注數與用戶影響力有一定的影響,并不是決定性因素,可以通過用戶6與用戶7可知。而用戶6和用戶7能有較高的排名,是因為他們有較高質量的粉絲與用戶之間的影響力較大。

通過比較PageRank三種不同值的情況,我們可以得到如下情況。

圖2 原始pagerank與偏隨機PR算法的比較

由圖2對微博用戶主排名可以分析兩種算法模型的區別和聯系?;旧吓旁谇笆挠脩暨€在前十,大多是順序發生了變換,PR值并沒有發生顯著的改變。比較圖1中原始PR值與基于偏隨機游走的PR值,可以發現偏隨機游走的PR值只是對原始PageRank算法進行微弱的改進。

在社會輿論的管理中,我們控制影響力較大的用戶能對輿論監督與管理有較大的意義,并且可以控制虛假新聞的傳播。本算法相對于原始PageRank算法都只用了粉絲數據與關注數據,但是本算法通過用戶之間的影響力在微博用戶分析當中具有更強的說服力。

4 結語

本文從偏隨機游走的PageRank算法的角度考慮用戶與用戶之間的內在影響力,并通過有限次計算得到一個穩定的微博用戶的影響力值。該方法相對于原始PageRank算法的影響力模型來說,能夠對微博影響力進行更加準確的排名。更重要的是該方法能為進一步擴展PageRank算法提供新的思路。本文只在一個固定時間段進行影響力排序,怎么合理地考慮動態效應時間下的基于貝葉斯的PageRank算法是進一步研究的重點。本文沒考慮到地域性的差異,怎么結合地域的特點來建立模型也是下一步研究的重點。如果能較好地結合時間性與地域性的特點,那么我們能更好地預測重點輿論爆發的時間,并且有效地進行控制。

參考文獻

[1] 丁兆云.社交網絡影響力研究綜述[J].計算機科學,2014(01).

[2] 靳政衡.受眾心理對微博營銷效果的影響[D].安徽:安徽大學,2013.

[3] Weng J S,Lim E P,Jiang J,et al.TwitterR-ank:Finding Topic-sensitive Influential Twitterers[C]//Proceedings of the 3rd ACM International Conference on Web Search and Data Mining(WSDM2010).New York:ACM,2010.

[4] 王曉光.微博客用戶行為特征與關系特征實證分析——以“新浪微博”為例[J].圖書情報工作,2010(14).

[5] Cha M Y,et al.Measuring user influence in Twitter:The million follower fallacy[C]// P r o c e e d i n g s o f I n t e r n a t i o n a l A A A I Conference on Weblogs and Social Media (ICWSM’10),Washington,Menlo Park:The AAAI Press,2010.

[6] Ye S Z,Wu S F.Measuring Message Propagation and Social Influence on Twitter.com[C]//Proceedings of the 2nd International Conference on Social Informatics (SocInfo‘10).Heidelberg:Springer-Verlag,2010.

[7] 邵晶晶,等.PageRank[J].華中師范大學學報,2011 (04).

[8] 原福永,等.微博用戶的影響力指數模型[J].現代圖書情報技術,2012(06).

[9] 周志峰,等.H指數應用于微博影響力分析的探索[J].情報雜志,2013(04).

[10] 何靜,等.基于改進PageRank算法的微博用戶影響力研究[J].中國報業,2013(01).

[11] 張俊林.這就是搜索引擎核心技術[M].北京:電子工業出版社,2012.

[12] 王冬,雷景生.一種基于PageRank的頁面排序改進算法[J].微電子學與計算機,2009,26(04).

[13] Page L,Brin S,Motwani R,et al.The Page-Rank citation ranking:Bringing order to the web[R].Stanford Digital Librar- ies,1999.

[14] Tang J,Sun J,Wang C,et al.Social influence analysis in large-scale net works[C]// Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining,2009.

[15] 黃延煒.新浪微博數據獲取技術研究[J].信息安全與通信保密,2013(06).

中圖分類號:F719.9

文獻標識碼:A

文章編號:2096-0298(2015)08(c)-158-05

基金項目:①云南省哲學社會科學規劃基金項目“微博用戶影響力模型研究”研究成果(QN2014071)。

作者簡介:畢秋敏(1981-),女,碩士研究生,副教授,主要從事新媒體傳播方面的研究;倪明明(1990-),男,碩士研究生,主要從事統計學理學方面的研究;

通訊作者:曾志勇,男,博士研究生,教授,主要從事數據挖掘方面的研究。

主站蜘蛛池模板: 美女一区二区在线观看| 亚洲天堂777| 国产亚洲视频免费播放| 无码专区在线观看| 国产大全韩国亚洲一区二区三区| 日韩色图在线观看| 精品综合久久久久久97超人| 看你懂的巨臀中文字幕一区二区| 日韩精品免费一线在线观看| 国产日本视频91| 2021天堂在线亚洲精品专区| 欧美日韩国产系列在线观看| 久久亚洲国产视频| 午夜欧美理论2019理论| 国产va视频| 欧美性久久久久| 国产精品露脸视频| 色综合激情网| 毛片基地视频| 免费观看国产小粉嫩喷水| 亚洲天堂视频在线播放| 亚洲精品自在线拍| 国内精品视频在线| 五月天久久婷婷| 国产成人做受免费视频| 日韩A级毛片一区二区三区| 亚洲国产天堂在线观看| 国产女人水多毛片18| 中文字幕久久波多野结衣| 日本爱爱精品一区二区| 亚洲色中色| 久久婷婷综合色一区二区| 国产成人综合久久| 欧美在线精品怡红院| 欧美亚洲国产视频| 丁香六月激情综合| 国产成人麻豆精品| 操国产美女| 91久久国产综合精品女同我| 国产成人三级| 最新精品国偷自产在线| 久久黄色小视频| 国产精品密蕾丝视频| 天堂岛国av无码免费无禁网站 | 色欲色欲久久综合网| 91免费国产在线观看尤物| V一区无码内射国产| 97国产在线播放| 国产91视频观看| 日本五区在线不卡精品| 亚洲AV无码乱码在线观看裸奔| 99在线视频免费| 无码'专区第一页| 国产自无码视频在线观看| 久久亚洲高清国产| 精品免费在线视频| 日韩精品亚洲一区中文字幕| 国产成人无码AV在线播放动漫| 久久伊伊香蕉综合精品| 国产精品视频猛进猛出| 青青青国产精品国产精品美女| 国产成人精品优优av| 五月天在线网站| 亚洲婷婷六月| 欧美性久久久久| 2021亚洲精品不卡a| 综合色亚洲| 国产青青操| 2020精品极品国产色在线观看 | 国产99热| 中文无码伦av中文字幕| 自拍亚洲欧美精品| 不卡午夜视频| 成人一级免费视频| 日韩精品毛片| 久久精品亚洲中文字幕乱码| 国产最新无码专区在线| 亚洲一区二区在线无码| 婷婷色婷婷| 欧美性精品| 国产无码精品在线| 欧洲免费精品视频在线|