999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

社交網絡傳播節點影響力建模分析

2016-05-25 00:37:18朱曉明王直杰
電子設計工程 2016年23期
關鍵詞:用戶信息模型

朱曉明,王直杰

(東華大學 上海 201620)

社交網絡傳播節點影響力建模分析

朱曉明,王直杰

(東華大學 上海 201620)

針對現有社交網絡研究未能充分考慮網絡拓撲結構的現狀,通過提取更多的影響轉發行為的特征因素,利用邏輯斯蒂回歸模型得到用戶間的信息轉發概率,進而建立完整的網絡拓撲模型。在轉發預測模型的基礎上,給出網絡節點的影響力評估指標,并對PageRank算法進行改進。最后通過在數據集上的試驗,試驗結果證明給出的拓撲模型能較好的模擬信息在網絡中傳播過程,改進后的PageRank算法能較好的對節點影響力進行評估和排序。

微博;用戶影響力;信息傳播;PageRank算法

信息的快速傳播是社交網絡的最大特點。通過用戶之間的關注及轉發,借助社交網絡的級聯效應,信息以前所未有的速度在社交網絡中擴散。社交網絡的特性使得每個互聯網用戶都可以通過信息的傳播影響更多人。

目前,微博的信息傳播機制研究大多從用戶個體的微觀角度出發,分析用戶個體的信息傳播能力,預測信息的傳播效果。然而,微博作為一種新興的社交工具,其信息傳播是通過眾多個體的信息行為而形成級聯型的網絡傳播。單一從微觀層面的研究并不能準確描述微博中信息的擴散效應[1]。

微博影響力的研究大多利用節點度數相關的概念去衡量用戶影響力,將影響力簡單等同于粉絲數,這種評估方式忽略了微博網絡的應用特點。因此,有必要對微博網絡中的傳播影響力進行合理定義,分析決定傳播影響力的因素,建立微博網絡的影響力模型,并對用戶影響力進行度量[2]。

文中以微博這一社交網絡的典型代表作為研究對象,分析其傳播機制并進一步構建微博信息傳播模型和影響力衡量模型。

1 社交網絡消息傳播模型

1.1 問題描述

定義 1(消息轉發行為預測):在給定微博網絡r,用戶網絡G=(U,E)和歷史轉發消息集合M的情況下,對用戶微博u轉發微博r的概率進行預測。

yu表示用戶u的轉發行為,取值為0或1,yu=1表明用戶u對消息r進行轉發。對消息轉發行為的預測是機器學習中的二分類問題。在給定用戶網絡的情況下,通過對歷史消息集合M進行訓練,可以得到用戶u對微博r的轉發行為分類結果。邏輯回歸(logistic regression,LR)模型[3]可以在誤差較小的情況下很好的完成分類任務,并且得到概率型的分類結果。在LR模型的基礎上,去建立微博消息轉發模型。

1.2 特征提取

特征的選取將在很大程度上影響轉發預測的準確性,通過對微博應用特點的分析,影響轉發行為的因素主要來自微博內容、用戶屬性和網絡關系。接下來對這幾個因素進行特征提取[4]。

1)微博內容與用戶興趣:微博原文內容與用戶興趣的相似程度可以看作是消息內部對消息傳播起到驅動作用的動力。簡單來說,如果用戶所關注的用戶發布了一條微博,而這條微博的內容與用戶興趣的相似程度很高,那意味著該用戶轉發該微博的概率很高。

2)微博用戶社會關系:在社交網絡中,用戶之間的信息傳播是通過用戶間的轉發完成的,而轉發的基礎是關注與被關注。但與此同時,關注和被關注之間的關系是不對等的,被關注者的信息更容易傳播給關注者,而關注者的信息傳播給被關注者的概率更小,除非雙方是相互關注的關系[5]。

3)微博文本與用戶屬性:基于歷史統計數據表明:微博消息的文本特征將對用戶的轉發行為產生影響。相關研究指出,微博中是否含有Hashtag、URL、@等特殊符號,都影響著用戶的轉發行為[6]。包含這些符號表明微博內容具有更多的延伸信息,這些延伸信息決定了用戶對微博的接受程度。

4)受激活次數:社會網絡中,當鄰居節點頻繁對目標節點傳遞信息時,目標節點對該信息的接受程度將相應的發生變化[7]。因此,可以認為在微博網絡中,當用戶的朋友中轉發微博的人數增多時,用戶轉發微博的傾向性將發生變化。

1.3 傳播模型建立

根據之前的分析,文中共提取了如表1所示的影響轉發行為的數值化特征[8]。其中特征1、2描述興趣相似程度;特征3~9表示社會關系的影響;特征10~15表示文本特征與用戶屬性的影響;特征16為用戶受激活次數的影響。

表 1 影響消息轉發特征列表

在這些特征中,特征5、10、11、和12采用布爾量表示,0表示否,1表示是,其余特征可以從歷史數據集中直接提取。這些特征與轉發行為呈現出線性關系[9],可以通過訓練得到特征權重,從而建立用戶轉發行為的概率預測公式:

其中x表示了微博與用戶的屬性集合,F(r,G)為影響用戶u轉發行為的特征集合,ω為權值向量,權值的獲取利用極大似然函數的方法,對用戶u利用N條歷史記錄微博數據形成訓練集。

2 社交網絡節點影響力

2.1 影響力定義

微博影響力主要是通過微博用戶間的關系進行體現的,當微博用戶對其他用戶的作用越大,該用戶的影響力也就越大[10]。

定義 2(微博用戶影響力網絡定義)考慮微博網絡G=(U,E),其中節點u∈U表示網絡中的所有用戶,邊(u,v)∈E表示用戶u與v之間的關注關系,定義用戶轉發行為構成的網絡是用戶關系網絡的一個子網,即用戶只轉發來自關注節點的消息[11]。定義節點i所關注的節點集合為:A(i)={j|(i,j)∈E},定義節點j的粉絲節點集合:N(j)={i|(i,j)∈E}。

微博網絡是一個由關注關系形成的信息傳播網絡。依據這種關注關系可以構建出一個有向網絡[12],建立關注關系矩陣如下:

其中矩陣元素滿足:

2.2 影響力關鍵因素

根據上述影響力定義,本節提出了一套評估微博用戶傳播影響力的指標和體系,該體系從用戶面向的信息傳播的受眾廣度、信息傳播的活躍程度、信息的被傳播度3個方面引入指標來評價微博用戶的影響力。

1)信息傳播度:信息傳播度是指微博用戶發布一條微博得到的擴散效果,包括擴散范圍、被轉發數、被評論數等等,是一個用戶信息傳播能力的體現。此外,信息傳播度同樣是信息質量的一種體現,發布微博的質量越高,越能吸引粉絲對微博的轉發及評論行為[13]。

2)傳播活躍程度:微博是一種廣播式的信息傳播平臺,用戶通過關注的方式來獲取自己感興趣博主所發布的微博,所有的微博將按照時間的先后順序呈現給用戶,因此,博主發布微博的頻率越高,激活其粉絲發生信息行為的機會就越多,相應的用戶傳播影響力也就越高。博主發布微博的頻率被定義為傳播活躍程度,活躍度可以用單位時間內發表的微博數量來表示。

3)傳播受眾廣度:傳播受眾廣度表示了用戶通過信息行為可以激活的用戶范圍,粉絲數量及粉絲質量是體現受眾廣度的重要方面。圖1所示的有向圖是一個由6個節點組成的微博網絡結構示意。

圖1 微博網絡結構示意圖

圖中的有向邊表明了用戶間的關注關系,例如用戶 D關注了用 A,則形成了一條由 D指向 A的邊。圖中顯示了用戶A的粉絲數達到了5個,B、C、E分別有一個粉絲,D、F沒有粉絲,用戶 A相比于其余節點,其發布的信息可以迅速的傳播到整個網絡中,因此,用戶 A具有更高的影響力。此外,比較B、C、E 3個用戶,雖然他們的粉絲數都為1,但由于用戶A關注了 E,E發布的信息將會被A接收,從而有可能繼續在網絡中擴散,因此,用戶 E在網絡中的影響力高于用戶B、C。

可見,用戶的粉絲越多,激發其他用戶產生信息行為的潛力就越大,越容易影響到其他人,且所花費的代價也越小,反之亦然。同時,粉絲與粉絲之間也不能同等對待,粉絲自身的影響力以及網絡的用戶規模也是衡量用戶影響力的重要指標。

2.3 影響力度量算法

微博中的拓撲結構類似于網頁之間的鏈入鏈出關系,PageRank算法是計算網頁重要性的經典算法,可以很好的體現網絡拓撲的影響。因此,本節將在微博影響力模型的基礎上,融合PageRank算法,提出一種新的微博影響力度量算法MIR(Microblog Influence Rank)[14]。

根據上節分析,得到用戶影響力關聯網絡,如圖2所示。其中 f(i,j)表示節點之間的影響權值,用轉發預測模型的轉發概率表示。

圖2 用戶影響力關聯網絡

根據上一節提出的影響力網絡模型,建立微博中的影響力轉移矩陣,如下所示:

其中,sij表示用戶i向其關注節點j的影響力轉移概率,其表達式如下所示:

A(i)為節點i的關注節點集合。

2.4 MIR算法的提出

在PageRank算法中,PR(PageRank)值是根據反向鏈接的數目均勻分配給相應的關系節點的,而在微博中,用戶之間的關聯緊密程度卻是不盡相同的,平均分配PR值無法體現微博網絡中用戶間的影響力關聯強度。在影響力轉移矩陣的基礎上改進PageRank的算法思想,建立了MIR算法,表達式如下:

算法中使用MIR值衡量用戶的影響力大小,將所有節點的初始MIR值設為0.1,通過迭代可以得到所有用戶的MIR值。N(j)是節點j的粉絲集合,sij是影響力轉移概率,表示節點i的影響力分配給節點j的比例因子,體現了節點j在所有影響節點i的節點中所占的比重[15]。

在MIR算法中,表征用戶影響力的MIR值并不是依靠關注數目平均分配,而是根據計算得到的每條邊的影響率權值進行分配,這樣做可以使影響關系更緊密的用戶得到更多的MIR值,通過多次迭代,最終使微博網絡中的影響力度量更加合理。

MIR算法主要的偽代碼如下所示:

Input:微博網絡G(V,E),網絡節點個數K,迭代次數M

2.5 算法結果分析

為了驗證MIR算法在微博網絡節點影響力評估的有效性,文中使用新浪微博提供的API接口獲取真實的微博數據作為實驗數據集,依據用戶的關注關系獲取了6 302個活躍節點信息,組成了一個信息傳播網絡,并且獲取了相應節點在一周時間內所進行的相關信息行為數據,如發布、轉發、評論等。數據集的具體描述如表2所示。

表2 數據集描述

我們運用MIR算法在數據集中進行了實證分析,得到的影響力排名前10的節點如表3所示。

表3 用戶影響力排序表

從表3中可以看出,用戶影響力與粉絲數量具有明顯的正比關系,微博作為一個廣播型的信息擴散平臺,粉絲數量表明了一個用戶在網絡中的信息受眾群體大小,進而決定了用戶所處的地位。當然,粉絲數量多少并不是與影響力成絕對正比,從表中還可以看到一些用戶本身粉絲數量雖然有限,但憑借其發布微博的數量優勢躋身前十名。這說明在微博中,通過努力的多傳播有價值的信息,同樣可以獲得相當大的影響力[16]。

3 結 論

在對微博用戶傳播影響力進行定義的基礎上提出了評估用戶影響力的指標體系,并詳細分析了決定用戶影響力的3大因素,包括用戶粉絲數,活躍度以及信息傳播度,提出了衡量用戶之間影響力關聯大小的影響率的概念,進而建立了有向加權的微博網絡影響力模型。最后,在影響力模型的基礎上改進用于網頁排序的 PageRank算法,提出了度量微博用戶影響力的MIR算法,能夠基于此算法找出微博影響力大的用戶。

[1]劉軍.社會網絡分析導論[M].北京:社會科學文獻出版社,2004.

[2]張腸,路榮,楊青.微博客中轉發行為的預測研究[J].中文信息學報,2012,26(4):109-114.

[3]李航.統計機器學習[M].北京:清華大學出版社,2012.

[4]王曉光.微博客用戶行為特征與關系特征實證分析—以“新浪微博”為例[J].圖書情報工作,2010,54(14):66-70.

[5]楊長春,俞克非,葉施仁,等.一種新的中文微博社區博主影響力的評估方法[J].計算機工程與應用,2012,38(25): 229-233.

[6]王晶,朱珂,汪斌強.基于信息數據分析的微博研究綜述[J].計算機應用,2012,32(7):2027-2029,2037.

[7]Narayanam R,Narahari Y.A shapley value-based approach to discover influential nodes in social networks[J].IEEE Transactions on Automation Science and Engineering,2011,8(1):130-147.

[8]李英樂,于洪濤,劉力雄.基于SVM的微博轉發規模預測方法.計算機應用研究,2013(9):2594-2597.

[9]張旸,路榮,楊青.微博客中轉發行為的預測研究[J].中文信息學報,2012,26(4):109-114.

[10]郭浩,陸余良,王宇,等.基于信息傳播的微博用戶影響力度量[J].山東大學學報:理學版,2012,47(5):1-6.

[11]陳一帆社交網絡中節點影響力的評價與優化機制研究[D].長沙:中南大學信息科學與工程學院,2014.

[12]謝婧,劉功申,蘇波,等.社交網絡中的用戶轉發行為預測[J].上海交通大學學報,2013,47(4):584-588.

[13]張亞明,唐朝生,李偉鋼.微博機制和轉發預測研究[J].情報學報,2013,32(8):868-876.

[14]詹圣君,邵雄凱,劉建舟.一種考慮用戶行為的改進N—PageRank算法[J].計算機技術與發展,2011,21(8):137-140.

[15]王琛,陳庶樵.一種改進的微博用戶影響力評價算法[J].信息工程大學學報,2013,14(3):380-384.

[16]劉志明,劉魯.微博網絡輿情中的意見領袖識別及分析[J].系統工程,2011,29(6):8-9.

Modeling analysis of the influence of social network communication node

ZHU Xiao-ming,WANG Zhi-jie
(Donghua University,Shanghai 201620,China)

Since the existing studies don't take full consideration of the network topology of social network.In this paper,by extracting more characteristics which will influencethe information transfer behavior,then using logistic regression model to get the probability between two users,thereby establishinga complete network topology model.Base on the information transfer model,then given the influence of the assessment indicators of network nodes,and improve the PageRank algorithm.The test results on the dataset proved that topology model simulate the process of information disseminationin the network very well,and the improved PageRank algorithm can better assess and sort the influence of the nodes.

microblogging;user influence;information dimension;PageRank algorithm

TN915.41

A

1674-6236(2016)23-0058-04

2015-11-18稿件編號:201511175

朱曉明(1992—),男,湖南常德人,碩士研究生。研究方向:復雜網絡。

猜你喜歡
用戶信息模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
主站蜘蛛池模板: 国产理论精品| 婷婷伊人久久| 亚洲高清中文字幕在线看不卡| 亚洲综合在线最大成人| 中文字幕2区| 伊人久久大线影院首页| 国产人在线成免费视频| 国产成人超碰无码| 91青青视频| 99视频在线免费观看| 成人免费视频一区二区三区| 欧美人人干| a毛片在线免费观看| 激情六月丁香婷婷四房播| 国产一区二区精品福利| 欧美中文字幕无线码视频| 毛片网站在线看| 99re这里只有国产中文精品国产精品| 亚洲日韩每日更新| 国产综合亚洲欧洲区精品无码| 国产91高清视频| 久久成人国产精品免费软件| 九九视频免费在线观看| 国产91透明丝袜美腿在线| 在线观看免费人成视频色快速| 国产毛片一区| 亚洲精品午夜无码电影网| 亚洲品质国产精品无码| 久久香蕉国产线| 婷婷五月在线| 国产内射在线观看| 精品国产网站| 欧美一级片在线| 天堂在线亚洲| 国产成人综合日韩精品无码首页| 中文字幕精品一区二区三区视频 | 精品99在线观看| 国产在线观看91精品亚瑟| 亚洲成人一区在线| 国产成人久久777777| 亚洲永久免费网站| 国产高清不卡| 国产成人1024精品| 午夜一区二区三区| 亚洲制服丝袜第一页| 精品色综合| 久久久久久国产精品mv| 国产精品一区在线观看你懂的| 国内精品久久久久鸭| 国产久草视频| 中国丰满人妻无码束缚啪啪| 中文字幕亚洲第一| 熟妇无码人妻| 亚洲天堂区| 国产一级裸网站| 污视频日本| 日韩午夜福利在线观看| 国产亚洲欧美日韩在线观看一区二区| 亚洲视频四区| 国产裸舞福利在线视频合集| 日韩午夜福利在线观看| 国产精品美乳| 永久在线播放| 亚洲第一黄色网址| AV色爱天堂网| 国产精品吹潮在线观看中文| 久久亚洲美女精品国产精品| 欧美在线视频a| 国产大片喷水在线在线视频| 欧美日韩午夜| 潮喷在线无码白浆| 亚洲人成在线精品| 国产理论一区| 国产色婷婷| 久久综合丝袜日本网| 亚洲精品va| 亚洲Av综合日韩精品久久久| 免费看黄片一区二区三区| 国产女人在线视频| 五月激情综合网| 国产自视频| 精品国产成人a在线观看|