李付民,佟玲玲,杜翠蘭,李揚(yáng)曦,張仰森
(1.北京信息科技大學(xué) 智能信息處理研究所,北京 100192; 2.國家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心,北京 100190) (*通信作者電子郵箱tongling300@sina.com)
基于關(guān)聯(lián)關(guān)系的微博用戶可信度分析方法
李付民1,佟玲玲2*,杜翠蘭2,李揚(yáng)曦2,張仰森1
(1.北京信息科技大學(xué) 智能信息處理研究所,北京 100192; 2.國家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心,北京 100190) (*通信作者電子郵箱tongling300@sina.com)
隨著微博研究的深入,對微博用戶可信度的評價成為一個研究熱點(diǎn)。針對微博用戶可信度評價的問題,提出了一種基于關(guān)聯(lián)關(guān)系的用戶可信度分析方法。以新浪微博為研究對象,首先從用戶的資料信息、交互信息和行為信息三個方面出發(fā),分析了用戶的7個相關(guān)特征,利用層次分析法(AHP),進(jìn)而得到用戶自評價可信度;然后以用戶自評價作為基點(diǎn),以用戶關(guān)系網(wǎng)絡(luò)作為載體,結(jié)合用戶之間潛在的用戶互評關(guān)系,通過改進(jìn)PageRank算法,提出了用戶可信度評價模型User-Rank,進(jìn)而,利用關(guān)系網(wǎng)絡(luò)中其他用戶對待分析用戶的可信度進(jìn)行綜合評價。大規(guī)模的微博真實(shí)數(shù)據(jù)的實(shí)驗(yàn)表明,所提方法能夠取得良好的用戶可信度評價效果。
用戶自評價;關(guān)系網(wǎng)絡(luò);用戶可信度;用戶關(guān)聯(lián)關(guān)系;層次分析法;PageRank
近年來,隨著社交網(wǎng)絡(luò)的快速發(fā)展,微博作為一種開放式社交網(wǎng)絡(luò)媒體,憑借其實(shí)時、簡潔、靈活、快捷的特點(diǎn),快速地融入到人們生活的各個方面。它不僅具有社交媒體的特性,而且還具有今非昔比的社會服務(wù)價值。中國互聯(lián)網(wǎng)絡(luò)信息中心(China Internet Network Information Center, CNNIC)發(fā)布的《2015年中國社交應(yīng)用用戶行為研究報(bào)告》[1]指出,微博是用戶獲取和分享最新資訊和興趣愛好的重要平臺。新華網(wǎng)發(fā)布《2015年全國政務(wù)新媒體綜合影響力報(bào)告》[2]統(tǒng)計(jì)數(shù)據(jù)顯示:截止到2015年12月,我國政務(wù)微博認(rèn)證賬號(含新浪、騰訊兩大微博平臺)達(dá)到28.4萬個,累計(jì)覆蓋人次達(dá)45億以上。微博作為時下流行的大眾化信息傳播媒介,處于網(wǎng)絡(luò)輿論傳播中心地位。它不僅滿足用戶及時了解新聞熱點(diǎn)、興趣內(nèi)容、對新聞熱點(diǎn)事件的評論等需求,同時在政府新聞機(jī)構(gòu)也得到了廣泛的應(yīng)用和極大的推廣。
由于微博的開放性和交互性等因素,越來越多的國內(nèi)民眾注冊微博,成為微博這一草根媒體的一員。隨著微博的普及,微博用戶的可信度[3]問題成為亟待解決的問題。目前微博用戶可信度的研究大都是基于統(tǒng)計(jì)學(xué)的方法,通過統(tǒng)計(jì)微博用戶的粉絲數(shù)、原創(chuàng)或轉(zhuǎn)發(fā)微博數(shù)量、用戶交互頻率、用戶被@次數(shù)等特征來進(jìn)行研究的,這些特征只是從靜態(tài)的角度反映了該微博用戶的可信度,并沒有考慮用戶關(guān)系網(wǎng)絡(luò)[4]中其他微博用戶的可信度對該用戶的可信度造成的影響,因此難以全面地評價微博用戶的可信度。
本文基于用戶關(guān)聯(lián)關(guān)系對用戶可信度評價方法進(jìn)行研究,創(chuàng)新性工作主要包括:
1)從用戶資料信息、用戶交互信息、用戶行為信息[5-6]綜合考慮出發(fā),分析了用戶可信度的相關(guān)度量特征,構(gòu)建了用戶可信度自評價模型。
2)結(jié)合用戶自評價值,利用用戶關(guān)系網(wǎng)絡(luò),完成對微博用戶可信度評價模型的構(gòu)建。
針對微博用戶可信度的問題,已有不少學(xué)者對微博用戶進(jìn)行了研究探討。
Cha等[7]提出了三種度量用戶影響力的方法(被關(guān)注數(shù)量、被轉(zhuǎn)發(fā)次數(shù)、被提及次數(shù)),通過對三種方法的分析比較發(fā)現(xiàn):被關(guān)注數(shù)量少的用戶的影響力一定很低,但是擁有較多關(guān)注者的用戶其影響力并不一定高。也就說,簡單通過統(tǒng)計(jì)關(guān)注者數(shù)量來度量用戶影響力的方法并不一定有效。
Bakshy等[8]把微博轉(zhuǎn)發(fā)樹作為用戶影響力的度量指標(biāo),通過分析消息傳播網(wǎng)絡(luò)中消息傳播的廣度和深度,使用回歸樹的方法,來度量用戶的社會影響力大小。該研究認(rèn)為用戶發(fā)布微博的轉(zhuǎn)發(fā)規(guī)模決定了用戶影響力的大小。
Castillo等[9]提取用戶發(fā)布和轉(zhuǎn)發(fā)行為、微博文本信息和外部鏈接引用等三類特征,并利用決策樹來評估與相關(guān)的“趨勢”的主題的微博帖子的可信度。針對微博用戶,他們提取每個用戶微博發(fā)布數(shù)量、關(guān)注的好友數(shù)量、微博注冊時間和粉絲數(shù)量作為微博用戶特征,由于缺乏對用戶的權(quán)威性的考慮,因此,難以全面地衡量微博用戶的可信度。
毛佳昕等[10]考慮用戶行為因素和微博傳播網(wǎng)絡(luò)結(jié)構(gòu)兩方面的信息,通過分析微博的時效性、用戶訪問微博的時間分布和用戶轉(zhuǎn)發(fā)微博的喜好等用戶行為因素的關(guān)系,提出了用戶所發(fā)微博在全局范圍內(nèi)被轉(zhuǎn)發(fā)的次數(shù)這一影響因子,并結(jié)合社會影響力在微博關(guān)系網(wǎng)絡(luò)中的傳播情況,來度量用戶社會影響力。研究表明,用戶傳播信息能力的大小反映了用戶的社會影響力。
張紹武等[11]針對消息傳播過程中產(chǎn)生的影響力、用戶的活躍程度以及微博消息的價值,提出了三種影響力度量方法(用戶行為影響力、用戶活躍度影響力和微博影響力),通過分析影響力指標(biāo)之間關(guān)聯(lián)程度,構(gòu)建了一種融合上述三種度量方法的微博用戶影響力度量模型。研究表明,用戶影響力和用戶活躍度影響力與微博影響力之間的關(guān)聯(lián)較強(qiáng),即活躍度較高的用戶,其發(fā)布的有價值的微博更能提升自身影響力。
縱觀國內(nèi)外學(xué)者對于微博可信度的研究,大多集中研究了各種可能影響微博可信度的因素,但鮮有涉及用戶關(guān)系網(wǎng)絡(luò)對微博用戶可信度的潛在影響及其作用機(jī)制?;诖耍疚膶⒀芯繉ο箧i定在國內(nèi)新浪微博上,在國內(nèi)外學(xué)者研究的基礎(chǔ)上,引入用戶關(guān)系網(wǎng)絡(luò)中的用戶關(guān)聯(lián)關(guān)系對微博用戶的可信度進(jìn)行評價。
2.1 用戶可信度的自評價模型
本文對新浪微博進(jìn)行了詳盡的分析,從用戶資料信息、用戶行為信息和用戶交互信息三個方面出發(fā),對影響微博用戶可信度的自評價效果的相關(guān)特征進(jìn)行度量,提出微博用戶可信度的自評價模型。
2.1.1 用戶資料信息
一般地,如果用戶個人基本資料的公開程度越高,用戶發(fā)布、轉(zhuǎn)發(fā)以及評論微博時會保持較高的道德標(biāo)準(zhǔn),公眾對這類用戶的信任程度通常也很高。用戶資料信息的完整度一定程度上反映了用戶的可信度。基于新浪微博對用戶資料信息進(jìn)行提取,包括用戶資料信息中的10項(xiàng)標(biāo)簽的內(nèi)容:性別、生日、地區(qū)、騰訊QQ、博客、簡介、標(biāo)簽、教育信息、職業(yè)信息和認(rèn)證信息。
構(gòu)建向量A用以表示用戶基本資料的填寫情況,如式(1)所示:
A=(x1,x2,…,xn)
(1)
其中xi表示序號為i的標(biāo)簽是否包含信息:xi=0表示第i號標(biāo)簽不存在有效信息;xi=1表示第i號標(biāo)簽存在有效信息。
考慮到新浪微博用戶注冊時,用戶提交的用戶資料信息可能不準(zhǔn)確,在數(shù)據(jù)預(yù)處理階段,本文對用戶提交的資料信息進(jìn)行過濾預(yù)處理。對經(jīng)過預(yù)處理的用戶資料信息,本文把其作為判斷用戶可信度的一個維度。用戶向量模型構(gòu)建算法流程如圖1所示。

圖1 用戶向量模型構(gòu)建算法流程
定義1 用戶資料完整度為用戶注冊微博平臺賬號時主觀意愿上向公眾公開的個人基本信息標(biāo)簽所占所有信息標(biāo)簽的比例。
通過計(jì)算向量A的稀疏度來確定用戶資料完整度(UserInfo Integrity, UI),如式(2)所示:
(2)
其中:UI(u)表示用戶資料完整度函數(shù),n是用戶資料向量A的總維度。
2.1.2 用戶行為信息
從用戶行為信息出發(fā),本文考慮用戶發(fā)布或轉(zhuǎn)發(fā)微博中非鏈接域比率、內(nèi)容多樣性、微博活躍度和時間活躍度這四個特征。
1)非鏈接域比率。
通常情況下,每條微博文本都較為簡短,一些廣告用戶通常會選用“在微博消息中添加鏈接”的方式發(fā)布廣告推廣、產(chǎn)品營銷等垃圾微博信息。Al-Khalifa等[12]通過對Twitter的分析,考慮文本中是否含有鏈接這一特性。本文用“不含URL(UniformResoureLocator)微博比”來描述用戶微博中不含有鏈接的微博占比(NoURLRate,NR),如式(3)所示:
(3)
其中:NR(u)表示用戶u發(fā)布的所有微博中不含鏈接的微博比例;Num(u)表示用戶u的微博總數(shù);函數(shù)Url(i)表示用戶u發(fā)布微博中第i條微博中是否包含鏈接,若包含鏈接返回值為1,反之返回值為0。
2)內(nèi)容多樣性。
微博用戶中既有正常用戶也有僵尸用戶。正常用戶的微博內(nèi)容富含用戶個人色彩,語言表達(dá)形式多樣;僵尸用戶是指那些虛假賬號,一般通過人為控制、自動轉(zhuǎn)發(fā)特定信息的賬號,目的性較強(qiáng),發(fā)布的微博大多具有針對性。通過對廣告用戶、垃圾用戶等一些有目的性的微博用戶的分析,本文發(fā)現(xiàn),這類用戶發(fā)布的微博內(nèi)容在一段時間內(nèi)比較集中,通常具有目的性。特別是廣告用戶,他們發(fā)布的微博內(nèi)容重復(fù)率特別高。這類用戶發(fā)布的微博內(nèi)容去重之后,有效字?jǐn)?shù)較少。為了更好地區(qū)分正常用戶與垃圾用戶或者有目的性的用戶,本文認(rèn)為,從微博用戶發(fā)布的歷史微博內(nèi)容出發(fā),考慮微博短文本的特性、微博內(nèi)容有效字?jǐn)?shù),在一定程度上能反映微博用戶的差異性,進(jìn)而對微博用戶的可信度進(jìn)行分析。
基于微博文本的特性,以字為最小單位,計(jì)算微博用戶內(nèi)容的多樣性(ContentDiversity,ConD),如式(4)所示:

(4)
其中:ConD(u)表示微博用戶內(nèi)容的多樣性,Con(i)表示微博用戶第i條微博的內(nèi)容,Num(u)表示用戶u的微博總數(shù),Len(m)表示微博文本m的長度,Dis(C)表示微博文本集C去重后的字?jǐn)?shù)。
3)微博活躍度。
該指標(biāo)指的是用戶在更新微博、轉(zhuǎn)發(fā)微博的活躍程度。微博活躍度越高,說明該微博用戶經(jīng)常借助微博互動行為,與其他用戶實(shí)現(xiàn)信息共享。一方面表明該用戶所發(fā)布的微博、評論等具有比較強(qiáng)的傳播能力,另一方面也說明該用戶的可信度比較高,其他用戶對其信任程度也較高。
定義2 用戶微博活躍度(ActivityDegree,AD)為微博用戶在一定時間內(nèi),通過發(fā)布或者轉(zhuǎn)發(fā)微博,與他人進(jìn)行微博信息共享的頻率,如式(5)所示:
(5)
其中:AD(u)表示用戶微博活躍度,NumT(u)表示用戶u在時間T內(nèi)的原創(chuàng)微博總數(shù),ReblogT(u)表示用戶u在時間T內(nèi)的轉(zhuǎn)發(fā)關(guān)注者的微博總數(shù),AttT(u)表示用戶u在時間粒度T內(nèi)的關(guān)注者數(shù),常數(shù)T為時間粒度量,γ為用戶原創(chuàng)微博數(shù)的權(quán)重,δ為用戶轉(zhuǎn)發(fā)微博數(shù)的權(quán)重。
例如:用戶A有5個關(guān)注者,在一段時間內(nèi)原創(chuàng)微博10條,轉(zhuǎn)發(fā)微博5條;用戶B有100個關(guān)注者,在相同時間內(nèi)原創(chuàng)微博11條,轉(zhuǎn)發(fā)微博4條??梢钥闯?,用戶A與他人進(jìn)行信息共享頻率比用戶B的高。
4)時間活躍度。
定義3 時間活躍度(TimeActivityDegree,TD)是對用戶發(fā)布的最近N條微博消息跨越的天數(shù)的度量。對于正常用戶而言,這一特征值較低,而對于突然活躍的用戶,例如當(dāng)某一話題在微博流行時,這些用戶會通過當(dāng)前熱門話題來博得其他用戶的關(guān)注,這些用戶的該特征值較高,如式(6)所示:
(6)
其中:TD(u)表示用戶時間活躍度值,Num(u)表示用戶u的微博總數(shù),Date(i)表示第i條微博發(fā)布的日期,Day(register)表示微博賬號注冊的天數(shù)。
2.1.3 用戶交互信息
1)微博傳播力度。
定義4 微博傳播力度(SpreadDegree,SD)是指微博用戶發(fā)布的原創(chuàng)微博中,被粉絲認(rèn)可進(jìn)而進(jìn)行的轉(zhuǎn)發(fā)、評論、回復(fù)、點(diǎn)贊等互動行為的次數(shù)。一定程度上,用戶傳播力度反映了該用戶對關(guān)系網(wǎng)絡(luò)中的其他用戶的影響力的大小。用戶傳播力度越高,用戶發(fā)布的微博獲取的關(guān)注也就越多,參與的人數(shù)也會增加,用戶的影響力也越高,如式(8)所示:
(7)
SD(u)=(eμ×Total(u)-1)/(eμ×Total(u)+1)
(8)
其中:SD(u)表示微博傳播力度,Num(u)表示用戶原創(chuàng)微博數(shù),Thu(i)表示用戶u的第i條微博被點(diǎn)贊的次數(shù)、Eval(i)表示用戶u的第i條微博被評論的次數(shù)、Rep(i)表示用戶u的第i條微博被回復(fù)的次數(shù)、Tran(i)表示用戶u的第i條微博被轉(zhuǎn)發(fā)的次數(shù),F(xiàn)ans(u)表示用戶的粉絲數(shù)。
2)用戶有效交際廣度。
在用戶關(guān)系網(wǎng)絡(luò)中,微博用戶間通過關(guān)注成為彼此的粉絲。粉絲表明他人對用戶的關(guān)注,以期望得到用戶的微博行為信息,并將成為微博傳播的帶動者。擁有越多粉絲的用戶,與粉絲之間的交互能力越強(qiáng),在粉絲中的影響力越高,用戶的可信度越高。在中文微博中,有的用戶為了追求高粉絲數(shù),于是出現(xiàn)了一種特殊的“互粉”現(xiàn)象,即用戶關(guān)注了其他某個用戶,同時也希望該用戶關(guān)注自己。
定義5 針對這種特色現(xiàn)象,本文通過對純粉絲數(shù)和互粉數(shù)加權(quán)求和來統(tǒng)計(jì)用戶有效交際廣度(CommunicateDegree,ComD),如式(9)所示:
(9)
其中:ComD(u)表示用戶有效交際廣度;Pfans(u)表示用戶純粉絲數(shù),Mfans(u)表示用戶互粉數(shù),F(xiàn)ans(u)表示用戶粉絲數(shù),且Fans(u)=Pfans(u)+Mfans(u);Att(u)表示用戶關(guān)注數(shù),γ為用戶純粉絲數(shù)的權(quán)重系數(shù),δ為用戶互粉數(shù)的權(quán)重系數(shù)。
2.1.4 用戶自評價可信度模型的構(gòu)建
基于以上3方面7個指標(biāo)特征,應(yīng)用層次分析法(AnalyticHierarchyProcess,AHP)[13]進(jìn)行指標(biāo)權(quán)重系數(shù)的評價,進(jìn)而度量用戶自評價可信度。
層次分析法是把復(fù)雜的多因素決策問題分解為多個層次上的子因素間相互比較和權(quán)重計(jì)算問題。它是美國運(yùn)籌學(xué)家Saaty教授提出的一種多準(zhǔn)則、單目標(biāo)決策方法,是對定性事件作定量分析的一種靈活、適應(yīng)性強(qiáng)、相當(dāng)有效的方法。應(yīng)用層次分析方法進(jìn)行權(quán)重系數(shù)評價主要包括三部分。
1)層次結(jié)構(gòu)模型的創(chuàng)建。
層次分析法的基本結(jié)構(gòu)包括三層,分別是目標(biāo)層、指標(biāo)準(zhǔn)則層以及方案層,如圖2所示。

圖2 層次結(jié)構(gòu)模型
其中,第一層表示此次的目的是計(jì)算用戶的可信度,第二層表示存在7個指標(biāo)來影響目標(biāo)選取的準(zhǔn)則層,第三層表示用戶信息的方案層。
2)模型比較矩陣的構(gòu)建。
根據(jù)層次結(jié)構(gòu)模型,相對于計(jì)算用戶可信度,比較準(zhǔn)則層中的各個指標(biāo)的相對性,得出的比較矩陣如表1所示。

表1 模型比較矩陣
3)權(quán)值向量的構(gòu)建。
構(gòu)建向量μ用以表示各個指標(biāo)的權(quán)重系數(shù),如式(10)所示:
μ=(μ1,μ2,…,μi)
(10)
根據(jù)比較矩陣,獲取各個指標(biāo)間的相對重要程度,進(jìn)而得到權(quán)值向量:
μ=(0.037 3,0.068 7,0.059 9,0.099 7,0.085 7,0.201 7,0.447 5)
本文自評價(Self Evaluate, SE)度量模型的量化計(jì)算方法,如式(11)所示:
SE(u)=(UI(u),NR(U),ConD(u),AD(u),TD(u),SD(u),ComD(u))×(μT)
(11)
其中:SE(u)表示用戶u的自評價可信度值。
2.2 用戶可信度評價模型
上節(jié)中,利用用戶自評價模型來描述微博用戶的可信度,但是從某種程度上來說基于自評價的可信度模型是可以被“灌水”的。為了盡可能避免這種情況,本文對用戶之間的關(guān)聯(lián)關(guān)系進(jìn)行了分析,進(jìn)而評價用戶可信度對其他用戶的可信度造成的影響。
2.2.1 微博關(guān)系網(wǎng)絡(luò)模型
作為以用戶為核心的微博社交網(wǎng)絡(luò),微博用戶之間可以彼此任意關(guān)注對方,這種“關(guān)注”與“被關(guān)注”的關(guān)聯(lián)關(guān)系形成了有向圖,也就形成了一個巨大的用戶關(guān)系網(wǎng)絡(luò),如圖3所示。

圖3 用戶關(guān)系網(wǎng)絡(luò)
2.2.2 基于User-Rank的用戶可信度網(wǎng)絡(luò)評價模型
PageRank是一種評價網(wǎng)頁的相關(guān)性以及重要性程度的算法,常常被用來衡量網(wǎng)頁之間鏈接指向的權(quán)威性。
從拓?fù)浣Y(jié)構(gòu)來說,微博用戶關(guān)系網(wǎng)絡(luò)與網(wǎng)頁之間的鏈接關(guān)系具有相似性,因此,PageRank算法對微博用戶在用戶傳播關(guān)系網(wǎng)絡(luò)中的評估有一定的借鑒意義。假設(shè)微博用戶A和用戶B擁有相同的粉絲數(shù),并且所有粉絲的PageRank值相同,通過PageRank算法計(jì)算,用戶A和用戶B可信度值是相等的。由于微博中存在互粉現(xiàn)象,在粉絲數(shù)相同的情況下,擁有較多互粉的用戶的可信度值計(jì)算存在一定的偏差,因此,本文在對用戶可信度計(jì)算時,把粉絲分為通過互粉建立關(guān)系和通過純粉建立關(guān)系兩類用戶,在計(jì)算用戶可信度值時,在用戶關(guān)系之間引入權(quán)值,對PageRank算法進(jìn)行改造,提出User-Rank用戶可信度評價算法,使其更加適用于微博關(guān)系網(wǎng)絡(luò)中用戶的可信度度量。
User-Rank算法分為兩個步驟。首先利用用戶自評價模型,得到每個微博用戶自評價可信度值。然后以用戶自評價值作為輸入,基于用戶關(guān)聯(lián)關(guān)系,計(jì)算用戶可信度值(UserCredibility,UC),如式(12)所示:

(12)
(13)
(14)
(15)
式(12)中,UC(i)表示用戶i的可信度評價值,Wm(k)表示用戶的互粉用戶k的可信度值,Wp(j)表示用戶的純粉用戶j的可信度值,f表示阻尼系數(shù),由式(15)得到。
本文的實(shí)驗(yàn)數(shù)據(jù)來自新浪微博。采集信息包括微博用戶資料信息、微博文本信息、微博用戶關(guān)系信息三方面的信息。微博用戶資料信息包括用戶id、簡介、標(biāo)簽、認(rèn)證信息、粉絲數(shù)、關(guān)注數(shù)、互粉數(shù)等基本信息。微博文本信息包括微博文本內(nèi)容、點(diǎn)贊次數(shù)、評論數(shù)、轉(zhuǎn)發(fā)數(shù)、@用戶等信息。微博用戶關(guān)系信息包括微博用戶id、用戶關(guān)注數(shù)、關(guān)注者id列表?;谛吕宋⒉┑膽?yīng)用程序編程接口(ApplicationProgrammingInterface,API),信息采集如下:
1)爬取微博種子用戶信息。
從某一用戶出發(fā),爬取用戶的粉絲列表,以這些粉絲作為種子用戶。
2)獲取用戶關(guān)注關(guān)系信息。
從種子用戶出發(fā),逐層爬取并記錄用戶之間的關(guān)注關(guān)系信息(每個單向關(guān)注作為一條記錄)。
3)獲取微博用戶語料。
從用戶關(guān)注關(guān)系出發(fā),統(tǒng)計(jì)關(guān)注關(guān)系中所有的微博用戶,選取關(guān)注關(guān)系較為理想的微博用戶,進(jìn)而爬取微博用戶的所有信息。其中本文選取微博文本的時間跨度為2014年10月-2016年4月,數(shù)據(jù)規(guī)模統(tǒng)計(jì)如表2所示。

表2 數(shù)據(jù)規(guī)模
3.1 實(shí)驗(yàn)結(jié)果
在測試數(shù)據(jù)集上,通過對用戶信息的預(yù)處理,統(tǒng)計(jì)用戶可信度評價的各個指標(biāo),部分結(jié)果如表3所示。其中,表中的用戶指標(biāo)是通過式(2)~(9)所得。為了減小各個指標(biāo)的波動性,本文進(jìn)行歸一化處理,使指標(biāo)的范圍在[0-1]。表3中的用戶對應(yīng)的可信度評價值如表4所示。表5列出利用本研究方法得到的用戶可信度排名和微博風(fēng)云榜[14]給出的2016年4月9號微博用戶排名中共同用戶對比的Top10結(jié)果。

表3 部分用戶信息的對應(yīng)指標(biāo)

表4 部分用戶可信度評價值
3.2 模型分析
從表4中可以看出:知名人物、娛樂明星以及官方認(rèn)證機(jī)構(gòu)的微博用戶可信度值一般較高;而對于普通的個人微博用戶來說,其可信度值一般較低。
通過對表3和表4的綜合分析可以看出:對于一般用戶來說,其用戶完整度一般都不高,說明用戶的基本信息不全;微博活躍度不高和時間活躍度較大,說明了用戶近期大都沒有發(fā)布或轉(zhuǎn)發(fā)微博的行為;用戶的關(guān)注數(shù)與粉絲數(shù)較少,在一定程度上決定其交際廣度和傳播力度較低;正是由于普通的個人微博基本信息不全,并且其在微博信息網(wǎng)絡(luò)中沒有什么活躍性,那么微博用戶的可信度值必然較低。而對于知名人物的微博來說,由于其具有大量的粉絲,其發(fā)布的信息可以迅速地在微博關(guān)系網(wǎng)絡(luò)中得到其他用戶的響應(yīng),所以其可信度一般都較高。因此,模型的計(jì)算結(jié)果符合人們對不同類別的用戶群體的可信度認(rèn)知,也符合本文計(jì)算用戶可信度得出的一般性結(jié)論。
對表4中記錄1和2、5和6、7和8兩兩比較,不難看出,在不考慮用戶關(guān)系網(wǎng)絡(luò)情況下,用戶粉絲較多的用戶,其自評價值相應(yīng)地也較高。針對微博用戶關(guān)系網(wǎng)絡(luò)中用戶之間雙向指向的關(guān)聯(lián)關(guān)系,本文在用戶關(guān)系之間引入權(quán)值,對表4中記錄1和2、3和4、5和6兩兩比較,可以看出在考慮互粉對用戶可信度影響后,在粉絲數(shù)相同或差不多的情況下,擁有較多的互粉的用戶的可信度值較低,這是因?yàn)樾吕宋⒉┲写嬖诨シ郜F(xiàn)象,在對用戶粉絲數(shù)統(tǒng)計(jì)時,是存在“灌水”的可能性,所以在不考慮互粉影響下,用戶自評價的可信度模型的評價值不合理。這也證明了本文引入的用戶可信度評價模型,在一定程度上避免了用戶的可信度排名不合理的問題。
從表5可以看出,通過本文計(jì)算的用戶可信度排名具有一定的合理性。通過對比,可以看出,本文對用戶可信度的排名與微博風(fēng)云榜給出的微博用戶的排名在趨勢上是一致的。然而模型的構(gòu)建均是針對用戶歷史數(shù)據(jù)的計(jì)算,因此這個模型數(shù)值只能在一段時間內(nèi)有效。
本文主要研究了微博用戶可信度的問題。首先提取用戶的資料信息、交互信息和行為信息的7種特征,來度量用戶自評價可信度;隨后結(jié)合用戶關(guān)系網(wǎng)絡(luò)和用戶自評價可信度,提出了一種基于關(guān)系網(wǎng)絡(luò)中用戶權(quán)值分配的User-Rank用戶可信度評價方法。結(jié)合真實(shí)微博用戶數(shù)據(jù)進(jìn)行相關(guān)實(shí)驗(yàn),結(jié)果表明,本文提出的用戶可信度評價方法,不僅考慮了用戶本身各類信息特征,而且綜合考慮關(guān)系網(wǎng)絡(luò)中其他用戶的可信度對該用戶的可信度度量的影響,為用戶可信度分析提供高性能評價方法。
在接下來的研究工作中,將從以下兩個方面進(jìn)一步改進(jìn)算法。
1) 探索其他因素對微博用戶可信度評價特征的影響。例如。對微博轉(zhuǎn)發(fā)、評論特征統(tǒng)計(jì)時,考慮與傳播學(xué)理論相結(jié)合,挖掘微博被轉(zhuǎn)發(fā)、評論的原因,對特征進(jìn)一步綜合分析。
2) 進(jìn)一步探究可信度分析方法。通過綜合評估分析各個指標(biāo)對用戶可信度的影響,合理權(quán)衡對應(yīng)的閾值,實(shí)現(xiàn)對用戶可信度更有效的度量。

表5 用戶可信度排名
)
[1] 中國互聯(lián)網(wǎng)絡(luò)信息中心.2015年中國社交應(yīng)用用戶行為研究報(bào)告[EB/OL].[2016- 04- 08].http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/sqbg/201604/P020160722551429454480.pdf.(ChinaInternetNetworkInformationCenter.Chinasocialapplicationuserbehaviorresearchreport2015 [EB/OL]. [2016- 04- 08].http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/sqbg/201604/P020160722551429454480.pdf.)
[2] 新華網(wǎng)輿情監(jiān)測分析中心.2015年上半年全國政務(wù)新媒體綜合影響力報(bào)告[EB/OL].[2015- 08- 18].http://news.xinhuanet.com/yuqing/128137211_14399521067501n.doc. (XinhuaPublicOpinionMonitoringandAnalysisCenter.Reportonthecomprehensiveinfluenceofthenationalgovernmentnewmediainthefirsthalfof2015 [EB/OL]. [2015- 08- 18].http://news.xinhuanet.com/yuqing/128137211_14399521067501n.doc.)
[3] 蔣盛益,陳東沂,龐觀松,等.微博信息可信度分析研究綜述[J].圖書情報(bào)工作,2013,57(12):136-142.(JIANGSY,CHENDY,PANGGS,etal.ResearchreviewofinformationcredibilityanalysisonMicroblog[J].LibraryandInformationService, 2013, 57(12): 136-142.)
[4] 文坤梅,徐帥,李瑞軒,等.微博及中文微博信息處理研究綜述[J].中文信息學(xué)報(bào),2012,26(6):27-37.(WENKM,XUS,LIRX,etal.SurveyofMicroblogandChineseMicrobloginformationprocessing[J].JournalofChineseInformationProcessing, 2012, 26(6): 27-37.)
[5] 張成.社交網(wǎng)絡(luò)中的用戶行為特征分析與挖掘[D].北京:北京郵電大學(xué),2014:15-46.(ZHANGC.Characteranalysisandminingofuserbehaviorinonlinesocialnetwork[D].Beijing:BeijingUniversityofPostsandTelecommunications, 2014: 15-46.)
[6] 徐恪,張賽,陳昊,等.在線社會網(wǎng)絡(luò)的測量與分析[J].計(jì)算機(jī)學(xué)報(bào),2014,37(1):165-188.(XUK,ZHANGS,CHENH,etal.Measurementandanalysisofonlinesocialnetworks[J].ChineseJournalofComputers, 2014, 37(1): 165-188.)
[7]CHAM,HADDADIH,BENEVENUTOF,etal.Measuringuserinfluenceintwitter:themillionfollowerfallacy[C]//ICWSM2010:Proceedingsofthe4thInternationalAAAIConferenceonWeblogsandSocialMedia.MenloPark,CA:AAAIPress, 2010:10-17.
[8]BAKSHYE,HOFMANJM,MASONWA,etal.Everyone’saninfluencer:quantifyinginfluenceontwitter[C]//WSDM2011:Proceedingsofthe4thACMInternationalConferenceonWebSearchandDataMining.NewYork:ACM, 2011: 65-74.
[9]CASTILLOC,MENDOZAM,POBLETEB.Informationcredibilityontwitter[C]//Proceedingsofthe20thInternationalConferenceonWorldWideWeb.NewYork:ACM, 2011: 675-684.
[10] 毛佳昕,劉奕群,張敏,等.基于用戶行為的微博用戶社會影響力分析[J].計(jì)算機(jī)學(xué)報(bào),2014,37(4):791-800.(MAOJX,LIUYQ,ZHANGM,etal.SocialinfluenceanalysisforMicro-bloguserbasedonuserbehavior[J].ChineseJournalofComputers, 2014, 37(4): 791-800.)
[11] 張紹武,尹杰,林鴻飛,等.基于用戶分析的微博用戶影響力度量模型[J].中文信息學(xué)報(bào),2015,29(4):59-66.(ZHANGSW,YINJ,LINHF,etal.AMicro-bloguserinfluentialmodelbasedonuseranalysis[J].JournalofChineseInformationProcessing, 2015, 29(4): 59-66.)
[12]AL-KHALIFAHS,AL-EIDANRM.Anexperimentalsystemformeasuringthecredibilityofnewscontentintwitter[J].InternationalJournalofWebInformationSystems, 2011, 7(2): 130-151.
[13]SAATYTL.Howtomakeadecision:theanalytichierarchyprocess[J].EuropeanJournalofOperationalResearch, 1990, 48(1): 9-26.
[14] 微風(fēng)云.微風(fēng)云榜[EB/OL].[2016- 04- 09].http://www.tfengyun.com/rankings.php.(TFENGYUN.MicroChart[EB/OL]. [2016- 04- 09].http://www.tfengyun.com/rankings.php.)
ThisworkispartiallysupportedbytheNationalNaturalScienceFoundationofChina(61370139),theProjectofConstructionofInnovativeTeamsandTeacherCareerDevelopmentforUniversitiesandCollegesUnderBeijingMunicipality(IDHT20130519).
LI Fumin, born in 1990, M. S. candidate. His research interests include Chinese information processing, data mining.
TONG Lingling, born in 1984, Ph. D., senior engineer. Her research interests include multimedia content analysis and coding, natural language processing.
DU Cuilan, born in 1966. Her research interests include network information security, natural language processing.
LI Yangxi, born in 1982, Ph. D.candidate, senior engineer. His research interests include machine learning, data mining.
ZHANG Yangsen, born in 1962, Ph. D., professor. His research interests include Chinese information processing, artificial intelligence, Web content security.
Weibo users credibility evaluation based on user relationships
LI Fumin1, TONG Lingling2*, DU Cuilan2, LI Yangxi2, ZHANG Yangsen1
(1.InstituteofIntelligenceInformationProcessing,BeijingInformationScienceandTechnologyUniversity,Beijing100192,China; 2.NationalComputerNetworkEmergencyResponseTechnicalTeam/CoordinationCenterofChina,Beijing100190,China)
With the deepening of Weibo research, credibility evaluation of Weibo users has become a research hotspot. Aiming at the problem of Weibo users’ credibility evaluation, a user confidence analysis method based on association was proposed. Taking Sina Weibo as the research object, firstly, seven characteristics of the user from three aspects: user information, interactive information and behavior information were analyzed, and the user self-evaluation credibility was got by using Analytic Hierarchy Process (AHP). Then, by using the user self-evaluation as the base point, the user relationship network as the carrier, and the potential users’ evaluation relationship among the users, was improved the PageRank algorithm, and the user credibility evaluation model called User-Rank was proposed. The proposed model was used to evaluate comprehensively credibility of users by other users in relational network. Experiments on large scale Weibo real data show that the proposed method can obtain good evaluation results of user credibility.
user self-evaluation; relationship network; user credibility; user relationships; Analytic Hierarchy Process (AHP); PageRank
2016- 09- 30;
2016- 10- 20。
國家自然科學(xué)基金資助項(xiàng)目(61370139);北京市屬高等學(xué)校創(chuàng)新團(tuán)隊(duì)建設(shè)與教師職業(yè)發(fā)展計(jì)劃項(xiàng)目(IDHT20130519)。
李付民(1990—),男,河南商丘人,碩士研究生,CCF會員,主要研究方向:中文信息處理、數(shù)據(jù)挖掘; 佟玲玲(1984—),女,遼寧阜新人,高級工程師,博士,主要研究方向:多媒體內(nèi)容分析與編碼、自然語言處理; 杜翠蘭(1966—),女,湖北武漢人,主要研究方向:網(wǎng)絡(luò)信息安全、自然語言處理; 李揚(yáng)曦(1982—),男,甘肅蘭州人,高級工程師,博士研究生,主要研究方向:機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘; 張仰森(1962—),男,山西臨猗人,教授,博士,CCF高級會員,主要研究方向:中文信息處理、人工智能、Web內(nèi)容安全。
1001- 9081(2017)03- 0654- 06
10.11772/j.issn.1001- 9081.2017.03.654
TP393.092
A