999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于特征分析的微博炒作賬戶識別方法

2015-01-02 02:00:50羅軍勇董雨辰
計算機工程 2015年4期
關鍵詞:特征

張 進,劉 琰,羅軍勇,董雨辰

(數學工程與先進計算國家重點實驗室,鄭州450002)

1 概述

隨著移動通信和Web技術的不斷突破,以微博為代表的在線社交網絡迅速發展起來。與傳統的社交網絡相比,微博具有更強的信息傳播能力和成員組織能力,這一獨特優勢使其迅速成為當前主要社會媒體之一[1]。然而,由于微博的技術門檻比較低,信息真實性無法保證,使得近年來出現一些炒作賬戶采用違規手段開展網絡公關活動,謀取非法利益,甚至惡意制造熱點事件,煽動網民情緒,挾制輿論導向,嚴重干擾正常的互聯網秩序。從“3Q大戰”到“涼茶之爭”,這些轟動一時的微博熱門事件都有炒作賬戶參與的痕跡。

傳統炒作賬戶識別方法通常依靠人工查找、分析樣本數據特征的方式,這種方式效率低下而且成本高昂,不適合對海量賬戶進行分析[2]。此外,隨著炒作賬戶力量的不斷壯大,炒作賬戶進行微博炒作的形式呈現出多樣化的趨勢,具有較強的組織性和隱蔽性,傳統識別方法很難將炒作賬戶和正常賬戶區分開。因此,如何準確、高效地從海量賬戶中識別出具有炒作嫌疑的賬戶,成為目前亟待解決的問題。

本文以微博中的炒作賬戶為研究對象,針對炒作賬戶隱蔽性高、難以識別的問題,提出一種基于特征分析的炒作賬戶識別方法。該方法從多個方面對炒作賬戶的特征進行分析,構建原始特征集,利用特征選擇技術從原始特征集中篩選出具有顯著判別能力的特征子集,并使用多種分類算法對本文方法的識別效果進行評估。

2 相關工作

目前國內外對炒作賬戶的研究尚處于起步階段,相關工作主要有對垃圾賬戶(spammer)、馬甲賬戶(sockpuppet)、僵尸賬戶(zombies)等微博不良賬戶的識別方法研究,這些不良賬戶與本文研究的炒作賬戶具有一定的相似性。

垃圾賬戶是指經常發布垃圾信息的賬戶。文獻[3]從多個角度分析了垃圾賬戶的特征,并采用機器學習的方式自動識別垃圾賬戶。文獻[4]深入分析了垃圾賬戶間的社會關系,提出一種根據賬戶間親密度來發現垃圾賬戶的方法。文獻[5]提出一種基于統計特征與雙向投票的垃圾賬戶識別算法,利用賬戶信任的雙向傳播與其鄰居節點的統計特征來發現微博中的垃圾賬戶。文獻[6]利用賬戶和微博特征設計分類器并對正常賬戶和垃圾賬戶進行區分。文獻[7]利用Twitter中的暫停賬號分析了垃圾賬戶的特性。

馬甲賬戶是指通過注冊多個賬號進行發帖、轉發、評論等行為的虛假賬戶。文獻[8]結合作者身份識別以及鏈接分析技術來檢測馬甲賬戶。文獻[9]提出一種利用文本內容、相似度匹配來識別馬甲賬戶的方法,實驗結果表明具有較高的準確率。

僵尸賬戶是指為了進行粉絲買賣而惡意注冊的賬戶。文獻[10]在Twitter中綜合考慮了賬戶發帖行為、博文內容和賬戶屬性等特征,并利用機器學習的方法來識別僵尸賬戶。文獻[11]提出一種基于微博注冊賬戶名特征提取的智能分類方法,利用支持向量機和人工神經網絡方法對賬戶進行分類。

綜上所述,目前對不良賬戶識別方法的研究取得了一定的成果,但是識別方法相對單一,而且通常只針對特定的賬戶群體,尚未有專門面向炒作賬戶的識別方法。本文研究的炒作賬戶也屬于微博中不良賬戶的范疇,與以上3類不良賬戶相比,炒作賬戶更加側重于其“炒作”行為,隱蔽性和組織性比較強,也更加難以發現。

3 炒作賬戶相關概念與識別框架

3.1 相關概念

為有效發現微博中的炒作賬戶,以下給出了本文對炒作賬戶相關概念的界定。

定義1(炒作) 為擴大事物或人的影響而通過媒體進行反復宣傳的行為。炒作的最終目的是讓事件或人物達到轟動性的社會效應,以實現利益的最大化,其常見的表現形式有話題炒作、營銷炒作、人物炒作等。

定義2(炒作賬戶) 在微博平臺上從事炒作行為的賬戶,往往通過虛假轉發、評論等行為進行宣傳造勢,以實現對話題、人物或產品炒作等目的。炒作賬戶大多受雇于網絡公關公司,通過炒作來獲取利益。

3.2 炒作賬戶識別框架

本文借鑒了數據挖掘中的分類[12]思想,并結合炒作賬戶的研究背景,提出微博炒作賬戶識別框架,該框架結構如圖1所示。

圖1 炒作賬戶識別框架

從圖1可以看出,該框架主要分為3個部分:特征分析,特征選擇以及分類判決。

(1)特征分析。分別從賬戶狀態、歷史微博以及賬戶鄰居3個方面對炒作賬戶的特征進行分析,并構建賬戶特征集。

(2)特征選擇。在得到賬戶特征集后,利用特征選擇技術篩選出具有較強判別能力的特征子集,以提高識別的效率和準確率。

(3)分類判決。選擇適當的分類器判斷賬戶是否具有炒作嫌疑,同時對識別方法的性能進行評估。

4 炒作賬戶特征分析

由于炒作賬戶經常參與一些炒作任務,因此在賬戶特征上會與正常賬戶存在差異。通過研究發現,微博平臺上與賬戶相關的信息主要包括基本資料、歷史微博、好友關系、個人興趣等。為盡可能全面地發現炒作賬戶與正常賬戶的區別,本文充分利用能夠獲取到的賬戶信息,分別從賬戶狀態、歷史微博以及賬戶鄰居3個方面對炒作賬戶進行分析,構建炒作賬戶的特征集。

4.1 賬戶狀態特征

賬戶狀態特征來源于賬戶基本資料,反映了賬戶的基本狀態,包括賬戶粉絲數、關注數、互粉數、微博數、賬戶等級、賬戶年齡等。雖然炒作模式多種多樣,但絕大多數炒作賬戶具有相似的特征,而且與正常賬戶的差異較為明顯。

由于炒作賬戶經常發布一些具有炒作性質的虛假、營銷類信息,因此吸引的粉絲數往往低于正常賬戶。為避免因粉絲太少而降低影響力,大多數炒作賬戶會通過隨機批量關注其他賬戶的方法獲取回粉,導致其關注數一般高于正常賬戶。另外,一些炒作賬戶很可能被正常賬戶舉報而被運營商封號,為此不得不重新注冊新的賬戶,因此炒作賬戶等級一般較低,賬戶年齡比較小。

為進一步反映炒作賬戶與正常賬戶的區別,本文利用賬戶的基本狀態構造2項新的特征——聲望值和互粉率,具體定義如下:

定義3(聲望值) 利用粉絲數與關注數的相對大小表示,能夠反映賬戶的人氣或聲望。一般情況下,炒作賬戶的聲望值要低于正常賬戶。

定義4(互粉率) 利用互粉數與關注數之比表示,反映賬戶的人氣,間接反映與好友的親密程度。一般情況下,炒作賬戶的互粉率要低于正常賬戶。

圖2為炒作賬戶和正常賬戶部分狀態特征的累積分布函數(Cumulative Distribution Function,CDF)曲線。

從圖2(a)可以看出,80%左右的炒作賬戶關注數超過800,而80%左右的正常賬戶關注數低于300;從圖2(b)可以看出,炒作賬戶的互粉率一般低于正常賬戶;從圖2(c)可以看出,大約80%的炒作賬戶年齡在1年之內,而80%左右的正常賬戶年齡在500 d以上;從圖2(d)可以看出,絕大多數正常賬戶的聲望值要高于炒作賬戶。

圖2 炒作賬戶和正常賬戶狀態特征CDF曲線

4.2 歷史微博特征

歷史微博特征是指從賬戶發布或轉發的歷史微博中提取的特征,能夠反映賬戶使用微博的個人習慣以及發布微博的質量,主要包括發布微博頻率、原創微博比例、垃圾轉發比例以及微博平均被轉發數和被評論數等。

通過對大量數據的觀察發現,炒作賬戶往往發布微博的頻率高于正常賬戶,一方面是為了避免因活躍度太低而被判定為僵尸賬號,另一方面是因為要不定期地完成一些炒作任務。另外,微博運營商會利用垃圾信息監測機制刪除一些垃圾信息,而炒作賬戶轉發的炒作微博很可能被判定為垃圾微博,所以,垃圾轉發比例要高于正常賬戶。同時,為躲避這種垃圾信息監測機制,炒作賬戶也會經常轉發其它微博,但很少直接發布一些反映個人意愿的原創微博,因此,原創微博比例略低于正常賬戶。此外,由于炒作賬戶經常發布或轉發一些具有炒作、營銷性質的微博,很難從內容上吸引正常賬戶進行再次轉發或評論,因此炒作賬戶的微博平均被轉發數和被評論數較小。

圖3為炒作賬戶和正常賬戶部分微博特征的CDF曲線圖。從圖3(a)可以看出,大約有80%的炒作賬戶微博平均被評論次數低于0.02,而80%以上的正常賬戶歷史微博平均被評論次數高于0.1。從圖3(b)可以看出,絕大多數炒作賬戶微博平均被轉發次數要低于正常賬戶。從圖3(c)可以看出,大部分炒作賬戶的發布微博頻率要高于正常賬戶。從圖3(d)可以看出,大約90%的炒作賬戶原創微博比例低于10%,而80%以上的正常賬戶原創微博比例高于20%。

圖3 炒作賬戶和正常賬戶歷史微博特征CDF曲線

4.3 賬戶鄰居特征

賬戶鄰居特征是一系列描述賬戶粉絲及關注好友特征的指標,把賬戶的粉絲及關注好友稱為“鄰居”。這些特征能夠從不同角度反映賬戶的粉絲質量以及關注質量,也間接反映了該賬戶的特性,主要包括鄰居的平均粉絲數、平均關注數、平均互粉數、平均聲望值等。

相關研究發現[13],炒作賬戶的關注行為具有一定的隨機性,而正常賬戶則更傾向于關注自己的親朋好友或名人、媒體,這就導致炒作賬戶關注好友的質量一般低于正常賬戶。另一方面,炒作賬戶的粉絲中包含了大量的僵尸粉或其他炒作賬戶,而正常賬戶的粉絲大多來自真實的社交圈或是對自己感興趣的正常賬戶,因此,兩者的粉絲質量也有高低之分。

圖4為炒作賬戶和正常賬戶部分鄰居特征的CDF曲線圖。從圖4(a)可以看出,大約80%以上的炒作賬戶關注好友的平均粉絲數不足1×104,而80%以上的正常賬戶關注好友的平均粉絲數高于1×106;從圖4(b)可以看出,絕大多數炒作賬戶關注好友的平均互粉數要低于正常賬戶。以上2圖說明炒作賬戶關注好友的質量要低于正常賬戶。另外,從圖4(c)和4(d)可以看出,炒作賬戶的粉絲質量一般低于正常賬戶,但是這種差異相對較小,在實際分類中可能效果欠佳。

綜上所述,分別從賬戶狀態、歷史微博以及賬戶鄰居3個角度出發,共選取了21個特征來構建賬戶特征集。需要說明的是,所有特征的取值范圍可能分布很大,例如賬戶粉絲數的最大值可以達到上千萬,而最小值可以低于10,這將對分類的準確率造成影響。

為此,本文采用冪率壓縮的方式對一些取值范圍較大的特征進行歸一化。具體方法為:對于特征F,其歸一化后的值為F'=lg(F+1)。

圖4 炒作賬戶和正常賬戶鄰居特征CDF曲線

從賬戶狀態、歷史微博以及賬戶鄰居選取的21個特征具體如下:

(1)賬戶狀態屬性,包含以下特征:

1)粉絲數,F1=Ner(u),其中,Ner(u)為賬戶粉絲數;

2)關注數,F2=Nee(u),其中,Nee(u)為賬戶關注數;

3)互粉數,F3=Nbi(u),其中,Nbi(u)為賬戶互粉數;

4)微博數,F4=Ns(u),其中,Ns(u)為賬戶微博數;

5)賬戶年齡,F5=Age(u),其中,Age(u)為賬戶年齡;

6)賬戶等級,F6=Rank(u),其中,Rank(u)為賬戶等級;

5 實驗結果及分析

5.1 數據集

本文以國內最大的新浪微博作為實驗平臺,利用新浪開放的API接口,并結合網絡爬蟲來獲取相關數據。這些數據主要包括賬戶基本資料、歷史微博信息、好友關系(關注及粉絲列表),分別將這些數據存儲到數據庫的相應表中。本文只采集了賬戶的前200條微博和社會關系,一方面是為降低時間和空間開銷,另一方面是因為相關研究[6]表明,賬戶的部分歷史數據在一定程度上可以判定賬戶是否具有炒作嫌疑。

由于目前尚沒有標準的炒作賬戶數據集,本文采用人工標注的方式對實驗所需的數據集進行構建。另外,標注數據集需滿足以下3個條件:(1)數據集要有一定的規模,而且炒作賬戶與正常賬戶的比例盡量符合真實情況;(2)盡量將炒作嫌疑較大、影響微博正常傳播的賬戶標注為炒作賬戶;(3)在進行標注時盡可能避免人為主觀因素造成的影響。

為滿足以上3個條件,本文從2013年6月-2014年1月期間的3個不同話題中隨機選擇賬戶進行標注,這3個話題分別為:(1)“3Q大戰”;(2)“涼茶之爭”;(3)某減肥產品廣告。經研究發現,以上3個話題中均有炒作賬戶參與的痕跡。為避免認為主觀因素造成的影響,對每個賬戶均由2個人進行標注,當且僅當標注結果一致時才將該賬戶存儲到數據集中。最終對7 648個賬戶進行了標注,其中有6 687個正常賬戶,961個炒作賬戶。此外,采集到這些賬戶的歷史微博數目為1 315 453,好友關系數目為2 417 387。在后續實驗中,本文將采用交叉驗證的方式交替地將標注好的數據集作為訓練集和測試集。

5.2 特征子集篩選

在對炒作賬戶識別方法進行評估前,本文首先在WEKA[14]實驗平臺上,利用其內嵌的特征選擇算法,從原始特征集中篩選出特征子集,然后分別利用原始特征集和特征子集對方法效果進行評估。

本文選用WEKA中的2種算法進行特征選擇,分別為 ChiSquaredAttributeEval和 InfoGainAttributeEval,前者根據每一個特征的卡方值進行評估,后者根據每一個特征的信息增益進行評估。

實驗結果發現,利用以上2種特征選擇算法得到的特征子集是基本一致的,只是對個別特征的重要性排序稍有不同。表1為利用信息增益方法得到的特征子集列表。

表1 微博賬戶特征子集

從表1可以發現,賬戶關注好友的質量最能體現炒作賬戶和正常賬戶之間的區別,其次為反映賬戶狀態和微博質量的特征,而較難從賬戶粉絲質量和發布微博的個人習慣上區分炒作賬戶和正常賬戶。

5.3 評價指標

為評估炒作賬戶識別效果的優劣,本文利用常用的分類模型評估指標對算法性能進行評估。表2為炒作賬戶識別結果的混淆矩陣。

表2 炒作賬戶識別結果混淆矩陣

常用評價指標主要包括:準確率(P),召回率(R),誤報率(FP)以及F1度量值(F1),計算公式如下:

(1)準確率:

(2)召回率:

(3)誤報率:

(4)F1度量值:

5.4 結果分析

為評估篩選后特征子集的判別能力,本文在WEKA實驗平臺上,分別利用原始特征集和特征子集對分類模型進行評估,選用4種常用的分類算法:樸素貝葉斯(Na ve Bayes,NB),隨機森林(Random Forest,RF),支持向量機(Support Vector Machine,SVM)以及 K 最近鄰(K Nearest Neighbor,KNN)分類算法[15]。在進行評估時,采用10折交叉驗證的方式,并依據4個常用的評價指標綜合比較分類器的性能。實驗結果如圖5所示。

圖5 不同分類算法在2種特征集下的性能對比

從圖5可以看出,將篩選出的特征子集應用于4種分類器的評估效果要明顯優于原始特征集,說明本文的特征選擇方法是有效的。其中,支持向量機分類器(SVM)的分類效果最好,準確率可達到95%,而且誤報率只有0.9%。

綜上所述,本文提出的基于特征分析的炒作賬戶識別方法能有效發現微博中的炒作賬戶,具有較高的準確率。同時,與傳統的人工識別方式相比,本文方法能高效地解決炒作賬戶識別問題,為網絡違規行為取證提供了可靠依據。

6 結束語

本文對微博中的炒作賬戶進行深入研究,提出一種基于特征分析的炒作賬戶識別方法。該方法從3個方面對賬戶特征進行提取,并利用特征選擇技術從原始特征集中篩選出具有顯著判別能力的特征子集,最后在多種分類器上對識別效果進行評估。實驗結果表明,本文方法能有效識別出微博中的炒作賬戶,其中支持向量機分類算法效果最好,準確率高達95%。目前對炒作賬戶的研究尚處于起步階段,下一階段的工作主要包括:(1)充分考慮炒作賬戶參與微博炒作的時間特征、發布內容特征以及情感特征等,以發現更隱蔽的炒作賬戶;(2)進一步研究炒作賬戶間的組織架構,對重點炒作賬戶進行監管。

[1] Kwak H,Lee C,Parket H,et al.What Is Twitter,A Social Network or a News Media[C]//Proceedings of the 19th International Conference on World Wide Web.New York,USA:ACM Press,2010:591-600.

[2] 陳 昱,張慧琳.社會計算在信息安全中的應用[J].清華大學學報:自然科學版,2011,51(10):1323-1328.

[3] Zhou Yi,Chen Kai,Song Li,et al.Feature Analysis of Spammers in Social Networks with Active Honeypots:A Case Study of Chinese Microblogging Networks[C]//Proceedings of the International Conference on Advances in Social Networks Analysis and Mining.Washington D.C.,USA:IEEE Press,2012:728-729.

[4] Yang C,Harkreader R,Zhang J.Analyzing Spammer’s Social Networks for Fun and Profit[C]//Proceedings of the 21th International Conference on World Wide Web.New York,USA:ACM Press,2012:71-80.

[5] 丁兆云,周 斌,賈 焰,等.微博中基于統計特征與雙向投票的垃圾用戶發現[J].計算機研究與發展,2013,50(11):2336-2348.

[6] McCord M,Chuah M.Spam Detection on Twitter Using Traditional Classifiers[C]//Proceedings ofthe 8th International Conference on Autonomic and Trusted Computing.Piscataway,USA:IEEE Press,2011:175-186.

[7] Thomas K,GrierC,Paxson V,etal.Suspended Accounts in Retrospect:An Analysis of Twitter Spam[C]//Proceedings of the 11th ACM SIGCOMM International Conference on Internet Measurement Conference.New York,USA:ACM Press,2011:243-258.

[8] Bu Zhan,Xia Zhengyou,Wang Jiandong.A SockPuppet Detection Algorithm on Virtual Spaces[J].Knowledgebased Systems,2013,37:366-377.

[9] Zheng Xueling,Lai Yiu Ming,Chow K P,et al.Sockpuppet Detection in Online Discussion Forums[C]//Proceedings ofthe 7th International Conference on Intelligent Information Hiding and Multimedia Signal Processing.Washington D.C.,USA:IEEE Press,2011:374-377.

[10] Chu Zi,Gianvecchio S,Wang Haining,et al.Who Is Tweeting on Twitter:Human,Bot,or Cyborg[C]//Proceedings ofthe 26th Annual Computer Security Applications Conference.New York,USA:ACM Press,2010:21-30.

[11] 方 明,方 易.一種新型智能僵尸粉甄別方法[J].計算機工程,2013,39(4):190-193,198.

[12] 韓家煒.數據挖掘:概念與技術[M].3版.北京:機械工業出版社,2012.

[13] Hofman J M,Winter A.Who Says What to Whom on Twitter[C]//Proceedingsofthe 20th International Conference on World Wide Web.New York,USA:ACM Press,2011:705-714.

[14] Hall M,Frank E,Holmes G,et al.The WEKA Data Mining Software:An Update[J].SIGKDD Explorations,2009,11(1):10-18.

[15] Tan P,Steinbach M,Kumar V.數據挖掘導論(完整版)[M].范 明,范宏建,譯.北京:人民郵電出版社,2011.

猜你喜歡
特征
抓住特征巧觀察
離散型隨機變量的分布列與數字特征
具有兩個P’維非線性不可約特征標的非可解群
月震特征及與地震的對比
如何表達“特征”
被k(2≤k≤16)整除的正整數的特征
中等數學(2019年8期)2019-11-25 01:38:14
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
詈語的文化蘊含與現代特征
新聞傳播(2018年11期)2018-08-29 08:15:24
抓住特征巧觀察
基于特征篩選的模型選擇
主站蜘蛛池模板: av天堂最新版在线| 超薄丝袜足j国产在线视频| www.99在线观看| 国产精品30p| 人妻21p大胆| 成人a免费α片在线视频网站| 日韩亚洲综合在线| 国产精品三级av及在线观看| 中文字幕2区| 99在线视频网站| 日韩成人在线一区二区| 亚洲男人的天堂久久香蕉| 亚洲一级毛片在线观| 老司机午夜精品视频你懂的| 国产午夜一级毛片| 性69交片免费看| 一本色道久久88综合日韩精品| 久久午夜夜伦鲁鲁片不卡| 最新无码专区超级碰碰碰| 精品91视频| 特级毛片免费视频| 国产麻豆va精品视频| 久久精品免费国产大片| 亚洲最大综合网| 99热亚洲精品6码| 日本一区中文字幕最新在线| 免费人成在线观看成人片| 日韩av手机在线| 久久久久亚洲Av片无码观看| 欧美一级夜夜爽www| 青青青国产视频手机| 免费A级毛片无码无遮挡| 露脸国产精品自产在线播| 欧美区一区二区三| 精品综合久久久久久97超人该 | 91麻豆国产视频| 精品视频一区二区观看| 免费人成黄页在线观看国产| 国产在线观看成人91| 久久久久人妻一区精品色奶水| 国产网友愉拍精品| 亚洲天堂伊人| 黄色网站在线观看无码| 日本一本正道综合久久dvd | 亚洲av无码牛牛影视在线二区| 三级视频中文字幕| 99久久99这里只有免费的精品| 亚洲综合精品第一页| 免费黄色国产视频| 日韩精品无码不卡无码| 久久人搡人人玩人妻精品| 日韩精品毛片| 亚洲无码在线午夜电影| 国产精品网拍在线| 欧美日韩在线国产| 91丝袜美腿高跟国产极品老师| 婷婷六月综合网| 99999久久久久久亚洲| 亚洲视频四区| 亚洲一级毛片免费看| 国产成人高清精品免费| 国产欧美在线观看一区| 114级毛片免费观看| 国产在线视频欧美亚综合| 中文字幕佐山爱一区二区免费| 人妻少妇乱子伦精品无码专区毛片| 色视频国产| 亚洲精品福利网站| 日韩色图区| 免费国产在线精品一区| 中文字幕永久在线看| 麻豆精品视频在线原创| 真实国产乱子伦视频| 91久久国产成人免费观看| 91九色视频网| 欧美国产在线精品17p| 中文字幕在线不卡视频| 激情视频综合网| 亚洲欧美成aⅴ人在线观看| 亚洲欧美自拍一区| 麻豆AV网站免费进入| 国产精品一区在线麻豆|