999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于特征選擇的微博水軍識別研究

2022-03-07 10:11:16武曉丹
電子測試 2022年24期
關鍵詞:分類特征用戶

武曉丹

(太原師范學院 計算機科學與技術學院,山西晉中,030619)

關鍵字:Twitter;特征選擇;Scikit-Learn庫;特征提取

0 引言

隨著互聯網的發展,諸如推特(Twitter)、新浪微博(Sina Weibo)這樣的新社交媒體也隨之發展起來。作為全球最具影響力應用程序之一的Twitter在其2022年第一季度的收益報告中表示,其日活躍用戶數達到2.29億,這一數字在上一季度是2.17億。Twitter這樣的微博平臺作為互聯網時代人們進行溝通的重要工具,為用戶快速交流提供便利,因此受到越來越多人們的關注。但是Twitter的這些特點也給“網絡水軍”提供了活動場所。水軍會通過虛假意見的廣泛傳播引導輿論,人為控制事件走向,從而達到自己的目的;同時大量水軍的存在也會導致微博內容的真實性降低,質量下降,嚴重影響普通用戶的使用。由于水軍的存在給Twitter等微博平臺帶來很多不穩定的風險。因此,如何在Twitter中準確識別水軍,還給網絡世界一個安全穩定的環境,成為微博熱點研究中一個亟待解決的問題。

隨著水軍反檢測能力越來越強,之前從傳播學角度定性判別水軍的方法難以達到理想效果,易于形成識別漏洞。因此,本文通過不同數據集以及Scikit-Learn機器學習庫中分類算法訓練分類器,并以此得出具有較好分類效果的特征和機器學習算法。

1 相關研究

目前,隨著網絡的飛速發展以及自媒體時代的到來,微博作為分享交流信息的平臺,受到很多喜愛。關于微博的研究方向有很多,水軍發現也是近年來微博研究中的一個熱門話題。

國外學者陸續展開相關研究,Yard[1]等分析研究了Twitter的發展歷史,通過鏈接URL以及賬戶名稱規律性等特征識別垃圾郵件用戶。Stringhin[2]等通過創建Twitter用戶行為分析模型,從而區分出垃圾用戶與普通用戶。Amlesh-wara[3]等分析特征后建立Twitter用戶識別模型CATS,并證明該模型對于少量數據也有很很好地識別果。Zhang等通過分析Twitter中含有鏈接URL的推文以及其對應賬戶的特征來區分水軍用戶與普通用戶,并利用機器學習方法來檢驗其結論。

國內對微博水軍最早的研究出現在2010年。謝忠紅等指出網絡水軍的定義并分析其特點,總結出8個基于用戶屬性的特征并訓練邏輯回歸算法,最終實現水軍的識別。莫倩等研究正常用戶與水軍用戶的社交網絡關系,發現其形成的社交圈有很大不同,具有不平衡的粉絲關注比。程曉濤等則在此基礎上加入“用戶是否認證”這一特征,并且分析用戶屬性特征和行為特征,提出基于關系圖特征的水軍賬號識別方法。韓晴晴等綜合分析微博用戶的多種特征,總結出6個屬性特征集并且考慮實際中有標記數據少無標記數據多,利用半監督協同訓訓練類器識別微博水軍。

微博水軍的研究已經得到社會各界的廣泛關注,所以如何精準且高高效地識別軍是一個具有很大挑戰的事情。目前大多數研究有些側重于單個水軍所發推文的檢測,有些則側重于水軍賬號的檢測,本實驗重點是前者。

2 特征選擇方法

特征選擇是特征工程中的重要環節,其目的是提升模型效果,提高運行速度。本實驗采用相關性檢驗中的卡方檢驗,這是特征選擇中的Filter過濾法,其思想是研究特征與標簽之間的關聯性,根據對特征進行統計檢驗之后得到的分數,從而篩選出相對無用的特征,挑選出最相關的特征。即對特征賦予權重,權重代表著特征的重要程度,對權重進行排名。如圖1所示。

圖1 Filter過濾法

卡方檢驗chi2是專門針對分類問題的一種獨立性檢驗,它是先假設兩個變量互相獨立,然后再觀察實際值與理論值的差距,若差距足夠小,則原假設成立。即計算特征與標簽之間的卡方統計量,并以此為依據將特征從高到低排名,再計算卡方值對應的p值,以0.05或者0.01作為閾值過濾相應的特征,從而可以去除最獨立于標簽,與實驗目的無關的特征。

卡方檢驗的計算公式為:

其中,A為實際值,T為理論值。

3 實驗與分析

3.1 數據集

對Twitter水軍的屬性特征進行分析,發現與普通用戶相比,水軍由于是為某些目的性因素而出現,例如炒作、宣傳、引導輿論之類,其對于自身賬戶的經營比較少,因此Twitter水軍往往具有較少的粉絲數以及較多的關注數。而且Twitter水軍賬戶對其他用戶較為關注,它的收藏、回復和轉發數都比較高。此外Twitter水軍為了讓更多的人瀏覽到自己的推文,經常會帶熱門話題(#)發文,或者是常常提及(@)其他用戶引起關注,再或者是在自己的推文中使用較多的帶有目的性的鏈接(URL),例如廣告、釣魚網站之類,因此水軍推文包含的話題標簽數、URL鏈接數、用戶提及數都會比較高。

本實驗在3個數據集上進行訓練和測試。數據集如下:

(1)第一個數據集來自Chen chao等人采集。這個數據集具有現成的特征集。特征信息如表1所示。

表1 數據集1的特征選取信息

(2)第二個數據集來自Kaggle競賽。這個數據集提供Tweet文本,以及Tweet帳賬戶的些特征,因此能夠手動提取特征集。本實驗提取的特征集如表2所示。

(3)第三個數據集來自Chen Weiling等人采集。這個數據集原是帶有標簽的Tweet ID列表,Weiling Chen等人通過Twitter API密鑰,檢索出推文得到數據集,因此也能夠提取其特征。本實驗提取的特征集與數據集2提取的相同,也如表2所示。

表2 數據集2、數據集3的特征選取信息

由表1和表2可以看出,數據集2、3所提取的特征與數據集1的特征相同,并在此基礎上多提取出兩個特征,分別是“actions”和“spam_words_count”。

3.2 特征選擇與評價

對特征與標簽進行相關性檢驗能有效選擇出具有高區分度的特征。卡方檢驗在二分類問題上非常有效。卡方檢驗,又稱χ2檢驗,它是測量特征與標簽的相關性,相關性大的特征則認為與標簽的區分度好,相關性小的特征則認為其對于水軍的區分度差。

如圖2所示是數據集1的特征進行卡方檢驗的分數排名直方圖,可以看出,排名前三的特征分別是“粉絲數follower”“轉發次數 retweets”以及“關注數 following”,即這三個特征與標簽的相關性較大。

圖2 特征集1的卡方檢驗

如圖3和圖4所示是對具有相同特征集的不同數據集進行卡方檢驗,即對數據集2和數據集3進行相關性檢驗。圖2表示數據集2的卡方檢驗得分排名情況,其得出的主要特征是“粉絲數 follower”,“關注數 following”,“收藏、回復、轉發總數actions”。圖3表示數據集3的卡方檢驗得分排名情況,得到的有效特征同樣如此,主要特征是“follower”,“actions”以及“following”。因此對于本實驗數據集2和3,貢獻比較大的特征主要是“粉絲數”“關注數”以及“收藏、回復、轉發總數”三個特征。

圖3 特征集2的卡方檢驗

圖4 特征集3的卡方檢驗

3.3 性能評價指標

針對水軍的特性,本實驗采用準確率Accuracy等評價指標來評估模型。對于水軍不平衡分類問題,本實驗引入了混淆矩陣,如表3所示。

表3 混淆矩陣定義

其中有Positive、Negative、True、False四個概念,P表示預測類別為1,N表示預測類別為0;T表示預測正確,F表示預測錯誤。根據混淆矩陣從而能計算出分類性能評價指標:

3.4 實驗結果分析

本實驗使用python語言編寫,采用Twitter真實數據集進行訓練與測試。Scikit-Learn是一個提供大量機器學習工具和模型的功能強大的Python庫。通過Python機器學習庫中的幾種分類算法對提取的特征進行實驗,比較得出提高水軍識別準確率的特征以及不同算法對水軍識別的效果差異。實驗采用的第一種分類算法是SVM,第二種分類算法是KNN,第三種是RF算法。

如表4所示,在數據集1上SVM算法能夠得到的結果是67.4%的準確率;采用KNN算法結果改善了一些,將準確率提高到75.5%;而RF算法在分類器訓練之后得到了最好的效果,賦予了82%的準確率。

表4 準確率(accuracy)對比

在數據集2上實驗證明了改善的結果很顯著。通過之前相關性檢驗的實驗可知,其中主要的改進因素來自“actions”特征的存在,這個特征表示該推特用戶的收藏、回復、轉發總數。同樣,SVM算法結果明顯提升,準確率從之前的67.4%提高到93%;對于KNN算法,準確率比起SVM稍微提升,在94.5%左右;最后,對于數據集1訓練得到的分類準確率有很大提升的RF算法,對于數據集2,結果同樣令人震驚,該算法能夠以99.87%的準確率進行識別,得到的分類效果最好。

在數據集3上的實驗結果,相對于數據集2可能不太理想,因為其數據是來自隨機選擇推文組成的數據集所生成的特征集。SVM得到的結果是69%的準確率,KNN分類算法的訓練結果有所提升達到78.5%,RF算法依舊得到最好的分類效果,有86.6%的準確率。

4 結束語

社交媒體上的水軍識別是社交網絡需要面對的最大問題之一,對網絡水軍的精準識別是目前微博研究領域亟待解決的難題。

通過對水軍識別相關文獻的研究,本文利用Scikit-Learn機器學習庫中3種分類算法對Twitter上3個不同真實數據集進行訓練,設計水軍識別分類器。在創建特征集的過程中,對Twitter用戶的屬性特征進行具體分析發現特征的選擇比數據集更重要,相較于數據集1,數據集2和3中引入了“推特用戶收藏、回復、轉發總數actions”特征后,水軍識別的準確率大幅度提升,并且對于3個分類算法都是如此;除此之外,比起前兩種分類算法,隨機森林(RF)分類法分類性能評價指標值都較高,分類效果最好。最終實驗發現,使用強大的機器學習方法和適當的特征提取階段,可以取得一些很好的結果。

猜你喜歡
分類特征用戶
分類算一算
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
主站蜘蛛池模板: 中国一级特黄大片在线观看| 亚洲三级片在线看| 18禁黄无遮挡网站| 波多野结衣无码中文字幕在线观看一区二区 | 亚洲欧美精品日韩欧美| 无码免费的亚洲视频| 欧美综合区自拍亚洲综合绿色 | 亚洲色无码专线精品观看| 亚洲区视频在线观看| 国产无码网站在线观看| 欧美精品不卡| 免费无遮挡AV| 免费看美女自慰的网站| 天天综合天天综合| 青青操国产| 青青操视频免费观看| 制服丝袜一区二区三区在线| 不卡无码h在线观看| 国产女人18水真多毛片18精品| 国产精品免费久久久久影院无码| 久久成人免费| 欧美无专区| 无码综合天天久久综合网| 国产乱码精品一区二区三区中文| 最新国产成人剧情在线播放| 毛片网站免费在线观看| 黄色免费在线网址| 香蕉精品在线| 亚洲国产精品不卡在线 | 国产麻豆91网在线看| 一级毛片在线免费看| 日韩视频免费| 国产成人精品高清在线| 91欧洲国产日韩在线人成| 亚洲人成网线在线播放va| 凹凸精品免费精品视频| 国产麻豆va精品视频| 国产精品99r8在线观看| 亚洲国产综合精品一区| 国产一级一级毛片永久| 亚洲第一色网站| 国产极品美女在线观看| 国产精品一区在线麻豆| 国产91透明丝袜美腿在线| 国产在线拍偷自揄拍精品| 国产精品自在自线免费观看| 久久夜夜视频| 国产福利一区二区在线观看| 最新日韩AV网址在线观看| 无码专区在线观看| 欧美性猛交一区二区三区| 亚洲欧洲日产国产无码AV| 亚洲av片在线免费观看| 欧美一级在线| 色综合手机在线| 自拍偷拍一区| 国产一区二区三区免费观看| a毛片基地免费大全| 亚洲av无码成人专区| 亚洲成A人V欧美综合| 国产欧美综合在线观看第七页| 久久福利网| 亚洲av无码成人专区| P尤物久久99国产综合精品| 欧美成人影院亚洲综合图| 亚洲中文精品久久久久久不卡| 五月激激激综合网色播免费| 不卡国产视频第一页| 亚洲一道AV无码午夜福利| 欧美成人一区午夜福利在线| 久久综合丝袜日本网| 四虎永久免费地址在线网站| 亚洲色图另类| 久久人体视频| 久久毛片免费基地| 91午夜福利在线观看| 亚洲Av激情网五月天| 国产av无码日韩av无码网站| 欧美成人国产| 国产欧美在线观看视频| AV老司机AV天堂| 久久久久无码国产精品不卡|