



摘要:垃圾用戶作為垃圾信息的傳播者,一直是微博反垃圾研究的重點,現有的垃圾用戶檢測研究還局限于傳統的二值分類問題上,只是將用戶簡單地判斷為垃圾用戶和正常用戶。然而,微博平臺中的垃圾用戶類型多種多樣,將各類垃圾用戶按照單一類別垃圾用戶進行處理,會存在各類垃圾用戶之間特征相互影響的問題,從而降低整體檢測效果。為了解決上述問題,文章對各類垃圾用戶行為進行了分析。首先,根據垃圾用戶的行為目的和行為模式,將垃圾用戶分為4類;其次,通過爬蟲程序獲取數據集,構造特征分析樣本集并進行標注,計算用戶的各項統計特征;最后,對4類垃圾用戶的特征進行定量分析,歸納總結出每類用戶的特點。實驗結果表明,各類垃圾用戶與正常用戶之間存在區分度較高的相關特征,利用這些特征能夠有效區分各種垃圾用戶與正常用戶,提升檢測精度。
關鍵詞:微博;垃圾用戶;用戶行為;用戶分類
中圖分類號:TP393.092" 文獻標志碼:A
基金項目:2022年安徽省高校自然科學研究重大項目;項目編號:2022AH040332。安徽省職成教項目;項目名稱:后疫情時代基于OBE理念的高職公共基礎課程混合式教學模式的構建與實施;項目編號:Azcj2022178。安徽省職業與成人教育學會教育科研規劃課題;項目編號:Azcj2022180。
作者簡介:高郭威(1991— ),男,助教,碩士;研究方向:大數據,網絡安全。
0" 引言
最早的微博平臺是由美國人W. Evan創建的Twitter,國內最知名的微博平臺要數新浪微博,因此本文的研究和實驗數據都來自新浪微博。與傳統互聯網中垃圾問題的單一性不同,微博平臺中的垃圾問題存在多種特性。垃圾問題從垃圾的類型分可以分為垃圾微博和垃圾用戶。垃圾用戶在分類上與其他平臺不同,具有突出的目的性,表現出來的特征十分明顯。微博平臺須要根據不同類型的垃圾用戶行為,針對性地給出不同的處理方案,這更加有利于對垃圾用戶的管理,也能夠更好地針對不同用戶制定行為規范準則。
1" 微博垃圾用戶存在的問題及解決方案
微博平臺[1]作為一個開放、高效、即時的傳播媒介,吸引了大量的微博垃圾用戶,其中包括諸多垃圾用戶行為。現階段的微博垃圾問題層出不窮,垃圾行為也越來越多樣與復雜。傳統的基于垃圾用戶特征分析的機器學習檢測方法大多是對全局的垃圾用戶進行分析,也就是傳統的二值分類問題,即垃圾用戶和正常用戶。通過對垃圾用戶的深入分析,本文發現垃圾用戶的行為目的不同,所表現出來的垃圾行為模式也不盡相同,然而大多數的垃圾用戶檢測都缺乏針對某類特定垃圾用戶的行為分析研究,這樣往往會使得某類垃圾用戶逃避檢測系統的檢測。
在微博垃圾用戶行為分析中,范雨萌等[2]提出了一種利用新浪微博的用戶行為對垃圾用戶進行檢測的方法,將用戶分為過度廣告惡意用戶、過度關注惡意用戶和重復轉發惡意用戶。在對現階段垃圾用戶進行分析[3]的過程中,發現有些垃圾用戶行為已經很少存在,同時也出現了新的垃圾行為。針對現在的微博平臺,上述的劃分標準就會顯得不那么合理。
因此,為解決上述問題,本文利用網絡爬蟲程序[4]對微博用戶數據進行爬取,分析了現有微博用戶的垃圾行為,設計了一種垃圾用戶分類方法。該方法根據垃圾用戶的行為目的和行為模式將垃圾用戶分為4類,然后針對每一類垃圾用戶進行特征分析,為更準確地檢測垃圾用戶提供行為特征依據。垃圾用戶由于目的各不相同,會呈現多種多樣的垃圾行為,如果只是簡單的二值分類,往往會造成特征維度過高的情況,而多分類特性分析,會針對各類垃圾用戶的最顯著特性進行分析,從而減低了特征維度,達到降維目的。
2" 微博垃圾用戶分析
通過對新浪微博平臺中的各類用戶[5]進行觀察,本文發現由于各類垃圾用戶的目的不同或者技術和資金投入的不同,他們采用的行為策略也存在差別,呈現的垃圾行為也不盡相同。對垃圾用戶的分類可以更好地找出區分度高的垃圾用戶特性,這些區別度高的特征是設計檢測方法須要考慮的重要因素之一。如果不對這些用戶進行區分,就可能存在2類垃圾用戶的某些特征相互矛盾的情況,因此,對垃圾用戶進行分類十分有必要。
根據垃圾用戶所采取策略的不同,本文把垃圾用戶分為2個大類:主動策略和慎重策略。在這2類策略的導向下,垃圾用戶表現出了不同的行為特點。
2.1" 主動型垃圾用戶
主動型垃圾用戶為了達到目的,會采取最簡單粗暴的方法進行推銷、詐騙等行為。他們都選擇主動去騷擾用戶,不對自己做任何保護措施,也不怕被其他用戶舉報或是被微博官方直接封號。他們的運營成本比較低,發布垃圾信息之后就會被拋棄或者是被封號,只要有少數用戶上當受騙就達到了目的。此類策略下的垃圾用戶主要有2種:
2.1.1" 主動騷擾型垃圾用戶
這類用戶的行為特點是幾乎每條微博都會提及其他用戶,即發布帶有“@”符號的微博,提及的用戶并不是他的好友,也不在關注列表里面。
2.1.2" 過度關注型垃圾用戶
目前普通用戶的關注上限是2000,過度關注型垃圾用戶的最大特點是會大量關注其他用戶。許多過度關注型垃圾用戶的關注數甚至快要逼近關注上限,相反,他們自己的粉絲數量卻很少。
2.2" 慎重型垃圾用戶
相比于主動型垃圾用戶,慎重型垃圾用戶采取的行為策略更為保守,垃圾行為也更有組織性。此類策略下的垃圾用戶主要有2種:
2.2.1" 重復發送型垃圾用戶
該類垃圾用戶比較典型的垃圾行為是發送或者轉發大量內容相同或者相似的垃圾信息。
2.2.2" 營銷廣告型垃圾用戶
該類垃圾用戶在經過幾代演變之后,其行為已經和正常用戶十分相似,在微博平臺上的數量也最多。為了宣傳產品,該類垃圾用戶的微博中會含有產品圖片和產品URL鏈接,圖片和URL鏈接會與之前的內容十分相似。然而,區別于重復發送型垃圾用戶,他們的正文往往不會相似度很高。
3" 微博垃圾用戶爬取
3.1" 微博垃圾用戶收集方式
現階段的微博用戶獲取方法[6]一般有3類:利用蜜罐吸引用戶、直接購買用戶和利用爬蟲程序爬取用戶。
蜜罐是一種主動安全技術,設置一個專門讓黑客攻擊的系統,用來記錄黑客的活動,幫助了解黑客的信息,發現潛在的威脅。微博蜜罐程序與傳統的主動型蜜罐不同,相當于一個誘餌程序,目的是吸引垃圾用戶去關注它。Webb等[7]設置了51個蜜罐賬戶,這些賬戶注冊了之后,不發布微博也不關注其他賬戶,只等其他用戶的關注。在經歷了4個月之后,他們共獲得了1570個惡意用戶的關注。這類收集方式的時間跨度大、效率低,不適合短時間內大量獲取垃圾用戶。
由于微博營銷[8]的不斷升溫,出現了很多微博營銷類的服務。他們提供“粉絲”購買,用戶可以在花費一定費用之后,獲得粉絲的關注,提高自己的關注度。此方法雖然可以短時間內獲得大量垃圾用戶,但是垃圾用戶種類單一,不利于垃圾用戶行為分析。
微博爬蟲[9]是時下最熱門的微博數據獲取技術,能夠快速、準確地獲得微博數據。微博爬蟲一般有2種形式:微博平臺提供的開放API和網頁爬蟲技術。雖然各大平臺都提供了API,但是為了防止過度調用,平臺對API的調用次數都做了限制。新浪微博提供的API只能下載已授權用戶的最近幾條微博信息,而這些信息對于垃圾用戶檢測研究而言是遠遠不夠的。因此,本文采用網頁爬蟲技術對新浪微博用戶數據進行爬取。
3.2" 微博爬蟲
本文采用的網頁爬蟲方法是UID(User IDentification)遍歷爬取策略。UID就是新浪微博提供給每一個用戶的ID號,唯一對應且不會改變。UID遍歷全網爬蟲的算法是根據指定的UID段去爬取微博用戶數據。該UID爬蟲程序包括3個模塊:模擬登錄、網頁爬蟲和網頁內容解析。首先根據新浪微博的特點,本文實現程序對微博網頁的模擬登錄;接著通過HTTP協議使用GET方法采集網頁數據并對該數據進行解析。這種方法通過模擬正常用戶使用瀏覽器客戶端瀏覽微博的過程,不依賴于微博平臺開放API,可以根據自己的需求靈活改變爬取數據字段。為了獲得真實可靠的UID,本文從爬盟中國提供的新浪微博用戶數據集中獲取UID,作為參數輸入。為了能夠讓程序能夠通過微博頁面的用戶登錄認證,本文采取模擬登錄的方式。總體流程如圖1所示。
具體流程如下:
(1) 模擬登錄微博平臺;
(2) 根據給定的UID訪問用戶的微博信息界面;
(3) 將微博界面信息爬取下來;
(4) 采用網頁解析技術提取出頁面中的信息,包括用戶名、性別、地址、關注數、粉絲數、微博數以及微博內容等;
(5) 將信息存入數據庫;
(6) 程序結束。
3.3" 微博用戶數據集
在實際爬取過程中,本文通過解析微博用戶網頁內容,可以獲取包括用戶名、用戶ID、微博數、關注數、粉絲數、近50條微博內容、點贊數、轉發數和評論數等15個字段信息。本研究中這些字段來自20000多名用戶的個人信息及其發表的149090條微博信息,這些數據被保存到MySQL數據庫。
4" 獲取微博垃圾用戶的行為特征
4.1" 樣本處理
微博垃圾用戶檢測的最終目的是利用微博的統計特征構建分類模型,完成垃圾用戶分類。首先對微博用戶進行標注并將爬取的字段信息處理為計算機可以識別的統計特征。為了便于測試,本文在數據庫中隨機抽樣了6500名用戶并對這些用戶完成標注工作。為了獲取客觀、準確的標注結果,本文根據4類垃圾用戶的分類標準對樣本進行標注,其中正常用戶標注為0,營銷廣告型垃圾用戶標注為1,重復發送型垃圾用戶標注為2,過度關注型垃圾用戶標注為3,主動騷擾型垃圾用戶標注為4,無法確定或者被系統封掉的賬號標準為5。其次,本文選擇多名標注者給出一致標注值的用戶賬號,去除不確定的用戶賬號,得到用來進行特性分析的樣本集合(見表1)。其中,主動騷擾型垃圾用戶105人,過度關注型垃圾用戶103人,重復發送型垃圾用戶338人,營銷廣告型垃圾用戶892人,正常用戶4377人。
本文從垃圾用戶的社會關系特征、微博活躍性特征以及微博內容特征這3個方面計算用于分析用戶行為的特征值。社會關系特征統計量主要是粉絲數量、關注數量以及相互之間的比例,能夠體現微博用戶在微博平臺的社會關系;微博活躍性特征統計量主要是用戶發布的微博總數、每日平均微博數量等,能夠體現出微博用戶的活躍程度;微博內容特征統計量主要是與微博內容相關,比如微博正文中的圖片數量、URL數量、“@”數量以及文本相似度等。前2類特征屬于用戶行為上面的特征,后者屬于與微博內容相關的特征。本文以關注/粉絲比例特征和平均文本相似度特征為例,介紹一下相關特征的計算方法。
關注/粉絲比例的計算公式如公式(1)所示。
reputation(u)=NFollowersNFollowees(1)
式中,NFollowees為用戶u的關注數;NFollowers為用戶u的粉絲數。
本文選擇向量空間余弦相似度(Cosine Similarity)來計算微博中的文本相似度。首先,對微博文本進行預處理,主要是對文本進行中文分詞和去停用詞;然后,對文本特征項進行選擇與加權并把文本簡化為以特征項(關鍵詞)的權重為分量的N維向量表示,用D(Document)表示文本,用T(Term)表示特征項,則文本可以表示為D(T1,T2,T3,…,Tn),那么計算2個文本直接的相似度公式如公式(2)所示。
Sim(D1,D2)=∑nk=1W1k×W2k∑nk=1W1k2∑nk=1W2k2(2)
式中,D1,D2 為微博文本;W1k,W2k為D1,D2的第k個特征項的權值,1≤k≤N。
最后計算出22個特征值,如表2所示。
4.2" 垃圾用戶特征分析
為了找出4類垃圾用戶與正常用戶之間區分度較高的特征,本文利用累積分布函數(Cumulative Distribution Function,CDF)來繪制4類垃圾用戶的CDF曲線。CDF可以完整描述一個實數隨機變量的概率分布,是概率密度函數的積分。用密度函數表示為:
F(x;μ,σ)=1σ2π∫x-∞exp-(x-μ)22σ2dx(3)
式中,x為隨機變量;μ為隨機變量數學期望;σ為標準方差。
每一條CDF曲線代表了一類垃圾用戶的某一個統計特征的數據分布,CDF曲線上的X值表示該統計特征的一個值,CDF曲線上的Y值表示統計特征小于這個值的該類樣本占該類樣本總數的比值。因此,通過繪制CDF曲線,本文可以很直觀地找出4類垃圾用戶在同一個統計特征上面的數據分布差別,這正是須要尋找的“區分度”。
本文利用上一節中的樣本數據,采用MATLAB軟件繪制4類垃圾用戶和正常用戶的全部特征并選擇了部分有代表性的特征來進行分析。
4.2.1" 用戶行為特征分析
首先,有關用戶行為的2類典型特征為日發微博數和關注/粉絲比。相比于其他4類垃圾用戶,正常用戶每日發布的微博數明顯少于垃圾用戶,這是因為微博平臺對于正常用戶而言更多的是作為一個信息接收平臺而非信息發表的平臺。營銷廣告型和重復發送型垃圾用戶為了達到宣傳和擴散的目的,須要大量發送微博,因此,他們的每日發布數很高,活躍度也最高。過度關注型垃圾用戶是以關注其他用戶為目的,每日發布微博數相對較少。
過度關注型垃圾用戶的粉絲/好友比例最高,這是由于該類垃圾用戶會大量關注其他用戶,而很少得到其他用戶的關注,導致關注數很高而粉絲數很低。主動騷擾型垃圾用戶的關注數和粉絲數都很低,因此,粉絲/好友比例也低。慎重型的2類垃圾用戶一方面為了提升自己的可信度會購買僵尸粉來增加自己的粉絲數,另一方面也須要經常經營維護自己的微博,建立了固定的好友群體,因此,關注/粉絲比例也比較低。
4.2.2" 用戶微博內容特征分析
用戶微博內容的6類典型特征為URL平均數、話題平均數、提及平均數、平均文本相似性、圖片平均數以及點贊平均數。
(1)URL平均數。
主動騷擾型垃圾用戶的URL鏈接數最多,就是為了利用“@”用戶來點開微博中的鏈接,這類鏈接多為垃圾廣告和釣魚鏈接等。重復發送型垃圾用戶的URL鏈接數也較多,此類鏈接多為推廣頁面,為了增加宣傳力度。正常用戶的URL鏈接明顯少于其他4類垃圾用戶,一般情況下微博中不會含有URL鏈接,最多也不會超過1條URL鏈接。
(2)話題平均數。
正常用戶微博中的話題數量較少,而重復發送和營銷廣告類垃圾用戶為了宣傳推廣會在微博中添加熱點話題來吸引正常用戶閱讀,屬于蹭熱點的典型行為。
(3)提及平均數。
主動騷擾型垃圾用戶為了騷擾用戶,會大量利用“@”來提及用戶,微博中的“@”數量明顯高于其他用戶。重復發送型垃圾用戶由于會重復轉發他人微博,因此微博中一般也會含有1~2個“@”符號。
(4)平均文本相似性。
正常用戶的文本相似性最低,過度關注型和營銷廣告型垃圾用戶的文本相似性也比較低。主動騷擾型垃圾用戶由于會發布相同帶有URL鏈接的微博來提及用戶,因此,相似度較高。重復發送型垃圾用戶因為存在大量轉發相同微博的打榜行為和發布相同內容的推廣行為,所以文本相似度極高,90%的該類用戶的文本相似性都超過了0.4,而90%正常用戶的文本相似性都低于0.4。
(5)圖片平均數。
主動騷擾型垃圾用戶一般不存在推銷的產品,圖片平均數最少。營銷廣告型垃圾用戶為了推廣自己產品,會發布大量產品的照片來吸引用戶,因此,圖片數最多。
(6)點贊平均數。
4類垃圾用戶和正常用戶的點贊平均數沒有明顯區別,屬于區分度低的一類特征值,這類特征在垃圾用戶檢測中的貢獻度低,會被舍棄。
綜合用戶行為特征和微博內容特征,可以得出如下結論:(1)營銷廣告型垃圾用戶會很好地經營自己的微博,他們的粉絲數量、微博數量會很高。此外,為了推銷產品,其微博內容中還多含有產品圖片、URL鏈接等;(2)重復發送型垃圾用戶會大量發送和轉發相同內容的微博,因此,文本相似度是其最重要的特征之一。此外,為了增加微博的曝光度,用戶微博中會加入熱點話題;(3)過度關注型垃圾用戶的關注數量很高,而粉絲數量很少,這導致了其關注/粉絲比會遠遠高出其他類型的垃圾用戶,與積極的關注行為相反,這類垃圾用戶的微博數量較少;(4)主動騷擾型垃圾用戶最明顯的特征就是濫用“@”提及功能來騷擾正常用戶,因此其微博中的“@”數量最多。由于此類垃圾用戶的目的性較強,其微博內容中也多含有URL鏈接。
5" 結語
本文主要對垃圾用戶的行為進行詳細分析。首先,對微博平臺上的垃圾用戶進行長期的觀察和研究,根據垃圾用戶在實際行為中采取的策略不同,將垃圾用戶分為主動策略型和慎重策略型。在這2類策略的導向下,又將垃圾用戶細分為營銷廣告型、重復發送型、過度關注型和主動騷擾型。其次,為了對垃圾用戶進行更有針對性的研究,本文采用一種基于UID遍歷爬取策略的微博爬蟲程序對新浪微博上的用戶進行爬取,獲得數據集。最后,本文對樣本數據集中的4類垃圾用戶進行定量分析,通過繪制CDF曲線找到了各類垃圾用戶與正常用戶和各類垃圾用戶之間區分度較高的相關特征,證明了垃圾用戶分類的現實意義。
參考文獻
[1]黃衛東,程小香.基于微博平臺的輿情參與主體情感強度研究[J].計算機技術與發展,2022(11):140-145.
[2]范雨萌,易秀雙,倪石建,等.基于統計特征的微博垃圾用戶檢測系統研究[J].信息安全與技術,2019(9):20-25.
[3]楊倩雯.面向網絡輿情管控的微博謠言用戶識別研究[D].武漢:武漢大學,2019.
[4]何波.基于Python的新浪微博中爬蟲程序維護方法[J].軟件,2022(2):52-54.
[5]金茂輝.微博用戶的個性特征及交互關系分析[J].環球首映,2021(6):234-236.
[6]劉希.基于半監督學習算法的微博水軍識別方法研究[D].成都:電子科技大學,2022.
[7]WEBB S, CAVERLEE, PU C. Social honeypots: Making friends with a spammer near you[EB/OL].(2008-12-29)[2024-08-10].https://people.engr.tamu.edu/caverlee/pubs/webb08socialhoneypots.pdf.
[8]薛曉茹.微博營銷下用戶高影響力轉發行為影響因素研究[D].大連:大連大學,2022.
[9]萬朔.面向語料庫的微博情感分析研究[D].南京:南京航空航天大學,2020.
(編輯" 王雪芬)
Research on the behavior of Weibo spammers
GAO" Guowei, ZHAO" Weidong, SUN" Zhongquan
(Chuzhou Polytechnic, Chuzhou 239000, China)
Abstract:" Spammer, as a disseminator of spam, has become the focus of Weibo’s anti-spam research. Existing research on spammer detection is confined to traditional binary classification problem, which is simply to determine the user for spammer and non-spammer. However, there are many types of spammers in the Weibo platform, if all kinds of spammers are considered as the same category, there will be the problem that spammers’ characteristics can affect each other, so that the overall detection performance decreases. To solve this problem, the behavior of many kinds of spammers is analyzed in this thesis. First of all, according to spammers’ behavior purposes and behavior patterns, spammers are classified into four categories. Secondly, the data sets are obtained by the crawler program, and a set of samples for analyzing the characteristics are constructed and labeled, then the statistical characteristics of users are calculated. Finally, the characteristics of the four types of spammers are analyzed quantitatively, and the characteristics of each type of users are summarized. The experimental results show that there are highly distinguishable features between various types of spammers and non-spammer, which can effectively distinguish various types of spammers and non-spammer and improve the detection accuracy.
Key words: Weibo; spammer; user behavior; user classification