999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

在線社交網絡中Spam相冊檢測方案

2016-11-24 06:59:06呂少卿張玉清劉東航張光華
通信學報 2016年9期
關鍵詞:特征用戶檢測

呂少卿,張玉清,2,劉東航,張光華,3

(1. 西安電子科技大學綜合業務網理論及關鍵技術國家重點實驗室,陜西 西安710071;2. 中國科學院大學國家計算機網絡入侵防范中心,北京 100190;3. 中國科學院信息工程研究所物聯網信息安全技術北京市重點實驗室, 北京 100097)

在線社交網絡中Spam相冊檢測方案

呂少卿1,張玉清1,2,劉東航1,張光華1,3

(1. 西安電子科技大學綜合業務網理論及關鍵技術國家重點實驗室,陜西 西安710071;2. 中國科學院大學國家計算機網絡入侵防范中心,北京 100190;3. 中國科學院信息工程研究所物聯網信息安全技術北京市重點實驗室, 北京 100097)

提出一種針對Spam相冊的檢測方案。首先分析了Photo Spam的攻擊特點以及與傳統Spam的差異,在此基礎上構造了12個提取及時且計算高效的特征。利用這些特征提出了有監督學習的檢測模型,通過2 356個相冊的訓練形成Spam相冊分類器,實驗表明能夠正確檢測到測試集中100%的Spam相冊和98.2%的正常相冊。最后將訓練后的模型應用到包含315 115個相冊的真實數據集中,檢測到89 163個Spam相冊,正確率達到97.2%。

社交網絡安全;Photo Spam;Spam檢測;人人網

1 引言

隨著在線社交網絡(以下簡稱為社交網絡)的快速發展,人們的生活越來越依賴于社交網絡,人們每天都在社交網絡中查看好友最近的經歷、分享自己的新鮮事以及獲取最新資訊等。

社交網絡給人們日常生活帶來便利的同時,也帶來了新的安全問題[1]。Spam攻擊就是其中最主要的安全威脅[2,3]。攻擊者利用社交網絡提供的各項功能來進行Spam攻擊,如利用微博(狀態)[4,5]、#[6]、@[7]和評論[8]等功能來傳播廣告、色情以及釣魚等惡意信息,嚴重威脅到用戶的個人信息安全以及社交網絡的信譽體系。針對這些問題,學術界和工業界都提出了大量的方案來檢測或防御 Spam攻擊[9~13]。但在利益的驅動之下,攻擊者又提出了新的攻擊方式來躲避或繞過這些檢測和防御方案,Photo Spam就是其中之一。Photo Spam是攻擊者利用社交網絡中照片的分享功能來存儲和傳播 Spam信息的新式Spam攻擊。

Photo Spam最早是Wang等[14]提出,他們發現人人網中的攻擊者通過上傳Spam照片,并在其中嵌入Spam信息來推廣衣服、鞋子等物品。之后Cao等[15]發現在 Facebook中攻擊者通過短時間內上傳大量照片來推銷減肥藥。同時這些工作針對 Photo Spam提出了相應的檢測方案,如Wang等[15]利用用戶的鼠標點擊模型來檢測Spam賬號,Cao等[15]利用賬號的行為模式和登錄IP地址來檢測Spam賬號。這些工作雖然能夠檢測到一定的Photo Spam賬號,但是這些方案都是針對Spam賬號進行檢測,而不是Spam相冊本身。針對Spam賬號進行檢測的方案需要基于賬號長期的行為數據,即需要在 Spam賬號執行大量的惡意行為操作之后才能夠判斷為Spam賬號,而此時Spam賬號的行為已經對正常用戶造成了損害。而針對Spam相冊的檢測方案能夠在用戶上傳照片之后就對相冊進行檢測,能夠在攻擊者傳播Spam信息之前就檢測到Spam相冊,從而阻止Spam相冊對正常用戶的影響。

本文通過分析 Photo Spam的特征提出了一種針對 Spam相冊的檢測方案。首先,詳細分析了Photo Spam的攻擊策略,并對比了Photo Spam與傳統Spam攻擊的區別;基于此分析構造了12個提取及時且計算高效的特征,并對比了Spam相冊與正常相冊在這些特征方面的不同。之后利用這些特征設計了基于有監督學習的檢測方案并通過包含2 356個相冊的數據集進行訓練,形成了針對Spam相冊的分類器。實驗表明本文的分類器能夠正確區分測試集中100%的Spam相冊以及98.2%的正常相冊。隨后本文分析了分類器在不同的訓練樣本比例、不同的分類算法以及不同特征子集情況下的分類結果。最后本文將訓練后的分類器應用到包含有315 115個未標識相冊的真實數據集中,檢測到89 163個Spam相冊,人工驗證正確率為97.2%。

雖然本文的實驗只是針對人人網,但是本文的特征和模型只需要微小調整就能適用于所有的社交網絡(如Facebook等)。

2 Photo Spam

Photo Spam是一種新的Spam攻擊方式。在Photo Spam中攻擊者首先利用控制的賬號(攻擊者創建的虛假賬號或盜用的賬號)在社交網絡中創建一個相冊,然后在相冊中上傳 Spam照片,并在照片的描述中加入惡意信息,如廣告、釣魚等URL,最后攻擊者通過分享該相冊或其中的照片進行傳播。攻擊者為了吸引更多的用戶,會用有吸引性的名稱來命名相冊,而且為了提高相冊中 Spam照片的訪問量以及躲避檢測,攻擊者會在 Spam相冊中加入一些正常照片來偽裝成正常相冊。

具體的攻擊實例如下。攻擊者創建了一個標題為“世界100位用演技詮釋電影的男人”的相冊。在該相冊中除了與相冊名稱符合的照片之外,還包含有Spam照片,這些Spam照片的描述中包含指向出售照片中商品的超鏈接。攻擊者還可以通過對該相冊進行分享來傳播Spam信息,也可以用控制的多個賬號分享該相冊。任何正常用戶如果被該分享的標題所吸引并訪問該相冊,就會在瀏覽的過程中不斷接收到Spam照片以及Spam信息。這將會嚴重損害用戶對社交網絡的使用體驗。

與傳統Spam攻擊相比,Photo Spam具有以下特點。首先,Photo Spam攻擊中惡意信息的載體更加豐富。傳統Spam攻擊中攻擊者將微博、評論、私信等作為惡意信息載體,每次傳播都是將惡意信息文本進行復制。而在Photo Spam攻擊中,攻擊者可以將惡意信息存儲在照片的描述、評論以及標題中,甚至可以作為水印直接嵌入到照片中。這種惡意信息的多種存在形式讓 Photo Spam更難被檢測到。其次,Photo Spam與傳統Spam攻擊在惡意信息的傳播方式上也有區別。Photo Spam進行傳播的主要方式是分享,而傳統Spam進行傳播主要是將惡意信息進行多次重復發送。分享是一種有效的傳播手段,因為分享只產生一個正常的鏈接,并不產生更多的惡意信息,而多次發送的方式每次都復制惡意信息,所以更容易被檢測到,因此這種傳播方式的不同使Photo Spam攻擊更難被檢測到。再次,在Photo Spam中惡意信息的存儲與傳播可以分離。由于Photo Spam的傳播方式主要是分享,因此,攻擊者可以利用新創建的賬號來上傳Spam照片,然后利用擁有更多好友的Spam賬號來分享Spam相冊,這樣能夠有效避免一些擁有更多好友的 Spam賬號被檢測到,降低了攻擊者的損失并使 Photo Spam威脅到更多正常用戶。最后,在Photo Spam中正常用戶可能會無意參與到Spam信息的傳播。攻擊者為了增加Spam照片的訪問量會在Spam相冊中混雜正常照片,正常用戶可能會分享這些正常照片而沒有察覺到在該相冊中存在Spam內容,這樣更加擴大了Photo Spam的危害范圍。

通過以上分析,本文發現與傳統Spam攻擊相比,Photo Spam對正常用戶的危害更大而且更難被檢測到。而Spam相冊是Photo Spam整個攻擊過程的核心,所有惡意信息的存儲與傳播都是基于Spam相冊。因此,針對Spam相冊的檢測方案能夠有效降低Photo Spam攻擊對正常用戶的影響,這就是本文工作的主要出發點。

3 數據獲取和樣本標識

本文的實驗數據獲取自人人網。人人網是中國最大的社交網絡之一,2015年,人人網的注冊用戶數已經達到2.26億,月活躍用戶數為4 600萬。人人網與國外的Facebook具有類似的功能和特性,它們都屬于實名制注冊網站,用戶在其中能夠創建個人賬號、填寫個人信息、與其他用戶建立雙向好友關系,并能夠發布自己的新鮮事、創建相冊、上傳照片,以及將各種有趣的事情分享到自己的新鮮事等。

本文獲取數據的流程如圖1所示。為了有效地獲取數據并降低可能的取樣誤差[16,17],本文首先在人人網的用戶 ID范圍(1000~808834939)中隨機抽取10 000個ID,然后利用應用程序接口(API,application program interface)獲取這些ID的個人信息。在這些ID中共有4 875個ID能夠返回正確信息。然后通過API對這些賬號ID獲取相應的相冊ID。為了使樣本具有代表性,本文沒有獲取網站自動創建的頭像相冊和應用相冊,只獲取用戶自己創建的普通相冊。同時為了保證樣本的多樣性,對于有多個普通相冊的賬號,本文隨機選取其中3個相冊ID。通過用戶ID和相冊ID共同獲取這些相冊的具體信息以及相冊中照片的絕對 URL地址。最后通過定制的爬蟲獲取這些相冊中所有的照片。本文數據獲取的時間是從2014年11月至2015年2月。

接下來需要確定這些相冊是否為正常相冊或Spam相冊。邀請3位志愿者手動確定這些相冊的分類,這3位志愿者使用人人網或其他社交網絡超過3年。3位志愿者通過訪問這些相冊并瀏覽照片的內容和照片的信息來確定相冊的分類。如果在相冊中包含有惡意URL,如指向廣告、釣魚、色情等網站,那么這個相冊就被判斷為Spam相冊,否則為正常相冊。每個志愿者都需要判斷所有的相冊,然后根據3位志愿者的綜合評價來最終確定一個相冊的分類。3位志愿者如果對同一個相冊的分類一致,那么就采用這個分類,如果對于一個相冊的分類有分歧,那么就舍棄這一相冊。最終共獲得了1 178個Spam相冊以及5 693個正常相冊。

為了降低數據集中正常相冊和 Spam相冊比例不同所帶來的偏差,本文從5 693個正常相冊中抽取了與Spam相冊數相同的1 178個正常相冊。這1 178個正常相冊與1 178個Spam相冊組成了本文的數據集Ⅰ。本文分別隨機抽取了數據集Ⅰ中70%的正常相冊和70%的Spam相冊作為模型的訓練集,剩余30%的數據作為測試集。數據集Ⅰ的具體情況如表1所示。

表1 數據集Ⅰ匯總

圖1 數據獲取流程

4 特征分析

根據對Photo Spam的分析,Spam相冊與正常相冊存在多種差異。首先,相冊使用目的不同,攻擊者創建相冊的目的是吸引更多用戶的訪問來更廣泛地傳播Spam信息,而正常用戶創建相冊的目的是與好友分享照片。其次,相冊中照片性質不同,正常相冊中的照片一般是通過相機、手機等設備對自然景象的記錄,而Spam照片大都是攻擊者通過計算機軟件人工合成。最后,相冊后續操作不同,攻擊者通常都是通過自動化工具對賬號進行操作,因此在相冊創建完成后很少有后續操作,而正常用戶創建相冊后會不定時上傳照片。因此Spam相冊和正常相冊本身存在差異。

基于以上分析,本文設計了相關特征。這些特征可以分為2類,一類為相冊相關的特征;一類為照片內容相關的特征。

相冊相關特征主要是抽取與相冊本身屬性相關的信息,包含以下內容。

1) 相冊標題長度:此特征是相冊標題的字符長度。

2) 相冊間隔時間:相冊間隔時間是指從相冊創建時間到相冊最近更新時間的間隔天數。

3) 相冊中照片數:即相冊中包含的照片數。

4) 照片描述比率:即在相冊中照片描述不為空的照片個數與相冊中照片數的比值。

5) 照片描述 URL比率:即照片描述中包含URL的照片數與相冊中照片總數的比值。

6) 照片描述長度均值:相冊中照片描述字符長度的均值。

7) 照片描述長度方差:相冊中照片描述字符長度的方差。

照片內容相關特征是抽取相冊中照片的內容相關屬性,本文主要考慮以下特征。

1) 顏色均值:顏色均值包含3個值,即相冊中所有照片紅、綠、藍三原色的均值。單張照片顏色均值中紅色定義如式(1)所示,其中,L和W分別為照片的長和寬,單位為像素,Rjk為像素點(j, k)中紅色的值。整個相冊的紅色顏色均值定義如式(2)所示,其中,N為相冊中照片數。綠色和藍色的計算方式與紅色類似。

2) 色飽和度均值:飽和度是指色彩的鮮艷程度。在 RGB彩色圖像中可以通過計算圖片像素點中max(R,G,B)與min(R,G,B)的差值大于閾值T的像素點的數量與整體像素點數量的比值來表示飽和度[18],如式(3)所示。單張照片飽和度S定義如式(4)所示,在實驗中本文選取T為50[19]。整個相冊的飽和度均值特征FS定義如式(5)所示,Si為相冊中第i張照片的飽和度。

3) 主色覆蓋范圍均值:主色就是照片中出現頻率較高的顏色值。在實驗中本文將出現頻率最高的前 20個顏色定義為主色[19]。主色覆蓋范圍主要是計算照片中出現頻率最高的顏色所占的比例[20],它可以捕捉到照片中大片的色塊。由于 Spam照片是通過軟件創建,因此一般有大塊的同色背景。如式(6)所示,其中,單張照片的主色覆蓋范圍U定義為式(7),整個相冊的主色覆蓋范圍均值 FU通過式(8)計算得到,其中,Ui為相冊中第i張照片的主色覆蓋范圍。

本文檢測方案的目的是盡早地檢測到攻擊者上傳的Spam相冊,因此所設計的特征需要在照片上傳之后就能夠提取,所以舍棄了一些有良好的區分度,但需要經過一段時間才能夠形成的特征的照片,如照片的訪問次數以及評論數等,并且社交網絡每一時刻都有大量照片上傳,因此本文需要計算高效的特征,所以也舍棄了一些需要很大計算量的特征,如照片的角點、紋理等特征。

圖2展示了Spam相冊與正常相冊在4個特征上的不同。為了更好地展示,本文從數據集Ⅰ中隨機抽取了500個Spam相冊以及500個正常相冊,并分別編號為1~500,然后對這些相冊的相關特征進行了展示。

從圖2(a)中可以看出,Spam相冊的標題字符長度大于正常相冊的標題長度。87.6%的Spam相冊的標題長度大于45個字符,而正常相冊中只有38.8%的相冊標題長度大于 45個字符。這是因為攻擊者為了吸引更多用戶訪問相冊,會將相冊命名為吸引用戶的標題,因此標題長度比正常相冊長。從圖 2(b)中可以看出正常相冊的間隔時間大于Spam 相冊。79.6%的正常相冊的間隔時間超過 1天,而Spam相冊中只有20.8%的相冊間隔時間超過 1天。這是由于攻擊者通過自動化工具操作賬號,在上傳照片后基本沒有后續操作,所以相冊的間隔時間小于正常相冊。圖2(c)展示了Spam相冊與正常相冊在照片描述長度方面的差別。82.6%的Spam相冊的照片描述長度均值超過90個字符,而在正常相冊中只有 42.6%的照片描述長度均值大于90個字符。這是因為攻擊者需要在照片描述中添加Spam信息,因此照片描述的長度大于正常相冊中照片描述。圖2(d)展示了Spam相冊與正常相冊在照片顏色均值中紅色的差異。其中,Spam相冊中紅色均值大于150的占78.2%,而正常相冊中只有22.4%的照片顏色均值中紅色大于150。這是由于攻擊者人工合成的Spam照片整體顏色更加亮麗,而且為了吸引更多正常用戶,其所添加的正常照片也色度較高,因此Spam相冊中照片的顏色均值更高。

從圖2中可以看出,正常相冊與Spam相冊在這些特征上都具有差異,因此能夠利用這些精心設計的特征來區分正常相冊和Spam相冊。

5 Spam相冊檢測模型及實驗結果

根據數據集Ⅰ和所提出的特征,本文設計了基于有監督學習的Spam相冊檢測模型。有監督學習是機器學習算法中的一類,它根據標識過的訓練集來訓練模型[21]。訓練集中包含有多條訓練樣本,每條訓練樣本都包括多個輸入特征以及一個結果標識。通過對訓練集的學習,有監督學習能夠形成相應的分類器來對新的樣本進行分類。

圖2 Spam相冊和正常相冊在不同特征的區別

5.1 檢測模型

本文所提出的Spam相冊檢測模型如圖3所示。首先利用社交網絡提供的應用程序接口API從社交網絡中獲取原始數據。然后通過樣本標識對原始數據中的樣本進行分類。接著利用特征抽取從標識后的樣本中提取出相應的特征。這些特征樣本集被隨機分為訓練集和測試集。通過訓練集對分類器進行訓練,最后通過測試集對訓練后的分類器進行測試,獲取相應的檢測結果。

通過第4節的分析,Spam相冊和正常相冊擁有不同的特征,本文采用第4節所設計的12個特征來區分正常相冊和Spam相冊。

圖3 Spam相冊檢測模型

5.2 SVM分類器

本文主要采用支持向量機(SVM,support vector machine)[22]作為分類器,因為 SVM 在之前的工作中取得了很好的檢測結果[9,10,14]。SVM的最終目標是找到一個超平面能夠以最大間隔將訓練集中N維數據分為 2類。在實驗中本文采用非線性的 RBF(radial basis function)核來使SVM獲得更好的效果。最終的算法采用R語言中e1071程序包的相關函數來實現。采用RBF核的SVM算法有2個訓練參數:C和gamma。其中,C控制模型的過載,gamma控制模型的非線性度。本文采用e1071程序包所提供的參數選擇函數來自動選取參數。該函數采用網格搜索策略,通過不同的C和gamma對來計算分類結果,然后選擇獲得最高準確率的參數對。最后,針對本文的訓練集,獲得的最優C和gamma值分別為215.5和0.075。

為了提高模型訓練結果的可信度,本文在訓練時采用十折交叉驗證法。十折交叉驗證是將訓練集平均分為10份,對其中9份進行訓練,另一份做測試,循環進行10次實驗。最后的結果是這10次實驗結果的平均。

5.3 評價指標

為了評價本文的檢測結果,本文采用如表2所示的混淆矩陣,其中,a表示原本是Spam相冊被預測為Spam相冊的個數;b表示原本是Spam相冊但被預測為正常相冊的個數;c表示原本是正常相冊但被預測為Spam相冊的個數;d表示原本是正常相冊且被正確預測的個數。

根據表2的混淆矩陣,本文同時采用機器學習中的評價指標即準確率、召回率和F1值。準確率(P)是指對于指定的一類,正確分類的個數與被分為這類的總體個數的比率。如在表2中Spam相冊的準確率可以表示為。召回率(R)是指一類數據被正確分類的數量除以真實的屬于這一類的數量。如表2中Spam相冊的召回率即為。F1值是準確率與召回率的綜合。表2中Spam相冊F1值的計算式為

表2 混淆矩陣示例

5.4 Spam相冊與正常相冊的比率

起初本文使用訓練集中所有的樣本對分類器進行訓練,并且取得了Spam相冊與正常相冊的F1值分別為0.982和0.988,但這個結果不一定是最優結果。為了獲得最優結果,本文對訓練集中的樣本采用下采樣[23]的方式使Spam相冊與正常相冊的比例分別從1:1到1:10,并且重復這個過程10次。在圖4中本文展示了每次不同比例采樣時相應的宏F1值。宏F1值是2類樣本F1值的算術平均值。從圖4中可以看出,雖然每次同一比例采樣的結果并不相同,但在整體趨勢上,隨著Spam相冊與正常相冊比例的降低,宏F1值也在降低。其中,最優值是在第7次的1:3采樣中獲得,最大的宏F1值為0.991。因此,在之后的實驗中,本文采用的訓練集即為獲得最大宏F1值的訓練集。

5.5 分類結果和比較

本文采用 SVM算法獲得的最優結果如表 3所示。可以看出,本文的檢測模型非常有效,能夠正確區分測試集中 100%的 Spam相冊以及98.2%正常相冊,只有小部分的正常相冊分類錯誤。表4中列出了準確率、召回率、F1的值。可以看出Spam相冊和正常相冊的F1都高達0.991。進一步,本文比較了不同分類算法的檢測結果。如表5所示。本文比較了Na?ve Bayes、Decision Tree、Random Forest和 Neural Network分類算法。這些算法分別采用R語言中程序包e1071[24]、rpart[25]、randomForest[26]和 nnet[27]實現。對于每一種分類算法,本文都采用相同的評價指標(準確率、召回率、F1值)分別計算Spam相冊和正常相冊??梢钥闯?,SVM算法獲得了最高F1值,同時其他算法也都能獲得較好的分類結果,這主要是因為本文根據Photo Spam的特點設計了合適的特征。

圖4 不同樣本比例的分類結果

表3 混淆矩陣

表4 分類結果評價

5.6 特征的重要性

為了分析本文所設計的特征對檢測結果的重要性,本文分別用卡方檢驗(Chi-square test)和信息增益(information gain)計算特征的重要性。表6列出了2種計算方式中對檢測結果貢獻最大的10個特征。其中,對檢測結果貢獻率最大的2個特征分別為照片描述URL比率和相冊中照片數。照片描述URL比率說明Spam賬號會在照片描述中嵌入惡意URL來存儲Spam信息,與Wang等[14]的發現相符合。相冊中照片數說明攻擊者為了吸引更多用戶會在相冊中上傳大量照片,與 Gao等的發現相符合[15]。

表5 SVM與其他分類算法比較

表6 特征貢獻排名TOP10

為了進一步分析這 10個特征對檢測結果的影響,本文將這 10個特征按卡方驗證結果的順序每次從所有特征中移除一個特征,然后計算檢測結果。圖5所示為計算了不同特征子集的檢測結果??梢钥闯?,每次移除一個特征都會造成宏F1值的微小降低。而影響最大是移除特征照片描述 URL比率,不過即使在最差情況下,本文的分類器也能夠獲得很好的分類結果,Spam相冊和正常相冊的F1值分別達到0.977和0.979。

5.7 在真實環境中評價

為了驗證本文所設計的特征集和所提出算法的有效性,本文將訓練好的分類器應用到一個真實的數據集中。為了區分,本文將其命名為數據集Ⅱ。數據集Ⅱ采用與數據集Ⅰ相同的獲取方式。首先,本文從人人網的所有用戶ID空間中隨機抽取 100 000個ID,然后通過 API來獲取這些 ID的個人信息和相冊信息。本文過濾掉無效的ID、已經被禁用的 ID以及在數據集Ⅰ中已經包含的ID等,共獲得了49 156個用戶以及315 115個相冊,將這315 115個相冊作為數據集Ⅱ的樣本,并抽取相應的特征。

本文利用已經訓練好的檢測模型對數據集Ⅱ進行檢測。檢測的結果如表7所示,其中,89 163個相冊被判斷為Spam相冊,剩余225 952個相冊被判斷為正常相冊。這些Spam相冊分別屬于5 242個Spam賬號。對所有相冊進行人工驗證需要耗費大量的時間,因此本文從判斷為 Spam相冊的樣本以及判斷為正常相冊的樣本中分別抽取1 000個相冊,然后讓3位志愿者采用與第3節中相同的方法進行人工驗證。結果如表8所示,其中,972個Spam相冊以及969個正常相冊判斷正確。這一結果更進一步說明本文的檢測方案是有效的。

圖5 不同特征子集的分類結果F1值

表7 數據集Ⅱ匯總

表8 數據集Ⅱ分類結果

6 相關工作

隨著社交網絡的快速發展,社交網絡中 Spam攻擊也吸引了大量科研工作者的關注。因此有大量與Spam檢測相關的工作。

在檢測傳統Spam攻擊方面。Stringhini等[11]利用機器學習和6個特征,如好友數、文本相似性等來檢測Facebook和Twitter中發送Spam信息的賬號。Benevenuto等[9]利用39個基于內容的特征和23個用戶行為特征來檢測在Twitter熱門事件中發布Spam信息的賬號并針對Spam賬號和正常賬號分別獲得了0.79和0.912的F1值。Zheng等[10]通過SVM分類器以及18個特征來檢測新浪微博中發布 Spam信息的賬號。Lee等[12]通過在Twitter中部署蜜罐來獲取Spam賬號信息并利用機器學習技術和設計的特征,如推文中@的比率、URL比率等來檢測Spam賬號。與本文的工作類似,這些工作都是利用機器學習技術來檢測Spam賬號。但是這些工作都是針對傳統 Spam進行檢測而且檢測的對象是 Spam賬號,而本文的工作是檢測Photo Spam中Spam相冊。與傳統Spam相比,Photo Spam更難被檢測到,本文針對Photo Spam設計了相應的特征,而且本文的工作能夠獲得更高的檢測精度。

在檢測Photo Spam方面,如前所述,Wang等[14]通過將鼠標點擊模式相似的賬號聚為一類來將賬號分為不同的類別,即正常賬號和Spam賬號。通過這種方法檢測到一類鼠標點擊行為集中在照片分享的Spam賬號,并發現這些照片中包含指向出售鞋子、衣服等購物網站的URL。Cao等[15]根據用戶行為的相似性將用戶聚為不同的類別來檢測Spam賬號,他們發現Facebook中一些Spam賬號通過在短時間內上傳大量照片來推廣減肥藥,并且這些賬號共用少量IP地址。這2個工作都是針對Photo Spam中Spam賬號進行檢測,而本文的工作是針對Photo Spam中Spam相冊進行檢測。針對Spam賬號進行檢測需要在賬號執行一定行為之后才能夠將Spam賬號檢測到,而此時Spam賬號的惡意行為已經對正常用戶造成了威脅。而本文針對Spam相冊進行檢測是在賬號上傳照片之后進行,能夠在 Spam內容傳播之前就檢測到,從而避免Spam內容對正常用戶的危害。Wang等的工作只是利用了Photo Spam的傳播特性,即分享操作,因此只能檢測到傳播Spam相冊的賬號,而無法檢測到上傳 Spam相冊的賬號。通過本文檢測到的大量Spam相冊也表明,Wang等的工作并不全面。針對Cao等的檢測,攻擊者同樣可以通過代理來更換IP地址以及將照片上傳行為分布在不同的時間段來繞過。本文的工作利用了Photo Spam中Spam信息存儲和傳播的核心,即Spam相冊進行檢測,構造了相冊相關特征,并且這些特征都是易于計算且在照片上傳之后就能提取的特征,能夠在Spam信息傳播之前就進行檢測,從而有效避免Photo Spam對正常用戶的威脅。

7 結束語

本文提出了一種利用有監督學習方法來檢測Photo Spam中Spam相冊的方案,與之前針對Spam賬號的檢測方案不同,本文針對Spam相冊進行檢測,能夠及時檢測到Spam相冊并有效降低Photo Spam對正常用戶的不良影響。本文首先分析了 Photo Spam的攻擊方式并對比了Photo Spam與傳統Spam的區別,發現Photo Spam更難被檢測到并且危害更大?;诖朔治?,本文設計了12個提取及時且計算高效的特征。然后提出了基于SVM分類算法的檢測模型。通過包含有2 356個標記后相冊的數據集的訓練,檢測模型能夠對測試集中Spam相冊和正常相冊分別獲得0.991的F1值,隨后本文分析了在訓練集中不同樣本比率、不同分類算法以及不同特征子集情況下的檢測結果。最后,本文將檢測模型應用到包含315 115個未標記相冊的真實數據集中,共檢測到89 163個Spam相冊,人工驗證正確率為97.2%。

[1] GAO H, HU J, HUANG T. Security issues in online social networks[J].IEEE Internet Computing, 2011, 15(4): 56-63.

[2] FIRE M, GOLDSCHMIDT R, ELOVICI Y. Online social networks:threats and solutions survey[J]. IEEE Communications Surveys and Tutorials, 2013, 16(4): 2019-2036.

[3] CAVIGLIONE L, COCCOLI M, MERLO A. A taxonomy–based model of security and privacy in online social networks[J]. International Journal of Computational Science and Engineering, 2014, 9(4): 325-338.

[4] GAO H, HU J, WILSON C. Detecting and characterizing social Spam campaigns[C]//The 10th ACM SIGCOMM conference on Internet Measurement. Melbourne, Australia, 2010: 35-47.

[5] LEE K, EOFF B D, CAVERLEE J. Seven months with the devils: a long-term study of content polluters on twitter[C]//The Fifth International AAAI Conference on Weblogs and Social Media. Barcelona,Spain, 2011: 185-192.

[6] MARTINEZ-ROMO J, ARAUJO L. Detecting malicious tweets in trending topics using a statistical analysis of language[J]. Expert Systems with Applications, 2013, 40(8): 2992-3000.

[7] MILLER Z, DICKINSON B, DEITRICK W. Twitter Spammer detection using data stream clustering[J]. Information Sciences, 2014, 260:64-73.

[8] ZHANG J, GU G. NEIGHBORWATCHER: A content-agnostic comment spam inference system[C]//Network amp; Distributed System Security Symposium. San Diego, CA, United States, 2013.

[9] BENEVENUTO F, MAGNO G, RODRIGUES T. Detecting spammers on twitter[C]//The Collaboration, Electronic Messaging, Anti-abuse and Spam Conference. Redmond, USA, 2010:6-12.

[10] ZHENG X, ZENG Z, CHEN Z. Detecting spammers on social networks[J]. Neurocomputing, 2015, 159(2): 27-34.

[11] STRINGHINI G, KRUEGEL C, VIGNA G. Detecting spammers on social networks[C]//The 26th Annual Computer Security Applications Conference. TX, USA, 2010: 1-9.

[12] LEE K, CAVERLEE J, WEBB S. Uncovering social Spammers: social honeypots+ machine learning[C]//The 33rd International ACM SIGIR Conference on Research and Development in Information Retrieval.Geneva, Switzerland, 2010: 435-442.

[13] ZHU Y, WANG X, ZHONG E. Discovering Spammers in social networks[C]//The 26th AAAI Conference on Artificial Intelligence. Toronto, Canada, 2012: 171-177.

[14] WANG G, KONOLIGE T, WILSON C. You are how you click: clickstream analysis for sybil detection[C]//The 22rd USENIX Security Symposium. Washington, USA, 2013: 241-256.

[15] CAO Q, YANG X, YU J. Uncovering large groups of active malicious accounts in online social networks[C]//The 2014 ACM SIGSAC Con-ference on Computer and Communications Security. Scottsdale, USA,2014: 477-488.

[16] LESKOVEC J, FALOUTSOS C. Sampling from large graphs[C]//The 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Philadelphia. USA, 2006: 631-636.

[17] GJOKA M, KURANT M, BUTTS C. Walking in facebook: a case study of unbiased sampling of OSNs[C]//IEEE Proceedings of INFOCOM. California, USA, 2010: 1-9.

[18] HU J, BAGGA A. Categorizing images in Web documents[J]. Multi-Media, IEEE, 2004, 11(1):22-30.

[19] WAN C, GENG J, CHENG H. Image spam identifying algorithm based on color and corner feature[J]. Computer Engineering, 2009, 35(15): 209-211.

[20] DREDZE M, GEVARYAHU R, ELIAS B A. Learning fast classifiers for image spam[C]//In Conference on Email and Anti-Spam(CEAS).California, USA, 2007: 1-9.

[21] GONEN M, ALPAYDIN E. Supervised learning of local projection kernels[J]. Neurocomputing, 2010, 73(10): 1694-1703.

[22] CORTES C, VAPNIK V. Support-vector networks[J]. Machine learning, 1995, 20(3): 273-297.

[23] KUBAT M, MATWIN S. Addressing the curse of imbalanced training sets: one-sided selection[C]//International Conference on Machine Learning. Tennessee, USA, 1997:179-186.

[24] e1071: misc functions of the department of statistics, probability theory group[EB/OL]. http://CRAN.R-project.org/package=e1071. 2015.10.11.

[25] Rpart: recursive partitioning and regression trees[EB/OL]. http://CRAN.R-project.org/package=rpart. 2015.10.11

[26] RandomForest: breiman and cutler's random forests for classification and regression[EB/OL]. http://CRAN.R-project.org/package= randomForest. 2015.10.11.

[27] Nnet: feed-forward neural networks and multinomial log-linear models[EB/OL].http://CRAN.R-project.org/package=nnet.2015.10.11.

Detecting Spam albums in online social network

LYU Shao-qing1, ZHANG Yu-qing1,2, LIU Dong-hang1, ZHANG Guang-hua1,3
(1. Information Security Research Center of State Key Laboratory of Integrated Services Networks, Xidian University, Xi'an 710071, China;2. National Computer Network Intrusion Protection Center, University of Chinese Academy of Sciences, Beijing 100190, China;3. Beijing Key Laboratory of IOT Information Security Technology, Institute of Information Engineering, CAS, Beijing 100097, China)

A supervised learning solution to detect Spam albums instead of spammers in Photo Spam was proposed. Specifically, the characteristics of Photo Spam and the differences between Photo Spam and traditional Spam were analyzed.Then 12 features which were extracted easily and calculated efficiently were constructed based on the analysis. Next a classification model was built with a dataset of 2 356 labeled albums to identify Spam albums. The model provided excellent performance with true positive rates of Spam albums and normal albums, reaching 100% and 98.2% respectively.Finally, the detection model were applied to 315 115 unlabeled albums and detected 89 163 spam albums with a true positive rate of 97.2%.

social network security, Photo Spam, Spam detection, RenRen

s: The National Natural Science Foundation of China (No.61572460, No.61272481, No.61303239), Open Fund of Beijing Key Laboratory of IOT Information Security Technology, China Postdoctoral Science Foundation (No.2015M582622)

TP393

A

10.11959/j.issn.1000-436x.2016180

2016-03-14;

2016-06-14

國家自然科學基金資助項目(No.61572460, No.61272481, No.61303239);物聯網信息安全技術北京市重點實驗室開放課題基金資助項目;中國博士后科學基金資助項目(No.2015M582622)

呂少卿(1987-),男,山西五寨人,西安電子科技大學博士生,主要研究方向為在線社交網絡安全。

張玉清(1966-),男,陜西寶雞人,博士,中國科學院大學教授、博士生導師,主要研究方向為網絡與信息系統安全。

劉東航(1990-),男,山西太原人,西安電子科技大學碩士生,主要研究方向為網絡和信息安全。

張光華(1979-),男,河北石家莊人,博士,西安電子科技大學博士后在站,主要研究方向為信任管理、無線網絡安全。

猜你喜歡
特征用戶檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
小波變換在PCB缺陷檢測中的應用
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
主站蜘蛛池模板: 91丝袜美腿高跟国产极品老师| av尤物免费在线观看| 在线观看欧美精品二区| 国产区免费精品视频| 亚洲一区波多野结衣二区三区| 久久精品这里只有精99品| 玖玖精品视频在线观看| 午夜毛片免费观看视频 | www亚洲天堂| 中文毛片无遮挡播放免费| 亚洲国产精品无码AV| 老司机久久99久久精品播放| 在线欧美日韩国产| 精品91视频| 全午夜免费一级毛片| 国产精品亚洲一区二区三区在线观看| 国产精品亚洲天堂| 亚洲天堂2014| 国产成人无码综合亚洲日韩不卡| 亚洲第一色网站| 国产精品永久免费嫩草研究院| 亚洲欧美日韩另类| 亚洲一区精品视频在线| 欧美啪啪网| 成人免费午间影院在线观看| 国产精品久久久久久搜索| 亚洲 欧美 偷自乱 图片| 免费中文字幕一级毛片| 国产午夜无码专区喷水| 国产成人成人一区二区| 一级全黄毛片| 美女被操91视频| 免费 国产 无码久久久| 国产噜噜在线视频观看| 9丨情侣偷在线精品国产| 国产精品永久在线| 无码啪啪精品天堂浪潮av| 欧美黄网在线| 久久人搡人人玩人妻精品一| 亚洲精品卡2卡3卡4卡5卡区| 青青久视频| 国产精品爽爽va在线无码观看 | 国产毛片基地| 亚洲第一成年免费网站| 日韩AV无码一区| 热思思久久免费视频| 国产成人AV综合久久| 亚洲成年人片| 亚洲热线99精品视频| 99热这里只有精品2| 国产jizzjizz视频| 伊人久久婷婷五月综合97色| 乱人伦99久久| 日韩美女福利视频| 青青青视频91在线 | 色亚洲成人| 免费无码网站| 国产人人乐人人爱| 青草国产在线视频| 国产青青草视频| P尤物久久99国产综合精品| 黄色一级视频欧美| 国产成人亚洲日韩欧美电影| 毛片在线播放网址| 无码内射在线| 2020亚洲精品无码| 毛片网站在线看| 亚洲第一区在线| 二级特黄绝大片免费视频大片| 色哟哟国产精品一区二区| 国产日韩丝袜一二三区| 国产自在线播放| 婷婷午夜影院| 国产欧美视频综合二区| 69综合网| 久久精品国产国语对白| 亚洲黄网视频| 色哟哟国产精品| 欧美视频在线第一页| 国产麻豆精品手机在线观看| 国产制服丝袜91在线| 色婷婷视频在线|