孟祥飛+徐路+王思雨
摘 要:隨著信息技術和互聯網的飛速發展,社交網絡在人們生活中扮演著不可替代的角色。但同時,社交網絡中也充斥著各種各樣的廣告信息,嚴重影響了用戶的體驗。一些營銷團隊惡意注冊的大量垃圾賬號也讓正常用戶不勝其煩。針對這些問題,首先闡述了社交網絡垃圾用戶產生的原因,進而分析了垃圾用戶的特征,最后基于新浪微博的數據,使用C4.5決策樹分類算法對用戶進行分類。實驗結果顯示,該方法檢測用戶的準確率為92%.
關鍵詞:社交網絡;新浪微博;垃圾用戶;分類
中圖分類號:TP393 文獻標識碼:A 文章編號:2095-6835(2014)15-0125-03
社交網絡是在線社交網絡(Online Social Network,“OSN”)的簡稱。社交網絡服務是基于六度分隔理論,以互動交友,用戶之間共同的興趣、愛好、活動或者用戶間真實的人際關系為基礎,以實名或者非實名的方式在網絡平臺上構建的一種社會關系網絡服務。Facebook被認為是第一個真正意義上的社交網站。當今熱門的Twitter、新浪微博、騰訊微博、人人網等都屬于社交網絡。截至2012-08,世界上最大的社交網站Facebook擁有注冊用戶約10億人,其網絡流量曾一度超過網絡巨頭Google;新浪微博的最新注冊用戶已達到了3億;人人網用戶量在2億左右。其中,新浪微博是最活躍、最有影響力的微博平臺之一。微博的單向關注和即時推送機制使得信息在該平臺上傳播極為迅速,形成了“圍觀改變中國”的架勢。
1 微博垃圾用戶產生的背景
隨著社交網絡的快速發展,其傳媒價值受到了社會各界的關注。在微博中,擁有眾多粉絲的明星用戶在社會輿論中有著非常重要的作用。如今,微博作為舉足輕重的宣傳平臺,受到了廣告商的青睞,他們通過發起話題、借助明星微博等方法來宣傳產品。很多營銷團隊為了推銷,注冊了大量賬號,專門發布廣告,宣傳網店、產品等信息。這些廣告信息在沒有監管的情況下,充斥著整個社交網絡,不僅真實性無法保證,而且對用戶體驗產生了極大影響。另外,在新浪微博中,擁有極高粉絲數量的意見領袖的出現也給了投機者們一種營銷的渠道。他們注冊了大量賬號,并在網上出售粉絲。當有用戶向其購買時,他們就用大量的賬號去關注該用戶,提高該用戶的關注度和影響力得分,借此吸引普通用戶的注意。一些炒作團隊也會使用批量注冊的賬號去對某一話題進行炒作,使其變成熱門話題,借此達到影響輿論的目的。這些批量注冊的賬號不僅給服務器增加了許多負擔,而且擾亂了微博的生態秩序。由其制造的層出不窮的謠言也降低了微博作為信息來源的可靠性,影響普通用戶的生活。筆者通過抽取用戶的關注粉絲比、鏈接比、互粉數、平均評論數等特征,提出一種用戶行為特征的垃圾用戶分類檢測方法,實現了對“用戶是否為垃圾用戶”的檢測。
2 相關研究
2.1 關于垃圾用戶檢測的相關研究
在新浪微博興起之前,Twitter與Facebook已經擁有眾多的用戶。由于Twitter與新浪微博的結構非常相似,對新浪微博垃圾用戶的檢測工作可以參考Twitter垃圾用戶的檢測工作。Kurt Thomas等學者在研究中指明,現在的垃圾用戶不參與正常的社交生活,但是他們通過主動關注別人和在熱門話題下發表垃圾評論來吸引正常用戶點擊。以往的許多研究工作是基于已有用戶的數據來進行的,Zhi Yang等人用了一種基于蜜罐的方法來檢測垃圾用戶,通過在社交社區中放置蜜罐,吸引垃圾用戶關注,然后通過鏈接搜集垃圾用戶的圖譜(Profile),搜集文本內容、社交網絡和發布模式方面的特征。在對社交網絡垃圾用戶的研究中,垃圾用戶的定義并不是學者進行研究工作的重點,Gianluca Stringhini等學者在其研究中將垃圾用戶分為四類,針對其中的兩類提取了相關特征,并用隨機森林法進行分類。Alex Hai Wang在其關于Twitter的研究中對各種分類算法進行了比較。他使用了決策樹、神經網絡、支持向量機、K-近鄰、和貝葉斯分類器提取了互粉數、粉絲比和追隨比,然后又根據基于內容的分析和回復數來進行分類。通過實驗,得到了貝葉斯分類最精確的結果。除了新浪微博之外,中國的人人網社交平臺也擁有眾多的用戶。Yin Zhu在其關于人人網的研究之中,創新性地提出了利用矩陣分解的方法來進行垃圾用戶的檢測,定義了精確度和召回率,使用了SVM、SF+SVM、MF+SVM、MFSR+SVM進行用戶分類工作,并對結果進行比較。
2.2 決策樹算法的產生與改進
決策樹算法最早是20世紀50年代由亨特在“CLS”(Concept Learning System)中提出,后經發展由J.R.Quinlan在1979年提出了著名的ID3算法。ID3算法是建立在奧卡姆剃刀的基礎上,以信息熵和信息增益為衡量標準,從而實現對數據的歸納分類,其主要是針對離散型屬性數據。C4.5決策樹算法繼承了ID3算法的優點,并對ID3算法進行了改進。C4.5決策樹算法在樹構造過程中進行剪枝,并且用信息增益率來選擇屬性,克服了用信息增益選擇屬性時偏向選擇取值多的屬性的不足。C4.5決策樹算法不僅能對離散型數據、連續屬性的離散化進行處理,還能夠對不完整數據進行處理。
參考以上學者的研究工作,我們決定提取用戶的關注粉絲比、鏈接比、互粉數、平均評論數等特征,使用C4.5決策樹算法來對用戶進行分類。
摘 要:隨著信息技術和互聯網的飛速發展,社交網絡在人們生活中扮演著不可替代的角色。但同時,社交網絡中也充斥著各種各樣的廣告信息,嚴重影響了用戶的體驗。一些營銷團隊惡意注冊的大量垃圾賬號也讓正常用戶不勝其煩。針對這些問題,首先闡述了社交網絡垃圾用戶產生的原因,進而分析了垃圾用戶的特征,最后基于新浪微博的數據,使用C4.5決策樹分類算法對用戶進行分類。實驗結果顯示,該方法檢測用戶的準確率為92%.
關鍵詞:社交網絡;新浪微博;垃圾用戶;分類
中圖分類號:TP393 文獻標識碼:A 文章編號:2095-6835(2014)15-0125-03
社交網絡是在線社交網絡(Online Social Network,“OSN”)的簡稱。社交網絡服務是基于六度分隔理論,以互動交友,用戶之間共同的興趣、愛好、活動或者用戶間真實的人際關系為基礎,以實名或者非實名的方式在網絡平臺上構建的一種社會關系網絡服務。Facebook被認為是第一個真正意義上的社交網站。當今熱門的Twitter、新浪微博、騰訊微博、人人網等都屬于社交網絡。截至2012-08,世界上最大的社交網站Facebook擁有注冊用戶約10億人,其網絡流量曾一度超過網絡巨頭Google;新浪微博的最新注冊用戶已達到了3億;人人網用戶量在2億左右。其中,新浪微博是最活躍、最有影響力的微博平臺之一。微博的單向關注和即時推送機制使得信息在該平臺上傳播極為迅速,形成了“圍觀改變中國”的架勢。
1 微博垃圾用戶產生的背景
隨著社交網絡的快速發展,其傳媒價值受到了社會各界的關注。在微博中,擁有眾多粉絲的明星用戶在社會輿論中有著非常重要的作用。如今,微博作為舉足輕重的宣傳平臺,受到了廣告商的青睞,他們通過發起話題、借助明星微博等方法來宣傳產品。很多營銷團隊為了推銷,注冊了大量賬號,專門發布廣告,宣傳網店、產品等信息。這些廣告信息在沒有監管的情況下,充斥著整個社交網絡,不僅真實性無法保證,而且對用戶體驗產生了極大影響。另外,在新浪微博中,擁有極高粉絲數量的意見領袖的出現也給了投機者們一種營銷的渠道。他們注冊了大量賬號,并在網上出售粉絲。當有用戶向其購買時,他們就用大量的賬號去關注該用戶,提高該用戶的關注度和影響力得分,借此吸引普通用戶的注意。一些炒作團隊也會使用批量注冊的賬號去對某一話題進行炒作,使其變成熱門話題,借此達到影響輿論的目的。這些批量注冊的賬號不僅給服務器增加了許多負擔,而且擾亂了微博的生態秩序。由其制造的層出不窮的謠言也降低了微博作為信息來源的可靠性,影響普通用戶的生活。筆者通過抽取用戶的關注粉絲比、鏈接比、互粉數、平均評論數等特征,提出一種用戶行為特征的垃圾用戶分類檢測方法,實現了對“用戶是否為垃圾用戶”的檢測。
2 相關研究
2.1 關于垃圾用戶檢測的相關研究
在新浪微博興起之前,Twitter與Facebook已經擁有眾多的用戶。由于Twitter與新浪微博的結構非常相似,對新浪微博垃圾用戶的檢測工作可以參考Twitter垃圾用戶的檢測工作。Kurt Thomas等學者在研究中指明,現在的垃圾用戶不參與正常的社交生活,但是他們通過主動關注別人和在熱門話題下發表垃圾評論來吸引正常用戶點擊。以往的許多研究工作是基于已有用戶的數據來進行的,Zhi Yang等人用了一種基于蜜罐的方法來檢測垃圾用戶,通過在社交社區中放置蜜罐,吸引垃圾用戶關注,然后通過鏈接搜集垃圾用戶的圖譜(Profile),搜集文本內容、社交網絡和發布模式方面的特征。在對社交網絡垃圾用戶的研究中,垃圾用戶的定義并不是學者進行研究工作的重點,Gianluca Stringhini等學者在其研究中將垃圾用戶分為四類,針對其中的兩類提取了相關特征,并用隨機森林法進行分類。Alex Hai Wang在其關于Twitter的研究中對各種分類算法進行了比較。他使用了決策樹、神經網絡、支持向量機、K-近鄰、和貝葉斯分類器提取了互粉數、粉絲比和追隨比,然后又根據基于內容的分析和回復數來進行分類。通過實驗,得到了貝葉斯分類最精確的結果。除了新浪微博之外,中國的人人網社交平臺也擁有眾多的用戶。Yin Zhu在其關于人人網的研究之中,創新性地提出了利用矩陣分解的方法來進行垃圾用戶的檢測,定義了精確度和召回率,使用了SVM、SF+SVM、MF+SVM、MFSR+SVM進行用戶分類工作,并對結果進行比較。
2.2 決策樹算法的產生與改進
決策樹算法最早是20世紀50年代由亨特在“CLS”(Concept Learning System)中提出,后經發展由J.R.Quinlan在1979年提出了著名的ID3算法。ID3算法是建立在奧卡姆剃刀的基礎上,以信息熵和信息增益為衡量標準,從而實現對數據的歸納分類,其主要是針對離散型屬性數據。C4.5決策樹算法繼承了ID3算法的優點,并對ID3算法進行了改進。C4.5決策樹算法在樹構造過程中進行剪枝,并且用信息增益率來選擇屬性,克服了用信息增益選擇屬性時偏向選擇取值多的屬性的不足。C4.5決策樹算法不僅能對離散型數據、連續屬性的離散化進行處理,還能夠對不完整數據進行處理。
參考以上學者的研究工作,我們決定提取用戶的關注粉絲比、鏈接比、互粉數、平均評論數等特征,使用C4.5決策樹算法來對用戶進行分類。
摘 要:隨著信息技術和互聯網的飛速發展,社交網絡在人們生活中扮演著不可替代的角色。但同時,社交網絡中也充斥著各種各樣的廣告信息,嚴重影響了用戶的體驗。一些營銷團隊惡意注冊的大量垃圾賬號也讓正常用戶不勝其煩。針對這些問題,首先闡述了社交網絡垃圾用戶產生的原因,進而分析了垃圾用戶的特征,最后基于新浪微博的數據,使用C4.5決策樹分類算法對用戶進行分類。實驗結果顯示,該方法檢測用戶的準確率為92%.
關鍵詞:社交網絡;新浪微博;垃圾用戶;分類
中圖分類號:TP393 文獻標識碼:A 文章編號:2095-6835(2014)15-0125-03
社交網絡是在線社交網絡(Online Social Network,“OSN”)的簡稱。社交網絡服務是基于六度分隔理論,以互動交友,用戶之間共同的興趣、愛好、活動或者用戶間真實的人際關系為基礎,以實名或者非實名的方式在網絡平臺上構建的一種社會關系網絡服務。Facebook被認為是第一個真正意義上的社交網站。當今熱門的Twitter、新浪微博、騰訊微博、人人網等都屬于社交網絡。截至2012-08,世界上最大的社交網站Facebook擁有注冊用戶約10億人,其網絡流量曾一度超過網絡巨頭Google;新浪微博的最新注冊用戶已達到了3億;人人網用戶量在2億左右。其中,新浪微博是最活躍、最有影響力的微博平臺之一。微博的單向關注和即時推送機制使得信息在該平臺上傳播極為迅速,形成了“圍觀改變中國”的架勢。
1 微博垃圾用戶產生的背景
隨著社交網絡的快速發展,其傳媒價值受到了社會各界的關注。在微博中,擁有眾多粉絲的明星用戶在社會輿論中有著非常重要的作用。如今,微博作為舉足輕重的宣傳平臺,受到了廣告商的青睞,他們通過發起話題、借助明星微博等方法來宣傳產品。很多營銷團隊為了推銷,注冊了大量賬號,專門發布廣告,宣傳網店、產品等信息。這些廣告信息在沒有監管的情況下,充斥著整個社交網絡,不僅真實性無法保證,而且對用戶體驗產生了極大影響。另外,在新浪微博中,擁有極高粉絲數量的意見領袖的出現也給了投機者們一種營銷的渠道。他們注冊了大量賬號,并在網上出售粉絲。當有用戶向其購買時,他們就用大量的賬號去關注該用戶,提高該用戶的關注度和影響力得分,借此吸引普通用戶的注意。一些炒作團隊也會使用批量注冊的賬號去對某一話題進行炒作,使其變成熱門話題,借此達到影響輿論的目的。這些批量注冊的賬號不僅給服務器增加了許多負擔,而且擾亂了微博的生態秩序。由其制造的層出不窮的謠言也降低了微博作為信息來源的可靠性,影響普通用戶的生活。筆者通過抽取用戶的關注粉絲比、鏈接比、互粉數、平均評論數等特征,提出一種用戶行為特征的垃圾用戶分類檢測方法,實現了對“用戶是否為垃圾用戶”的檢測。
2 相關研究
2.1 關于垃圾用戶檢測的相關研究
在新浪微博興起之前,Twitter與Facebook已經擁有眾多的用戶。由于Twitter與新浪微博的結構非常相似,對新浪微博垃圾用戶的檢測工作可以參考Twitter垃圾用戶的檢測工作。Kurt Thomas等學者在研究中指明,現在的垃圾用戶不參與正常的社交生活,但是他們通過主動關注別人和在熱門話題下發表垃圾評論來吸引正常用戶點擊。以往的許多研究工作是基于已有用戶的數據來進行的,Zhi Yang等人用了一種基于蜜罐的方法來檢測垃圾用戶,通過在社交社區中放置蜜罐,吸引垃圾用戶關注,然后通過鏈接搜集垃圾用戶的圖譜(Profile),搜集文本內容、社交網絡和發布模式方面的特征。在對社交網絡垃圾用戶的研究中,垃圾用戶的定義并不是學者進行研究工作的重點,Gianluca Stringhini等學者在其研究中將垃圾用戶分為四類,針對其中的兩類提取了相關特征,并用隨機森林法進行分類。Alex Hai Wang在其關于Twitter的研究中對各種分類算法進行了比較。他使用了決策樹、神經網絡、支持向量機、K-近鄰、和貝葉斯分類器提取了互粉數、粉絲比和追隨比,然后又根據基于內容的分析和回復數來進行分類。通過實驗,得到了貝葉斯分類最精確的結果。除了新浪微博之外,中國的人人網社交平臺也擁有眾多的用戶。Yin Zhu在其關于人人網的研究之中,創新性地提出了利用矩陣分解的方法來進行垃圾用戶的檢測,定義了精確度和召回率,使用了SVM、SF+SVM、MF+SVM、MFSR+SVM進行用戶分類工作,并對結果進行比較。
2.2 決策樹算法的產生與改進
決策樹算法最早是20世紀50年代由亨特在“CLS”(Concept Learning System)中提出,后經發展由J.R.Quinlan在1979年提出了著名的ID3算法。ID3算法是建立在奧卡姆剃刀的基礎上,以信息熵和信息增益為衡量標準,從而實現對數據的歸納分類,其主要是針對離散型屬性數據。C4.5決策樹算法繼承了ID3算法的優點,并對ID3算法進行了改進。C4.5決策樹算法在樹構造過程中進行剪枝,并且用信息增益率來選擇屬性,克服了用信息增益選擇屬性時偏向選擇取值多的屬性的不足。C4.5決策樹算法不僅能對離散型數據、連續屬性的離散化進行處理,還能夠對不完整數據進行處理。
參考以上學者的研究工作,我們決定提取用戶的關注粉絲比、鏈接比、互粉數、平均評論數等特征,使用C4.5決策樹算法來對用戶進行分類。