999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于新浪微博的社交網絡垃圾用戶分析與檢測

2014-09-26 05:40:02孟祥飛徐路王思雨
科技與創新 2014年15期
關鍵詞:分類

孟祥飛+徐路+王思雨

摘 要:隨著信息技術和互聯網的飛速發展,社交網絡在人們生活中扮演著不可替代的角色。但同時,社交網絡中也充斥著各種各樣的廣告信息,嚴重影響了用戶的體驗。一些營銷團隊惡意注冊的大量垃圾賬號也讓正常用戶不勝其煩。針對這些問題,首先闡述了社交網絡垃圾用戶產生的原因,進而分析了垃圾用戶的特征,最后基于新浪微博的數據,使用C4.5決策樹分類算法對用戶進行分類。實驗結果顯示,該方法檢測用戶的準確率為92%.

關鍵詞:社交網絡;新浪微博;垃圾用戶;分類

中圖分類號:TP393 文獻標識碼:A 文章編號:2095-6835(2014)15-0125-03

社交網絡是在線社交網絡(Online Social Network,“OSN”)的簡稱。社交網絡服務是基于六度分隔理論,以互動交友,用戶之間共同的興趣、愛好、活動或者用戶間真實的人際關系為基礎,以實名或者非實名的方式在網絡平臺上構建的一種社會關系網絡服務。Facebook被認為是第一個真正意義上的社交網站。當今熱門的Twitter、新浪微博、騰訊微博、人人網等都屬于社交網絡。截至2012-08,世界上最大的社交網站Facebook擁有注冊用戶約10億人,其網絡流量曾一度超過網絡巨頭Google;新浪微博的最新注冊用戶已達到了3億;人人網用戶量在2億左右。其中,新浪微博是最活躍、最有影響力的微博平臺之一。微博的單向關注和即時推送機制使得信息在該平臺上傳播極為迅速,形成了“圍觀改變中國”的架勢。

1 微博垃圾用戶產生的背景

隨著社交網絡的快速發展,其傳媒價值受到了社會各界的關注。在微博中,擁有眾多粉絲的明星用戶在社會輿論中有著非常重要的作用。如今,微博作為舉足輕重的宣傳平臺,受到了廣告商的青睞,他們通過發起話題、借助明星微博等方法來宣傳產品。很多營銷團隊為了推銷,注冊了大量賬號,專門發布廣告,宣傳網店、產品等信息。這些廣告信息在沒有監管的情況下,充斥著整個社交網絡,不僅真實性無法保證,而且對用戶體驗產生了極大影響。另外,在新浪微博中,擁有極高粉絲數量的意見領袖的出現也給了投機者們一種營銷的渠道。他們注冊了大量賬號,并在網上出售粉絲。當有用戶向其購買時,他們就用大量的賬號去關注該用戶,提高該用戶的關注度和影響力得分,借此吸引普通用戶的注意。一些炒作團隊也會使用批量注冊的賬號去對某一話題進行炒作,使其變成熱門話題,借此達到影響輿論的目的。這些批量注冊的賬號不僅給服務器增加了許多負擔,而且擾亂了微博的生態秩序。由其制造的層出不窮的謠言也降低了微博作為信息來源的可靠性,影響普通用戶的生活。筆者通過抽取用戶的關注粉絲比、鏈接比、互粉數、平均評論數等特征,提出一種用戶行為特征的垃圾用戶分類檢測方法,實現了對“用戶是否為垃圾用戶”的檢測。

2 相關研究

2.1 關于垃圾用戶檢測的相關研究

在新浪微博興起之前,Twitter與Facebook已經擁有眾多的用戶。由于Twitter與新浪微博的結構非常相似,對新浪微博垃圾用戶的檢測工作可以參考Twitter垃圾用戶的檢測工作。Kurt Thomas等學者在研究中指明,現在的垃圾用戶不參與正常的社交生活,但是他們通過主動關注別人和在熱門話題下發表垃圾評論來吸引正常用戶點擊。以往的許多研究工作是基于已有用戶的數據來進行的,Zhi Yang等人用了一種基于蜜罐的方法來檢測垃圾用戶,通過在社交社區中放置蜜罐,吸引垃圾用戶關注,然后通過鏈接搜集垃圾用戶的圖譜(Profile),搜集文本內容、社交網絡和發布模式方面的特征。在對社交網絡垃圾用戶的研究中,垃圾用戶的定義并不是學者進行研究工作的重點,Gianluca Stringhini等學者在其研究中將垃圾用戶分為四類,針對其中的兩類提取了相關特征,并用隨機森林法進行分類。Alex Hai Wang在其關于Twitter的研究中對各種分類算法進行了比較。他使用了決策樹、神經網絡、支持向量機、K-近鄰、和貝葉斯分類器提取了互粉數、粉絲比和追隨比,然后又根據基于內容的分析和回復數來進行分類。通過實驗,得到了貝葉斯分類最精確的結果。除了新浪微博之外,中國的人人網社交平臺也擁有眾多的用戶。Yin Zhu在其關于人人網的研究之中,創新性地提出了利用矩陣分解的方法來進行垃圾用戶的檢測,定義了精確度和召回率,使用了SVM、SF+SVM、MF+SVM、MFSR+SVM進行用戶分類工作,并對結果進行比較。

2.2 決策樹算法的產生與改進

決策樹算法最早是20世紀50年代由亨特在“CLS”(Concept Learning System)中提出,后經發展由J.R.Quinlan在1979年提出了著名的ID3算法。ID3算法是建立在奧卡姆剃刀的基礎上,以信息熵和信息增益為衡量標準,從而實現對數據的歸納分類,其主要是針對離散型屬性數據。C4.5決策樹算法繼承了ID3算法的優點,并對ID3算法進行了改進。C4.5決策樹算法在樹構造過程中進行剪枝,并且用信息增益率來選擇屬性,克服了用信息增益選擇屬性時偏向選擇取值多的屬性的不足。C4.5決策樹算法不僅能對離散型數據、連續屬性的離散化進行處理,還能夠對不完整數據進行處理。

參考以上學者的研究工作,我們決定提取用戶的關注粉絲比、鏈接比、互粉數、平均評論數等特征,使用C4.5決策樹算法來對用戶進行分類。

摘 要:隨著信息技術和互聯網的飛速發展,社交網絡在人們生活中扮演著不可替代的角色。但同時,社交網絡中也充斥著各種各樣的廣告信息,嚴重影響了用戶的體驗。一些營銷團隊惡意注冊的大量垃圾賬號也讓正常用戶不勝其煩。針對這些問題,首先闡述了社交網絡垃圾用戶產生的原因,進而分析了垃圾用戶的特征,最后基于新浪微博的數據,使用C4.5決策樹分類算法對用戶進行分類。實驗結果顯示,該方法檢測用戶的準確率為92%.

關鍵詞:社交網絡;新浪微博;垃圾用戶;分類

中圖分類號:TP393 文獻標識碼:A 文章編號:2095-6835(2014)15-0125-03

社交網絡是在線社交網絡(Online Social Network,“OSN”)的簡稱。社交網絡服務是基于六度分隔理論,以互動交友,用戶之間共同的興趣、愛好、活動或者用戶間真實的人際關系為基礎,以實名或者非實名的方式在網絡平臺上構建的一種社會關系網絡服務。Facebook被認為是第一個真正意義上的社交網站。當今熱門的Twitter、新浪微博、騰訊微博、人人網等都屬于社交網絡。截至2012-08,世界上最大的社交網站Facebook擁有注冊用戶約10億人,其網絡流量曾一度超過網絡巨頭Google;新浪微博的最新注冊用戶已達到了3億;人人網用戶量在2億左右。其中,新浪微博是最活躍、最有影響力的微博平臺之一。微博的單向關注和即時推送機制使得信息在該平臺上傳播極為迅速,形成了“圍觀改變中國”的架勢。

1 微博垃圾用戶產生的背景

隨著社交網絡的快速發展,其傳媒價值受到了社會各界的關注。在微博中,擁有眾多粉絲的明星用戶在社會輿論中有著非常重要的作用。如今,微博作為舉足輕重的宣傳平臺,受到了廣告商的青睞,他們通過發起話題、借助明星微博等方法來宣傳產品。很多營銷團隊為了推銷,注冊了大量賬號,專門發布廣告,宣傳網店、產品等信息。這些廣告信息在沒有監管的情況下,充斥著整個社交網絡,不僅真實性無法保證,而且對用戶體驗產生了極大影響。另外,在新浪微博中,擁有極高粉絲數量的意見領袖的出現也給了投機者們一種營銷的渠道。他們注冊了大量賬號,并在網上出售粉絲。當有用戶向其購買時,他們就用大量的賬號去關注該用戶,提高該用戶的關注度和影響力得分,借此吸引普通用戶的注意。一些炒作團隊也會使用批量注冊的賬號去對某一話題進行炒作,使其變成熱門話題,借此達到影響輿論的目的。這些批量注冊的賬號不僅給服務器增加了許多負擔,而且擾亂了微博的生態秩序。由其制造的層出不窮的謠言也降低了微博作為信息來源的可靠性,影響普通用戶的生活。筆者通過抽取用戶的關注粉絲比、鏈接比、互粉數、平均評論數等特征,提出一種用戶行為特征的垃圾用戶分類檢測方法,實現了對“用戶是否為垃圾用戶”的檢測。

2 相關研究

2.1 關于垃圾用戶檢測的相關研究

在新浪微博興起之前,Twitter與Facebook已經擁有眾多的用戶。由于Twitter與新浪微博的結構非常相似,對新浪微博垃圾用戶的檢測工作可以參考Twitter垃圾用戶的檢測工作。Kurt Thomas等學者在研究中指明,現在的垃圾用戶不參與正常的社交生活,但是他們通過主動關注別人和在熱門話題下發表垃圾評論來吸引正常用戶點擊。以往的許多研究工作是基于已有用戶的數據來進行的,Zhi Yang等人用了一種基于蜜罐的方法來檢測垃圾用戶,通過在社交社區中放置蜜罐,吸引垃圾用戶關注,然后通過鏈接搜集垃圾用戶的圖譜(Profile),搜集文本內容、社交網絡和發布模式方面的特征。在對社交網絡垃圾用戶的研究中,垃圾用戶的定義并不是學者進行研究工作的重點,Gianluca Stringhini等學者在其研究中將垃圾用戶分為四類,針對其中的兩類提取了相關特征,并用隨機森林法進行分類。Alex Hai Wang在其關于Twitter的研究中對各種分類算法進行了比較。他使用了決策樹、神經網絡、支持向量機、K-近鄰、和貝葉斯分類器提取了互粉數、粉絲比和追隨比,然后又根據基于內容的分析和回復數來進行分類。通過實驗,得到了貝葉斯分類最精確的結果。除了新浪微博之外,中國的人人網社交平臺也擁有眾多的用戶。Yin Zhu在其關于人人網的研究之中,創新性地提出了利用矩陣分解的方法來進行垃圾用戶的檢測,定義了精確度和召回率,使用了SVM、SF+SVM、MF+SVM、MFSR+SVM進行用戶分類工作,并對結果進行比較。

2.2 決策樹算法的產生與改進

決策樹算法最早是20世紀50年代由亨特在“CLS”(Concept Learning System)中提出,后經發展由J.R.Quinlan在1979年提出了著名的ID3算法。ID3算法是建立在奧卡姆剃刀的基礎上,以信息熵和信息增益為衡量標準,從而實現對數據的歸納分類,其主要是針對離散型屬性數據。C4.5決策樹算法繼承了ID3算法的優點,并對ID3算法進行了改進。C4.5決策樹算法在樹構造過程中進行剪枝,并且用信息增益率來選擇屬性,克服了用信息增益選擇屬性時偏向選擇取值多的屬性的不足。C4.5決策樹算法不僅能對離散型數據、連續屬性的離散化進行處理,還能夠對不完整數據進行處理。

參考以上學者的研究工作,我們決定提取用戶的關注粉絲比、鏈接比、互粉數、平均評論數等特征,使用C4.5決策樹算法來對用戶進行分類。

摘 要:隨著信息技術和互聯網的飛速發展,社交網絡在人們生活中扮演著不可替代的角色。但同時,社交網絡中也充斥著各種各樣的廣告信息,嚴重影響了用戶的體驗。一些營銷團隊惡意注冊的大量垃圾賬號也讓正常用戶不勝其煩。針對這些問題,首先闡述了社交網絡垃圾用戶產生的原因,進而分析了垃圾用戶的特征,最后基于新浪微博的數據,使用C4.5決策樹分類算法對用戶進行分類。實驗結果顯示,該方法檢測用戶的準確率為92%.

關鍵詞:社交網絡;新浪微博;垃圾用戶;分類

中圖分類號:TP393 文獻標識碼:A 文章編號:2095-6835(2014)15-0125-03

社交網絡是在線社交網絡(Online Social Network,“OSN”)的簡稱。社交網絡服務是基于六度分隔理論,以互動交友,用戶之間共同的興趣、愛好、活動或者用戶間真實的人際關系為基礎,以實名或者非實名的方式在網絡平臺上構建的一種社會關系網絡服務。Facebook被認為是第一個真正意義上的社交網站。當今熱門的Twitter、新浪微博、騰訊微博、人人網等都屬于社交網絡。截至2012-08,世界上最大的社交網站Facebook擁有注冊用戶約10億人,其網絡流量曾一度超過網絡巨頭Google;新浪微博的最新注冊用戶已達到了3億;人人網用戶量在2億左右。其中,新浪微博是最活躍、最有影響力的微博平臺之一。微博的單向關注和即時推送機制使得信息在該平臺上傳播極為迅速,形成了“圍觀改變中國”的架勢。

1 微博垃圾用戶產生的背景

隨著社交網絡的快速發展,其傳媒價值受到了社會各界的關注。在微博中,擁有眾多粉絲的明星用戶在社會輿論中有著非常重要的作用。如今,微博作為舉足輕重的宣傳平臺,受到了廣告商的青睞,他們通過發起話題、借助明星微博等方法來宣傳產品。很多營銷團隊為了推銷,注冊了大量賬號,專門發布廣告,宣傳網店、產品等信息。這些廣告信息在沒有監管的情況下,充斥著整個社交網絡,不僅真實性無法保證,而且對用戶體驗產生了極大影響。另外,在新浪微博中,擁有極高粉絲數量的意見領袖的出現也給了投機者們一種營銷的渠道。他們注冊了大量賬號,并在網上出售粉絲。當有用戶向其購買時,他們就用大量的賬號去關注該用戶,提高該用戶的關注度和影響力得分,借此吸引普通用戶的注意。一些炒作團隊也會使用批量注冊的賬號去對某一話題進行炒作,使其變成熱門話題,借此達到影響輿論的目的。這些批量注冊的賬號不僅給服務器增加了許多負擔,而且擾亂了微博的生態秩序。由其制造的層出不窮的謠言也降低了微博作為信息來源的可靠性,影響普通用戶的生活。筆者通過抽取用戶的關注粉絲比、鏈接比、互粉數、平均評論數等特征,提出一種用戶行為特征的垃圾用戶分類檢測方法,實現了對“用戶是否為垃圾用戶”的檢測。

2 相關研究

2.1 關于垃圾用戶檢測的相關研究

在新浪微博興起之前,Twitter與Facebook已經擁有眾多的用戶。由于Twitter與新浪微博的結構非常相似,對新浪微博垃圾用戶的檢測工作可以參考Twitter垃圾用戶的檢測工作。Kurt Thomas等學者在研究中指明,現在的垃圾用戶不參與正常的社交生活,但是他們通過主動關注別人和在熱門話題下發表垃圾評論來吸引正常用戶點擊。以往的許多研究工作是基于已有用戶的數據來進行的,Zhi Yang等人用了一種基于蜜罐的方法來檢測垃圾用戶,通過在社交社區中放置蜜罐,吸引垃圾用戶關注,然后通過鏈接搜集垃圾用戶的圖譜(Profile),搜集文本內容、社交網絡和發布模式方面的特征。在對社交網絡垃圾用戶的研究中,垃圾用戶的定義并不是學者進行研究工作的重點,Gianluca Stringhini等學者在其研究中將垃圾用戶分為四類,針對其中的兩類提取了相關特征,并用隨機森林法進行分類。Alex Hai Wang在其關于Twitter的研究中對各種分類算法進行了比較。他使用了決策樹、神經網絡、支持向量機、K-近鄰、和貝葉斯分類器提取了互粉數、粉絲比和追隨比,然后又根據基于內容的分析和回復數來進行分類。通過實驗,得到了貝葉斯分類最精確的結果。除了新浪微博之外,中國的人人網社交平臺也擁有眾多的用戶。Yin Zhu在其關于人人網的研究之中,創新性地提出了利用矩陣分解的方法來進行垃圾用戶的檢測,定義了精確度和召回率,使用了SVM、SF+SVM、MF+SVM、MFSR+SVM進行用戶分類工作,并對結果進行比較。

2.2 決策樹算法的產生與改進

決策樹算法最早是20世紀50年代由亨特在“CLS”(Concept Learning System)中提出,后經發展由J.R.Quinlan在1979年提出了著名的ID3算法。ID3算法是建立在奧卡姆剃刀的基礎上,以信息熵和信息增益為衡量標準,從而實現對數據的歸納分類,其主要是針對離散型屬性數據。C4.5決策樹算法繼承了ID3算法的優點,并對ID3算法進行了改進。C4.5決策樹算法在樹構造過程中進行剪枝,并且用信息增益率來選擇屬性,克服了用信息增益選擇屬性時偏向選擇取值多的屬性的不足。C4.5決策樹算法不僅能對離散型數據、連續屬性的離散化進行處理,還能夠對不完整數據進行處理。

參考以上學者的研究工作,我們決定提取用戶的關注粉絲比、鏈接比、互粉數、平均評論數等特征,使用C4.5決策樹算法來對用戶進行分類。

猜你喜歡
分類
2021年本刊分類總目錄
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
星星的分類
我給資源分分類
垃圾分類,你準備好了嗎
學生天地(2019年32期)2019-08-25 08:55:22
分類討論求坐標
數據分析中的分類討論
按需分類
教你一招:數的分類
主站蜘蛛池模板: 亚洲视频在线青青| 亚洲人成网站在线观看播放不卡| av午夜福利一片免费看| 男人天堂亚洲天堂| 亚洲天堂精品在线观看| 真实国产乱子伦高清| 伊人成人在线视频| 区国产精品搜索视频| 人妻精品全国免费视频| Jizz国产色系免费| 韩国福利一区| 国产99久久亚洲综合精品西瓜tv| 欧美国产综合视频| 色婷婷狠狠干| 免费a在线观看播放| 九九这里只有精品视频| 久久久噜噜噜| 亚洲第一成年网| 一区二区三区四区日韩| 久久久精品国产SM调教网站| 制服丝袜 91视频| 婷婷色一二三区波多野衣| a级毛片毛片免费观看久潮| 国产免费网址| 91免费精品国偷自产在线在线| 免费一级毛片完整版在线看| 欧美激情福利| 国产毛片高清一级国语 | 国产91精品调教在线播放| 99热这里只有精品国产99| 久久美女精品国产精品亚洲| 2020国产精品视频| 亚洲综合狠狠| 天堂久久久久久中文字幕| 91探花在线观看国产最新| 欧洲欧美人成免费全部视频| 精品伊人久久久香线蕉| 亚洲一区二区三区在线视频| 9久久伊人精品综合| 色噜噜狠狠色综合网图区| 欧美精品亚洲二区| 国产白丝av| 波多野结衣久久高清免费| 亚洲一级毛片免费观看| 精品国产一区91在线| 无码高潮喷水专区久久| 亚洲欧美不卡中文字幕| 亚洲不卡av中文在线| 97成人在线观看| 在线日韩一区二区| 亚洲av无码成人专区| 国产簧片免费在线播放| 久久国语对白| 亚洲中文精品人人永久免费| 欧美精品在线视频观看| 综合五月天网| 国产精品区网红主播在线观看| P尤物久久99国产综合精品| 香蕉色综合| 国产原创第一页在线观看| 国产精品视频第一专区| 色老二精品视频在线观看| 精品1区2区3区| 72种姿势欧美久久久大黄蕉| 久久频这里精品99香蕉久网址| 国产精品美女网站| 日本免费福利视频| 国产精品久久久免费视频| 国产一级毛片高清完整视频版| 91成人免费观看| 97超爽成人免费视频在线播放| 国产午夜精品鲁丝片| 伊人久久婷婷| 在线亚洲精品自拍| 热九九精品| 亚洲国产天堂在线观看| 伊人久久婷婷五月综合97色| 波多野结衣视频网站| 亚洲国产欧美中日韩成人综合视频| 高潮爽到爆的喷水女主播视频| 国产欧美视频综合二区| 亚洲欧美另类视频|