姚子瑜,屠守中,黃民烈,朱小燕
(清華大學 計算機科學與技術系,北京 100084)
一種半監督的中文垃圾微博過濾方法
姚子瑜,屠守中,黃民烈,朱小燕
(清華大學 計算機科學與技術系,北京 100084)
微博作為目前國內外最活躍的信息分享平臺之一,其中卻充斥著大量的垃圾內容。因此,如何從給定話題的微博數據中,過濾掉與話題不相關的垃圾微博、保留話題相關微博,成為迫切需要解決的問題。該文提出了一種半監督的中文微博過濾方法,基于樸素貝葉斯分類模型和最大期望算法,實現了利用少量標注數據的垃圾微博過濾算法,其優勢是僅僅利用少量標注數據就可以獲得較為理想的過濾性能。分別對十個話題140 000余條新浪微博數據進行過濾,該文提出的模型準確度和F值優于樸素貝葉斯和支持向量機模型。
垃圾微博過濾;半監督學習;EM算法;樸素貝葉斯
微博(Microblog)是一種基于用戶關系的短文本信息分享平臺。根據文獻[1]統計顯示,截止到2014年8月,推特上注冊用戶數達到近十億,月活躍用戶達2.71億。微博已經成為互聯網用戶獲取和傳遞信息的重要平臺。微博中的博文或推文(Tweets),涵蓋了多個話題,涉及經濟、政治、科技、娛樂等多個領域。用戶在微博上獲取的信息很大一部分來源于微博的話題搜索功能。從“微博搜索”功能搜索下來的話題微博,具有優良的話題實時性和實效性,為用戶提供了大量具有高度價值的相關話題信息。然而,其中夾雜著不少包含廣告信息的微博(如圖1)。
事實上,這些帶有廣告信息的微博,極大影響了微博用戶體驗。文獻[2]指出,微博的低門檻、易操作以及傳播影響力大等因素,使得“微博廣告”的衍生成為一種必然。然而,過度泛濫的微博廣告不僅降低了用戶的微博體驗,更影響了整個微博生態圈的發展。例如,不少用戶的微博常常被陌生賬號“@”、轉發,同時伴有含廣告信息及鏈接的評論;買賣“僵尸粉”成為商家牟利的常用手段;一些不正規的、含有敏感詞匯的廣告,也逐漸在各大微博門戶網站上傳播,影響了微博產業的健康發展。
參考新浪微博發布的《垃圾營銷信息管理規定征求意見稿》[3],本文定義“垃圾微博”為: 通過信息流或微博公共區域(如話題搜索頁)發布的,帶有售賣鏈接、軟性植入推廣或有獎營銷活動宣傳的微博。我們可以將垃圾微博劃分為兩類:

圖1 iphone6話題下垃圾微博示例
(1) 廣告推廣類
此類微博一般有兩種表現形式: ①以“關鍵詞堆積”的形式提及熱搜話題,以提高廣告自身的檢索命中率,但其內容與話題無關。例如,搜索話題“理財產品”,可以檢索到下面的微博:
“#那些年,我們一起追過的女孩##烏俄地緣局勢##普京講話##聰明理財##理財產品##最火理財產品##如何理財”。
這條微博通過堆積關鍵詞如“那些年,我們一起追過的女孩”、“普京講話”等均為時間段內的熱搜詞,提高了廣告被檢索到的概率,但微博內容本身與檢索話題無關,是商家實現微博營銷的一種常用手段。②微博話題本身就是一種銷售產品,或自身不是銷售產品、但具有潛在產業鏈的情況下,微博文本雖然與話題相關,但是提供的均為銷售信息。例如,搜索話題“iphone5”,可以檢索到:
“iPhone5S情侶彩繪 iphone4s手機殼 iphone5手機殼卡通蘋果5S外殼 32包郵”。
由于“iphone5”本身就是一種銷售產品,且它含有很廣泛的產業鏈(手機殼,手機貼膜等),因此,搜索“iphone5”話題時,往往會含有大量的廣告微博。
(2) 有獎營銷類
此類微博主要表現為,存在大量的“活動宣傳”詞匯,如“中獎”、“抽獎”、“好禮”等;含有#(Hashtag)符號,尤其在微博的“微話題”中最常見。例如,搜索話題“環?!?,可以檢索到諸如“#到國美購海爾健康環保# 521期待人品大爆發,大獎小獎統統搬回我的家!”和“#環保#祝小編天天開心,也祝貴博粉絲多到爆,越來越紅火!”的微博。這兩條微博均為微博上的“微話題”活動,以一對#符號開頭,正文含有“大獎”“小獎”等詞,表現出“期望在活動中贏取大獎”的正向情感。
從新浪微博隨機爬取的話題微博數據顯示,手機產品的微博中,垃圾微博占比高達70%!因此,從相關話題的微博中過濾垃圾微博、篩選出非垃圾微博,逐漸得到了學術界和工業界的關注。TREC從2011年新增了微博任務開始,一直將給定話題的實時微博信息篩選作為其任務之一。
垃圾微博的過濾工作,可以轉化為微博的文本分類工作。然而,微博文本具有內容短小、用語不規范、大量社會化內容等特點,使得傳統的長文檔的分類方法不再適用。同時,在給定話題下,垃圾微博與非垃圾微博往往具有“區分度低”、“主題接近”的情況,也給垃圾微博過濾帶來了極大的挑戰。此外,由于人工標注數據獲取代價高,往往需要耗費大量人力物力,而無標注數據易于獲取、數量大,因此,在實現文本分類時,我們需要盡可能地減少人工標注數據量,充分利用無標注數據。這為垃圾微博過濾問題帶來了更大的挑戰。
本文針對給定話題的垃圾微博過濾問題,提出了基于樸素貝葉斯分類器(Naive Bayesian Classifier)和最大期望(Expectation Maximization)算法的半監督中文垃圾微博過濾模型。本文提出的方法,將垃圾微博過濾問題轉化為二分類問題,即將微博分為“垃圾微博”和“非垃圾微博”兩類;同時,使用半監督的學習方法,僅需要人工標注少量的樣本作為訓練數據,充分利用未標注數據,迭代地擴充了分類器中的特征,自動地生成新的分類器,極大緩解了人工標注樣本的困難。另外,考慮到同一話題下,“垃圾微博”與“非垃圾微博”在主題和詞分布上的接近,本文模型使用的訓練數據均為同一個話題下的正負樣本,從而挖掘出更細粒度、更具代表性的特征詞匯用于分類。最終,本文提出的方法在十個微博話題、十四萬余條新浪微博文本的測試數據上,對每個話題分別進行五組不同訓練集標注量的實驗,實現了具有較高準確度和F值的微博過濾工作,且效果優于經典的樸素貝葉斯分類模型和支持向量機模型。
近年來,國內外學者針對虛假評論做了大量的研究。研究人員針對虛假評論的研究主要分為兩個方面: 對虛假評論文本內容的研究和對評論發布者的特征研究。Jindal和Liu[4-5]將評論站點上的虛假評論分成三種類型: 對特定產品的不真實的評論、對品牌的評論以及不帶情感信息的評論。對于第二和第三種類型的虛假評論,他們標注了一部分數據集,用有監督學習的方法來識別虛假評論。實驗結果發現這類虛假評論比較容易識別。對于第一種類型的虛假評論,他們假設重復的評論都是虛假評論,將虛假情感識別問題轉化成重復評論識別任務。但是,直接使用重復評論來當作虛假評論是不合適的。Li等人[6]提出使用LDA主題模型識別旅店評論中的虛假評論,在800條旅店評論測試集上獲得了非常高的準確率,但是這種有監督的方法需要較多人工標注,并不適用于實際應用。針對這個問題,文獻[7]提出了一種檢測欺詐性評論的半監督方法。在只標注正樣本的情況下,作者首先獲得可靠的負樣本,后基于支持向量機模型和LDA主題模型對測試文本進行分類。另一個角度,研究人員主要考慮從評論發布者的特征屬性來判斷該發布者是否是評論造假者(Opinion Spammer)。Lim等人[8]提出使用用戶的行為特征來識別評論造假者,但沒有考慮對應評論的文本內容特征。Wang等人[9]結合評論文本和評論發布者,提出了用戶可信度(trustiness of reviewers)、評論真實性(honesty of reviews)和商店可靠性(reliability of stores)三個概念,用圖模型闡述了三個概念之間的聯系。
在文本分類技術方面,國外學者積極致力于尋找新的分類方法,減少文本分類對標注數據的依賴性。一方面,不少學者致力于以標注“特征”作為標注樣本。Druck等人[10]于2008年提出Generalized Expectation Criteria,用標注的特征樣本,學習未標注特征的類別,實現文本分類;文獻[11]基于Generalized Expectation Criteria,完成了自動的特征抽取,其訓練出的情感分類器在實驗中效果優于用標注文本訓練出來的分類器。另一方面,國內外學者提出了半監督的學習方法,試圖減少樣本標注量。文獻[12]基于經典的樸素貝葉斯分類器與最大期望算法提出了半監督的文本分類方法,在20Newsgroups[13]的不同話題上做了30組實驗,每組實驗均只標注正樣本,獲得了較高的F值。文獻[14]同樣基于樸素貝葉斯分類器,但是,作者提出了一種利用未標注樣本中詞匯邊際概率作為約束的樸素貝葉斯分類器。作者利用大量未標注數據表現出來的詞匯邊際概率特征,避免了標注樣本量少、標注數據稀疏帶來的問題。Settles在文獻[15]中同時考慮了標注文本和標注特征,并在訓練樸素貝葉斯分類器過程中,對標注特征加大權重。
由于微博文本相對標準數據集而言,缺少語言規范性,文本也更加短小,常規的文本分類方法很難在微博文本上得到很好的應用。此外,研究人員在評價分類模型效果時,往往采用準確度(Accuracy)作為評價標注。然而,在垃圾微博過濾的問題中,我們更關注“垃圾微博”的分類效果,希望尋找一種能夠精確而高效地將“垃圾微博”從微博文本中過濾出來的方法,即一種F值較高的過濾方法。這是因為,在一般情況下,由于給定話題下的“垃圾微博”占整個話題微博的比例較小(約10%—20%),即使分類器將所有微博均判定為“非垃圾微博”,也能達到較高的準確度,但是卻難以達到良好的F值。本文提出的模型,將樸素貝葉斯分類模型應用在實際生活中,用于解決同一話題下的微博分類問題,并且結合最大期望算法迭代地挖掘未標注文本中的新的特征,有效地降低了人工標注樣本的成本,達到較高的F值,且易于推廣到處理多個話題的實際應用中。
在實際生活中,每天的微博話題不計其數,且每個話題下的數據有各自的特點,需要分別標注訓練樣本。因此,采用傳統的有監督的垃圾微博過濾方法,需要昂貴的大量數據標注。本文提出了一種半監督的垃圾微博過濾方法,在少量標注樣本的情況下,充分利用大量的未標注數據,能夠獲得較高的F值和準確度,大大降低了微博過濾的數據標注規模,相比有監督的方法,更適用于實際應用。
3.1 符號定義
在文本分類中,假設:

本文解決的問題,就是在已知少量標注訓練集Dl和大量未標注文本集Du的情況下,估計待分類文本集中,每一則文本屬于各個類別的概率。
3.2 算法概覽



圖2 算法總體流程
步驟4-5對待分類文本集中的文本進行分類,當其屬于“垃圾微博”類別的概率大于其屬于“非垃圾微博”類別的概率時,判斷該文本為垃圾微博文本。最后,返回過濾后的類別結果,算法結束。
3.3EM-NB算法
基于樸素貝葉斯模型和最大期望算法的EM-NB算法如圖3所示。算法中涉及迭代的步驟,以上角標t表示迭代次數。算法由兩步完成。
1. Expectation步驟(E-Step):
(3)

2. Maximization步驟(M-Step):

(4)

(5)
迭代進行E-Step和M-Step(圖3,步驟2-5)直至分類器參數收斂。步驟3中,用KL距離(Kullback-Leibler Divergence)來衡量兩次迭代的分類器參數概率分布的相似性,如式(6)所示。當兩次迭代的參數分布距離小于閾值σ(σ≥0)時,認為參數收斂。
(6)

圖3 EM-NB算法流程
實際實驗中,當迭代次數兩次時,分類器參數已經收斂,故實驗過程中迭代次數為兩次。
4.1 實驗數據
實驗數據來自新浪微博2014年的微博數據,分別按“阿里巴巴”、“iphone5”、“余額寶”、“霧霾”、“環?!?、“理財產品”、“NBA”、“自貿區”、“華為”、“油價”十個話題進行微博搜索,按話題隨機爬取了如下共145 304條微博數據,如表1所示。每個話題均隨機抽取若干條數據作為“標注集”,人工標注后,用于實驗中的訓練集和測試集數據;剩余微博作為“未標注集”,不做標注。

表1 話題微博實驗數據
不同話題的微博數據,垃圾微博與非垃圾微博的數量比例不同。例如,“iphone5”話題的垃圾微博大約占85%,“阿里巴巴”話題的垃圾微博則僅占20%左右。每個話題的標注集垃圾微博分布如表2所示。

表2 標注集數據
4.2 實驗步驟
1. 文本預處理
文本預處理分為兩個步驟:
(1) 微博內容抽取: 從爬取下來的原始微博數據中,抽取出微博內容本文,其他數據如微博用戶ID、微博ID、發布時間等,暫不予以考慮;
(2) 微博內容分詞: 分詞工具采用張華平博士提供的NLPIR(ICTCLAS2014版本)中文分詞工具*http://ictclas.nlpir.org/。同時,導入用戶詞典(共1416個常用詞),防止常見詞匯如“淘寶”、“微博”等被錯誤拆分,影響最終效果。
2. 特征抽取
本文使用的特征為詞匯特征、表情符號和數字。
(1) 詞匯特征: 在文本預處理后的分詞結果中,去掉停用詞,剩余每個詞匯作為一個特征;同時,對于微博中的“@用戶名”結構,僅保留@符號作為符號特征,刪去@后的用戶名;
(2) 表情符號: 刪去中英文標點符號如句號(。.)、逗號(,,)、雙引號(“”)、頓號(、)、冒號(: : )等,保留符號如Hashtag(#)【】以及其他少見的符號如*☆~o等。
(3) 數字處理: 在商業廣告或宣傳中,常常出現商品標價。然而,由于商品標價不盡相同,難以提取作為表征廣告微博的特征。因此,特征抽取過程中,將數字如“123”“12.34”等轉化為字符串“Number”,即用“Number”字符串表示所有不同數值的數字。
3. 模型選擇
實驗主要比較三個模型的微博過濾效果:
(1) 支持向量機SVM: 模型實現采用LibSVM工具*http://www.csie.ntu.edu.tw/~cjlin/libsvm/,選擇在文本分類任務中效果較好的線性核支持向量機(Linear-SVM)。文本特征取用“特征抽取”后的結果,但需要轉化為其在文本中的頻率。同時注意,由于支持向量機對訓練集正負數據比例非常敏感,在實現支持向量機過濾微博時,首先對訓練集數據進行比例調整,對比例較大的一類數據進行隨機抽樣,保證訓練集數據中兩個類別的比例大約在1: 1。實驗表明,比例調整后,支持向量機的微博過濾效果優于比例失衡情況下的效果。
(2) 樸素貝葉斯分類器NB: 文本特征取用“特征抽取”后的結果,利用訓練集中“垃圾微博”與“非垃圾微博”的數據,實現一個完全有監督的模型;
(3) 本文的中文微博過濾算法Spam-Weibo: 文本特征及訓練集處理同樸素貝葉斯分類器,同時,使用話題下的“未標注集”作為算法中所需的未標注文本集;
4. 實驗內容
為了驗證在少量標注數據集下三個模型的微博過濾效果,實驗采用不同數量的標注訓練集: 分別隨機抽取32、64、128、256、512條標注微博用于訓練分類器,剩余的微博作為測試集,對每個話題分別進行五種訓練集數量的實驗。例如,對于標注集共1500條微博的話題,五組實驗中的訓練集和測試集數據量如表3所示。
注意,每個話題的每組實驗,均進行十次實驗,最終取十次實驗的平均結果作為該組實驗的結果。

表3 實驗組數據
4.3 評價指標
評價垃圾微博的過濾效果,主要從兩個指標入手: 準確率和F值。
? 準確率(Accuracy)表征了測試數據的整體分類效果,如式(7)所示。
(7)
? F值表征了測試數據分類為“垃圾微博”類別的分類效果,如式(8)所示。
(8)
其中,TP(True Positives)表示被正確判斷為垃圾微博的垃圾微博數;FN(False Negatives)表示被錯誤判斷為非垃圾微博的垃圾微博數;TN(True Negatives)表示被正確判斷為非垃圾微博的非垃圾微博數;FP(False Positives)表示被錯誤判斷為垃圾微博的非垃圾微博數。
以上兩個評價指標中,準確率(Accuracy)考慮了垃圾微博與非垃圾微博的整體分類效果。然而,準確率的高低容易受到微博數據中垃圾微博與非垃圾微博數量比例的影響。例如,當測試集中80%的文本屬于“垃圾微博”類別時,即使將所有的測試集微博均判斷為垃圾微博,依舊能夠得到80%的準確度。因此,F值顯得更加重要。在本文的評價指標中,F值僅考慮了“垃圾微博”的分類效果。理想情況下,希望“垃圾微博”的精確度(Precision)和召回率(Recall)都很高,保證過濾之后的剩余微博中,絕大部分都是“非垃圾微博”,且盡可能少地將非垃圾微博劃分為垃圾微博類別。F值很好的衡量了這個效果。
4.4 實驗結果及分析
實驗結果如表4~8及圖2~3所示。表4~5顯示,當訓練集標注量為32或64條微博時,Spam-Weibo的微博過濾F值平均比樸素貝葉斯分類器分別提高了4%和3%,且每個話題下,Spam-Weibo均有最好的F值。此外,Spam-Weibo在大部分話題下同樣取得了最高的準確度(90.3%,92.6%),即,該模型在保證整體過濾效果的前提下,提高了“垃圾微博”過濾的能力。相反,支持向量機只有少量幾個話題如“霧霾”、“環保”、“理財產品”取得了較好的分類準確度,整體過濾效果較差。此外,對于話題“阿里巴巴”、“理財產品”、“自貿區”、“華為”四個話題,當訓練集僅為32條標注數據時,Spam-Weibo取得的分類效果優于64條訓練集數據時樸素貝葉斯分類器的過濾效果,也就是說,在本文提出的Spam-Weibo微博過濾模型下,僅標注32條數據,就能取得優于樸素貝葉斯分類器下兩倍標注量的效果。
表6顯示,當訓練集標注量為128條微博時,Spam-Weibo模型依舊在所有話題下均擁有最高的準確度(93.7%)和F值(85.7%)?!鞍⒗锇桶汀?、“iphone5”、“環?!?、“理財產品”、“NBA”、“自貿區”、“華為”七個話題中,當數據標注量為64條微博時,Spam-Weibo取得的過濾效果優于或近似于其他模型在128條標注量下的過濾效果。
隨著訓練集標注量的增大,Spam-Weibo模型在256條訓練集標注量(表7)下雖然依舊有最高的準確度和F值,但是與NB模型的差距在縮??;當標注量達到512條時(表8),我們提出的模型相對于樸素貝葉斯分類模型,過濾效果均略低(0.5%)。因此,我們提出的Spam-Weibo模型更適用于在標注數據量較少的情況。同時,需要注意,標注量從256增加到512時,兩個模型的準確度都幾乎沒有變化,F值只增加了1%。實際生活中,新浪微博等每天產生的話題數不計其數,如果每個話題都標注500條數據,這是非常耗費人力的;因此,我們使用的Spam-Weibo模型更具實用性,它為數據標注人員減輕了大量負擔。
最后,實驗結果顯示,SVM模型在各種訓練標注集下,都無法取得較好的效果,這是因為SVM模型對于訓練集數據量的大小以及正負樣本比例非常敏感。首先,注意到當訓練標注量達到512條時,大部分話題已經在SVM模型下取得了較優秀的準確度,其中,話題“NBA”的準確度,比其在256條訓練集下增加了約10個百分點;并且,幾乎每個話題都在訓練標注量翻倍以后,準確度或F值都有5至10個百分點的增加,例如,“環保”,“余額寶”話題。因此,SVM模型對于標注數據的需求遠比樸素貝葉斯模型和本文模型要強烈。同時,SVM模型對于訓練數據的正負比例異常敏感。實驗過程中,我們在進行比對后,發現先對訓練集數據進行正負比例調整,再使用SVM模型,效果會比直接使用SVM模型要好的多。并且,在標注量512條微博時,“理財產品”,“華為”等正負比例相對均衡的話題,SVM模型取得的分類效果是很好的,并且隨著標注量的增加,其分類準確度能夠穩步增長。最后,需要注意的是,在調整SVM模型訓練集正負樣本比例的過程中,會對原有訓練樣本進行抽樣,因此,即使是在大標注量的情況下,對于比例嚴重失衡的一些話題來說,抽樣過后實際的標注量還是很少的,這是導致SVM模型在某些話題下,分類效果一直不穩定且很差的原因。然而,現實生活中,大部分話題下的垃圾微博比例在10%—20%左右,因此,SVM模型并不能適用于實際的垃圾微博過濾中。

表4 32條訓練集數據的過濾效果

續表

表5 64條訓練集數據的過濾效果

表6 128條訓練集數據的過濾效果

表7 256條訓練集數據的過濾效果

表8 512條訓練集數據的過濾效果

圖2 不同訓練集標注量的過濾準確度

圖3 不同訓練集標注量的過濾F值
本文針對給定話題下的垃圾微博過濾問題,提出了基于樸素貝葉斯分類模型和最大期望算法的中文話題微博過濾模型。本文提出的方法以少量標注數據對話題下的微博數據進行分類,極大降低了人工標注數據的成本。在新浪微博的十個話題、十四萬余條微博文本下,本文提出的方法在訓練集標注量分別為32、64、128、256條微博的情況下,準確度和F值均高于樸素貝葉斯分類模型(在32條標注量時,提高1%的準確度和4%的F值),且遠優于支持向量機模型。同時,在本文提出的模型下,部分話題僅需要用一半的訓練集標注量,就能達到比其他模型用成倍訓練集更好的效果。
[1] By The Numbers: 220 Amazing Twitter Statics [OL].2014.http://expandedramblings.com/index.php/march-2013-by-the-numbers-a-few-amazing-twitter-stats/#.VCdgtaiSzI0
[2] 陳倩. 微博廣告發展現狀與傳播效果分析[J]. 產業與科技論壇,2012,11(2): 33-35.
[3] 垃圾營銷信息管理規定征求意見稿[OL]. http://weibo.com/p/1001603697836242954625,2014.
[4] Jindal,Nitin, Bing Liu.Opinion spam and analysis[C]//Proceedings of the 2008 International Conference on Web Search and Data Mining.ACM,2008: 219-230.
[5] Jindal N, Liu B. Reviewspam detection[C]//Proceedings of the 16th International Conference on World Wide Web, New York, NY, USA: ACM, 2007: 1189-1190.
[6] Li Jiwei, Claire Cardie, Sujian Li. Topic Spam: a Topic-Model based approach for spam detection[C]//Proceedings of the ACL,2013.
[7] Ren,Yafeng,Donghong Ji,and Hongbin Zhang.Positive Unlabeled Learning for Deceptive Reviews Detection[C]//Proceedings of the EMNLP,2014.
[8] Lim,Ee-Peng,et al.Detecting product review spammers using rating behaviors[C]//Proceedings of the 19th ACM International Conference on Information and Knowledge Management.ACM,2010: 939-948.
[9] Wang Guan, et al. Review graph based online store review spammer detection[C]//Proceedings of Data Mining (ICDM), 2011 IEEE 11th International Conference on. IEEE, 2011.
[10] Druck Gregory, Gideon Mann, Andrew McCallum. Learning from labeled features using generalized expectation criteria[C]//Proceedings of the 31st annual international ACM SIGIR conference on Research and development in information retrieval. ACM, 2008.
[11] YULAN He, Deyu Zhou. Self-training from labeled features for sentiment analysis[C]//Proceedings of Information Processing & Management 2011,47(4): 606-616.
[12] Liu Bing, et al. Partially supervised classification of text documents[C]//ICML,Vol.2.2002.
[13] Lang Ken.Newsweeder: Learning to filter netnews[C]//Proceedings of the 12th international conference on machine learning.1995: 331-339.
[14] Lucas, Michael, and Doug Downey. Scaling Semi-supervised Naive Bayes with FeatureMarginals[C]//Proceedings of ACL,2013.
[15] Settles Burr. Closing the loop: Fast, interactive semi-supervised annotation with queries on features and instances[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2011.
A Semi-supervised Method for Filtering Chinese Spam Tweets
YAO Ziyu, TU Shouzhong, HUANG Minlie , ZHU Xiaoyan
(Department of Computer Science and Technology, Tsinghua University, Beijing 100084, China)
Microblogging sites are one of the most popular information sharing platforms today. However, among the large amount of posted published every day, spam texts are seen everywhere: users utilize spam posts to advertise, broadcast, boast their own products, and defame their competitors. Therefore, filtering spam tweets is a critical and fundamental problem. In this paper, we propose a semi-supervised algorithm based on Expectation Maximization and Naive Bayesian Classifier (EM-NB), which is able to filter spam tweets effectively using only a small amount of labeled data. The experimental results on more than 140 thousand tweets from Sina Weibo show that our method achieves higher accuracy and F-score than baselines.
spam tweet; naive bayesian classifier; expectation maximization; semi-supervised learning

姚子瑜(1993—),美國俄亥俄州立大學碩士研究生,主要研究領域為自然語言處理、數據挖掘等。E?mail:yao.470@osu.edu屠守中(1983—),博士研究生,主要研究領域為社交網絡分析、信息安全、人工智能等。E?mail:Kart123@163.com黃民烈(1977—),副教授,主要研究領域為自然語言處理、人工智能等。E?mail:aihuang@tsinghua.edu.cn
1003-0077(2016)05-0176-11
2015-09-21 定稿日期: 2016-03-20
國家自然科學基金(61332007,61272227)