新浪微博隱式組織發(fā)現(xiàn)

2017-06-01 11:29:47劉程，沙灜，姜波，郭莉

中文信息學(xué)報(bào) 2017年2期

關(guān)鍵詞：分類特征用戶

劉程，沙灜，姜波，郭莉

(中國(guó)科學(xué)院信息工程研究所，北京 100093)

新浪微博隱式組織發(fā)現(xiàn)

劉程，沙灜，姜波，郭莉

(中國(guó)科學(xué)院信息工程研究所，北京 100093)

社交網(wǎng)絡(luò)中往往同時(shí)存在多種類型的賬號(hào)，如正常個(gè)體用戶、水軍、僵尸粉、藍(lán)V組織等。我們把其行為呈現(xiàn)為組織特性的個(gè)體賬號(hào)，定義為隱式組織。隱式組織通常背后有相應(yīng)的組織團(tuán)隊(duì)負(fù)責(zé)賬號(hào)的運(yùn)營(yíng)，因此其行為模式呈現(xiàn)為組織的行為模式，有別于個(gè)體賬號(hào)。隱式組織的有效發(fā)現(xiàn)對(duì)于社交網(wǎng)絡(luò)中輿情傳播趨勢(shì)分析、廣告推薦等都有重要的意義。該文以新浪微博數(shù)據(jù)為例，在數(shù)據(jù)采集系統(tǒng)基礎(chǔ)上，共人工標(biāo)注了583個(gè)賬號(hào)，提取了22個(gè)特征，使用樸素貝葉斯和決策樹(shù)算法，實(shí)現(xiàn)了對(duì)隱式組織的有效識(shí)別，其準(zhǔn)確率達(dá)86.4%，并分析得出了特征的重要程度排序。實(shí)驗(yàn)證明了社交網(wǎng)絡(luò)中存在隱式組織，其行為特征是可以識(shí)別的。

社交網(wǎng)絡(luò)；隱式組織；機(jī)器學(xué)習(xí)算法

1 引言

隨著社交網(wǎng)絡(luò)的普及，社交網(wǎng)絡(luò)中的信息傳播和輿論導(dǎo)向作用越來(lái)越突出。這也吸引了大批人員來(lái)研究社交網(wǎng)絡(luò)中的信息傳播、網(wǎng)絡(luò)拓?fù)洹狳c(diǎn)預(yù)測(cè)等方面的內(nèi)容。

為了準(zhǔn)確地研究社交網(wǎng)絡(luò)中的內(nèi)容，首先要對(duì)社交網(wǎng)絡(luò)中的個(gè)體和組織進(jìn)行有效的區(qū)分。社交網(wǎng)絡(luò)中的個(gè)體是指以個(gè)人作為社交網(wǎng)絡(luò)中的一個(gè)用戶。社交網(wǎng)絡(luò)中的組織是指以團(tuán)體或集體作為社交網(wǎng)絡(luò)中的一個(gè)用戶，例如公司、機(jī)構(gòu)等團(tuán)體。在行為上社交網(wǎng)絡(luò)中的個(gè)體用戶和組織用戶具有明顯的差異，例如，組織用戶發(fā)布的信息重點(diǎn)在于宣傳，而個(gè)體用戶發(fā)布的信息則側(cè)重于個(gè)人觀點(diǎn)、心情等。只有實(shí)現(xiàn)對(duì)個(gè)體和組織的有效識(shí)別，才能夠?qū)崿F(xiàn)后續(xù)的準(zhǔn)確分析與預(yù)測(cè)，如關(guān)鍵人物的發(fā)現(xiàn)與跟蹤、社區(qū)的發(fā)現(xiàn)、熱點(diǎn)話題傳播趨勢(shì)分析等。

當(dāng)前對(duì)個(gè)體和組織的定義，主要集中在社會(huì)學(xué)領(lǐng)域，通常認(rèn)為： “組織是指一些在共同目標(biāo)指導(dǎo)下協(xié)同工作的粒子所組成的集合”。社交網(wǎng)絡(luò)通常看作物理社會(huì)在互聯(lián)網(wǎng)上的映射，因此用戶同樣可以分為個(gè)體和組織。例如：著名主持人何炅的新浪微博賬號(hào)，就可以看作一個(gè)個(gè)體。而那些具有藍(lán)色大V標(biāo)識(shí)的，例如新浪財(cái)經(jīng)，則明顯可以看作一個(gè)組織(圖1)。

圖1 個(gè)體和組織

但是我們發(fā)現(xiàn)，還有一類賬號(hào)，雖然標(biāo)識(shí)為個(gè)體賬號(hào)，但是其行為特征與組織基本一致，同樣以新浪微博賬號(hào)為例，例如：時(shí)尚熊熊雜志、家居裝修等就具有這樣的典型特點(diǎn)。圖2是組織與隱式組織的微博截圖。圖2(a)是典型的組織賬號(hào)——新浪財(cái)經(jīng)和互聯(lián)網(wǎng)數(shù)據(jù)中心。從中可以發(fā)現(xiàn)組織賬號(hào)通常由多人參與維護(hù)，信息量大，微博內(nèi)容能夠體現(xiàn)該組織的目的，體現(xiàn)出組織正規(guī)性，其微博往往具有較為固定的格式，博文內(nèi)容也比較正式、豐富，比較令人信服。從圖2可以發(fā)現(xiàn)其博文常含有標(biāo)題、鏈接等特征，相對(duì)較長(zhǎng)，發(fā)帖較頻繁，間隔時(shí)間也比較均勻。圖2(b)為典型的隱式組織賬號(hào)——家居裝修，是一個(gè)沒(méi)有藍(lán)V標(biāo)識(shí)的個(gè)體賬號(hào)，但是特征與組織極為相似。微博通常具有固定的格式，含有標(biāo)題、鏈接等。其博文內(nèi)容也比較正式，博文較長(zhǎng)，發(fā)帖較頻繁，間隔時(shí)間也比較均勻。本文將這樣的用戶定義為隱式組織。

圖2 組織和隱式組織微博

定義：社交網(wǎng)絡(luò)中隱式組織是未帶有社交網(wǎng)站公開(kāi)的組織標(biāo)識(shí)，由多人參與維護(hù)、存在其共同目的呈現(xiàn)組織行為特征的社交網(wǎng)絡(luò)賬戶。

隱式組織為了擴(kuò)大影響，他們同有標(biāo)識(shí)的組織一樣具有參與熱點(diǎn)話題的欲望，對(duì)信息的傳播往往起到促進(jìn)作用，這種促進(jìn)作用相對(duì)于有標(biāo)識(shí)的組織是很隱蔽的，而且隱式組織又不像意見(jiàn)領(lǐng)袖那樣引人注目。所以實(shí)現(xiàn)對(duì)隱式組織的有效識(shí)別對(duì)于社交網(wǎng)絡(luò)中輿情傳播趨勢(shì)分析、廣告推薦等都有重要的意義。

本文以新浪微博為例實(shí)現(xiàn)對(duì)隱式組織的有效識(shí)別。我們采集了2013年上半年的數(shù)據(jù)，去除組織和原創(chuàng)微博數(shù)量小于20的用戶，共標(biāo)注了583個(gè)用戶，其中有523個(gè)個(gè)體和60個(gè)隱式組織。經(jīng)分析找出了文本特性、交互特性、時(shí)間特性三類特征，共22個(gè)，其中以三個(gè)主要特征為基礎(chǔ)，篩選出50組特征組合。共有10個(gè)訓(xùn)練集和對(duì)應(yīng)的測(cè)試集，每個(gè)訓(xùn)練集由隨機(jī)選取的100個(gè)個(gè)體和30個(gè)隱式組織組成，對(duì)應(yīng)測(cè)試集則在剩余的用戶集中采用相同方式選取。將WEKA中決策樹(shù)算法(J48)和樸素貝葉斯算法，依據(jù)每組特征組合，分別進(jìn)行分類實(shí)驗(yàn)，取10次結(jié)果的平均值，作為該組合的最終實(shí)驗(yàn)結(jié)果，其中樸素貝葉斯算法識(shí)別隱式組織的準(zhǔn)確率可達(dá)到86.4%。

本文的主要貢獻(xiàn)為：

(1) 提出社交網(wǎng)絡(luò)隱式組織的定義；

(2) 以新浪微博為例共提取了三類22個(gè)特征，實(shí)現(xiàn)對(duì)隱式組織的有效發(fā)現(xiàn)，準(zhǔn)確率達(dá)86.4%；

(3) 對(duì)隱式組織的行為特征等屬性進(jìn)行了分析，發(fā)現(xiàn)博文長(zhǎng)度、發(fā)帖時(shí)間間隔對(duì)個(gè)體與隱式組織有較好的區(qū)分度。

2 相關(guān)工作

國(guó)內(nèi)外對(duì)個(gè)體、組織的研究主要出現(xiàn)在生物學(xué)和社會(huì)學(xué)領(lǐng)域。目前對(duì)社交網(wǎng)絡(luò)中個(gè)體、組織的研究相對(duì)較少，已有相關(guān)工作主要集中在水軍、Spammer和僵尸粉檢測(cè)方面。下面主要介紹現(xiàn)有的個(gè)體、組織等相關(guān)概念的定義；社交網(wǎng)絡(luò)中水軍、Spammer、僵尸粉的檢測(cè)研究等。

1) 個(gè)體、組織(群體)的相關(guān)定義

許永峰提出： “組織是指一些在共同目標(biāo)指導(dǎo)下協(xié)同工作的粒子所組成的集合”[1]。陳世明在研究群體行為時(shí)，提到群體系統(tǒng)的概念： “群體系統(tǒng)指的是由彼此之間以某種關(guān)系耦合在一起的大量個(gè)體組成的系統(tǒng)”[2]。于顯洋以社會(huì)學(xué)角度給出了群體的定義： “群體是為實(shí)現(xiàn)共同目標(biāo)的兩個(gè)以上保持持續(xù)性相互依賴、相互作用的個(gè)體的組合”[3]。

綜上所述，組織或群體的必要特征有： (1)要有多人參與，(2)要有共同目標(biāo)。只有滿足這兩個(gè)條件，才可以構(gòu)成組織或群體。

當(dāng)代漢語(yǔ)詞典中解釋個(gè)體：單個(gè)的人或生物[4]。中國(guó)考試大辭典中解釋：個(gè)體指構(gòu)成總體的每一個(gè)對(duì)象或基本單位[5]。因研究任務(wù)及性質(zhì)不同，個(gè)體既可指單個(gè)的人、事、物，也可指以群體為基本單位的一個(gè)個(gè)研究對(duì)象。

社交網(wǎng)絡(luò)作為物理世界中人類社會(huì)關(guān)系在互聯(lián)網(wǎng)上的映射，其也應(yīng)該可以分為個(gè)體和組織。其組織也應(yīng)該具有上述的兩個(gè)必要特征。

2) Spammer及水軍識(shí)別

Chen[6]提出了識(shí)別水軍的四個(gè)非語(yǔ)義和一個(gè)語(yǔ)義特征，包括：回復(fù)比、平均間隔時(shí)間、活躍天數(shù)、新聞報(bào)道數(shù)、帖子相似度。實(shí)驗(yàn)方法使用LIBSVM、徑向基函數(shù)和十折交叉驗(yàn)證訓(xùn)練新浪數(shù)據(jù)，搜狐數(shù)據(jù)做測(cè)試集，人工標(biāo)注數(shù)據(jù)集類別。實(shí)驗(yàn)得出：語(yǔ)義特征有很好的輔助作用，但并不能完全依賴語(yǔ)義特征；非語(yǔ)義特征也非常有效，起到支柱作用。

Lin[7]基于漢語(yǔ)對(duì)Spam進(jìn)行識(shí)別，收集了2012年7月4日到10日的4 827條正常用戶的微博，1979條Spam微博。針對(duì)中文社交網(wǎng)絡(luò)，選取的特征有詞匯特征、狀態(tài)特征和用戶特征，采用樸素貝葉斯、支持向量機(jī)(SVM)和Logistic Regression進(jìn)行分類，實(shí)驗(yàn)效果為：樸素貝葉斯錯(cuò)誤率7%，SVM錯(cuò)誤率5.25%，Logistic Regression錯(cuò)誤率6.5%。

Benevenuto[8]針對(duì)國(guó)外社交網(wǎng)絡(luò)Twitter進(jìn)行Spammer識(shí)別研究。采集到54 981 152個(gè)活躍用戶，1 963 263 821個(gè)關(guān)系和1 755 925 520條推文。采用支持向量機(jī)，有約70%的Spamers用戶正確識(shí)別，96%的非Spamers被正確識(shí)別。共提取了62個(gè)特征，如表1所示。

表1 特征信息表

McCord[9]使用傳統(tǒng)分類器識(shí)別Twitter上的Spam，共選用六個(gè)特征，正確率達(dá)88%左右。Gianvecchio[10]研究在網(wǎng)絡(luò)聊天室識(shí)別機(jī)器人，他們將機(jī)器人按簡(jiǎn)單到復(fù)雜分成16類，方法上在傳統(tǒng)基礎(chǔ)上做了改進(jìn)，實(shí)驗(yàn)效果比傳統(tǒng)方法更準(zhǔn)確。Veloso[11]研究了基于文本的Spam檢測(cè)，先用一種模式發(fā)現(xiàn)算法發(fā)現(xiàn)模式，然后用發(fā)現(xiàn)的模式訓(xùn)練分類算法，識(shí)別準(zhǔn)確率達(dá)99%。國(guó)內(nèi)外對(duì)Spammer、網(wǎng)絡(luò)水軍及僵尸粉的檢測(cè)研究很多，都取得了較好的成績(jī)[12-16]。

綜上所述，目前社交網(wǎng)絡(luò)用戶分類通常可以分成兩個(gè)步驟：特征提取、分類方法。特征主要采用文本特征和profile特征等。分類方法大多采用傳統(tǒng)的機(jī)器學(xué)習(xí)分類方法。

3 社交網(wǎng)絡(luò)隱式組織發(fā)現(xiàn)

我們基本研究思路如下：首先給出社交網(wǎng)絡(luò)中隱式組織的定義；然后從內(nèi)容、行為等屬性中提取相關(guān)特征，基于新浪微博數(shù)據(jù)集，通過(guò)人工標(biāo)注構(gòu)建訓(xùn)練集和測(cè)試集；通過(guò)貝葉斯和決策樹(shù)分類方法實(shí)現(xiàn)對(duì)個(gè)體與隱式組織有效分類；最后對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析。

3.1 社交網(wǎng)絡(luò)隱式組織

通過(guò)引言中隱式組織的定義，我們知道，社交網(wǎng)絡(luò)隱式組織是，未帶有社交網(wǎng)站公開(kāi)的組織標(biāo)識(shí)，由多人參與維護(hù)、存在其共同目的的社交網(wǎng)絡(luò)賬戶。以新浪微博為例(圖3)，組織用戶帶有公開(kāi)的組織標(biāo)識(shí)——藍(lán)V，指以團(tuán)體或集體作為社交網(wǎng)絡(luò)中的一個(gè)用戶，例如公司、機(jī)構(gòu)等團(tuán)體。而標(biāo)識(shí)為名人、達(dá)人和普通用戶的，則可能是個(gè)體也可能是隱式組織。

圖3 新浪微博標(biāo)識(shí)與用戶對(duì)應(yīng)圖

經(jīng)過(guò)在國(guó)內(nèi)外不同的社交網(wǎng)站上進(jìn)行調(diào)研，可以發(fā)現(xiàn)個(gè)體和隱式組織用戶在文本和行為等方面的不同特征，如表2所示。

表2 個(gè)體和隱式組織特征對(duì)比表

3.2 特征選取與數(shù)據(jù)集人工標(biāo)注

根據(jù)個(gè)體和隱式組織的不同特點(diǎn)，將數(shù)據(jù)集標(biāo)注為兩類：個(gè)體和隱式組織。每一個(gè)用戶由三個(gè)人標(biāo)，選被標(biāo)類別較多的為待標(biāo)用戶最終類別，以此來(lái)解決標(biāo)注分歧。實(shí)驗(yàn)采用了2013年新浪微博上半年的數(shù)據(jù)作為標(biāo)注數(shù)據(jù)集。共采用了514 585條微博，3 678個(gè)用戶，除去組織用戶和原創(chuàng)微博數(shù)小于20的用戶，共標(biāo)注了個(gè)體523個(gè)，隱式組織60個(gè)。

最終確定了文本特性、交互特性、時(shí)間特性三類共22個(gè)特征。如表3所示。

表3 特征說(shuō)明表

在文本特性中，組織用戶需要有相對(duì)固定的格式表現(xiàn)內(nèi)容的可靠性，加上微博的短文本特性，使得組織用戶的博文size較大，并常常附上url，以便使瀏覽者更詳細(xì)地了解信息；相對(duì)應(yīng)的個(gè)體用戶比組織用戶的微博更靈活、隨意，博文意圖往往是表露心情，而表情符號(hào)是常用的表示心情的快捷方法，所以emotion(帶有表情的博文所占比例)特征偏多于組織用戶。在交互特性中，四個(gè)特征均一定程度地體現(xiàn)出用戶與他人交互的意愿，個(gè)體略高于組織用戶，其中reply區(qū)別較為明顯。在時(shí)間特性中，組織賬號(hào)是由指定的某個(gè)現(xiàn)實(shí)中的人或多人維護(hù)的，故組織的interval_minute和meanblog要比大多數(shù)個(gè)體用戶高，variance比多數(shù)個(gè)體用戶低。

3.3 隱式組織分類

使用WEKA中的分類方法。通過(guò)對(duì)22個(gè)特征進(jìn)行分析，我們以size、reply、interval_minute三個(gè)特征為主，共篩出50組特征組合。訓(xùn)練集由隨機(jī)選取的100個(gè)個(gè)體和30個(gè)隱式組織組成，對(duì)應(yīng)的測(cè)試集在剩余的數(shù)據(jù)集中隨機(jī)選取100個(gè)個(gè)體和30個(gè)隱式組織，共隨機(jī)選取十組。用樸素貝葉斯和決策樹(shù)算法在10組訓(xùn)練集和測(cè)試集、50組特征組合上進(jìn)行分類，取平均值作為實(shí)驗(yàn)結(jié)果。根據(jù)結(jié)果的Kappa statistic值對(duì)特征組合進(jìn)行排序，并得出特征重要程度排序。

4 實(shí)驗(yàn)結(jié)果及分析

4.1 實(shí)驗(yàn)結(jié)果

Kappa statistic用于評(píng)判分類器的分類結(jié)果與隨機(jī)分類的差異度，是各方面的綜合衡量指標(biāo)，因此本文選用Kappa statistic值對(duì)結(jié)果進(jìn)行排序。由于篇幅的限制，實(shí)驗(yàn)結(jié)果不一一列出了。以下是兩種方法最佳的實(shí)驗(yàn)結(jié)果。

實(shí)驗(yàn)一實(shí)驗(yàn)方法采用J48算法，特征組合： size,reply,at,interval_minute。該實(shí)驗(yàn)的Kappa statistic 平均值為0.6654，是J48算法排序第一的組合。

表4 實(shí)驗(yàn)一分類結(jié)果

表5 實(shí)驗(yàn)一評(píng)價(jià)表

實(shí)驗(yàn)二實(shí)驗(yàn)方法仍使用J48算法，特征組合： topic, combine_title, size, reply, topic_forward, combine_title_forward, combine_url_forward。該組和是J48算法正確率最高的特征組合。

表6 實(shí)驗(yàn)二分類結(jié)果

表7 實(shí)驗(yàn)二評(píng)價(jià)表

實(shí)驗(yàn)三實(shí)驗(yàn)方法使用樸素貝葉斯算法，特征數(shù)： 12，特征組合： title_topic, meanblog, variance, interval_minute, topic_forward, url_forward, combine_url, combine_url_forward, size, title, topic, forwardcomments。該實(shí)驗(yàn)的正確率和Kappa statistic在兩種方法的所有組合實(shí)驗(yàn)中最高，其中Kappa statistic達(dá)0.7102。

表8 實(shí)驗(yàn)三分類結(jié)果

表9 實(shí)驗(yàn)三評(píng)價(jià)表

我們依據(jù)50組特征組合實(shí)驗(yàn)，選出Kappa statistic值大于0.5的特征組合，給每個(gè)特征打分，所得分?jǐn)?shù)是出現(xiàn)的次數(shù)，未出現(xiàn)的特征分?jǐn)?shù)為0，分?jǐn)?shù)高說(shuō)明該特征對(duì)個(gè)體和隱式組織的區(qū)分程度越好。據(jù)此規(guī)則，得出前10個(gè)特征排序表，如表10所示。

表10 特征排序表

該表與上節(jié)的特征分析基本吻合，證明了size、interval_minute對(duì)個(gè)體與隱式組織有較高的區(qū)分度。表中1、3、4、5、8、9都屬于文本特性，說(shuō)明其是識(shí)別隱式組織的主要特征；其次時(shí)間特性interval_minute、meanblog以及交互特性reply、forwardcomments也非常有效；而3～9之間特征的重要度都差不多，說(shuō)明這些特征之間有一定的相關(guān)性。

4.2 實(shí)驗(yàn)結(jié)果討論

本實(shí)驗(yàn)中，J48算法受特征的影響較大，四個(gè)特征已經(jīng)能夠達(dá)到很好的效果，隨著特征的增加，效果反而變差，可能原因是存在沖突的特征。樸素貝葉斯算法好于決策樹(shù)算法，受特征影響相對(duì)較小，但特征并沒(méi)有顯示出單調(diào)遞增、越多越準(zhǔn)確的特性，可能特征間有依賴，影響實(shí)驗(yàn)結(jié)果。實(shí)驗(yàn)中個(gè)體正確率、準(zhǔn)確率等各項(xiàng)評(píng)價(jià)指標(biāo)都比較高，而隱式組織的準(zhǔn)確率并不高，可能是因?yàn)闇y(cè)試集個(gè)體和隱式組織數(shù)量不均衡導(dǎo)致的。

對(duì)于SVM分類器：由于訓(xùn)練樣本數(shù)量上的不均衡[17]，以及樣本中可能含有噪聲和孤立點(diǎn)[18]，導(dǎo)致使用SVM分類時(shí)效果較差，表11是21個(gè)特征組合的分類結(jié)果，其Kappa statistic值為0.2949。

表11 SVM分類結(jié)果

SVM對(duì)隱式組織識(shí)別的準(zhǔn)確率為40.4%。考慮到后續(xù)研究是面向大規(guī)模社交網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行快速的分類，因SVM占用內(nèi)存較多、速度慢，前期實(shí)驗(yàn)結(jié)果不理想，所以沒(méi)有將SVM加入到對(duì)比實(shí)驗(yàn)中。

特征排序體現(xiàn)了特征重要程度的大致分布。我們選了特征排序在第一的size、第二interval_minute進(jìn)行散點(diǎn)圖展示，圖上每個(gè)點(diǎn)代表一個(gè)用戶，橫坐標(biāo)是用戶的編號(hào)，縱坐標(biāo)是用戶的特征值，黑色的點(diǎn)代表該用戶是個(gè)體，同理，灰色是隱式組織。

圖4(a)是個(gè)體與隱式組織的size對(duì)比圖，很明顯隱式組織的size中心點(diǎn)比個(gè)體的中心點(diǎn)要高；圖4(b)中隱式組織interval_minute都比較集中在很低的值上，說(shuō)明隱式組織的發(fā)帖一般都比較頻繁，而個(gè)體則相對(duì)時(shí)間間隔較長(zhǎng)。可見(jiàn)我們的特征排序表能夠體現(xiàn)出特征的重要程度。

圖4 個(gè)體與隱式組織的特征對(duì)比

5 結(jié)論

本文首次提出了隱式組織概念，闡述了隱式組織的特點(diǎn)，并對(duì)其進(jìn)行識(shí)別。實(shí)驗(yàn)使用樸素貝葉斯算法和J48算法進(jìn)行比較，多種評(píng)價(jià)指標(biāo)顯示樸素貝葉斯算法表現(xiàn)更好，識(shí)別隱式組織準(zhǔn)確率可達(dá)86.4%，識(shí)別個(gè)體的準(zhǔn)確率也達(dá)到89.8%。實(shí)驗(yàn)結(jié)果證明，隱式組織和個(gè)體用戶確實(shí)存在差別，利用傳統(tǒng)分類方法即可識(shí)別出隱式組織，但準(zhǔn)確率還有待提升。通過(guò)特征分析得出：任何單個(gè)的特征不能夠?qū)㈦[式組織識(shí)別出來(lái)。下一步工作需進(jìn)一步提高標(biāo)注數(shù)據(jù)集的規(guī)模，考慮社交網(wǎng)絡(luò)結(jié)構(gòu)因素，提高隱式組織識(shí)別的準(zhǔn)確率。

[1] 許永峰, 張書(shū)玲.帶組織的粒子群優(yōu)化算法： OPSO[J].計(jì)算機(jī)應(yīng)用與軟件, 2008: 25(2)： 234-236.

[2] 陳世明.基于局部信息的若干群體行為研究[D].華中科技大學(xué)博士學(xué)位論文, 2006.

[3] 于顯洋.組織社會(huì)學(xué)[M].北京: 中國(guó)人民大學(xué)出版社,2004: 162-172.

[4] 莫衡. 當(dāng)代漢語(yǔ)詞典[M]. 上海: 上海辭書(shū)出版社, 2001: 1-1605.

[5] 楊學(xué)為. 中國(guó)考試大辭典[M]. 上海: 上海辭書(shū)出版社, 2006: 1-506.

[6] Chen C, Wu K, Srinivasan V, et al. Battling the internet water army: Detection of hidden paid posters[C]//Proceedings of the 2013 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining. ACM, 2013: 116-120.

[7] Liu L, Jia K. Detecting spam in chinese microblogs-a study on sina weibo[C]//Proceedings of Computational Intelligence and Security (CIS), 2012 Eighth International Conference on IEEE, 2012: 578-581.

[8] Benevenuto F, Magno G, Rodrigues T, et al. Detecting spammers on twitter[C]//Proceedings of Collaboration, electronic messaging, anti-abuse and spam conference (CEAS). 2010, 6: 12.

[9] McCord M, Chuah M. Spam detection on twitter using traditional classifiers[M].Autonomic and Trusted Computing. Springer Berlin Heidelberg, 2011: 175-186.

[10] Gianvecchio S, Xie M, Wu Z, et al. Humans and bots in internet chat: measurement, analysis, and automated classification[J]. IEEE/ACM Transactions on Networking (TON), 2011, 19(5): 1557-1571.

[11] Veloso A, Meira W. Lazy associative classification for content-based spam detection[C]//Proceedings of Web Congress, 2006. LA-Web'06. Fourth Latin American. IEEE, 2006: 154-161.

[12] Wang A H. Don't follow me: Spam detection in twitter[C]//Proceedings of the 2010 International Conference on IEEE, 2010: 1-10.

[13] de Lima B V A, Machado V P. Machine learning algorithms applied in automatic classification of social network users[C]//Proceedings of CASoN. 2012: 58-62.

[14] Stringhini G, Kruegel C, Vigna G. Detecting spammers on social networks[C]//Proceedings of the 26th Annual Computer Security Applications Conference. ACM, 2010: 1-9.

[15] Costa H, Benevenuto F, Merschmann L H C. Detecting tip spam in location-based social networks[C]//Proceedings of the 28th Annual ACM Symposium on Applied Computing. ACM, 2013: 724-729.

[16] 王越, 張劍金, 劉芳芳. 一種多特征微博僵尸粉檢測(cè)方法與實(shí)現(xiàn)[J]. 中國(guó)科技論文, 2014, 9(1): 81-86.

[17] 刁翠霞, 陳思鳳, 劉業(yè)政. 基于SVM 求解不均衡數(shù)據(jù)集分類的主觀權(quán)重約束方法[J]. 管理工程學(xué)報(bào), 2012, 26(3): 146-150.

[18] 安金龍. 支持向量機(jī)若干問(wèn)題的研究[D].天津大學(xué)博士學(xué)位論文, 2004.

Detecting Implicit Organization on Sina Weibo

LIU Cheng, SHA Ying , JIANG Bo, Guo Li

(Institute of Information Engineering, CAS, Beijing 100093, China)

Various types of account tend to be existed in Social network, including normal individual users, online water army, zombie fans, official organizations and so on. We define the individual accounts whose behavior is rendered as organizational characteristic as impli-cit organization. With a team responsible for the operations, the impli-cit organization account bears no individuals' behavior pattern, but falls in the pattern of an official organization. The effective discovery of implicit organizations have important significance for analysis of public opinion trends in the spread of social networks, advertising recommendations and so on. This paper, taking the data of SinaWeibo as an example, investigates the classification of the individuals and the implicit organizations. We manually labeled a total of 583 accounts, and summarizing 22 related features to build a Naive Bayes model and a decision tree model. Experiments demonstrate an effective identification of implicit organization by 86.4% precision.

social network； implicit organization； machine learning algorithm

劉程(1988—)，碩士研究生，主要研究領(lǐng)域?yàn)樯鐣?huì)計(jì)算。E?mail：liucheng4248@163．com沙灜(1973—)，通信作者，副研究員，主要研究領(lǐng)域?yàn)樯鐣?huì)計(jì)算。E?mail：shaying@iie．a(chǎn)c．cn姜波(1985—)，博士研究生，主要研究領(lǐng)域?yàn)樯鐣?huì)計(jì)算。E?mail：jiangbo@iie．a(chǎn)c．cn

2015-03-11 定稿日期： 2015-06-19

中國(guó)科學(xué)院院戰(zhàn)略先導(dǎo)專項(xiàng)(XDA06030200);國(guó)家科技支撐計(jì)劃(2012BAH46B03);國(guó)家自然科學(xué)基金(61272427)

1003-0077(2017)02-0139-07

TP391