基于主題模型的貓池濫用識別算法

2018-12-21 02:33:12杜剛朱艷云張晨杜雪濤

電信工程技術(shù)與標(biāo)準(zhǔn)化 2018年12期

關(guān)鍵詞：特征模型

杜剛，朱艷云，張晨，杜雪濤

（中國移動通信集團(tuán)設(shè)計(jì)院有限公司，北京 100080）

貓池是一種可同時支持多張手機(jī)卡的通信設(shè)備，當(dāng)中的卡槽數(shù)量從8～2 048個不等；用戶將手機(jī)卡插入卡槽之后，可以通過電腦進(jìn)行批量操作?？梢哉f，貓池類似于一個多卡多待的手機(jī)。貓池廣泛應(yīng)用于大量具有多用戶遠(yuǎn)程聯(lián)網(wǎng)需求的單位或需要向從多用戶提供電話撥號聯(lián)網(wǎng)服務(wù)的單位。如郵電局、稅務(wù)局、海關(guān)、銀行、證券商、各類交易所、期貨經(jīng)紀(jì)公司、工商局、各類信息呼叫中心等。但貓池也會被濫用，一些組織會用貓池騙貸、薅羊毛、群發(fā)垃圾短信、撥打騷擾電話，與之伴隨的則是所謂的“收卡”與“養(yǎng)卡”業(yè)務(wù)。

本文提出了一種基于文本主題模型的貓池識別算法，通過對海量撥打日志進(jìn)行聚類分析，能夠有效的發(fā)現(xiàn)貓池通信行為，從而幫助分析人員對貓池是否遭到濫用進(jìn)行進(jìn)一步分析。

1 貓池特征識別問題

1.1 貓池特征

一段時間內(nèi)，一組IMEI號碼總是同時在線：貓池活動最大的特征就是群體行動。通常會有一組特定的IMEI號碼經(jīng)常重復(fù)性的在某個地區(qū)內(nèi)產(chǎn)生通信行為。同一個貓池設(shè)備的IMEI號相近：同一個貓池設(shè)備的IMEI號通常具有相同的開頭，如開頭8～10位相同。當(dāng)然，若貓池的IMEI號被非法篡改，則該特征將失效。本文不考慮IMEI號被篡改的情況。濫用貓池的行為還可能具有更多的特征，如頻繁換卡等，這些特征識別起來簡單直接，但都要以上面的兩個特征為基礎(chǔ)。故本文先重點(diǎn)探討如何從海量通信日志中挖掘出具有這兩個特征的IMEI號碼組，再分析貓池是否為濫用。

1.2 貓池識別難點(diǎn)

活動跨小區(qū)：雖然貓池的位置不輕易發(fā)生改變，但其在線時可能存在于不同的鄰近的LAC+CI之中。即其活動可能跨小區(qū)。IMEI不唯一：由于刷機(jī)可以修改設(shè)備的IMEI號碼，故兩臺不同的設(shè)備可能存在相同的IMEI號碼。不能用IMEI號碼來唯一確定一臺設(shè)備，需要與其出現(xiàn)的小區(qū)、出現(xiàn)的時間為判斷依據(jù)。綜合如上兩點(diǎn)，在判定一組同時出現(xiàn)的號碼組時，算法會收到噪音的干擾，當(dāng)不屬于該號碼組的設(shè)備使用了相同的IMEI號，但在號碼組沒有出現(xiàn)的時候，則會令算法認(rèn)為該號碼不屬于號碼組。因此，算法對設(shè)備之間的共同出現(xiàn)不能設(shè)定硬標(biāo)準(zhǔn)，應(yīng)該使用基于概率的軟標(biāo)準(zhǔn)，即一組IMEI之間共同出現(xiàn)的概率較高。主題模型是一種概率模型，可以很好的滿足要求。

2 基于主題模型的識別算法

2.1 LDA模型

主題模型是一類概率生成模型，其通過構(gòu)建文檔集的生成過程，來實(shí)現(xiàn)對文檔隱藏主題的建模和聚類。相關(guān)的模型有LSI、PLSI和LDA。其中最成熟的主題模型為LDA。LDA主題模型是一種概率圖模型，其形式如圖1所示。LDA描述了基于潛在主題生成文檔中詞的概率抽樣過程，其模型由參數(shù)(α，β)確定。其中α描述了文檔集合中隱含主題分布的隨機(jī)性，β刻畫所有隱含主題在詞上的分布的隨機(jī)性。

圖1 LDA圖模型

LDA生成文檔的過程如下：

對于每個主題t，由Dirichlet(β)分布，得到該主題上的一個詞多項(xiàng)式分布φ(t)。

對于每個文檔d，由Dirichlet(α)分布，得到該文檔上的一個主題多項(xiàng)式分布θd。

對于每個文檔中的每個詞wi：

從主題多項(xiàng)式分布θd抽取一個主題t。

從主題上的詞多項(xiàng)式分布φ(t)抽取一個單詞作為wi。

通過輸入大量文檔集到模型中，LDA可以實(shí)現(xiàn)數(shù)據(jù)的降維。將高維的詞分布向量降維成主題分布向量。其中主題分布向量又揭示了每個主題的用詞特點(diǎn)，即詞語在特定主題下的詞語共現(xiàn)規(guī)律。在不同的主題下，會有不同的詞語分布特征。如在體育這個主題下，足球和籃球更可能同時出現(xiàn)。而在其它主題下，二者沒有明顯的關(guān)聯(lián)。

2.2 基于主題模型的貓池識別算法

本文的創(chuàng)新性在于將一組IMEI共同產(chǎn)生通信行為的問題映射為主題模型中一組詞語共同出現(xiàn)的問題。將一個小區(qū)（LAC+CI）出現(xiàn)的所有IMEI號碼看作是一篇文檔，將IMEI號碼映射為文檔中的詞。而一組經(jīng)常共同出現(xiàn)的IMEI號碼映射為一組詞的強(qiáng)關(guān)聯(lián)，即一個主題下的很強(qiáng)的用詞規(guī)律。一個主題可能包含若干個用詞規(guī)律。故主題中可能包含了多個貓池的號碼組。

搜集所有LAC+CI下IMEI出現(xiàn)的信息，并形成文檔集合輸入到LDA模型中，通過聚類推理，可以得到若干主題分布。取這些主題概率分布中排名TopN的IMEI號碼，形成號碼列表。最后，從號碼列表中找出所有IMEI相近的IMEI號碼組，從而找出共同出現(xiàn)概率較高的號碼組。

2.3 濫用貓池行為分析

貓池的濫用行為大體可以分為兩種，一種是養(yǎng)卡行為，一種是騷擾行為。

由于貓池的養(yǎng)卡行為完全屬于正常的通信行為，所以從通信行為上很難進(jìn)行識別。但在貓池內(nèi)部的養(yǎng)卡行為是可以被識別的。換言之，養(yǎng)卡人用貓池中的手機(jī)號相互之間進(jìn)行通信，在話單上體現(xiàn)為一組IMEI設(shè)備相互之間產(chǎn)生通話行為。具體算法如下。

（1）獲取一天內(nèi)一個IMEI號碼組的所有通信記錄。

（2）將作為通信記錄中主叫的IMEI形成一個主叫集合M，將作為被叫的IMEI形成被叫集合N。

（3）計(jì)算θ=|M∩N|/|M∪N|，其中|M∩N|代表M與N的交集的大小，|M∪N|為M與N的并集的大小。

（4）當(dāng)θ大于0.5，則可認(rèn)為該貓池主要中的號碼在互相產(chǎn)生通信行為。

同時，為了進(jìn)一步排除掉可能正常的通信行為，可以通過查詢IMEIdb，來檢驗(yàn)IMEI的合法性。全球每部通過正規(guī)渠道銷售的GSM手機(jī)均有唯一的IMEI碼。IMEI碼由GSMA協(xié)會統(tǒng)一規(guī)劃，并授權(quán)各地區(qū)組織進(jìn)行分配，相關(guān)信息可以在互聯(lián)網(wǎng)上查詢。若IMEI的查詢結(jié)果為非法、未使用等。則更有可能是貓池的養(yǎng)卡行為。

貓池另一種濫用行為是騷擾行為，體現(xiàn)在話單上為一組IMEI號碼所綁定的手機(jī)號被判定為疑似騷擾電話，如在360、搜狗等安全軟件中判定為騷擾電話、響一聲、詐騙電話、廣告推銷等。具體算法如下。

（1）獲取IMEI號碼組所綁定的所有手機(jī)號碼，形成手機(jī)號碼集合。

（2）使用網(wǎng)絡(luò)爬蟲對手機(jī)號碼集合中的手機(jī)號進(jìn)行互聯(lián)網(wǎng)標(biāo)記爬取。

（3）若存在標(biāo)記，且標(biāo)記次數(shù)超過10次，則為IMEI打上標(biāo)記。

（4）若手機(jī)號碼集合中超過半數(shù)的手機(jī)號都有標(biāo)記，則判定該IMEI號碼組存在濫用行為。

3 實(shí)驗(yàn)結(jié)果

圖2 養(yǎng)卡行為示意圖

本文對某城市一天的通信記錄進(jìn)行分析，涉及78萬個小區(qū)，100萬個IMEI。使用本算法進(jìn)行LDA聚類。其中主題個數(shù)取20個，每個主題取概率分布Top100的號碼。并定義IMEI的前8位號碼相等則IMEI相似。最終得到了13個IMEI號碼組。通過反查13組號碼的通訊記錄，發(fā)現(xiàn)這些號碼確實(shí)總是幾乎同時發(fā)起通信行為。通過互聯(lián)網(wǎng)標(biāo)記信息，最終確定了4組號碼存在疑似濫用行為。

圖2列出了具有養(yǎng)卡行為的貓池活動示例（圖中所示的IMEI號均為非法IMEI）。

一個節(jié)點(diǎn)代表貓池中的一個IMEI號碼，箭頭的起點(diǎn)為呼叫發(fā)起方，箭頭的終點(diǎn)為被呼叫方。

表1 存在騷擾性質(zhì)的貓池濫用行為

表1列出了具有騷擾行為的貓池活動示例，可見該組IMEI所綁定的手機(jī)號均被標(biāo)記為騷擾電話、房產(chǎn)中介或廣告推銷（標(biāo)記使用360搜索得到）。

4 結(jié)論

本文提出的基于主題模型的貓池濫用行為識別算法能夠同時從時間和空間對號碼的通信行為進(jìn)行建模，找到經(jīng)常同一時間和同一地點(diǎn)共同出現(xiàn)的一組號碼，從而確定疑似的貓池行為。并根據(jù)諸多非法貓池的特征進(jìn)一步確定貓池濫用的行為。實(shí)驗(yàn)證明，該方法可以有效的從海量數(shù)據(jù)中識別出貓池濫用的行為，通過第三方驗(yàn)證，可以看出貓池所使用的號碼確實(shí)從事騷擾電話等非法活動。

當(dāng)然，由于LDA算法需要人為設(shè)定主題數(shù)量參數(shù)，我們通常無法預(yù)知數(shù)據(jù)的分布情況，該參數(shù)僅能憑經(jīng)驗(yàn)設(shè)定。這就導(dǎo)致該模型并不能識別網(wǎng)絡(luò)中所有的貓池行為。識別出的貓池行為通常為網(wǎng)絡(luò)中最顯著的。一些不夠顯著的貓池行為將被忽略。未來可以思考新的算法，來修補(bǔ)該模型的這一弊端。