999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于主題模型的貓池濫用識別算法

2018-12-21 02:33:12杜剛朱艷云張晨杜雪濤
關(guān)鍵詞:特征模型

杜剛,朱艷云,張晨,杜雪濤

(中國移動通信集團(tuán)設(shè)計(jì)院有限公司,北京 100080)

貓池是一種可同時支持多張手機(jī)卡的通信設(shè)備,當(dāng)中的卡槽數(shù)量從8~2 048個不等;用戶將手機(jī)卡插入卡槽之后,可以通過電腦進(jìn)行批量操作??梢哉f,貓池類似于一個多卡多待的手機(jī)。貓池廣泛應(yīng)用于大量具有多用戶遠(yuǎn)程聯(lián)網(wǎng)需求的單位或需要向從多用戶提供電話撥號聯(lián)網(wǎng)服務(wù)的單位。如郵電局、稅務(wù)局、海關(guān)、銀行、證券商、各類交易所、期貨經(jīng)紀(jì)公司、工商局、各類信息呼叫中心等。但貓池也會被濫用,一些組織會用貓池騙貸、薅羊毛、群發(fā)垃圾短信、撥打騷擾電話,與之伴隨的則是所謂的“收卡”與“養(yǎng)卡”業(yè)務(wù)。

本文提出了一種基于文本主題模型的貓池識別算法,通過對海量撥打日志進(jìn)行聚類分析,能夠有效的發(fā)現(xiàn)貓池通信行為,從而幫助分析人員對貓池是否遭到濫用進(jìn)行進(jìn)一步分析。

1 貓池特征識別問題

1.1 貓池特征

一段時間內(nèi),一組IMEI號碼總是同時在線:貓池活動最大的特征就是群體行動。通常會有一組特定的IMEI號碼經(jīng)常重復(fù)性的在某個地區(qū)內(nèi)產(chǎn)生通信行為。同一個貓池設(shè)備的IMEI號相近:同一個貓池設(shè)備的IMEI號通常具有相同的開頭,如開頭8~10位相同。當(dāng)然,若貓池的IMEI號被非法篡改,則該特征將失效。本文不考慮IMEI號被篡改的情況。濫用貓池的行為還可能具有更多的特征,如頻繁換卡等,這些特征識別起來簡單直接,但都要以上面的兩個特征為基礎(chǔ)。故本文先重點(diǎn)探討如何從海量通信日志中挖掘出具有這兩個特征的IMEI號碼組,再分析貓池是否為濫用。

1.2 貓池識別難點(diǎn)

活動跨小區(qū):雖然貓池的位置不輕易發(fā)生改變,但其在線時可能存在于不同的鄰近的LAC+CI之中。即其活動可能跨小區(qū)。IMEI不唯一:由于刷機(jī)可以修改設(shè)備的IMEI號碼,故兩臺不同的設(shè)備可能存在相同的IMEI號碼。不能用IMEI號碼來唯一確定一臺設(shè)備,需要與其出現(xiàn)的小區(qū)、出現(xiàn)的時間為判斷依據(jù)。綜合如上兩點(diǎn),在判定一組同時出現(xiàn)的號碼組時,算法會收到噪音的干擾,當(dāng)不屬于該號碼組的設(shè)備使用了相同的IMEI號,但在號碼組沒有出現(xiàn)的時候,則會令算法認(rèn)為該號碼不屬于號碼組。因此,算法對設(shè)備之間的共同出現(xiàn)不能設(shè)定硬標(biāo)準(zhǔn),應(yīng)該使用基于概率的軟標(biāo)準(zhǔn),即一組IMEI之間共同出現(xiàn)的概率較高。主題模型是一種概率模型,可以很好的滿足要求。

2 基于主題模型的識別算法

2.1 LDA模型

主題模型是一類概率生成模型,其通過構(gòu)建文檔集的生成過程,來實(shí)現(xiàn)對文檔隱藏主題的建模和聚類。相關(guān)的模型有LSI、PLSI和LDA。其中最成熟的主題模型為LDA。LDA主題模型是一種概率圖模型,其形式如圖1所示。LDA描述了基于潛在主題生成文檔中詞的概率抽樣過程,其模型由參數(shù)(α,β)確定。其中α描述了文檔集合中隱含主題分布的隨機(jī)性,β刻畫所有隱含主題在詞上的分布的隨機(jī)性。

圖1 LDA圖模型

LDA生成文檔的過程如下:

對于每個主題t,由Dirichlet(β)分布,得到該主題上的一個詞多項(xiàng)式分布φ(t)。

對于每個文檔d,由Dirichlet(α)分布,得到該文檔上的一個主題多項(xiàng)式分布θd。

對于每個文檔中的每個詞wi:

從主題多項(xiàng)式分布θd抽取一個主題t。

從主題上的詞多項(xiàng)式分布φ(t)抽取一個單詞作為wi。

通過輸入大量文檔集到模型中,LDA可以實(shí)現(xiàn)數(shù)據(jù)的降維。將高維的詞分布向量降維成主題分布向量。其中主題分布向量又揭示了每個主題的用詞特點(diǎn),即詞語在特定主題下的詞語共現(xiàn)規(guī)律。在不同的主題下,會有不同的詞語分布特征。如在體育這個主題下,足球和籃球更可能同時出現(xiàn)。而在其它主題下,二者沒有明顯的關(guān)聯(lián)。

2.2 基于主題模型的貓池識別算法

本文的創(chuàng)新性在于將一組IMEI共同產(chǎn)生通信行為的問題映射為主題模型中一組詞語共同出現(xiàn)的問題。將一個小區(qū)(LAC+CI)出現(xiàn)的所有IMEI號碼看作是一篇文檔,將IMEI號碼映射為文檔中的詞。而一組經(jīng)常共同出現(xiàn)的IMEI號碼映射為一組詞的強(qiáng)關(guān)聯(lián),即一個主題下的很強(qiáng)的用詞規(guī)律。一個主題可能包含若干個用詞規(guī)律。故主題中可能包含了多個貓池的號碼組。

搜集所有LAC+CI下IMEI出現(xiàn)的信息,并形成文檔集合輸入到LDA模型中,通過聚類推理,可以得到若干主題分布。取這些主題概率分布中排名TopN的IMEI號碼,形成號碼列表。最后,從號碼列表中找出所有IMEI相近的IMEI號碼組,從而找出共同出現(xiàn)概率較高的號碼組。

2.3 濫用貓池行為分析

貓池的濫用行為大體可以分為兩種,一種是養(yǎng)卡行為,一種是騷擾行為。

由于貓池的養(yǎng)卡行為完全屬于正常的通信行為,所以從通信行為上很難進(jìn)行識別。但在貓池內(nèi)部的養(yǎng)卡行為是可以被識別的。換言之,養(yǎng)卡人用貓池中的手機(jī)號相互之間進(jìn)行通信,在話單上體現(xiàn)為一組IMEI設(shè)備相互之間產(chǎn)生通話行為。具體算法如下。

(1)獲取一天內(nèi)一個IMEI號碼組的所有通信記錄。

(2)將作為通信記錄中主叫的IMEI形成一個主叫集合M,將作為被叫的IMEI形成被叫集合N。

(3)計(jì)算θ=|M∩N|/|M∪N|,其中|M∩N|代表M與N的交集的大小,|M∪N|為M與N的并集的大小。

(4)當(dāng)θ大于0.5,則可認(rèn)為該貓池主要中的號碼在互相產(chǎn)生通信行為。

同時,為了進(jìn)一步排除掉可能正常的通信行為,可以通過查詢IMEIdb,來檢驗(yàn)IMEI的合法性。全球每部通過正規(guī)渠道銷售的GSM手機(jī)均有唯一的IMEI碼。IMEI碼由GSMA協(xié)會統(tǒng)一規(guī)劃,并授權(quán)各地區(qū)組織進(jìn)行分配,相關(guān)信息可以在互聯(lián)網(wǎng)上查詢。若IMEI的查詢結(jié)果為非法、未使用等。則更有可能是貓池的養(yǎng)卡行為。

貓池另一種濫用行為是騷擾行為,體現(xiàn)在話單上為一組IMEI號碼所綁定的手機(jī)號被判定為疑似騷擾電話,如在360、搜狗等安全軟件中判定為騷擾電話、響一聲、詐騙電話、廣告推銷等。具體算法如下。

(1)獲取IMEI號碼組所綁定的所有手機(jī)號碼,形成手機(jī)號碼集合。

(2)使用網(wǎng)絡(luò)爬蟲對手機(jī)號碼集合中的手機(jī)號進(jìn)行互聯(lián)網(wǎng)標(biāo)記爬取。

(3)若存在標(biāo)記,且標(biāo)記次數(shù)超過10次,則為IMEI打上標(biāo)記。

(4) 若手機(jī)號碼集合中超過半數(shù)的手機(jī)號都有標(biāo)記,則判定該IMEI號碼組存在濫用行為。

3 實(shí)驗(yàn)結(jié)果

圖2 養(yǎng)卡行為示意圖

本文對某城市一天的通信記錄進(jìn)行分析,涉及78萬個小區(qū),100萬個IMEI。使用本算法進(jìn)行LDA聚類。其中主題個數(shù)取20個,每個主題取概率分布Top100的號碼。并定義IMEI的前8位號碼相等則IMEI相似。最終得到了13個IMEI號碼組。通過反查13組號碼的通訊記錄,發(fā)現(xiàn)這些號碼確實(shí)總是幾乎同時發(fā)起通信行為。通過互聯(lián)網(wǎng)標(biāo)記信息,最終確定了4組號碼存在疑似濫用行為。

圖2列出了具有養(yǎng)卡行為的貓池活動示例(圖中所示的IMEI號均為非法IMEI)。

一個節(jié)點(diǎn)代表貓池中的一個IMEI號碼,箭頭的起點(diǎn)為呼叫發(fā)起方,箭頭的終點(diǎn)為被呼叫方。

表1 存在騷擾性質(zhì)的貓池濫用行為

表1列出了具有騷擾行為的貓池活動示例,可見該組IMEI所綁定的手機(jī)號均被標(biāo)記為騷擾電話、房產(chǎn)中介或廣告推銷(標(biāo)記使用360搜索得到)。

4 結(jié)論

本文提出的基于主題模型的貓池濫用行為識別算法能夠同時從時間和空間對號碼的通信行為進(jìn)行建模,找到經(jīng)常同一時間和同一地點(diǎn)共同出現(xiàn)的一組號碼,從而確定疑似的貓池行為。并根據(jù)諸多非法貓池的特征進(jìn)一步確定貓池濫用的行為。實(shí)驗(yàn)證明,該方法可以有效的從海量數(shù)據(jù)中識別出貓池濫用的行為,通過第三方驗(yàn)證,可以看出貓池所使用的號碼確實(shí)從事騷擾電話等非法活動。

當(dāng)然,由于LDA算法需要人為設(shè)定主題數(shù)量參數(shù),我們通常無法預(yù)知數(shù)據(jù)的分布情況,該參數(shù)僅能憑經(jīng)驗(yàn)設(shè)定。這就導(dǎo)致該模型并不能識別網(wǎng)絡(luò)中所有的貓池行為。識別出的貓池行為通常為網(wǎng)絡(luò)中最顯著的。一些不夠顯著的貓池行為將被忽略。未來可以思考新的算法,來修補(bǔ)該模型的這一弊端。

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學(xué)特征認(rèn)識
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
如何表達(dá)“特征”
不忠誠的四個特征
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
主站蜘蛛池模板: 亚洲性视频网站| 亚洲第一视频网| 欧美午夜在线观看| 色婷婷国产精品视频| 狠狠色成人综合首页| 欧美日韩另类国产| 中文字幕波多野不卡一区| 精品無碼一區在線觀看 | 特级毛片免费视频| 色成人综合| 国产成人啪视频一区二区三区| 99爱在线| 在线精品视频成人网| 99免费在线观看视频| 国产精品深爱在线| 国产精品综合色区在线观看| 国产亚洲精品无码专| 日韩二区三区无| 日韩无码白| 国产黑丝一区| 国产1区2区在线观看| 久久国产精品影院| 亚洲精品国产乱码不卡| 91青草视频| 国产精品视频导航| 毛片手机在线看| 亚洲成人黄色在线观看| 国产真实乱子伦视频播放| 亚洲无码高清一区二区| 无码日韩视频| 亚洲精品天堂在线观看| 国产老女人精品免费视频| 日韩美女福利视频| 国产在线观看精品| 色有码无码视频| 亚洲码一区二区三区| 国产精品偷伦在线观看| av午夜福利一片免费看| 免费在线一区| 国产成人高清精品免费5388| 国产精品所毛片视频| 国产成人精品高清在线| 亚洲成a人片77777在线播放| 伊人成人在线| 成人中文字幕在线| 免费毛片网站在线观看| 国产高清在线丝袜精品一区| 一本视频精品中文字幕| 国内嫩模私拍精品视频| 欧美不卡视频在线观看| 精品久久蜜桃| 欧美97欧美综合色伦图| 91青青在线视频| 国产男人天堂| 亚洲婷婷丁香| 日本免费一级视频| 久久综合伊人77777| 91精品人妻互换| 欧美a级完整在线观看| 色综合中文综合网| 91亚洲影院| AV不卡无码免费一区二区三区| 国产啪在线91| 亚州AV秘 一区二区三区| 国产在线91在线电影| WWW丫丫国产成人精品| 亚洲欧美天堂网| 亚洲国产中文精品va在线播放| 一本一道波多野结衣一区二区| 国产真实乱子伦精品视手机观看| 日韩精品久久久久久久电影蜜臀| 久久特级毛片| 久久精品波多野结衣| 伊人成人在线视频| 亚洲高清中文字幕在线看不卡| 亚洲AⅤ永久无码精品毛片| 亚洲色图在线观看| 亚洲人成电影在线播放| 无码日韩人妻精品久久蜜桃| 一本色道久久88综合日韩精品| 国产真实乱了在线播放| 亚洲无码91视频|