李國(guó)靜 尹天陽(yáng) 張興睿
(北京銳馳信安技術(shù)有限公司 北京 100192)
互聯(lián)網(wǎng)技術(shù)的快速發(fā)展帶給人們便利生活的同時(shí),也導(dǎo)致很多不法行為借助互聯(lián)網(wǎng)平臺(tái)的肆意傳播,賭博網(wǎng)站便是其中之一。賭博網(wǎng)站由于其傳播范圍廣、傳播速度快,已成為危害正常網(wǎng)站秩序、破壞良好網(wǎng)絡(luò)環(huán)境的罪魁禍?zhǔn)字弧Y€博網(wǎng)站甚至逐漸演變成網(wǎng)絡(luò)詐騙、病毒傳播等其他網(wǎng)絡(luò)犯罪的重要推手。因此,有效打擊賭博網(wǎng)站,已成為打擊網(wǎng)絡(luò)犯罪與網(wǎng)絡(luò)黑色產(chǎn)業(yè)的重要一環(huán),是維護(hù)風(fēng)朗氣清的網(wǎng)絡(luò)環(huán)境關(guān)鍵一步。
目前,針對(duì)賭博網(wǎng)站等違法網(wǎng)站的檢測(cè)與識(shí)別主要分為靜態(tài)檢測(cè)和動(dòng)態(tài)檢測(cè)。靜態(tài)檢測(cè)主要通過(guò)獲取網(wǎng)站的靜態(tài)數(shù)據(jù)、URL、關(guān)鍵詞等靜態(tài)信息,并結(jié)合機(jī)器學(xué)習(xí)等算法,實(shí)現(xiàn)對(duì)賭博網(wǎng)站的檢測(cè)。但是由于受網(wǎng)站靜態(tài)數(shù)據(jù)所限,該方法面對(duì)未知的賭博網(wǎng)站檢測(cè)效果不佳。動(dòng)態(tài)檢測(cè)則是通過(guò)與網(wǎng)站之間的通信,獲取網(wǎng)站相關(guān)的網(wǎng)絡(luò)行為并進(jìn)行分析,通過(guò)是否存在惡意行為來(lái)判斷是否為違法網(wǎng)站。由于賭博網(wǎng)站沒(méi)有明顯的網(wǎng)絡(luò)惡意行為,動(dòng)態(tài)檢測(cè)方法針對(duì)賭博網(wǎng)站也很難奏效。因此,本文提出了一種基于Pachinko Allocation Model(PAM)概率主題模型的賭博網(wǎng)站檢測(cè)方法,通過(guò)分析網(wǎng)站內(nèi)容所描述的主題信息,來(lái)判斷是否為賭博網(wǎng)站。
針對(duì)賭博網(wǎng)站等違法網(wǎng)站的檢測(cè)方法,國(guó)內(nèi)外涌現(xiàn)了大量的研究成果。張瀚瓏等[1]從HTTP POST中提取特征,通過(guò)聚類(lèi)算法對(duì)此類(lèi)特征進(jìn)行聚類(lèi)分析,從中提取賭博網(wǎng)站等違法網(wǎng)站的模板,該模板則可用來(lái)檢測(cè)相關(guān)違法網(wǎng)站。凡友榮等[2]采用Fast Unfolding算法進(jìn)行網(wǎng)站聚類(lèi)并抽取賭博網(wǎng)站等違法網(wǎng)站的URL特征,利用特定特征作為違法網(wǎng)站的檢測(cè)特征,從而對(duì)于未知網(wǎng)站,判斷其是否具有URL違法特征進(jìn)行檢測(cè)。黃華軍等[3]通過(guò)分析釣魚(yú)網(wǎng)站等違法網(wǎng)站的URL地址的結(jié)構(gòu)和詞匯特征,提出一種基于異常特征的釣魚(yú)網(wǎng)站識(shí)別方法,根據(jù)URL地址的特征向量,利用支持向量機(jī)進(jìn)行訓(xùn)練和分類(lèi),達(dá)到了較高的釣魚(yú)網(wǎng)站識(shí)別率。Eshete等[4]通過(guò)分析惡意網(wǎng)站所使用的工具集,提出一種利用相關(guān)工具集的流量信息來(lái)檢測(cè)惡意URL的方法,該方法通過(guò)機(jī)器學(xué)習(xí)算法來(lái)捕獲惡意URL所使用工具集的流量特征,從而檢測(cè)相關(guān)URL是否采用此類(lèi)工具集實(shí)施網(wǎng)絡(luò)惡意行為。Bilge等[5]對(duì)DNS請(qǐng)示進(jìn)行分析,設(shè)計(jì)了一種用于實(shí)時(shí)檢測(cè)惡意域名的系統(tǒng)(EXPOSURE),該系統(tǒng)利用其獲取的4個(gè)類(lèi)別的15個(gè)特征,能夠?qū)崟r(shí)、有效地對(duì)惡意域名進(jìn)行檢測(cè)。臧小東等[6]提出一種分類(lèi)與聚類(lèi)相結(jié)合的思路,檢測(cè)由域名生成算法生成的同類(lèi)或相似的惡意域名。Kim等[7]提出一種自動(dòng)、低交互的惡意網(wǎng)頁(yè)檢測(cè)系統(tǒng)(WebMon),該系統(tǒng)通過(guò)追蹤URL鏈接檢測(cè)潛在的惡意代碼,從而判斷是否為惡意網(wǎng)站。同時(shí),該方法還能夠抽取惡意網(wǎng)站的傳播路徑。
雖然賭博網(wǎng)站的域名變換迅速、網(wǎng)站偽裝程度高,但不管賭博網(wǎng)站如何偽裝或者隱蔽,其網(wǎng)站的賭博內(nèi)容很難變化。為有效打擊日益泛濫的賭博網(wǎng)站,故本文從網(wǎng)站內(nèi)容主題挖掘的角度出發(fā)對(duì)賭博網(wǎng)站的檢測(cè)。
PAM是一種基于有向無(wú)環(huán)圖結(jié)構(gòu)(DAG)的概率主題模型[8],該主題模型的結(jié)構(gòu)十分靈活,如圖1所示,它既可以是基本的“文本—超主題—子主題—單詞”的多層結(jié)構(gòu),也可以是各層之間任意嵌套的結(jié)構(gòu)。PAM模型中,根節(jié)點(diǎn)代表文本,葉子節(jié)點(diǎn)表示單詞,中間節(jié)點(diǎn)代表子主題或超主題,圖中每個(gè)節(jié)點(diǎn)在其孩子節(jié)點(diǎn)上均服從Dirichlet分布。

圖1 4L-PAM結(jié)構(gòu)示意圖
以圖1中四層結(jié)構(gòu)PAM(4L-PAM)為例,對(duì)于每篇文檔d的產(chǎn)生過(guò)程描述如下:
(1) 根據(jù)4L-PAM中文檔節(jié)點(diǎn)在超主題上的Dirichlet分布αr,采樣其對(duì)應(yīng)超主題的多項(xiàng)分布θr;
(2) 對(duì)于每個(gè)超主題ti所服從的Dirichlet分布αi,采樣其對(duì)應(yīng)子主題的多項(xiàng)分布θi;
(3) 針對(duì)形成文檔d的每個(gè)單詞w,根據(jù)超主題的多項(xiàng)分布θr采樣一個(gè)超主題zi,根據(jù)zi上對(duì)應(yīng)子主題的多項(xiàng)分布θi采樣一個(gè)子主題zj,最后根據(jù)zj在單詞上的多項(xiàng)分布φj采樣一個(gè)單詞。
在4L-PAM中,除文檔及超主題在其孩子節(jié)點(diǎn)上服務(wù)Dirichlet分布以外,子主題zj在所有單詞上服務(wù)固定的多項(xiàng)分布φj。因此,文檔d形成的概率可表示為:

(1)
在概率主題模型中,每篇文檔均被看作是由若干隱含主題所構(gòu)成,而每個(gè)主題都由特定單詞所體現(xiàn)。因此,不同單詞的分布被看作是不同的隱含主題,而每個(gè)文檔則是這些主題在特定比例下的組合。針對(duì)賭博網(wǎng)站檢測(cè)問(wèn)題,本文將網(wǎng)站也看作是一個(gè)特定的文檔,通過(guò)抽取網(wǎng)站的HTML、腳本語(yǔ)言等信息,形成網(wǎng)站的文本信息。由于網(wǎng)站所呈現(xiàn)的主題由網(wǎng)站內(nèi)容所決定,因此通過(guò)抽取網(wǎng)站文本信息的主題,可以有效地對(duì)網(wǎng)站進(jìn)行主題分類(lèi),從而針對(duì)“賭博”性質(zhì)的網(wǎng)站實(shí)施檢測(cè)。
PAM模型能夠從大量文檔中學(xué)習(xí)隱含主題,并且能夠描述主題與詞,主題與主題之間的關(guān)聯(lián)性[9]。然而,PAM模型對(duì)文檔主題的學(xué)習(xí)由文檔內(nèi)容所決定,從賭博網(wǎng)站檢測(cè)的問(wèn)題出發(fā),如何利用PAM模型學(xué)習(xí)“賭博”相關(guān)的主題,并利用該模型對(duì)網(wǎng)站是否為賭博網(wǎng)站進(jìn)行判斷,是實(shí)現(xiàn)賭博網(wǎng)站檢測(cè)的重要一步。
由于單純利用特定關(guān)鍵詞,如“下注”“博彩”“籌碼”等作為表達(dá)“賭博”主題的關(guān)鍵詞,并不能有效地實(shí)現(xiàn)對(duì)賭博網(wǎng)站的檢測(cè),還有可能產(chǎn)生誤判。因?yàn)榉琴€博網(wǎng)站也有可能頻繁出現(xiàn)此類(lèi)關(guān)鍵詞,從而導(dǎo)致檢測(cè)結(jié)果產(chǎn)生較大誤差。
通過(guò)對(duì)賭博網(wǎng)站的分析,本文發(fā)現(xiàn)大多數(shù)賭博網(wǎng)站都是封閉的,即網(wǎng)站的相關(guān)鏈接均指向賭博網(wǎng)站的其他內(nèi)容或者相關(guān)賭博信息;相反,一般正常的網(wǎng)站則相對(duì)開(kāi)放,網(wǎng)站鏈接會(huì)在不同主題的網(wǎng)站之間跳轉(zhuǎn)。因此,根據(jù)這個(gè)特性,本文對(duì)所需要進(jìn)行檢測(cè)的網(wǎng)站隨機(jī)采樣多個(gè)頁(yè)面內(nèi)容,通過(guò)對(duì)這些關(guān)聯(lián)頁(yè)面進(jìn)行主題提取,若多個(gè)頁(yè)面均是關(guān)于“賭博”主題的,則在很大概率上說(shuō)明此類(lèi)網(wǎng)站是賭博網(wǎng)站;相反,不同頁(yè)面的主題差異較大,則說(shuō)明此類(lèi)網(wǎng)站是賭博網(wǎng)站的概率就低。
同時(shí),HTML是一種結(jié)構(gòu)化的標(biāo)記語(yǔ)言,網(wǎng)站不同位置所顯示的文本信息,有著不同的含義和價(jià)值,如在HTML中“”標(biāo)簽所顯示的內(nèi)容往往是該網(wǎng)站的標(biāo)題或者核心內(nèi)容[10-11]。而PAM則采用詞袋模型來(lái)描述文本內(nèi)容,忽略文本的序列或者結(jié)構(gòu)信息。針對(duì)賭博網(wǎng)站檢測(cè)的問(wèn)題,如果單純地抽取網(wǎng)站的文本內(nèi)容而忽略了其結(jié)構(gòu)上的信息,往往會(huì)丟失很多重要的信息,不利于賭博網(wǎng)站的檢測(cè)。因此,為了體現(xiàn)網(wǎng)站的結(jié)構(gòu)信息,本文在詞袋模型中加入能夠體現(xiàn)網(wǎng)站結(jié)構(gòu)信息的特征,并對(duì)此類(lèi)特征賦予一定的權(quán)值,從而在PAM模型進(jìn)行主題挖掘時(shí)能夠考慮網(wǎng)站的結(jié)構(gòu)特征,更有利于對(duì)網(wǎng)站的主題進(jìn)行挖掘。
因此,在PAM的詞袋模型中,對(duì)從網(wǎng)站上抽取的文本信息附上其在HTML的標(biāo)簽。例如:HTML文本中“”,分詞后加入詞袋模型的單詞為:“t澳門(mén)、t新葡京、t官網(wǎng)”,其中“t”表示單詞在HTML的標(biāo)簽為“title”。為了避免標(biāo)簽區(qū)分得過(guò)細(xì),導(dǎo)致詞袋模型中的單詞在主題上的分布過(guò)于稀疏,本文只選取HTML中三個(gè)主要的標(biāo)簽,即“title”“head”“body”,在各個(gè)標(biāo)簽下的單詞分別附加上相應(yīng)的標(biāo)識(shí),以做區(qū)分。通過(guò)針對(duì)不同標(biāo)簽下的單詞對(duì)于網(wǎng)站主題的影響,設(shè)置不同的權(quán)重,從而實(shí)現(xiàn)對(duì)網(wǎng)站結(jié)構(gòu)信息的利用,挖掘網(wǎng)站的主題。
Gibbs采樣是一種基于條件分布的迭代采樣算法[12],通過(guò)總體分布的條件分布簇來(lái)構(gòu)建一個(gè)以該總體分布為平衡分布的馬爾可夫鏈,從而對(duì)PAM模型的相關(guān)參數(shù)進(jìn)行估計(jì),并利用PAM模型對(duì)新的網(wǎng)站進(jìn)行主題的推理。本文所采用的PAM模型是4L-PAM模型。
1) PAM參數(shù)訓(xùn)練。在4L-PAM模型中,每個(gè)單詞均包含一個(gè)子主題z和一個(gè)超主題z′,只需對(duì)每個(gè)單詞w采樣其子主題和超主題,從而獲得在這些主題下單詞w的聯(lián)合概率:
(2)

概率主題模型中僅通過(guò)詞頻作為模型參數(shù)訓(xùn)練的依據(jù),為了引入網(wǎng)站結(jié)構(gòu)信息的相關(guān)特性,本文將處于不同網(wǎng)站標(biāo)簽內(nèi)的單詞賦予不同的權(quán)重。而在詞袋模型中,則表現(xiàn)為對(duì)相應(yīng)標(biāo)簽的單詞放大其在詞袋模型中的出現(xiàn)的頻率,從而提高網(wǎng)站特定標(biāo)簽單詞對(duì)網(wǎng)站主題挖掘的影響。PAM參數(shù)訓(xùn)練算法的過(guò)程描述如算法1所示,PAM模型的訓(xùn)練實(shí)質(zhì)是對(duì)參數(shù)α和β的訓(xùn)練,相關(guān)參數(shù)直接由所訓(xùn)練的文本所決定。因此,在模型訓(xùn)練時(shí),可隨機(jī)設(shè)置相關(guān)參數(shù),在Gibbs采樣過(guò)程收斂之后,取后續(xù)n個(gè)迭代結(jié)果的平均值作參數(shù)估計(jì)。
算法1PAM Training
1. 隨機(jī)初始化。針對(duì)整個(gè)文檔集中,每個(gè)文檔的每個(gè)單詞w,隨機(jī)對(duì)其設(shè)置一個(gè)子主題和一個(gè)超主題,得到初始的馬爾可夫鏈。
2. 重新掃描整個(gè)文檔集。對(duì)每個(gè)單詞,按照Gibbs采樣公式重新采樣它的相關(guān)主題,并進(jìn)行更新。
3. 重復(fù)步驟2直到Gibbs采樣過(guò)程收斂。
4. 統(tǒng)計(jì)整個(gè)文檔集中超主題與子主題,子主題與單詞之間的共現(xiàn)頻率矩陣,計(jì)算相關(guān)參數(shù)α和β。
2) 網(wǎng)站主題推理。在獲得針對(duì)網(wǎng)站主題挖掘的PAM模型之后,就可以對(duì)新的網(wǎng)站進(jìn)行主題挖掘,從而檢測(cè)其是否為賭博網(wǎng)站。利用PAM模型對(duì)新網(wǎng)站進(jìn)行主題推理的過(guò)程與上述PAM參數(shù)訓(xùn)練的過(guò)程基本一致[13]。在網(wǎng)站主題推理過(guò)程中,只需保持式(2)中αij和βk這兩個(gè)參數(shù)不變。因?yàn)檫@兩個(gè)參數(shù)分別表示超主題在子主題上的Dirichlet分布和子主題在所有單詞上的多項(xiàng)分布,它們是由訓(xùn)練文檔集所決定的,接下來(lái)只需要估計(jì)文檔在超主題上分布,就能夠推理出該網(wǎng)站的相關(guān)主題。PAM主題推理算法的過(guò)程如算法2所示。
算法2PAM Topic Inference
1. 隨機(jī)初始化。對(duì)新文檔的每個(gè)詞隨機(jī)賦予一個(gè)超主題和一個(gè)子主題。
2. 重新掃描當(dāng)前文檔,對(duì)每個(gè)單詞,按照Gibbs采樣公式僅采樣當(dāng)前文檔的超主題分布信息,并進(jìn)行更新。
3. 重復(fù)步驟2直到Gibbs采樣過(guò)程收斂。
4. 統(tǒng)計(jì)當(dāng)前文檔的超主題分布,該分布就反映了當(dāng)前文檔的主題信息。
經(jīng)PAM模型推理出的網(wǎng)站主題通常是關(guān)于一系列主題的分布,一般取概率最高的主題作為該網(wǎng)站所描述的主題。
賭博檢測(cè)檢測(cè)系統(tǒng)實(shí)現(xiàn)了針對(duì)相關(guān)網(wǎng)站進(jìn)行自動(dòng)檢測(cè)并識(shí)別是否為賭博網(wǎng)站的功能。該系統(tǒng)的構(gòu)架如圖2所示,主要分為網(wǎng)站文本及結(jié)構(gòu)信息采集模塊、網(wǎng)站主題挖掘模塊、賭博網(wǎng)站檢測(cè)模塊。

圖2 賭博網(wǎng)站檢測(cè)系統(tǒng)工作流程圖
1) 網(wǎng)站文本及結(jié)構(gòu)信息采集模塊。該模塊主要承擔(dān)了網(wǎng)站文本信息、網(wǎng)站結(jié)構(gòu)化信息的采集等工作,用于進(jìn)一步根據(jù)其網(wǎng)站主要內(nèi)容進(jìn)行網(wǎng)站主題的挖掘。從對(duì)賭博網(wǎng)站的特征進(jìn)行分析,本文發(fā)現(xiàn)賭博網(wǎng)站相對(duì)比較封閉,其網(wǎng)站上鏈接的指向往往是賭博網(wǎng)站的其他頁(yè)面。而傳統(tǒng)網(wǎng)站的鏈接則可能跳轉(zhuǎn)到其他不同類(lèi)型的網(wǎng)站。因此,在進(jìn)行網(wǎng)站主題挖掘之前,本文首先采樣被檢測(cè)網(wǎng)站的相關(guān)鏈接,獲得多個(gè)與之關(guān)聯(lián)的網(wǎng)頁(yè),將所有網(wǎng)頁(yè)分別進(jìn)行主題挖掘,從而比較各網(wǎng)頁(yè)主題的分布。如果多數(shù)網(wǎng)頁(yè)在大概率情況下,均傾向于“賭博”主題,則說(shuō)明被檢測(cè)網(wǎng)站為賭博網(wǎng)站。
同時(shí),結(jié)合網(wǎng)頁(yè)結(jié)構(gòu)化信息,將位于網(wǎng)頁(yè)不同位置的文本賦予不同的權(quán)重,即提高相應(yīng)HTML標(biāo)簽下文本內(nèi)容在詞袋模型中出現(xiàn)的頻率,從而充分利用網(wǎng)站的結(jié)構(gòu)化信息,使得在進(jìn)行網(wǎng)站主題挖掘時(shí)的準(zhǔn)確性更高。
2) 網(wǎng)站主題挖掘模塊。在獲取被檢測(cè)網(wǎng)站及關(guān)聯(lián)網(wǎng)頁(yè)的文本信息后,需要對(duì)其文本內(nèi)容進(jìn)行主題挖掘,進(jìn)而獲得該網(wǎng)頁(yè)內(nèi)容所描述的相關(guān)主題。該模塊通過(guò)4L-PAM模型對(duì)網(wǎng)頁(yè)文本內(nèi)容進(jìn)行主題挖掘,從而形成各個(gè)網(wǎng)頁(yè)上的主題分布。通常,將高概率的主題作為描述該網(wǎng)頁(yè)主要內(nèi)容的主題。
3) 賭博網(wǎng)站檢測(cè)模塊。在獲得了各個(gè)網(wǎng)頁(yè)主題分布之后,計(jì)算所有網(wǎng)頁(yè)在“賭博”主題上概率的平均值,作為評(píng)估被檢測(cè)網(wǎng)站是否為賭博網(wǎng)站的指標(biāo),如式(3)所示。假設(shè)當(dāng)前共有n個(gè)網(wǎng)頁(yè),pi表示第i個(gè)網(wǎng)頁(yè)所挖掘的主要分布中“賭博”主題所占的概率,λi表示第i個(gè)網(wǎng)頁(yè)對(duì)應(yīng)的權(quán)重(默認(rèn)情況下,λi=1)。為避免因“賭博”主題在某些網(wǎng)頁(yè)所占比例較小而影響平均概率,因此,對(duì)于“賭博”主題所占比例小于30%的網(wǎng)頁(yè),本文在計(jì)算賭博網(wǎng)站檢測(cè)指標(biāo)pg時(shí),設(shè)置此類(lèi)網(wǎng)頁(yè)對(duì)應(yīng)的“賭博”主題的概率和相應(yīng)的網(wǎng)頁(yè)權(quán)重均為0,從而忽略其對(duì)“賭博”主題的判斷。
(3)
最后,根據(jù)pg的數(shù)值可以判斷被檢測(cè)網(wǎng)站為賭博網(wǎng)站的概率。一般,當(dāng)pg>0.5時(shí),本文就認(rèn)為被檢測(cè)網(wǎng)站為賭博相關(guān)的網(wǎng)站。
實(shí)驗(yàn)爬取了各類(lèi)主題的網(wǎng)站(包含賭博網(wǎng)站),共獲得了2 000個(gè)網(wǎng)頁(yè),其中賭博網(wǎng)站相關(guān)的頁(yè)面100個(gè)。對(duì)上述所有網(wǎng)頁(yè)抽取其網(wǎng)頁(yè)文本內(nèi)容,并根據(jù)相關(guān)文本在網(wǎng)站的位置賦予不同的權(quán)重,從而形成了用于PAM模型訓(xùn)練的文檔集合。
首先設(shè)置PAM模型的超主題個(gè)數(shù)為20,子主題個(gè)數(shù)為40,相關(guān)參數(shù)α為1.0(文檔在超主題,超主題在子主題上的Dirichlet分布參數(shù)),β為0.01(子主題在單詞上的分布參數(shù))。通過(guò)算法1描述的PAM訓(xùn)練方法,可以得到在這些文檔集上所訓(xùn)練的PAM模型。從賭博網(wǎng)站檢測(cè)的問(wèn)題出發(fā),本文只關(guān)注由PAM模型訓(xùn)練出的關(guān)于“賭博”的相關(guān)主題。
表1列舉了由PAM模型所訓(xùn)練出的關(guān)于“賭博”的超主題,以及該主題下部分子主題和部分高頻詞的分布。可以看出,在對(duì)新的網(wǎng)站進(jìn)行主題挖掘時(shí),該主題在該網(wǎng)站的超主題分布中所占比例越高,說(shuō)明該網(wǎng)站為賭博網(wǎng)站的概率就越高。

表1 “賭博”主題及其高頻詞分布
針對(duì)賭博網(wǎng)站檢測(cè)的評(píng)估,實(shí)驗(yàn)重新爬取了非賭博網(wǎng)站和賭博網(wǎng)站各100個(gè)網(wǎng)頁(yè),對(duì)本文利用PAM模型檢測(cè)賭博網(wǎng)站的方法進(jìn)行評(píng)估。實(shí)驗(yàn)通過(guò)準(zhǔn)確率P、召回率R及綜合評(píng)價(jià)指標(biāo)F1對(duì)本文在賭博網(wǎng)站檢測(cè)方法進(jìn)行進(jìn)行評(píng)估。實(shí)驗(yàn)用t_b表示被正確識(shí)別的賭博網(wǎng)站數(shù)量,f_b表示非賭博網(wǎng)站被錯(cuò)誤識(shí)別的數(shù)量,f_w表示賭博網(wǎng)站沒(méi)有被正確識(shí)別的數(shù)量,各評(píng)估指標(biāo)的具體計(jì)算方法如下:
(4)
(5)
(6)
實(shí)驗(yàn)將本文方法(PAM)與基于網(wǎng)站模板的檢測(cè)方法(Template)[1]、基于URL的賭博網(wǎng)站檢測(cè)方法(URL)[2]進(jìn)行對(duì)比實(shí)驗(yàn),對(duì)比結(jié)果如表2所示。

表2 實(shí)驗(yàn)數(shù)據(jù)對(duì)比
基于URL的賭博網(wǎng)站檢測(cè)方法在僅利用URL等相關(guān)信息的情況下,對(duì)于賭博網(wǎng)站的URL有明顯特征的情況下,其檢測(cè)效果較好,但是考慮到很多賭博網(wǎng)絡(luò)頻繁更換URL,有些賭博網(wǎng)站的URL不帶有明顯的特征,因此此類(lèi)方法很難有效、準(zhǔn)確地對(duì)賭博網(wǎng)站進(jìn)行檢測(cè)。基于模板的賭博網(wǎng)站檢測(cè)方法則從HTTP POST提出網(wǎng)站的特征來(lái)獲取賭博網(wǎng)站的模板,進(jìn)而利用該模板對(duì)賭博網(wǎng)站進(jìn)行檢測(cè),由于賭博網(wǎng)站形式多變,單一模板很難涵蓋大部分的賭博網(wǎng)站,面對(duì)新的賭博網(wǎng)站類(lèi)型,該方法檢測(cè)效果可能有所下降。本文方法基于PAM模型,通過(guò)對(duì)網(wǎng)站內(nèi)容進(jìn)行主題挖掘,抽取網(wǎng)站內(nèi)容所描述的相關(guān)主題來(lái)作為判斷是否為賭博網(wǎng)站的依據(jù),因此本文方法的適用性更廣,面對(duì)復(fù)雜網(wǎng)絡(luò)環(huán)境時(shí)的檢測(cè)效果更好。
Template方法通過(guò)對(duì)賭博網(wǎng)站的網(wǎng)站特征進(jìn)行聚類(lèi)分析,以此獲得相應(yīng)的賭博網(wǎng)站模板,從而根據(jù)該模板檢測(cè)賭博網(wǎng)站。URL方法則通過(guò)抽取賭博網(wǎng)站的URL特征并以該特征對(duì)賭博網(wǎng)站進(jìn)行檢測(cè)。但當(dāng)前賭博網(wǎng)站逐漸從傳統(tǒng)博彩向多樣化的網(wǎng)站賭博轉(zhuǎn)變,如借助網(wǎng)頁(yè)游戲進(jìn)行賭博。同時(shí),賭博網(wǎng)站架構(gòu)、網(wǎng)站域名等相關(guān)信息的規(guī)范化程度逐漸提高,使得此類(lèi)賭博網(wǎng)站與游戲網(wǎng)站在網(wǎng)站特征、URL等方面的相似度很高,僅通過(guò)此類(lèi)信息進(jìn)行檢測(cè),效率可能會(huì)有所下降。而本文從網(wǎng)站內(nèi)容的角度出發(fā),通過(guò)抽取網(wǎng)站內(nèi)容所描述的主題對(duì)賭博網(wǎng)站進(jìn)行檢測(cè)。因賭博網(wǎng)站網(wǎng)頁(yè)內(nèi)容所描述的信息難以脫離賭博等相關(guān)主題,因此針對(duì)網(wǎng)站描述內(nèi)容進(jìn)行賭博網(wǎng)站的檢測(cè),會(huì)大大提高對(duì)賭博網(wǎng)站的識(shí)別率。
考慮到PAM模型所訓(xùn)練的主題及其分布對(duì)賭博網(wǎng)站的識(shí)別至關(guān)重要,本文針對(duì)PAM模型所設(shè)置的超主題、子主題的個(gè)數(shù)對(duì)實(shí)驗(yàn)結(jié)果的影響進(jìn)行了分析。因?yàn)楸疚膬H面向賭博網(wǎng)站進(jìn)行主題挖掘與檢測(cè),因此除“賭博”主題外,其他所挖掘的超主題類(lèi)型均不在本文的考慮范圍內(nèi)。首先,在保持超主題個(gè)數(shù)不變的情況下,動(dòng)態(tài)調(diào)整子主題個(gè)數(shù)來(lái)評(píng)估PAM模型對(duì)賭博網(wǎng)站檢測(cè)的影響。如圖3所示,子主題個(gè)數(shù)分別從10變化至90。在不同的子主題個(gè)數(shù)影響下,訓(xùn)練所得PAM模型在賭博網(wǎng)站檢測(cè)上的準(zhǔn)確率和召回率也隨之變化。從圖中所得數(shù)據(jù)可知,針對(duì)當(dāng)前訓(xùn)練文檔集和賭博網(wǎng)站檢測(cè)的問(wèn)題,在子主題設(shè)置個(gè)數(shù)為40時(shí),訓(xùn)練所得PAM模型在該問(wèn)題上的檢測(cè)效果最優(yōu)。而當(dāng)子主題規(guī)模繼續(xù)擴(kuò)大時(shí),子主題過(guò)于分散,則會(huì)導(dǎo)致超主題在子主題上的分布過(guò)于稀疏,從而影響對(duì)網(wǎng)站主題的判斷。

圖3 子主題個(gè)數(shù)對(duì)實(shí)驗(yàn)結(jié)果的影響
基于上述結(jié)論,保持子主題個(gè)數(shù)為40,動(dòng)態(tài)調(diào)整超主題個(gè)數(shù)來(lái)評(píng)估其對(duì)賭博網(wǎng)站檢測(cè)的影響。如圖4所示,隨著超主題個(gè)數(shù)的增加,本文方法對(duì)賭博網(wǎng)站的檢測(cè)結(jié)果呈上升趨勢(shì)。超主題個(gè)數(shù)在達(dá)到18個(gè)之后,實(shí)驗(yàn)的準(zhǔn)確率趨于平衡,但是隨著超主題的個(gè)數(shù)持續(xù)增加,召回率則有下降趨勢(shì)。實(shí)驗(yàn)結(jié)果說(shuō)明,針對(duì)本文的訓(xùn)練文檔集,超主題個(gè)數(shù)控制在18至20個(gè)為最佳。過(guò)多的超主題會(huì)削弱超主題在子主題上的統(tǒng)計(jì)分析,可能導(dǎo)致更多無(wú)關(guān)主題被關(guān)聯(lián)到“賭博”主題上,從而使檢測(cè)過(guò)程中的誤報(bào)率上升。

圖4 超主題個(gè)數(shù)對(duì)實(shí)驗(yàn)結(jié)果的影響
本文針對(duì)賭博網(wǎng)站檢測(cè)的問(wèn)題,提出了一種基于PAM概率主題模型的檢測(cè)方法。該方法通過(guò)分析網(wǎng)站及相關(guān)網(wǎng)頁(yè)的內(nèi)容,挖掘網(wǎng)頁(yè)所描述的主題,根據(jù)網(wǎng)頁(yè)主題來(lái)判斷網(wǎng)站是否為賭博網(wǎng)站。為提高賭博網(wǎng)站檢測(cè)與識(shí)別的準(zhǔn)確度,本文將網(wǎng)站文本的結(jié)構(gòu)特征引入PAM模型中,并給予了不同的權(quán)重,從而有效利用網(wǎng)站結(jié)構(gòu)信息對(duì)網(wǎng)站主題的影響,提高網(wǎng)站主題挖掘的準(zhǔn)確性。同時(shí),利用賭博網(wǎng)站的封閉性,將被檢測(cè)網(wǎng)站的關(guān)聯(lián)網(wǎng)頁(yè)一同進(jìn)行主題挖掘,綜合判斷當(dāng)前網(wǎng)站的類(lèi)型,大大提高了賭博網(wǎng)站的識(shí)別率。