基于PAM概率主題模型的賭博網(wǎng)站檢測(cè)方法

2021-09-15 11:20:22李國(guó)靜尹天陽(yáng)張興睿

計(jì)算機(jī)應(yīng)用與軟件 2021年9期

李國(guó)靜尹天陽(yáng) 張興睿

(北京銳馳信安技術(shù)有限公司北京 100192)

0 引言

互聯(lián)網(wǎng)技術(shù)的快速發(fā)展帶給人們便利生活的同時(shí)，也導(dǎo)致很多不法行為借助互聯(lián)網(wǎng)平臺(tái)的肆意傳播，賭博網(wǎng)站便是其中之一。賭博網(wǎng)站由于其傳播范圍廣、傳播速度快，已成為危害正常網(wǎng)站秩序、破壞良好網(wǎng)絡(luò)環(huán)境的罪魁禍?zhǔn)字弧Ｙ€博網(wǎng)站甚至逐漸演變成網(wǎng)絡(luò)詐騙、病毒傳播等其他網(wǎng)絡(luò)犯罪的重要推手。因此，有效打擊賭博網(wǎng)站，已成為打擊網(wǎng)絡(luò)犯罪與網(wǎng)絡(luò)黑色產(chǎn)業(yè)的重要一環(huán)，是維護(hù)風(fēng)朗氣清的網(wǎng)絡(luò)環(huán)境關(guān)鍵一步。

目前，針對(duì)賭博網(wǎng)站等違法網(wǎng)站的檢測(cè)與識(shí)別主要分為靜態(tài)檢測(cè)和動(dòng)態(tài)檢測(cè)。靜態(tài)檢測(cè)主要通過獲取網(wǎng)站的靜態(tài)數(shù)據(jù)、URL、關(guān)鍵詞等靜態(tài)信息，并結(jié)合機(jī)器學(xué)習(xí)等算法，實(shí)現(xiàn)對(duì)賭博網(wǎng)站的檢測(cè)。但是由于受網(wǎng)站靜態(tài)數(shù)據(jù)所限，該方法面對(duì)未知的賭博網(wǎng)站檢測(cè)效果不佳。動(dòng)態(tài)檢測(cè)則是通過與網(wǎng)站之間的通信，獲取網(wǎng)站相關(guān)的網(wǎng)絡(luò)行為并進(jìn)行分析，通過是否存在惡意行為來判斷是否為違法網(wǎng)站。由于賭博網(wǎng)站沒有明顯的網(wǎng)絡(luò)惡意行為，動(dòng)態(tài)檢測(cè)方法針對(duì)賭博網(wǎng)站也很難奏效。因此，本文提出了一種基于Pachinko Allocation Model(PAM)概率主題模型的賭博網(wǎng)站檢測(cè)方法，通過分析網(wǎng)站內(nèi)容所描述的主題信息，來判斷是否為賭博網(wǎng)站。

1 相關(guān)工作

針對(duì)賭博網(wǎng)站等違法網(wǎng)站的檢測(cè)方法，國(guó)內(nèi)外涌現(xiàn)了大量的研究成果。張瀚瓏等[1]從HTTP POST中提取特征，通過聚類算法對(duì)此類特征進(jìn)行聚類分析，從中提取賭博網(wǎng)站等違法網(wǎng)站的模板，該模板則可用來檢測(cè)相關(guān)違法網(wǎng)站。凡友榮等[2]采用Fast Unfolding算法進(jìn)行網(wǎng)站聚類并抽取賭博網(wǎng)站等違法網(wǎng)站的URL特征，利用特定特征作為違法網(wǎng)站的檢測(cè)特征，從而對(duì)于未知網(wǎng)站，判斷其是否具有URL違法特征進(jìn)行檢測(cè)。黃華軍等[3]通過分析釣魚網(wǎng)站等違法網(wǎng)站的URL地址的結(jié)構(gòu)和詞匯特征，提出一種基于異常特征的釣魚網(wǎng)站識(shí)別方法，根據(jù)URL地址的特征向量，利用支持向量機(jī)進(jìn)行訓(xùn)練和分類，達(dá)到了較高的釣魚網(wǎng)站識(shí)別率。Eshete等[4]通過分析惡意網(wǎng)站所使用的工具集，提出一種利用相關(guān)工具集的流量信息來檢測(cè)惡意URL的方法，該方法通過機(jī)器學(xué)習(xí)算法來捕獲惡意URL所使用工具集的流量特征，從而檢測(cè)相關(guān)URL是否采用此類工具集實(shí)施網(wǎng)絡(luò)惡意行為。Bilge等[5]對(duì)DNS請(qǐng)示進(jìn)行分析，設(shè)計(jì)了一種用于實(shí)時(shí)檢測(cè)惡意域名的系統(tǒng)(EXPOSURE)，該系統(tǒng)利用其獲取的4個(gè)類別的15個(gè)特征，能夠?qū)崟r(shí)、有效地對(duì)惡意域名進(jìn)行檢測(cè)。臧小東等[6]提出一種分類與聚類相結(jié)合的思路，檢測(cè)由域名生成算法生成的同類或相似的惡意域名。Kim等[7]提出一種自動(dòng)、低交互的惡意網(wǎng)頁(yè)檢測(cè)系統(tǒng)(WebMon)，該系統(tǒng)通過追蹤URL鏈接檢測(cè)潛在的惡意代碼，從而判斷是否為惡意網(wǎng)站。同時(shí)，該方法還能夠抽取惡意網(wǎng)站的傳播路徑。

雖然賭博網(wǎng)站的域名變換迅速、網(wǎng)站偽裝程度高，但不管賭博網(wǎng)站如何偽裝或者隱蔽，其網(wǎng)站的賭博內(nèi)容很難變化。為有效打擊日益泛濫的賭博網(wǎng)站，故本文從網(wǎng)站內(nèi)容主題挖掘的角度出發(fā)對(duì)賭博網(wǎng)站的檢測(cè)。

2 方法設(shè)計(jì)

2.1 PAM模型概述

PAM是一種基于有向無環(huán)圖結(jié)構(gòu)(DAG)的概率主題模型[8]，該主題模型的結(jié)構(gòu)十分靈活，如圖1所示，它既可以是基本的“文本—超主題—子主題—單詞”的多層結(jié)構(gòu)，也可以是各層之間任意嵌套的結(jié)構(gòu)。PAM模型中，根節(jié)點(diǎn)代表文本，葉子節(jié)點(diǎn)表示單詞，中間節(jié)點(diǎn)代表子主題或超主題，圖中每個(gè)節(jié)點(diǎn)在其孩子節(jié)點(diǎn)上均服從Dirichlet分布。

圖1 4L-PAM結(jié)構(gòu)示意圖

以圖1中四層結(jié)構(gòu)PAM(4L-PAM)為例，對(duì)于每篇文檔d的產(chǎn)生過程描述如下：

(1) 根據(jù)4L-PAM中文檔節(jié)點(diǎn)在超主題上的Dirichlet分布αr，采樣其對(duì)應(yīng)超主題的多項(xiàng)分布θr;

(2) 對(duì)于每個(gè)超主題ti所服從的Dirichlet分布αi，采樣其對(duì)應(yīng)子主題的多項(xiàng)分布θi;

(3) 針對(duì)形成文檔d的每個(gè)單詞w，根據(jù)超主題的多項(xiàng)分布θr采樣一個(gè)超主題zi，根據(jù)zi上對(duì)應(yīng)子主題的多項(xiàng)分布θi采樣一個(gè)子主題zj，最后根據(jù)zj在單詞上的多項(xiàng)分布φj采樣一個(gè)單詞。

在4L-PAM中，除文檔及超主題在其孩子節(jié)點(diǎn)上服務(wù)Dirichlet分布以外，子主題zj在所有單詞上服務(wù)固定的多項(xiàng)分布φj。因此，文檔d形成的概率可表示為：

(1)

在概率主題模型中，每篇文檔均被看作是由若干隱含主題所構(gòu)成，而每個(gè)主題都由特定單詞所體現(xiàn)。因此，不同單詞的分布被看作是不同的隱含主題，而每個(gè)文檔則是這些主題在特定比例下的組合。針對(duì)賭博網(wǎng)站檢測(cè)問題，本文將網(wǎng)站也看作是一個(gè)特定的文檔，通過抽取網(wǎng)站的HTML、腳本語言等信息，形成網(wǎng)站的文本信息。由于網(wǎng)站所呈現(xiàn)的主題由網(wǎng)站內(nèi)容所決定，因此通過抽取網(wǎng)站文本信息的主題，可以有效地對(duì)網(wǎng)站進(jìn)行主題分類，從而針對(duì)“賭博”性質(zhì)的網(wǎng)站實(shí)施檢測(cè)。

2.2 賭博網(wǎng)站的特征提取

PAM模型能夠從大量文檔中學(xué)習(xí)隱含主題，并且能夠描述主題與詞，主題與主題之間的關(guān)聯(lián)性[9]。然而，PAM模型對(duì)文檔主題的學(xué)習(xí)由文檔內(nèi)容所決定，從賭博網(wǎng)站檢測(cè)的問題出發(fā)，如何利用PAM模型學(xué)習(xí)“賭博”相關(guān)的主題，并利用該模型對(duì)網(wǎng)站是否為賭博網(wǎng)站進(jìn)行判斷，是實(shí)現(xiàn)賭博網(wǎng)站檢測(cè)的重要一步。

由于單純利用特定關(guān)鍵詞，如“下注”“博彩”“籌碼”等作為表達(dá)“賭博”主題的關(guān)鍵詞，并不能有效地實(shí)現(xiàn)對(duì)賭博網(wǎng)站的檢測(cè)，還有可能產(chǎn)生誤判。因?yàn)榉琴€博網(wǎng)站也有可能頻繁出現(xiàn)此類關(guān)鍵詞，從而導(dǎo)致檢測(cè)結(jié)果產(chǎn)生較大誤差。

通過對(duì)賭博網(wǎng)站的分析，本文發(fā)現(xiàn)大多數(shù)賭博網(wǎng)站都是封閉的，即網(wǎng)站的相關(guān)鏈接均指向賭博網(wǎng)站的其他內(nèi)容或者相關(guān)賭博信息；相反，一般正常的網(wǎng)站則相對(duì)開放，網(wǎng)站鏈接會(huì)在不同主題的網(wǎng)站之間跳轉(zhuǎn)。因此，根據(jù)這個(gè)特性，本文對(duì)所需要進(jìn)行檢測(cè)的網(wǎng)站隨機(jī)采樣多個(gè)頁(yè)面內(nèi)容，通過對(duì)這些關(guān)聯(lián)頁(yè)面進(jìn)行主題提取，若多個(gè)頁(yè)面均是關(guān)于“賭博”主題的，則在很大概率上說明此類網(wǎng)站是賭博網(wǎng)站；相反，不同頁(yè)面的主題差異較大，則說明此類網(wǎng)站是賭博網(wǎng)站的概率就低。

同時(shí)，HTML是一種結(jié)構(gòu)化的標(biāo)記語言，網(wǎng)站不同位置所顯示的文本信息，有著不同的含義和價(jià)值，如在HTML中“”標(biāo)簽所顯示的內(nèi)容往往是該網(wǎng)站的標(biāo)題或者核心內(nèi)容[10-11]。而PAM則采用詞袋模型來描述文本內(nèi)容，忽略文本的序列或者結(jié)構(gòu)信息。針對(duì)賭博網(wǎng)站檢測(cè)的問題，如果單純地抽取網(wǎng)站的文本內(nèi)容而忽略了其結(jié)構(gòu)上的信息，往往會(huì)丟失很多重要的信息，不利于賭博網(wǎng)站的檢測(cè)。因此，為了體現(xiàn)網(wǎng)站的結(jié)構(gòu)信息，本文在詞袋模型中加入能夠體現(xiàn)網(wǎng)站結(jié)構(gòu)信息的特征，并對(duì)此類特征賦予一定的權(quán)值，從而在PAM模型進(jìn)行主題挖掘時(shí)能夠考慮網(wǎng)站的結(jié)構(gòu)特征，更有利于對(duì)網(wǎng)站的主題進(jìn)行挖掘。

因此，在PAM的詞袋模型中，對(duì)從網(wǎng)站上抽取的文本信息附上其在HTML的標(biāo)簽。例如：HTML文本中“”，分詞后加入詞袋模型的單詞為：“t澳門、t新葡京、t官網(wǎng)”，其中“t”表示單詞在HTML的標(biāo)簽為“title”。為了避免標(biāo)簽區(qū)分得過細(xì)，導(dǎo)致詞袋模型中的單詞在主題上的分布過于稀疏，本文只選取HTML中三個(gè)主要的標(biāo)簽，即“title”“head”“body”，在各個(gè)標(biāo)簽下的單詞分別附加上相應(yīng)的標(biāo)識(shí)，以做區(qū)分。通過針對(duì)不同標(biāo)簽下的單詞對(duì)于網(wǎng)站主題的影響，設(shè)置不同的權(quán)重，從而實(shí)現(xiàn)對(duì)網(wǎng)站結(jié)構(gòu)信息的利用，挖掘網(wǎng)站的主題。

2.3 基于賭博網(wǎng)站特征的PAM訓(xùn)練與推理

Gibbs采樣是一種基于條件分布的迭代采樣算法[12]，通過總體分布的條件分布簇來構(gòu)建一個(gè)以該總體分布為平衡分布的馬爾可夫鏈，從而對(duì)PAM模型的相關(guān)參數(shù)進(jìn)行估計(jì)，并利用PAM模型對(duì)新的網(wǎng)站進(jìn)行主題的推理。本文所采用的PAM模型是4L-PAM模型。

1) PAM參數(shù)訓(xùn)練。在4L-PAM模型中，每個(gè)單詞均包含一個(gè)子主題z和一個(gè)超主題z′，只需對(duì)每個(gè)單詞w采樣其子主題和超主題，從而獲得在這些主題下單詞w的聯(lián)合概率：

(2)

概率主題模型中僅通過詞頻作為模型參數(shù)訓(xùn)練的依據(jù)，為了引入網(wǎng)站結(jié)構(gòu)信息的相關(guān)特性，本文將處于不同網(wǎng)站標(biāo)簽內(nèi)的單詞賦予不同的權(quán)重。而在詞袋模型中，則表現(xiàn)為對(duì)相應(yīng)標(biāo)簽的單詞放大其在詞袋模型中的出現(xiàn)的頻率，從而提高網(wǎng)站特定標(biāo)簽單詞對(duì)網(wǎng)站主題挖掘的影響。PAM參數(shù)訓(xùn)練算法的過程描述如算法1所示，PAM模型的訓(xùn)練實(shí)質(zhì)是對(duì)參數(shù)α和β的訓(xùn)練，相關(guān)參數(shù)直接由所訓(xùn)練的文本所決定。因此，在模型訓(xùn)練時(shí)，可隨機(jī)設(shè)置相關(guān)參數(shù)，在Gibbs采樣過程收斂之后，取后續(xù)n個(gè)迭代結(jié)果的平均值作參數(shù)估計(jì)。

算法1PAM Training

1. 隨機(jī)初始化。針對(duì)整個(gè)文檔集中，每個(gè)文檔的每個(gè)單詞w,隨機(jī)對(duì)其設(shè)置一個(gè)子主題和一個(gè)超主題，得到初始的馬爾可夫鏈。

2. 重新掃描整個(gè)文檔集。對(duì)每個(gè)單詞，按照Gibbs采樣公式重新采樣它的相關(guān)主題，并進(jìn)行更新。

3. 重復(fù)步驟2直到Gibbs采樣過程收斂。

4. 統(tǒng)計(jì)整個(gè)文檔集中超主題與子主題，子主題與單詞之間的共現(xiàn)頻率矩陣，計(jì)算相關(guān)參數(shù)α和β。

2) 網(wǎng)站主題推理。在獲得針對(duì)網(wǎng)站主題挖掘的PAM模型之后，就可以對(duì)新的網(wǎng)站進(jìn)行主題挖掘，從而檢測(cè)其是否為賭博網(wǎng)站。利用PAM模型對(duì)新網(wǎng)站進(jìn)行主題推理的過程與上述PAM參數(shù)訓(xùn)練的過程基本一致[13]。在網(wǎng)站主題推理過程中，只需保持式(2)中αij和βk這兩個(gè)參數(shù)不變。因?yàn)檫@兩個(gè)參數(shù)分別表示超主題在子主題上的Dirichlet分布和子主題在所有單詞上的多項(xiàng)分布，它們是由訓(xùn)練文檔集所決定的，接下來只需要估計(jì)文檔在超主題上分布，就能夠推理出該網(wǎng)站的相關(guān)主題。PAM主題推理算法的過程如算法2所示。

算法2PAM Topic Inference

1. 隨機(jī)初始化。對(duì)新文檔的每個(gè)詞隨機(jī)賦予一個(gè)超主題和一個(gè)子主題。

2. 重新掃描當(dāng)前文檔，對(duì)每個(gè)單詞，按照Gibbs采樣公式僅采樣當(dāng)前文檔的超主題分布信息，并進(jìn)行更新。

3. 重復(fù)步驟2直到Gibbs采樣過程收斂。

4. 統(tǒng)計(jì)當(dāng)前文檔的超主題分布，該分布就反映了當(dāng)前文檔的主題信息。

經(jīng)PAM模型推理出的網(wǎng)站主題通常是關(guān)于一系列主題的分布，一般取概率最高的主題作為該網(wǎng)站所描述的主題。

2.4 賭博網(wǎng)站檢測(cè)系統(tǒng)框架

賭博檢測(cè)檢測(cè)系統(tǒng)實(shí)現(xiàn)了針對(duì)相關(guān)網(wǎng)站進(jìn)行自動(dòng)檢測(cè)并識(shí)別是否為賭博網(wǎng)站的功能。該系統(tǒng)的構(gòu)架如圖2所示，主要分為網(wǎng)站文本及結(jié)構(gòu)信息采集模塊、網(wǎng)站主題挖掘模塊、賭博網(wǎng)站檢測(cè)模塊。

圖2 賭博網(wǎng)站檢測(cè)系統(tǒng)工作流程圖

1) 網(wǎng)站文本及結(jié)構(gòu)信息采集模塊。該模塊主要承擔(dān)了網(wǎng)站文本信息、網(wǎng)站結(jié)構(gòu)化信息的采集等工作，用于進(jìn)一步根據(jù)其網(wǎng)站主要內(nèi)容進(jìn)行網(wǎng)站主題的挖掘。從對(duì)賭博網(wǎng)站的特征進(jìn)行分析，本文發(fā)現(xiàn)賭博網(wǎng)站相對(duì)比較封閉，其網(wǎng)站上鏈接的指向往往是賭博網(wǎng)站的其他頁(yè)面。而傳統(tǒng)網(wǎng)站的鏈接則可能跳轉(zhuǎn)到其他不同類型的網(wǎng)站。因此，在進(jìn)行網(wǎng)站主題挖掘之前，本文首先采樣被檢測(cè)網(wǎng)站的相關(guān)鏈接，獲得多個(gè)與之關(guān)聯(lián)的網(wǎng)頁(yè)，將所有網(wǎng)頁(yè)分別進(jìn)行主題挖掘，從而比較各網(wǎng)頁(yè)主題的分布。如果多數(shù)網(wǎng)頁(yè)在大概率情況下，均傾向于“賭博”主題，則說明被檢測(cè)網(wǎng)站為賭博網(wǎng)站。

同時(shí)，結(jié)合網(wǎng)頁(yè)結(jié)構(gòu)化信息，將位于網(wǎng)頁(yè)不同位置的文本賦予不同的權(quán)重，即提高相應(yīng)HTML標(biāo)簽下文本內(nèi)容在詞袋模型中出現(xiàn)的頻率，從而充分利用網(wǎng)站的結(jié)構(gòu)化信息，使得在進(jìn)行網(wǎng)站主題挖掘時(shí)的準(zhǔn)確性更高。

2) 網(wǎng)站主題挖掘模塊。在獲取被檢測(cè)網(wǎng)站及關(guān)聯(lián)網(wǎng)頁(yè)的文本信息后，需要對(duì)其文本內(nèi)容進(jìn)行主題挖掘，進(jìn)而獲得該網(wǎng)頁(yè)內(nèi)容所描述的相關(guān)主題。該模塊通過4L-PAM模型對(duì)網(wǎng)頁(yè)文本內(nèi)容進(jìn)行主題挖掘，從而形成各個(gè)網(wǎng)頁(yè)上的主題分布。通常，將高概率的主題作為描述該網(wǎng)頁(yè)主要內(nèi)容的主題。

3) 賭博網(wǎng)站檢測(cè)模塊。在獲得了各個(gè)網(wǎng)頁(yè)主題分布之后，計(jì)算所有網(wǎng)頁(yè)在“賭博”主題上概率的平均值，作為評(píng)估被檢測(cè)網(wǎng)站是否為賭博網(wǎng)站的指標(biāo)，如式(3)所示。假設(shè)當(dāng)前共有n個(gè)網(wǎng)頁(yè)，pi表示第i個(gè)網(wǎng)頁(yè)所挖掘的主要分布中“賭博”主題所占的概率，λi表示第i個(gè)網(wǎng)頁(yè)對(duì)應(yīng)的權(quán)重(默認(rèn)情況下，λi=1)。為避免因“賭博”主題在某些網(wǎng)頁(yè)所占比例較小而影響平均概率，因此，對(duì)于“賭博”主題所占比例小于30%的網(wǎng)頁(yè)，本文在計(jì)算賭博網(wǎng)站檢測(cè)指標(biāo)pg時(shí)，設(shè)置此類網(wǎng)頁(yè)對(duì)應(yīng)的“賭博”主題的概率和相應(yīng)的網(wǎng)頁(yè)權(quán)重均為0，從而忽略其對(duì)“賭博”主題的判斷。

(3)

最后，根據(jù)pg的數(shù)值可以判斷被檢測(cè)網(wǎng)站為賭博網(wǎng)站的概率。一般，當(dāng)pg>0.5時(shí)，本文就認(rèn)為被檢測(cè)網(wǎng)站為賭博相關(guān)的網(wǎng)站。

3 實(shí) 驗(yàn)

3.1 實(shí)驗(yàn)數(shù)據(jù)與模型訓(xùn)練

實(shí)驗(yàn)爬取了各類主題的網(wǎng)站(包含賭博網(wǎng)站)，共獲得了2 000個(gè)網(wǎng)頁(yè)，其中賭博網(wǎng)站相關(guān)的頁(yè)面100個(gè)。對(duì)上述所有網(wǎng)頁(yè)抽取其網(wǎng)頁(yè)文本內(nèi)容，并根據(jù)相關(guān)文本在網(wǎng)站的位置賦予不同的權(quán)重，從而形成了用于PAM模型訓(xùn)練的文檔集合。

首先設(shè)置PAM模型的超主題個(gè)數(shù)為20，子主題個(gè)數(shù)為40，相關(guān)參數(shù)α為1.0(文檔在超主題，超主題在子主題上的Dirichlet分布參數(shù)),β為0.01(子主題在單詞上的分布參數(shù))。通過算法1描述的PAM訓(xùn)練方法，可以得到在這些文檔集上所訓(xùn)練的PAM模型。從賭博網(wǎng)站檢測(cè)的問題出發(fā)，本文只關(guān)注由PAM模型訓(xùn)練出的關(guān)于“賭博”的相關(guān)主題。

表1列舉了由PAM模型所訓(xùn)練出的關(guān)于“賭博”的超主題，以及該主題下部分子主題和部分高頻詞的分布。可以看出，在對(duì)新的網(wǎng)站進(jìn)行主題挖掘時(shí)，該主題在該網(wǎng)站的超主題分布中所占比例越高，說明該網(wǎng)站為賭博網(wǎng)站的概率就越高。

表1 “賭博”主題及其高頻詞分布

3.2 賭博網(wǎng)站檢測(cè)評(píng)估

針對(duì)賭博網(wǎng)站檢測(cè)的評(píng)估，實(shí)驗(yàn)重新爬取了非賭博網(wǎng)站和賭博網(wǎng)站各100個(gè)網(wǎng)頁(yè)，對(duì)本文利用PAM模型檢測(cè)賭博網(wǎng)站的方法進(jìn)行評(píng)估。實(shí)驗(yàn)通過準(zhǔn)確率P、召回率R及綜合評(píng)價(jià)指標(biāo)F1對(duì)本文在賭博網(wǎng)站檢測(cè)方法進(jìn)行進(jìn)行評(píng)估。實(shí)驗(yàn)用t_b表示被正確識(shí)別的賭博網(wǎng)站數(shù)量，f_b表示非賭博網(wǎng)站被錯(cuò)誤識(shí)別的數(shù)量，f_w表示賭博網(wǎng)站沒有被正確識(shí)別的數(shù)量，各評(píng)估指標(biāo)的具體計(jì)算方法如下：

(4)

(5)

(6)

實(shí)驗(yàn)將本文方法(PAM)與基于網(wǎng)站模板的檢測(cè)方法(Template)[1]、基于URL的賭博網(wǎng)站檢測(cè)方法(URL)[2]進(jìn)行對(duì)比實(shí)驗(yàn)，對(duì)比結(jié)果如表2所示。

表2 實(shí)驗(yàn)數(shù)據(jù)對(duì)比

基于URL的賭博網(wǎng)站檢測(cè)方法在僅利用URL等相關(guān)信息的情況下，對(duì)于賭博網(wǎng)站的URL有明顯特征的情況下，其檢測(cè)效果較好，但是考慮到很多賭博網(wǎng)絡(luò)頻繁更換URL，有些賭博網(wǎng)站的URL不帶有明顯的特征，因此此類方法很難有效、準(zhǔn)確地對(duì)賭博網(wǎng)站進(jìn)行檢測(cè)。基于模板的賭博網(wǎng)站檢測(cè)方法則從HTTP POST提出網(wǎng)站的特征來獲取賭博網(wǎng)站的模板，進(jìn)而利用該模板對(duì)賭博網(wǎng)站進(jìn)行檢測(cè)，由于賭博網(wǎng)站形式多變，單一模板很難涵蓋大部分的賭博網(wǎng)站，面對(duì)新的賭博網(wǎng)站類型，該方法檢測(cè)效果可能有所下降。本文方法基于PAM模型，通過對(duì)網(wǎng)站內(nèi)容進(jìn)行主題挖掘，抽取網(wǎng)站內(nèi)容所描述的相關(guān)主題來作為判斷是否為賭博網(wǎng)站的依據(jù)，因此本文方法的適用性更廣，面對(duì)復(fù)雜網(wǎng)絡(luò)環(huán)境時(shí)的檢測(cè)效果更好。

Template方法通過對(duì)賭博網(wǎng)站的網(wǎng)站特征進(jìn)行聚類分析，以此獲得相應(yīng)的賭博網(wǎng)站模板，從而根據(jù)該模板檢測(cè)賭博網(wǎng)站。URL方法則通過抽取賭博網(wǎng)站的URL特征并以該特征對(duì)賭博網(wǎng)站進(jìn)行檢測(cè)。但當(dāng)前賭博網(wǎng)站逐漸從傳統(tǒng)博彩向多樣化的網(wǎng)站賭博轉(zhuǎn)變，如借助網(wǎng)頁(yè)游戲進(jìn)行賭博。同時(shí)，賭博網(wǎng)站架構(gòu)、網(wǎng)站域名等相關(guān)信息的規(guī)范化程度逐漸提高，使得此類賭博網(wǎng)站與游戲網(wǎng)站在網(wǎng)站特征、URL等方面的相似度很高，僅通過此類信息進(jìn)行檢測(cè)，效率可能會(huì)有所下降。而本文從網(wǎng)站內(nèi)容的角度出發(fā)，通過抽取網(wǎng)站內(nèi)容所描述的主題對(duì)賭博網(wǎng)站進(jìn)行檢測(cè)。因賭博網(wǎng)站網(wǎng)頁(yè)內(nèi)容所描述的信息難以脫離賭博等相關(guān)主題，因此針對(duì)網(wǎng)站描述內(nèi)容進(jìn)行賭博網(wǎng)站的檢測(cè)，會(huì)大大提高對(duì)賭博網(wǎng)站的識(shí)別率。

考慮到PAM模型所訓(xùn)練的主題及其分布對(duì)賭博網(wǎng)站的識(shí)別至關(guān)重要，本文針對(duì)PAM模型所設(shè)置的超主題、子主題的個(gè)數(shù)對(duì)實(shí)驗(yàn)結(jié)果的影響進(jìn)行了分析。因?yàn)楸疚膬H面向賭博網(wǎng)站進(jìn)行主題挖掘與檢測(cè)，因此除“賭博”主題外，其他所挖掘的超主題類型均不在本文的考慮范圍內(nèi)。首先，在保持超主題個(gè)數(shù)不變的情況下，動(dòng)態(tài)調(diào)整子主題個(gè)數(shù)來評(píng)估PAM模型對(duì)賭博網(wǎng)站檢測(cè)的影響。如圖3所示，子主題個(gè)數(shù)分別從10變化至90。在不同的子主題個(gè)數(shù)影響下，訓(xùn)練所得PAM模型在賭博網(wǎng)站檢測(cè)上的準(zhǔn)確率和召回率也隨之變化。從圖中所得數(shù)據(jù)可知，針對(duì)當(dāng)前訓(xùn)練文檔集和賭博網(wǎng)站檢測(cè)的問題，在子主題設(shè)置個(gè)數(shù)為40時(shí)，訓(xùn)練所得PAM模型在該問題上的檢測(cè)效果最優(yōu)。而當(dāng)子主題規(guī)模繼續(xù)擴(kuò)大時(shí)，子主題過于分散，則會(huì)導(dǎo)致超主題在子主題上的分布過于稀疏，從而影響對(duì)網(wǎng)站主題的判斷。

圖3 子主題個(gè)數(shù)對(duì)實(shí)驗(yàn)結(jié)果的影響

基于上述結(jié)論，保持子主題個(gè)數(shù)為40，動(dòng)態(tài)調(diào)整超主題個(gè)數(shù)來評(píng)估其對(duì)賭博網(wǎng)站檢測(cè)的影響。如圖4所示，隨著超主題個(gè)數(shù)的增加，本文方法對(duì)賭博網(wǎng)站的檢測(cè)結(jié)果呈上升趨勢(shì)。超主題個(gè)數(shù)在達(dá)到18個(gè)之后，實(shí)驗(yàn)的準(zhǔn)確率趨于平衡，但是隨著超主題的個(gè)數(shù)持續(xù)增加，召回率則有下降趨勢(shì)。實(shí)驗(yàn)結(jié)果說明，針對(duì)本文的訓(xùn)練文檔集，超主題個(gè)數(shù)控制在18至20個(gè)為最佳。過多的超主題會(huì)削弱超主題在子主題上的統(tǒng)計(jì)分析，可能導(dǎo)致更多無關(guān)主題被關(guān)聯(lián)到“賭博”主題上，從而使檢測(cè)過程中的誤報(bào)率上升。

圖4 超主題個(gè)數(shù)對(duì)實(shí)驗(yàn)結(jié)果的影響

4 結(jié) 語

本文針對(duì)賭博網(wǎng)站檢測(cè)的問題，提出了一種基于PAM概率主題模型的檢測(cè)方法。該方法通過分析網(wǎng)站及相關(guān)網(wǎng)頁(yè)的內(nèi)容，挖掘網(wǎng)頁(yè)所描述的主題，根據(jù)網(wǎng)頁(yè)主題來判斷網(wǎng)站是否為賭博網(wǎng)站。為提高賭博網(wǎng)站檢測(cè)與識(shí)別的準(zhǔn)確度，本文將網(wǎng)站文本的結(jié)構(gòu)特征引入PAM模型中，并給予了不同的權(quán)重，從而有效利用網(wǎng)站結(jié)構(gòu)信息對(duì)網(wǎng)站主題的影響，提高網(wǎng)站主題挖掘的準(zhǔn)確性。同時(shí)，利用賭博網(wǎng)站的封閉性，將被檢測(cè)網(wǎng)站的關(guān)聯(lián)網(wǎng)頁(yè)一同進(jìn)行主題挖掘，綜合判斷當(dāng)前網(wǎng)站的類型，大大提高了賭博網(wǎng)站的識(shí)別率。