Web挖掘在網(wǎng)絡(luò)廣告點(diǎn)擊欺詐檢測(cè)中的應(yīng)用

2012-07-25 06:49:30李愛春滕少華

計(jì)算機(jī)工程與設(shè)計(jì) 2012年3期

李愛春，滕少華

（廣東工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院，廣東廣州510006）

0 引言

互聯(lián)網(wǎng)經(jīng)濟(jì)的蓬勃發(fā)展也使網(wǎng)絡(luò)廣告市場(chǎng)一直保持著高度增長(zhǎng)的態(tài)勢(shì)，網(wǎng)絡(luò)廣告已經(jīng)成為一種新的市場(chǎng)推廣手段。點(diǎn)擊欺詐（click fraud）［1］存在于網(wǎng)絡(luò)廣告的按點(diǎn)擊付費(fèi)模式中，它的產(chǎn)生和泛濫極大地危害了互聯(lián)網(wǎng)廣告業(yè)的健康發(fā)展，所以對(duì)檢測(cè)網(wǎng)絡(luò)廣告中的點(diǎn)擊欺詐行為的研究意義重大。

在國(guó)內(nèi)外，Web挖掘應(yīng)用在點(diǎn)擊欺詐的開放性研究較少，國(guó)內(nèi)文獻(xiàn)中從技術(shù)上檢測(cè)廣告欺詐行為的介紹極少，文獻(xiàn) ［2］給出一種基于圖形驗(yàn)證碼的預(yù)防點(diǎn)擊欺詐策略，該策略能屏蔽類似于木馬點(diǎn)擊器多次重復(fù)點(diǎn)擊的欺詐行為，但是人工輸入驗(yàn)證碼勢(shì)必會(huì)影響廣告效果，而且這種方法不能杜絕人為的點(diǎn)擊欺詐。其它的一些研究涉及廣告定制、個(gè)性化廣告等Web內(nèi)容挖掘。對(duì)于Web使用上的挖掘主要還局限于學(xué)習(xí)和探索階段，而企業(yè)內(nèi)部的研究一般處于保密狀態(tài)。文獻(xiàn) ［3］對(duì) Web用戶行為的點(diǎn)擊流挖掘進(jìn)行了系統(tǒng)的介紹，同時(shí)提出了具體的應(yīng)用模型。文獻(xiàn) ［4］提出進(jìn)行計(jì)費(fèi)模式創(chuàng)新和引入第三方來(lái)檢測(cè)點(diǎn)擊欺詐，但按點(diǎn)擊付費(fèi)廣告是目前互聯(lián)網(wǎng)界最簡(jiǎn)單易行且最為流行的廣告計(jì)費(fèi)方式，讓網(wǎng)絡(luò)廣告經(jīng)營(yíng)者短時(shí)間內(nèi)放棄按點(diǎn)擊付費(fèi)模式，并向第三方開放點(diǎn)擊流數(shù)據(jù)顯然是不現(xiàn)實(shí)的。

Mehmed Kantardzic［5］等人開發(fā)一個(gè) CCFDP 系統(tǒng)來(lái)實(shí)時(shí)檢測(cè)點(diǎn)擊欺詐。但點(diǎn)擊欺詐的檢測(cè)需要考慮時(shí)效性，如果放在實(shí)時(shí)的點(diǎn)擊流中去檢測(cè)，勢(shì)必會(huì)影響廣告的展示速度和效果。本文提出一種新的解決辦法，處理步驟分兩步，第一步在廣告展示并點(diǎn)擊之后，根據(jù)用戶評(píng)估參考分和本次點(diǎn)擊的數(shù)據(jù)做出相應(yīng)的操作，然后再初步評(píng)估該點(diǎn)擊，并給予初步評(píng)估分（0－1之間，越靠近1表示越有可能是點(diǎn)擊欺詐），然后回饋到用戶初步評(píng)估參考分；第二步在服務(wù)器空閑時(shí)對(duì)初步評(píng)估分和用戶評(píng)估參考分進(jìn)行校對(duì)，本次評(píng)估會(huì)把歷史點(diǎn)擊流放進(jìn)來(lái)進(jìn)行二次分析和預(yù)測(cè)。試驗(yàn)結(jié)果表明，基于這些Web挖掘算法的點(diǎn)擊欺詐檢測(cè)模型是有效可行的。

圖1 網(wǎng)絡(luò)廣告三角色關(guān)系及流程

1 相關(guān)工作

1.1 相關(guān)知識(shí)介紹

市場(chǎng)營(yíng)銷人員通過(guò)在線廣告宣傳自己的產(chǎn)品時(shí)，也要為這些網(wǎng)絡(luò)廣告支付相應(yīng)的廣告費(fèi)用。這些廣告分為按點(diǎn)擊付費(fèi)（cost per click，CPC）、按展示付費(fèi) （cost per ThousandImpression，CPM）、按銷售付費(fèi) （cost per sales，CPS）等，其中按點(diǎn)擊付費(fèi)廣告是目前互聯(lián)網(wǎng)界最簡(jiǎn)單易行且最為流行的廣告計(jì)費(fèi)方式［2］。它以每次網(wǎng)頁(yè)上的廣告被點(diǎn)擊并連接到相關(guān)網(wǎng)站或者詳細(xì)內(nèi)容頁(yè)面為基準(zhǔn)的網(wǎng)絡(luò)廣告收費(fèi)模式［1］。點(diǎn)擊欺詐主要存在于按點(diǎn)擊付費(fèi) （CPC）模式中。

點(diǎn)擊欺詐是指以某種金錢或者商業(yè)目的為出發(fā)點(diǎn)，對(duì)網(wǎng)絡(luò)廣告進(jìn)行惡意點(diǎn)擊并達(dá)到消耗廣告費(fèi)用和抬高成本的目的的行為。簡(jiǎn)單來(lái)說(shuō)，當(dāng)網(wǎng)絡(luò)出版商點(diǎn)擊其網(wǎng)站上的廣告提高他們的收入，或企業(yè)點(diǎn)擊競(jìng)爭(zhēng)對(duì)手的廣告來(lái)蠶食對(duì)方的廣告預(yù)算時(shí)，就構(gòu)成了點(diǎn)擊欺詐。網(wǎng)絡(luò)廣告收入是當(dāng)今世界各國(guó)基于互聯(lián)網(wǎng)企業(yè)的主要收入來(lái)源，點(diǎn)擊欺詐損害了虛擬世界的誠(chéng)信基石及互聯(lián)網(wǎng)發(fā)展的經(jīng)濟(jì)基石。

網(wǎng)絡(luò)廣告投放模式有關(guān)鍵字廣告、主題廣告等，兩者沒太大區(qū)別，關(guān)鍵字廣告顯示在搜索引擎上，它根據(jù)用戶搜索內(nèi)容顯示相應(yīng)的廣告，由于是直接投放在自己的搜索引擎上，更易分析點(diǎn)擊前的行為，這給判斷點(diǎn)擊欺詐帶來(lái)很大的便利；主題廣告顯示在普通的Web頁(yè)面上，這對(duì)檢測(cè)點(diǎn)擊欺詐增加了難度。本文研究的模型側(cè)重于后者。

Web挖掘［6］是從 Web頁(yè)面和 Web用戶訪問(wèn)活動(dòng)中發(fā)現(xiàn)、抽取有用的模式和隱藏的信息，是將傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)與Web結(jié)合起來(lái)的一門新興學(xué)科。Web挖掘按照處理對(duì)象不同一般可分為三大類［7］：Web內(nèi)容挖掘（web content mining）、Web結(jié)構(gòu)挖掘（web construct mining）和Web使用挖掘（web usage mining）。本文對(duì)點(diǎn)擊流主要進(jìn)行Web使用挖掘。

1.2 網(wǎng)絡(luò)廣告流程

主題廣告中的網(wǎng)站廣告聯(lián)盟、網(wǎng)站主、廣告主是分開的。圖1給出了三者及檢測(cè)點(diǎn)擊欺詐模塊的關(guān)系及流程圖。

1.3 點(diǎn)擊欺詐動(dòng)機(jī)

點(diǎn)擊欺詐動(dòng)機(jī)具有多樣性：

（1）網(wǎng)站主通過(guò)各種方式點(diǎn)擊自己網(wǎng)站上的廣告來(lái)獲得廣告?zhèn)蚪稹?/p>

（2）廣告主的競(jìng)爭(zhēng)者通過(guò)消耗完對(duì)手的廣告預(yù)算來(lái)提升自己的廣告排名。

（3）廣告聯(lián)盟為了獲得每次點(diǎn)擊的廣告?zhèn)蚪稹?/p>

其中（1），（2）最為常見，方式也具有多樣性，他們通過(guò)人為或者特制的軟件程序惡意點(diǎn)擊，更有甚者組織一群人互點(diǎn)彼此的廣告。

2 檢測(cè)體系

2.1 體系概述

將Web數(shù)據(jù)挖掘技術(shù)應(yīng)用到檢測(cè)體系中，圖2給出了該體系的檢測(cè)過(guò)程。

圖2 檢測(cè)體系流程

2.2 模塊介紹

從圖2可以看出，本文提出的檢測(cè)體系分為5個(gè)模塊：數(shù)據(jù)采集，初步評(píng)估，評(píng)估修正，數(shù)據(jù)倉(cāng)庫(kù)和信息反饋：

（1）數(shù)據(jù)采集：我們的數(shù)據(jù)集是通過(guò)嵌入在網(wǎng)絡(luò)廣告中的JavaScript腳本來(lái)收集的，然后存到關(guān)系數(shù)據(jù)庫(kù)中。總屬性共41個(gè)，其中比較重要的屬性如表1所示。

表1 點(diǎn)擊流數(shù)據(jù)集的關(guān)鍵屬性

（2）初步評(píng)估：網(wǎng)頁(yè)瀏覽者點(diǎn)擊廣告后必須很快做出響應(yīng)，所以在服務(wù)器端的請(qǐng)求時(shí)間不能過(guò)長(zhǎng)，這就要求廣告的響應(yīng)不能在點(diǎn)擊流初步評(píng)估之后再執(zhí)行。本文采用一種獨(dú)特的方式來(lái)解決這一問(wèn)題：我們做出響應(yīng)是根據(jù)之前的用戶評(píng)估參考分來(lái)判斷的。用戶評(píng)估參考分受之前的每次點(diǎn)擊流初步評(píng)估和評(píng)估校對(duì)影響。這樣就解決了廣告響應(yīng)速度的限制，使得廣告響應(yīng)和本次點(diǎn)擊流初步評(píng)估同步進(jìn)行。對(duì)于數(shù)據(jù)預(yù)處理，當(dāng)前的研究已有不少的解決辦法［8－9］。

（3）評(píng)估修正：修正過(guò)程可按天、周、月或者在給網(wǎng)站主結(jié)算前進(jìn)行，由于有一定量的點(diǎn)擊數(shù)據(jù)，Web挖掘才更有意義，該挖掘過(guò)程包括兩種數(shù)據(jù)集：已修正數(shù)據(jù)集（歷史數(shù)據(jù)集）、未修正數(shù)據(jù)集。

（4）數(shù)據(jù)倉(cāng)庫(kù)：主要存放著歷史數(shù)據(jù)集。在對(duì)點(diǎn)擊流進(jìn)行評(píng)估修正后根據(jù)相關(guān)策略存放到該數(shù)據(jù)倉(cāng)庫(kù)中，以備后期的數(shù)據(jù)挖掘操作。

（5）信息反饋：當(dāng)作完評(píng)估修正后，修正結(jié)果會(huì)及時(shí)的反饋到廣告聯(lián)盟、廣告主、網(wǎng)站主那里。比如對(duì)于網(wǎng)站主存在嚴(yán)重點(diǎn)擊欺詐行為的，修正結(jié)果將會(huì)封鎖網(wǎng)站主賬號(hào)，并告知廣告聯(lián)盟，同時(shí)根據(jù)數(shù)據(jù)向廣告主返回相應(yīng)的廣告費(fèi)用。

3 檢測(cè)

3.1 點(diǎn)擊流初步評(píng)估

一個(gè)點(diǎn)擊流的初步評(píng)估影響因子很多。每個(gè)影響因子都有自己的權(quán)值wi（0≤wi≤1）和屬性分值ri（0≤ri≤1），最終加權(quán)成一個(gè)總的評(píng)估分S

關(guān)鍵評(píng)估因子介紹如下：

無(wú)效值分析：根據(jù)常識(shí)Click＿X（屬性意義見表1，下同）＜1、Click＿Y＜1、Click＿X＞2000、Click＿Y＞2000、Viewtime＜1等為無(wú)效點(diǎn)擊（有點(diǎn)擊欺詐的可能性）。

點(diǎn)擊率：點(diǎn)擊率是點(diǎn)擊次數(shù)與總瀏覽次數(shù)的比值。一般來(lái)說(shuō)，如果不是惡意點(diǎn)擊，無(wú)意點(diǎn)擊造成的點(diǎn)擊率不會(huì)太高。

點(diǎn)擊坐標(biāo)分析：點(diǎn)擊坐標(biāo)的分布一般都有一個(gè)熱圖區(qū)域，這跟視覺學(xué)有關(guān)系，如果一個(gè)站內(nèi)有很多點(diǎn)擊偏離這個(gè)點(diǎn)擊熱圖就有可能存在點(diǎn)擊欺詐。

顯示分辨率分析：其中包括它的寬度Screen＿w、高度Screen＿h(yuǎn)和色度Screen＿s范圍，比如一個(gè)站經(jīng)常出現(xiàn)16位色度的屬性就有必要懷疑了。

點(diǎn)擊覆蓋率/獨(dú)立IP分布［1］：?jiǎn)蝹€(gè)IP的點(diǎn)擊覆蓋率（點(diǎn)擊/瀏覽）分布超過(guò)了3倍的系統(tǒng)誤差范圍內(nèi)則有作弊嫌疑。

屬性組相似性分析：如果一段時(shí)間內(nèi)，referer，siteurl，ip段，Click＿X，Click＿y等屬性值高度相似，則有點(diǎn)擊欺詐的可能。

點(diǎn)擊覆蓋率/IP/時(shí)間分析［1］：根據(jù)時(shí)間序列對(duì)點(diǎn)擊率進(jìn)行分析，如果在某一段時(shí)間上有明顯的峰值，那么這將意味著有潛在的點(diǎn)擊欺詐的可能。

時(shí)間差分析/頁(yè)面打開時(shí)間［1］：網(wǎng)頁(yè)下載的時(shí)間和廣告點(diǎn)擊時(shí)間應(yīng)該是一個(gè)平緩的分布情況即泊松分布（Possion distribution），而每次點(diǎn)擊之間的時(shí)間差應(yīng)該是一個(gè)泊松分布。

IP和timezone對(duì)應(yīng)關(guān)系：大量IP和時(shí)區(qū)不一致的點(diǎn)擊就有使用代理等方式點(diǎn)擊的嫌疑。

針對(duì)http agent的分析［1］：通過(guò) Http agent的時(shí)間序列進(jìn)行分析，當(dāng)峰值超過(guò)3方差時(shí)就有很大的嫌疑。

針對(duì)http referral的分析：通過(guò)http referral的時(shí)間序列進(jìn)行分析。

3.2 點(diǎn)擊流評(píng)估分修正

評(píng)估分修正主要是對(duì)點(diǎn)擊流再次檢測(cè)，并根據(jù)檢測(cè)結(jié)果修正初步評(píng)估分。

3.2.1 基于密度的局部離群點(diǎn)檢測(cè)

此過(guò)程主要是離群點(diǎn)檢測(cè)，這些離群點(diǎn)存在很大可能的欺詐性，要具體分析。根據(jù)我們對(duì)點(diǎn)擊流數(shù)據(jù)集綜合分析，各點(diǎn)擊流屬性值有局部聚合的現(xiàn)象，所以我們采用“基于密度的局部離群點(diǎn)檢測(cè)［10］”方法來(lái)進(jìn)行離群點(diǎn)挖掘。

離群點(diǎn)檢測(cè)是為了消除噪聲或發(fā)現(xiàn)潛在的、有意義的知識(shí)［11］。局部離群點(diǎn)［12］的檢測(cè)需要解決局部鄰域的確定和對(duì)象與鄰域的比較計(jì)算這兩個(gè)子問(wèn)題。圖3所示為簡(jiǎn)單的數(shù)據(jù)集和，該集和有兩個(gè)明顯的簇，即C1.C2，另外兩個(gè)對(duì)象o1，o2明顯是離群噪聲點(diǎn)。然而如果通過(guò)一般的基于距離的離群點(diǎn)檢測(cè)，僅能發(fā)現(xiàn)o1是合理的離群噪聲點(diǎn)。如果將o2判為離群點(diǎn)，那么C1中所有點(diǎn)都會(huì)同樣被認(rèn)為是離群點(diǎn)［13］。

圖3 包含兩個(gè)離群噪聲點(diǎn)的數(shù)據(jù)集合［10］

這樣就引出了局部離群點(diǎn)的概念。如果一個(gè)對(duì)象相對(duì)于它的局部鄰域，特別是相對(duì)于鄰域密度，它是遠(yuǎn)離的，那么該對(duì)象是局部離群點(diǎn)。顯然，局部離群點(diǎn)是指在數(shù)據(jù)集中與其鄰域表現(xiàn)不一致或大大地偏離其鄰域的數(shù)據(jù)點(diǎn)。

點(diǎn)擊流數(shù)據(jù)集中的任一對(duì)象p的k距離（k－distance）是p到它的最近鄰的最大距離，記作k－distance（p）。對(duì)象p的k距離鄰域（k－distance neighborhood）記作 Nk－distance（p）（p）。它包含所有距離不大于p的k距離的對(duì)象［11］。

對(duì)象p關(guān)于對(duì)象o（其中o在p的k最近鄰中）的可達(dá)距離［11］定義為

p的局部可達(dá)密度（lrdk（p））是基于p的k最近鄰點(diǎn)的平均可達(dá)密度的倒數(shù)［11］。其數(shù)學(xué)表達(dá)式為

p的局部離群點(diǎn)因子（LOF）表征了我們稱p為離群點(diǎn)的程度［11］。其數(shù)學(xué)表達(dá)式為

3.2.2 多元線性回歸分析

此過(guò)程主要是通過(guò)歷史數(shù)據(jù)集對(duì)未修正的數(shù)據(jù)集進(jìn)行預(yù)測(cè)分析，并通過(guò)對(duì)比初步評(píng)估分進(jìn)行修正用戶的評(píng)估參考分。對(duì)Web用戶行為的預(yù)測(cè)可以使用馬爾可夫模型結(jié)合有向圖來(lái)提高其預(yù)測(cè)準(zhǔn)確度［14］。也可以運(yùn)用基于差別矩陣的粗糙集提取Web日志中的關(guān)聯(lián)規(guī)則，并將生成的關(guān)聯(lián)規(guī)則集用于用戶行為的預(yù)測(cè)［15］。由于評(píng)估分的影響因子不止一個(gè)，通過(guò)分析和必要的實(shí)驗(yàn)，我們最終選擇多元線性回歸分析［16］進(jìn)行預(yù)測(cè)。

當(dāng)影響因變量Y的自變量X不止1個(gè)時(shí)，Y和X間的線性回歸方程為

式中：α，β1…βm——回歸系數(shù)；ε——隨機(jī)誤差。通常假定ε遵從正態(tài)分布：ε～N（0，σ2）。

設(shè) ｛（Yi，Yi1，…，Xim），i＝1，…，m｝為觀測(cè)值，回歸分析的首要任務(wù)是利用他們來(lái)估計(jì)α，β1…βm和σ，它們的最小二乘估計(jì)記作α，b1，…，bm和σ，求估計(jì)值b1，…，bm需要解下面的線性方程組

求得b1，…，bm后，計(jì)算：a＝珚Y－b1珚X1－…－bmXm，由計(jì)算得出的α，b1，…，bm和σ就可以建立回歸方程了［11］。

4 實(shí)驗(yàn)及結(jié)果分析

4.1 數(shù)據(jù)集選取

為了更好地檢測(cè)點(diǎn)擊欺詐，該腳本在收集點(diǎn)擊流數(shù)據(jù)時(shí)不進(jìn)行任何處理，直接傳送到服務(wù)器。服務(wù)器端根據(jù)原始數(shù)據(jù)進(jìn)行初步評(píng)估。

截至到2010年7月25收集點(diǎn)擊流數(shù)據(jù)共計(jì)242 298條，這些數(shù)據(jù)全部作為訓(xùn)練數(shù)據(jù)。為了更突出實(shí)驗(yàn)的可靠性，我們測(cè)試數(shù)據(jù)集是通過(guò)自己模擬點(diǎn)擊欺詐者通過(guò)人為和計(jì)算機(jī)程序兩種方式來(lái)驗(yàn)證。

4.2 實(shí)驗(yàn)結(jié)果

在人為方式上，我們模擬點(diǎn)擊欺詐者分時(shí)段，換IP地址，隨機(jī)訪問(wèn)網(wǎng)站內(nèi)容并點(diǎn)擊廣告。在計(jì)算機(jī)自動(dòng)程序上我們使用網(wǎng)上比較流行的廣告點(diǎn)擊軟件來(lái)測(cè)試。

4.2.1 點(diǎn)擊流初步評(píng)估

在人為方式上，我們模擬點(diǎn)擊頻率f（分鐘）為：10、20、40、80、160。檢測(cè)時(shí)間t（分鐘）為：120、240、480、960。我們實(shí)驗(yàn)的規(guī)則是：在每個(gè)f隨機(jī)時(shí)間內(nèi)瀏覽網(wǎng)頁(yè)并隨機(jī)點(diǎn)擊廣告；在t時(shí)間時(shí)記錄各個(gè)模擬點(diǎn)擊頻率的評(píng)估分s。

我們首先模擬的是個(gè)人點(diǎn)擊欺詐行為，此過(guò)程IP、上網(wǎng)地點(diǎn)等環(huán)境變動(dòng)不大。實(shí)驗(yàn)結(jié)果如表2所示。

表2 模擬個(gè)人點(diǎn)擊欺詐行為評(píng)估結(jié)果

從表2可以看出點(diǎn)擊欺詐者點(diǎn)擊的越頻繁，評(píng)估分s增的就越快，點(diǎn)擊頻率f為160是看似效果不太理想，其實(shí)是因?yàn)閒較大，在t的時(shí)間內(nèi)收集到的點(diǎn)擊流數(shù)據(jù)較少，如果實(shí)驗(yàn)結(jié)果按照收集點(diǎn)擊次數(shù)來(lái)統(tǒng)計(jì)就能看到它的檢測(cè)效果是不差的。

接下來(lái)我們模擬的是IP、上網(wǎng)地點(diǎn)等環(huán)境都是變化的，這樣的檢測(cè)更具有代表性，比如通過(guò)代理、組群互點(diǎn)等方式來(lái)進(jìn)行點(diǎn)擊欺詐。實(shí)驗(yàn)結(jié)果如表3所示。

表3 模擬更具代表性的點(diǎn)擊欺詐評(píng)估結(jié)果

從表3可以看出，檢測(cè)結(jié)果還是非常樂(lè)觀的，在檢測(cè)8個(gè)小時(shí)后5組里就有3組評(píng)估分超過(guò)了0.5，后面的由于收集的點(diǎn)擊流數(shù)據(jù)少評(píng)估分還不夠明顯。

在計(jì)算機(jī)自動(dòng)程式上，我們通過(guò)比較市場(chǎng)上存在的作弊程序，選了個(gè)比較流行的點(diǎn)擊欺詐軟件來(lái)進(jìn)行實(shí)驗(yàn)。由于此類作弊軟件易于操作，一般設(shè)置好參數(shù)就行了。我們對(duì)實(shí)驗(yàn)參數(shù)調(diào)整如下：每隨機(jī)瀏覽網(wǎng)頁(yè)1000次點(diǎn)擊廣告的最大次數(shù)n為：5、20、50、100、200。檢測(cè)時(shí)間T （小時(shí)）為：8、16、24、48。

我們的檢測(cè)結(jié)果如表4所示。

表4 計(jì)算機(jī)自動(dòng)程式點(diǎn)擊欺詐評(píng)估結(jié)果

從表4可以看出點(diǎn)擊率越高，效果越明顯，主要是因?yàn)槭占降狞c(diǎn)擊次數(shù)較多，點(diǎn)擊數(shù)據(jù)更有規(guī)律。4.2.2 點(diǎn)擊流評(píng)估校對(duì)

在人為方式上，對(duì)模擬個(gè)人點(diǎn)擊欺詐行為的評(píng)估校對(duì)實(shí)驗(yàn)結(jié)果如表5所示。

表5 模擬個(gè)人點(diǎn)擊欺詐校對(duì)結(jié)果

對(duì)第二種人為模擬方式的評(píng)估校對(duì)實(shí)驗(yàn)結(jié)果如表6所示。

表6 模擬更具代表性的點(diǎn)擊欺詐校對(duì)結(jié)果

對(duì)計(jì)算機(jī)自動(dòng)程式模擬方式的評(píng)估校對(duì)實(shí)驗(yàn)結(jié)果如表7所示。

表7 計(jì)算機(jī)自動(dòng)程式點(diǎn)擊欺詐校對(duì)結(jié)果

從表5～表7可以看出，檢測(cè)結(jié)果更好地參考了歷史數(shù)據(jù)集，經(jīng)過(guò)對(duì)初步評(píng)估的校對(duì)，使評(píng)估分更接近于真實(shí)。當(dāng)然本實(shí)驗(yàn)也有不如意的地方，比如沒有正常點(diǎn)擊數(shù)據(jù)流的參與、實(shí)驗(yàn)周期短等因素不能使結(jié)果更具有說(shuō)服力。

5 結(jié)束語(yǔ)

本文介紹了點(diǎn)擊欺詐和Web挖掘相關(guān)的知識(shí)，分析了國(guó)內(nèi)外解決的辦法和局限，在此基礎(chǔ)上提出了一種基于Web挖掘的檢測(cè)點(diǎn)擊欺詐的方法，能在不影響廣告時(shí)效性的基礎(chǔ)上，提升檢測(cè)點(diǎn)擊欺詐行為的效果，同時(shí)通過(guò)Web挖掘相關(guān)算法的運(yùn)用使檢測(cè)結(jié)果更為準(zhǔn)確。

本文介紹的方法不足之處是通過(guò)腳本來(lái)收集點(diǎn)擊流信息，對(duì)于那些不支持該腳本的瀏覽器，或者用戶故意禁用該腳本則導(dǎo)致廣告無(wú)法顯示，點(diǎn)擊流無(wú)法收集等問(wèn)題。同時(shí)在用戶識(shí)別上僅僅是通過(guò)點(diǎn)擊流屬性，沒有對(duì)cookie、session和服務(wù)器端的數(shù)據(jù)流進(jìn)行統(tǒng)一驗(yàn)證，這也是我下一步要做的事情。同時(shí)下一步的工作還有：設(shè)計(jì)一種方案去收集瀏覽者點(diǎn)擊進(jìn)入廣告主網(wǎng)站那邊后的瀏覽行為，這種瀏覽行為更能反映出瀏覽者是否是自愿點(diǎn)擊過(guò)來(lái)的，這對(duì)判斷點(diǎn)擊欺詐是很有用的。

［1］SHU Zhengyong.The study on click fraud of commercial search engine ［D］.Dalian：Thesis For Master Degree of Liaoning Normal University，2008 （in Chinese）.［舒正勇.商業(yè)搜索引擎的點(diǎn)擊欺詐問(wèn)題研究［D］.大連：遼寧師范大學(xué)碩士學(xué)位論文，2008.］

［2］YUAN Jian，ZHANG Jinsong.Effective strategy to prevent clickfraud ［J］.Journal of Computer Application，2009，29 （7）：1790－1792 （in Chinese）.［袁健，張勁松.一種有效預(yù)防點(diǎn)擊欺詐的策略［J］.計(jì)算機(jī)應(yīng)用，2009，29 （7）：1790－1792.］

［3］SU Jiangyu.Web user behavior mining base on click－stream［D］.Guangzhou：Thesis For Master Degree of Guangdong University of Technology，2010 （in Chinese）.［蘇疆煜.基于點(diǎn)擊流Web用戶行為挖掘［D］.廣州：廣東工業(yè)大學(xué)碩士學(xué)位論文，2010.］

［4］GAO Zhijian.Radical measure of click fraud use a third party［J］.Productivity Research，2007，22 （18）：72－73 （in Chinese）.［高志堅(jiān).引入第三方監(jiān)測(cè)根治點(diǎn)擊欺詐［J］.生產(chǎn)力研究，2007，22 （18）：72－73.］

［5］Mehmed Kantardzic，Chamila Walgampaya，Brent Wenerstrom，et al.Mproving click fraud detection by real time data fusion ［C］.Proc of IEEE International Symposium on Signal Processing and Information Technology，2008.

［6］ZHANG Rong.Research on technology of web mining ［J］.Computer Engineering，2006，32 （15）：4－6 （in Chinese）.［張蓉.Web挖掘技術(shù)研究［J］.計(jì)算機(jī)工程，2006，32 （15）：4－6.］

［7］SUN Tao.Targeting of user behavior of online advertising system ［D］.Shanghai：Thesis For Master Degree of Fudan University，2008（in Chinese）.［孫濤.網(wǎng)絡(luò)廣告系統(tǒng)的用戶行為定向研究［D］.上海：復(fù)旦大學(xué)碩士學(xué)位論文，2008.］

［8］FAN Yuankang，HU Xueguang，XIA Qishou，et al.Advanced data preprocessing technology for web log ［J］.Computer Engineering，2009，35 （10）：73－74 （in Chinese）. ［方元康，胡學(xué)鋼，夏啟壽，等.改進(jìn)的Web日志數(shù)據(jù)預(yù)處理技術(shù) ［J］.計(jì)算機(jī)工程，2009，35 （10）：73－74.］

［9］ZHANG Bo，WU Lili，ZHOU Min.The analysis of user behavior based on web usage mining ［J］.Computer Science，2006，33 （8）：213－214 （in Chinese）.［張波，巫莉莉，周敏.基于Web使用挖掘的用戶行為分析［J］.計(jì)算機(jī)科學(xué)，2006，33 （8）：213－214.］

［10］XU Xiang，LIU Jianwei，LUO Xionglin.Research on outlier mining ［J］.Application Research of Computers，2009，26（1）：34－40 （in Chinese）. ［徐翔，劉建偉，羅雄麟.離群點(diǎn)挖掘研究［J］.計(jì)算機(jī)應(yīng)用研究，2009，26 （1）：34－40.］

［11］HAN Jiawei，Micheline K.Data mining：Concepts and techniques ［M］.2nd ed.San Francisco：Morgan Kaufmann Publishers，2006.

［12］ZHAO Zhanying，CHENG Changsheng.On improved algorithm for local outlier mining based on cluster analysis and its implementation ［J］.Computer Applications and Software，2010，27 （11）：255－258 （in Chinese）. ［趙站營(yíng)，成長(zhǎng)生.基于聚類分析局部離群點(diǎn)挖掘改進(jìn)算法的研究與實(shí)現(xiàn) ［J］.計(jì)算機(jī)應(yīng)用與軟件，2010，27 （11）：255－258.］

［13］ZHANG Yi，LIU Xumin，GUAN Yong.Density－based detection for outliers and noises ［J］.Journal of Computer Applications，2010，30 （3）：802－805 （in Chinese）.［張毅，劉旭敏，關(guān)永.基于密度的離群噪聲點(diǎn)檢測(cè) ［J］.計(jì)算機(jī)應(yīng)用，2010，30 （3）：802－805.］

［14］GAO Weihua，XIE Kanglin.New model and related algorithm for the prediction of web user’s directions ［J］.Computer Applications and Software，2007，24 （3）：142－144 （in Chinese）.［高衛(wèi)華，謝康林.Web用戶行為預(yù)測(cè)的一種新模型及算法［J］.計(jì) 算機(jī) 應(yīng) 用與軟件，2007，24 （3）：142－144.］

［15］LI Xuejun，LI Longshu，XU Yi.Research on web user’s behavior prediction base on rough set ［J］.Computer Engineering and Applications，2008，44 （13）：134－136 （in Chinese）.［李學(xué)俊，李龍澍，徐怡.基于粗糙集的Web用戶行為預(yù)測(cè)研究［J］.計(jì)算機(jī)工程與應(yīng)用，2008，44 （13）：134－136.］

［16］FAN Jixiang，ZHANG Hong.Application of BP neural network and multi－variable linear regression in rate prediction［J］.Computer Engineering and Applications，2007，42（23）：203－204.