999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Web挖掘在網(wǎng)絡(luò)廣告點(diǎn)擊欺詐檢測(cè)中的應(yīng)用

2012-07-25 06:49:30李愛春滕少華
關(guān)鍵詞:用戶分析檢測(cè)

李愛春,滕少華

(廣東工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,廣東 廣州510006)

0 引 言

互聯(lián)網(wǎng)經(jīng)濟(jì)的蓬勃發(fā)展也使網(wǎng)絡(luò)廣告市場(chǎng)一直保持著高度增長(zhǎng)的態(tài)勢(shì),網(wǎng)絡(luò)廣告已經(jīng)成為一種新的市場(chǎng)推廣手段。點(diǎn)擊欺詐 (click fraud)[1]存在于網(wǎng)絡(luò)廣告的按點(diǎn)擊付費(fèi)模式中,它的產(chǎn)生和泛濫極大地危害了互聯(lián)網(wǎng)廣告業(yè)的健康發(fā)展,所以對(duì)檢測(cè)網(wǎng)絡(luò)廣告中的點(diǎn)擊欺詐行為的研究意義重大。

在國(guó)內(nèi)外,Web挖掘應(yīng)用在點(diǎn)擊欺詐的開放性研究較少,國(guó)內(nèi)文獻(xiàn)中從技術(shù)上檢測(cè)廣告欺詐行為的介紹極少,文獻(xiàn) [2]給出一種基于圖形驗(yàn)證碼的預(yù)防點(diǎn)擊欺詐策略,該策略能屏蔽類似于木馬點(diǎn)擊器多次重復(fù)點(diǎn)擊的欺詐行為,但是人工輸入驗(yàn)證碼勢(shì)必會(huì)影響廣告效果,而且這種方法不能杜絕人為的點(diǎn)擊欺詐。其它的一些研究涉及廣告定制、個(gè)性化廣告等Web內(nèi)容挖掘。對(duì)于Web使用上的挖掘主要還局限于學(xué)習(xí)和探索階段,而企業(yè)內(nèi)部的研究一般處于保密狀態(tài)。文獻(xiàn) [3]對(duì) Web用戶行為的點(diǎn)擊流挖掘進(jìn)行了系統(tǒng)的介紹,同時(shí)提出了具體的應(yīng)用模型。文獻(xiàn) [4]提出進(jìn)行計(jì)費(fèi)模式創(chuàng)新和引入第三方來(lái)檢測(cè)點(diǎn)擊欺詐,但按點(diǎn)擊付費(fèi)廣告是目前互聯(lián)網(wǎng)界最簡(jiǎn)單易行且最為流行的廣告計(jì)費(fèi)方式,讓網(wǎng)絡(luò)廣告經(jīng)營(yíng)者短時(shí)間內(nèi)放棄按點(diǎn)擊付費(fèi)模式,并向第三方開放點(diǎn)擊流數(shù)據(jù)顯然是不現(xiàn)實(shí)的。

Mehmed Kantardzic[5]等人開發(fā)一個(gè) CCFDP 系統(tǒng)來(lái)實(shí)時(shí)檢測(cè)點(diǎn)擊欺詐。但點(diǎn)擊欺詐的檢測(cè)需要考慮時(shí)效性,如果放在實(shí)時(shí)的點(diǎn)擊流中去檢測(cè),勢(shì)必會(huì)影響廣告的展示速度和效果。本文提出一種新的解決辦法,處理步驟分兩步,第一步在廣告展示并點(diǎn)擊之后,根據(jù)用戶評(píng)估參考分和本次點(diǎn)擊的數(shù)據(jù)做出相應(yīng)的操作,然后再初步評(píng)估該點(diǎn)擊,并給予初步評(píng)估分 (0-1之間,越靠近1表示越有可能是點(diǎn)擊欺詐),然后回饋到用戶初步評(píng)估參考分;第二步在服務(wù)器空閑時(shí)對(duì)初步評(píng)估分和用戶評(píng)估參考分進(jìn)行校對(duì),本次評(píng)估會(huì)把歷史點(diǎn)擊流放進(jìn)來(lái)進(jìn)行二次分析和預(yù)測(cè)。試驗(yàn)結(jié)果表明,基于這些Web挖掘算法的點(diǎn)擊欺詐檢測(cè)模型是有效可行的。

圖1 網(wǎng)絡(luò)廣告三角色關(guān)系及流程

1 相關(guān)工作

1.1 相關(guān)知識(shí)介紹

市場(chǎng)營(yíng)銷人員通過(guò)在線廣告宣傳自己的產(chǎn)品時(shí),也要為這些網(wǎng)絡(luò)廣告支付相應(yīng)的廣告費(fèi)用。這些廣告分為按點(diǎn)擊付費(fèi)(cost per click,CPC)、按展示付費(fèi) (cost per ThousandImpression,CPM)、按銷售付費(fèi) (cost per sales,CPS)等,其中按點(diǎn)擊付費(fèi)廣告是目前互聯(lián)網(wǎng)界最簡(jiǎn)單易行且最為流行的廣告計(jì)費(fèi)方式[2]。它以每次網(wǎng)頁(yè)上的廣告被點(diǎn)擊并連接到相關(guān)網(wǎng)站或者詳細(xì)內(nèi)容頁(yè)面為基準(zhǔn)的網(wǎng)絡(luò)廣告收費(fèi)模式[1]。點(diǎn)擊欺詐主要存在于按點(diǎn)擊付費(fèi) (CPC)模式中。

點(diǎn)擊欺詐是指以某種金錢或者商業(yè)目的為出發(fā)點(diǎn),對(duì)網(wǎng)絡(luò)廣告進(jìn)行惡意點(diǎn)擊并達(dá)到消耗廣告費(fèi)用和抬高成本的目的的行為。簡(jiǎn)單來(lái)說(shuō),當(dāng)網(wǎng)絡(luò)出版商點(diǎn)擊其網(wǎng)站上的廣告提高他們的收入,或企業(yè)點(diǎn)擊競(jìng)爭(zhēng)對(duì)手的廣告來(lái)蠶食對(duì)方的廣告預(yù)算時(shí),就構(gòu)成了點(diǎn)擊欺詐。網(wǎng)絡(luò)廣告收入是當(dāng)今世界各國(guó)基于互聯(lián)網(wǎng)企業(yè)的主要收入來(lái)源,點(diǎn)擊欺詐損害了虛擬世界的誠(chéng)信基石及互聯(lián)網(wǎng)發(fā)展的經(jīng)濟(jì)基石。

網(wǎng)絡(luò)廣告投放模式有關(guān)鍵字廣告、主題廣告等,兩者沒太大區(qū)別,關(guān)鍵字廣告顯示在搜索引擎上,它根據(jù)用戶搜索內(nèi)容顯示相應(yīng)的廣告,由于是直接投放在自己的搜索引擎上,更易分析點(diǎn)擊前的行為,這給判斷點(diǎn)擊欺詐帶來(lái)很大的便利;主題廣告顯示在普通的Web頁(yè)面上,這對(duì)檢測(cè)點(diǎn)擊欺詐增加了難度。本文研究的模型側(cè)重于后者。

Web挖掘[6]是從 Web頁(yè)面和 Web用戶訪問(wèn)活動(dòng)中發(fā)現(xiàn)、抽取有用的模式和隱藏的信息,是將傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)與Web結(jié)合起來(lái)的一門新興學(xué)科。Web挖掘按照處理對(duì)象不同一般可分為三大類[7]:Web內(nèi)容挖掘 (web content mining)、Web結(jié)構(gòu)挖掘 (web construct mining)和Web使用挖掘 (web usage mining)。本文對(duì)點(diǎn)擊流主要進(jìn)行Web使用挖掘。

1.2 網(wǎng)絡(luò)廣告流程

主題廣告中的網(wǎng)站廣告聯(lián)盟、網(wǎng)站主、廣告主是分開的。圖1給出了三者及檢測(cè)點(diǎn)擊欺詐模塊的關(guān)系及流程圖。

1.3 點(diǎn)擊欺詐動(dòng)機(jī)

點(diǎn)擊欺詐動(dòng)機(jī)具有多樣性:

(1)網(wǎng)站主通過(guò)各種方式點(diǎn)擊自己網(wǎng)站上的廣告來(lái)獲得廣告?zhèn)蚪稹?/p>

(2)廣告主的競(jìng)爭(zhēng)者通過(guò)消耗完對(duì)手的廣告預(yù)算來(lái)提升自己的廣告排名。

(3)廣告聯(lián)盟為了獲得每次點(diǎn)擊的廣告?zhèn)蚪稹?/p>

其中 (1),(2)最為常見,方式也具有多樣性,他們通過(guò)人為或者特制的軟件程序惡意點(diǎn)擊,更有甚者組織一群人互點(diǎn)彼此的廣告。

2 檢測(cè)體系

2.1 體系概述

將Web數(shù)據(jù)挖掘技術(shù)應(yīng)用到檢測(cè)體系中,圖2給出了該體系的檢測(cè)過(guò)程。

圖2 檢測(cè)體系流程

2.2 模塊介紹

從圖2可以看出,本文提出的檢測(cè)體系分為5個(gè)模塊:數(shù)據(jù)采集,初步評(píng)估,評(píng)估修正,數(shù)據(jù)倉(cāng)庫(kù)和信息反饋:

(1)數(shù)據(jù)采集:我們的數(shù)據(jù)集是通過(guò)嵌入在網(wǎng)絡(luò)廣告中的JavaScript腳本來(lái)收集的,然后存到關(guān)系數(shù)據(jù)庫(kù)中。總屬性共41個(gè),其中比較重要的屬性如表1所示。

表1 點(diǎn)擊流數(shù)據(jù)集的關(guān)鍵屬性

(2)初步評(píng)估:網(wǎng)頁(yè)瀏覽者點(diǎn)擊廣告后必須很快做出響應(yīng),所以在服務(wù)器端的請(qǐng)求時(shí)間不能過(guò)長(zhǎng),這就要求廣告的響應(yīng)不能在點(diǎn)擊流初步評(píng)估之后再執(zhí)行。本文采用一種獨(dú)特的方式來(lái)解決這一問(wèn)題:我們做出響應(yīng)是根據(jù)之前的用戶評(píng)估參考分來(lái)判斷的。用戶評(píng)估參考分受之前的每次點(diǎn)擊流初步評(píng)估和評(píng)估校對(duì)影響。這樣就解決了廣告響應(yīng)速度的限制,使得廣告響應(yīng)和本次點(diǎn)擊流初步評(píng)估同步進(jìn)行。對(duì)于數(shù)據(jù)預(yù)處理,當(dāng)前的研究已有不少的解決辦法[8-9]。

(3)評(píng)估修正:修正過(guò)程可按天、周、月或者在給網(wǎng)站主結(jié)算前進(jìn)行,由于有一定量的點(diǎn)擊數(shù)據(jù),Web挖掘才更有意義,該挖掘過(guò)程包括兩種數(shù)據(jù)集:已修正數(shù)據(jù)集(歷史數(shù)據(jù)集)、未修正數(shù)據(jù)集。

(4)數(shù)據(jù)倉(cāng)庫(kù):主要存放著歷史數(shù)據(jù)集。在對(duì)點(diǎn)擊流進(jìn)行評(píng)估修正后根據(jù)相關(guān)策略存放到該數(shù)據(jù)倉(cāng)庫(kù)中,以備后期的數(shù)據(jù)挖掘操作。

(5)信息反饋:當(dāng)作完評(píng)估修正后,修正結(jié)果會(huì)及時(shí)的反饋到廣告聯(lián)盟、廣告主、網(wǎng)站主那里。比如對(duì)于網(wǎng)站主存在嚴(yán)重點(diǎn)擊欺詐行為的,修正結(jié)果將會(huì)封鎖網(wǎng)站主賬號(hào),并告知廣告聯(lián)盟,同時(shí)根據(jù)數(shù)據(jù)向廣告主返回相應(yīng)的廣告費(fèi)用。

3 檢 測(cè)

3.1 點(diǎn)擊流初步評(píng)估

一個(gè)點(diǎn)擊流的初步評(píng)估影響因子很多。每個(gè)影響因子都有自己的權(quán)值wi(0≤wi≤1)和屬性分值ri(0≤ri≤1),最終加權(quán)成一個(gè)總的評(píng)估分S

關(guān)鍵評(píng)估因子介紹如下:

無(wú)效值分析:根據(jù)常識(shí)Click_X(屬性意義見表1,下同)<1、Click_Y<1、Click_X>2000、Click_Y>2000、Viewtime<1等為無(wú)效點(diǎn)擊 (有點(diǎn)擊欺詐的可能性)。

點(diǎn)擊率:點(diǎn)擊率是點(diǎn)擊次數(shù)與總瀏覽次數(shù)的比值。一般來(lái)說(shuō),如果不是惡意點(diǎn)擊,無(wú)意點(diǎn)擊造成的點(diǎn)擊率不會(huì)太高。

點(diǎn)擊坐標(biāo)分析:點(diǎn)擊坐標(biāo)的分布一般都有一個(gè)熱圖區(qū)域,這跟視覺學(xué)有關(guān)系,如果一個(gè)站內(nèi)有很多點(diǎn)擊偏離這個(gè)點(diǎn)擊熱圖就有可能存在點(diǎn)擊欺詐。

顯示分辨率分析:其中包括它的寬度Screen_w、高度Screen_h(yuǎn)和色度Screen_s范圍,比如一個(gè)站經(jīng)常出現(xiàn)16位色度的屬性就有必要懷疑了。

點(diǎn)擊覆蓋率/獨(dú)立IP分布[1]:?jiǎn)蝹€(gè)IP的點(diǎn)擊覆蓋率(點(diǎn)擊/瀏覽)分布超過(guò)了3倍的系統(tǒng)誤差范圍內(nèi)則有作弊嫌疑。

屬性組相似性分析:如果一段時(shí)間內(nèi),referer,siteurl,ip段,Click_X,Click_y等屬性值高度相似,則有點(diǎn)擊欺詐的可能。

點(diǎn)擊覆蓋率/IP/時(shí)間分析[1]:根據(jù)時(shí)間序列對(duì)點(diǎn)擊率進(jìn)行分析,如果在某一段時(shí)間上有明顯的峰值,那么這將意味著有潛在的點(diǎn)擊欺詐的可能。

時(shí)間差分析/頁(yè)面打開時(shí)間[1]:網(wǎng)頁(yè)下載的時(shí)間和廣告點(diǎn)擊時(shí)間應(yīng)該是一個(gè)平緩的分布情況即泊松分布 (Possion distribution),而每次點(diǎn)擊之間的時(shí)間差應(yīng)該是一個(gè)泊松分布。

IP和timezone對(duì)應(yīng)關(guān)系:大量IP和時(shí)區(qū)不一致的點(diǎn)擊就有使用代理等方式點(diǎn)擊的嫌疑。

針對(duì)http agent的分析[1]:通過(guò) Http agent的時(shí)間序列進(jìn)行分析,當(dāng)峰值超過(guò)3方差時(shí)就有很大的嫌疑。

針對(duì)http referral的分析:通過(guò)http referral的時(shí)間序列進(jìn)行分析。

3.2 點(diǎn)擊流評(píng)估分修正

評(píng)估分修正主要是對(duì)點(diǎn)擊流再次檢測(cè),并根據(jù)檢測(cè)結(jié)果修正初步評(píng)估分。

3.2.1 基于密度的局部離群點(diǎn)檢測(cè)

此過(guò)程主要是離群點(diǎn)檢測(cè),這些離群點(diǎn)存在很大可能的欺詐性,要具體分析。根據(jù)我們對(duì)點(diǎn)擊流數(shù)據(jù)集綜合分析,各點(diǎn)擊流屬性值有局部聚合的現(xiàn)象,所以我們采用“基于密度的局部離群點(diǎn)檢測(cè)[10]”方法來(lái)進(jìn)行離群點(diǎn)挖掘。

離群點(diǎn)檢測(cè)是為了消除噪聲或發(fā)現(xiàn)潛在的、有意義的知識(shí)[11]。局部離群點(diǎn)[12]的檢測(cè)需要解決局部鄰域的確定和對(duì)象與鄰域的比較計(jì)算這兩個(gè)子問(wèn)題。圖3所示為簡(jiǎn)單的數(shù)據(jù)集和,該集和有兩個(gè)明顯的簇,即C1.C2,另外兩個(gè)對(duì)象o1,o2明顯是離群噪聲點(diǎn)。然而如果通過(guò)一般的基于距離的離群點(diǎn)檢測(cè),僅能發(fā)現(xiàn)o1是合理的離群噪聲點(diǎn)。如果將o2判為離群點(diǎn),那么C1中所有點(diǎn)都會(huì)同樣被認(rèn)為是離群點(diǎn)[13]。

圖3 包含兩個(gè)離群噪聲點(diǎn)的數(shù)據(jù)集合[10]

這樣就引出了局部離群點(diǎn)的概念。如果一個(gè)對(duì)象相對(duì)于它的局部鄰域,特別是相對(duì)于鄰域密度,它是遠(yuǎn)離的,那么該對(duì)象是局部離群點(diǎn)。顯然,局部離群點(diǎn)是指在數(shù)據(jù)集中與其鄰域表現(xiàn)不一致或大大地偏離其鄰域的數(shù)據(jù)點(diǎn)。

點(diǎn)擊流數(shù)據(jù)集中的任一對(duì)象p的k距離 (k-distance)是p到它的最近鄰的最大距離,記作k-distance(p)。對(duì)象p的k距離鄰域 (k-distance neighborhood)記作 Nk-distance(p)(p)。它包含所有距離不大于p的k距離的對(duì)象[11]。

對(duì)象p關(guān)于對(duì)象o(其中o在p的k最近鄰中)的可達(dá)距離[11]定義為

p的局部可達(dá)密度 (lrdk(p))是基于p的k最近鄰點(diǎn)的平均可達(dá)密度的倒數(shù)[11]。其數(shù)學(xué)表達(dá)式為

p的局部離群點(diǎn)因子 (LOF)表征了我們稱p為離群點(diǎn)的程度[11]。其數(shù)學(xué)表達(dá)式為

3.2.2 多元線性回歸分析

此過(guò)程主要是通過(guò)歷史數(shù)據(jù)集對(duì)未修正的數(shù)據(jù)集進(jìn)行預(yù)測(cè)分析,并通過(guò)對(duì)比初步評(píng)估分進(jìn)行修正用戶的評(píng)估參考分。對(duì)Web用戶行為的預(yù)測(cè)可以使用馬爾可夫模型結(jié)合有向圖來(lái)提高其預(yù)測(cè)準(zhǔn)確度[14]。也可以運(yùn)用基于差別矩陣的粗糙集提取Web日志中的關(guān)聯(lián)規(guī)則,并將生成的關(guān)聯(lián)規(guī)則集用于用戶行為的預(yù)測(cè)[15]。由于評(píng)估分的影響因子不止一個(gè),通過(guò)分析和必要的實(shí)驗(yàn),我們最終選擇多元線性回歸分析[16]進(jìn)行預(yù)測(cè)。

當(dāng)影響因變量Y的自變量X不止1個(gè)時(shí),Y和X間的線性回歸方程為

式中:α,β1…βm——回歸系數(shù);ε——隨機(jī)誤差。通常假定ε遵從正態(tài)分布:ε~N(0,σ2)。

設(shè) {(Yi,Yi1,…,Xim),i=1,…,m}為觀測(cè)值,回歸分析的首要任務(wù)是利用他們來(lái)估計(jì)α,β1…βm和σ,它們的最小二乘估計(jì)記作α,b1,…,bm和σ,求估計(jì)值b1,…,bm需要解下面的線性方程組

求得b1,…,bm后,計(jì)算:a=珚Y-b1珚X1-…-bmXm,由計(jì)算得出的α,b1,…,bm和σ就可以建立回歸方程了[11]。

4 實(shí)驗(yàn)及結(jié)果分析

4.1 數(shù)據(jù)集選取

為了更好地檢測(cè)點(diǎn)擊欺詐,該腳本在收集點(diǎn)擊流數(shù)據(jù)時(shí)不進(jìn)行任何處理,直接傳送到服務(wù)器。服務(wù)器端根據(jù)原始數(shù)據(jù)進(jìn)行初步評(píng)估。

截至到2010年7月25收集點(diǎn)擊流數(shù)據(jù)共計(jì)242 298條,這些數(shù)據(jù)全部作為訓(xùn)練數(shù)據(jù)。為了更突出實(shí)驗(yàn)的可靠性,我們測(cè)試數(shù)據(jù)集是通過(guò)自己模擬點(diǎn)擊欺詐者通過(guò)人為和計(jì)算機(jī)程序兩種方式來(lái)驗(yàn)證。

4.2 實(shí)驗(yàn)結(jié)果

在人為方式上,我們模擬點(diǎn)擊欺詐者分時(shí)段,換IP地址,隨機(jī)訪問(wèn)網(wǎng)站內(nèi)容并點(diǎn)擊廣告。在計(jì)算機(jī)自動(dòng)程序上我們使用網(wǎng)上比較流行的廣告點(diǎn)擊軟件來(lái)測(cè)試。

4.2.1 點(diǎn)擊流初步評(píng)估

在人為方式上,我們模擬點(diǎn)擊頻率f(分鐘)為:10、20、40、80、160。檢測(cè)時(shí)間t(分鐘)為:120、240、480、960。我們實(shí)驗(yàn)的規(guī)則是:在每個(gè)f隨機(jī)時(shí)間內(nèi)瀏覽網(wǎng)頁(yè)并隨機(jī)點(diǎn)擊廣告;在t時(shí)間時(shí)記錄各個(gè)模擬點(diǎn)擊頻率的評(píng)估分s。

我們首先模擬的是個(gè)人點(diǎn)擊欺詐行為,此過(guò)程IP、上網(wǎng)地點(diǎn)等環(huán)境變動(dòng)不大。實(shí)驗(yàn)結(jié)果如表2所示。

表2 模擬個(gè)人點(diǎn)擊欺詐行為評(píng)估結(jié)果

從表2可以看出點(diǎn)擊欺詐者點(diǎn)擊的越頻繁,評(píng)估分s增的就越快,點(diǎn)擊頻率f為160是看似效果不太理想,其實(shí)是因?yàn)閒較大,在t的時(shí)間內(nèi)收集到的點(diǎn)擊流數(shù)據(jù)較少,如果實(shí)驗(yàn)結(jié)果按照收集點(diǎn)擊次數(shù)來(lái)統(tǒng)計(jì)就能看到它的檢測(cè)效果是不差的。

接下來(lái)我們模擬的是IP、上網(wǎng)地點(diǎn)等環(huán)境都是變化的,這樣的檢測(cè)更具有代表性,比如通過(guò)代理、組群互點(diǎn)等方式來(lái)進(jìn)行點(diǎn)擊欺詐。實(shí)驗(yàn)結(jié)果如表3所示。

表3 模擬更具代表性的點(diǎn)擊欺詐評(píng)估結(jié)果

從表3可以看出,檢測(cè)結(jié)果還是非常樂(lè)觀的,在檢測(cè)8個(gè)小時(shí)后5組里就有3組評(píng)估分超過(guò)了0.5,后面的由于收集的點(diǎn)擊流數(shù)據(jù)少評(píng)估分還不夠明顯。

在計(jì)算機(jī)自動(dòng)程式上,我們通過(guò)比較市場(chǎng)上存在的作弊程序,選了個(gè)比較流行的點(diǎn)擊欺詐軟件來(lái)進(jìn)行實(shí)驗(yàn)。由于此類作弊軟件易于操作,一般設(shè)置好參數(shù)就行了。我們對(duì)實(shí)驗(yàn)參數(shù)調(diào)整如下:每隨機(jī)瀏覽網(wǎng)頁(yè)1000次點(diǎn)擊廣告的最大次數(shù)n為:5、20、50、100、200。檢測(cè)時(shí)間T (小時(shí))為:8、16、24、48。

我們的檢測(cè)結(jié)果如表4所示。

表4 計(jì)算機(jī)自動(dòng)程式點(diǎn)擊欺詐評(píng)估結(jié)果

從表4可以看出點(diǎn)擊率越高,效果越明顯,主要是因?yàn)槭占降狞c(diǎn)擊次數(shù)較多,點(diǎn)擊數(shù)據(jù)更有規(guī)律。4.2.2 點(diǎn)擊流評(píng)估校對(duì)

在人為方式上,對(duì)模擬個(gè)人點(diǎn)擊欺詐行為的評(píng)估校對(duì)實(shí)驗(yàn)結(jié)果如表5所示。

表5 模擬個(gè)人點(diǎn)擊欺詐校對(duì)結(jié)果

對(duì)第二種人為模擬方式的評(píng)估校對(duì)實(shí)驗(yàn)結(jié)果如表6所示。

表6 模擬更具代表性的點(diǎn)擊欺詐校對(duì)結(jié)果

對(duì)計(jì)算機(jī)自動(dòng)程式模擬方式的評(píng)估校對(duì)實(shí)驗(yàn)結(jié)果如表7所示。

表7 計(jì)算機(jī)自動(dòng)程式點(diǎn)擊欺詐校對(duì)結(jié)果

從表5~表7可以看出,檢測(cè)結(jié)果更好地參考了歷史數(shù)據(jù)集,經(jīng)過(guò)對(duì)初步評(píng)估的校對(duì),使評(píng)估分更接近于真實(shí)。當(dāng)然本實(shí)驗(yàn)也有不如意的地方,比如沒有正常點(diǎn)擊數(shù)據(jù)流的參與、實(shí)驗(yàn)周期短等因素不能使結(jié)果更具有說(shuō)服力。

5 結(jié)束語(yǔ)

本文介紹了點(diǎn)擊欺詐和Web挖掘相關(guān)的知識(shí),分析了國(guó)內(nèi)外解決的辦法和局限,在此基礎(chǔ)上提出了一種基于Web挖掘的檢測(cè)點(diǎn)擊欺詐的方法,能在不影響廣告時(shí)效性的基礎(chǔ)上,提升檢測(cè)點(diǎn)擊欺詐行為的效果,同時(shí)通過(guò)Web挖掘相關(guān)算法的運(yùn)用使檢測(cè)結(jié)果更為準(zhǔn)確。

本文介紹的方法不足之處是通過(guò)腳本來(lái)收集點(diǎn)擊流信息,對(duì)于那些不支持該腳本的瀏覽器,或者用戶故意禁用該腳本則導(dǎo)致廣告無(wú)法顯示,點(diǎn)擊流無(wú)法收集等問(wèn)題。同時(shí)在用戶識(shí)別上僅僅是通過(guò)點(diǎn)擊流屬性,沒有對(duì)cookie、session和服務(wù)器端的數(shù)據(jù)流進(jìn)行統(tǒng)一驗(yàn)證,這也是我下一步要做的事情。同時(shí)下一步的工作還有:設(shè)計(jì)一種方案去收集瀏覽者點(diǎn)擊進(jìn)入廣告主網(wǎng)站那邊后的瀏覽行為,這種瀏覽行為更能反映出瀏覽者是否是自愿點(diǎn)擊過(guò)來(lái)的,這對(duì)判斷點(diǎn)擊欺詐是很有用的。

[1]SHU Zhengyong.The study on click fraud of commercial search engine [D].Dalian:Thesis For Master Degree of Liaoning Normal University,2008 (in Chinese).[舒正勇.商業(yè)搜索引擎的點(diǎn)擊欺詐問(wèn)題研究 [D].大連:遼寧師范大學(xué)碩士學(xué)位論文,2008.]

[2]YUAN Jian,ZHANG Jinsong.Effective strategy to prevent clickfraud [J].Journal of Computer Application,2009,29 (7):1790-1792 (in Chinese).[袁健,張勁松.一種有效預(yù)防點(diǎn)擊欺詐的策略 [J].計(jì)算機(jī)應(yīng)用,2009,29 (7):1790-1792.]

[3]SU Jiangyu.Web user behavior mining base on click-stream[D].Guangzhou:Thesis For Master Degree of Guangdong University of Technology,2010 (in Chinese).[蘇疆煜.基于點(diǎn)擊流Web用戶行為挖掘 [D].廣州:廣東工業(yè)大學(xué)碩士學(xué)位論文,2010.]

[4]GAO Zhijian.Radical measure of click fraud use a third party[J].Productivity Research,2007,22 (18):72-73 (in Chinese).[高志堅(jiān).引入第三方監(jiān)測(cè)根治點(diǎn)擊欺詐 [J].生產(chǎn)力研究,2007,22 (18):72-73.]

[5]Mehmed Kantardzic,Chamila Walgampaya,Brent Wenerstrom,et al.Mproving click fraud detection by real time data fusion [C].Proc of IEEE International Symposium on Signal Processing and Information Technology,2008.

[6]ZHANG Rong.Research on technology of web mining [J].Computer Engineering,2006,32 (15):4-6 (in Chinese).[張蓉.Web挖掘技術(shù)研究 [J].計(jì)算機(jī)工程,2006,32 (15):4-6.]

[7]SUN Tao.Targeting of user behavior of online advertising system [D].Shanghai:Thesis For Master Degree of Fudan University,2008(in Chinese).[孫濤.網(wǎng)絡(luò)廣告系統(tǒng)的用戶行為定向研究 [D].上海:復(fù)旦大學(xué)碩士學(xué)位論文,2008.]

[8]FAN Yuankang,HU Xueguang,XIA Qishou,et al.Advanced data preprocessing technology for web log [J].Computer Engineering,2009,35 (10):73-74 (in Chinese). [方元康,胡學(xué)鋼,夏啟壽,等.改進(jìn)的Web日志數(shù)據(jù)預(yù)處理技術(shù) [J].計(jì)算機(jī)工程,2009,35 (10):73-74.]

[9]ZHANG Bo,WU Lili,ZHOU Min.The analysis of user behavior based on web usage mining [J].Computer Science,2006,33 (8):213-214 (in Chinese).[張波,巫莉莉,周敏.基于Web使用挖掘的用戶行為分析 [J].計(jì)算機(jī)科學(xué),2006,33 (8):213-214.]

[10]XU Xiang,LIU Jianwei,LUO Xionglin.Research on outlier mining [J].Application Research of Computers,2009,26(1):34-40 (in Chinese). [徐翔,劉建偉,羅雄麟.離群點(diǎn)挖掘研究 [J].計(jì)算機(jī)應(yīng)用研究,2009,26 (1):34-40.]

[11]HAN Jiawei,Micheline K.Data mining:Concepts and techniques [M].2nd ed.San Francisco:Morgan Kaufmann Publishers,2006.

[12]ZHAO Zhanying,CHENG Changsheng.On improved algorithm for local outlier mining based on cluster analysis and its implementation [J].Computer Applications and Software,2010,27 (11):255-258 (in Chinese). [趙站營(yíng),成長(zhǎng)生.基于聚類分析局部離群點(diǎn)挖掘改進(jìn)算法的研究與實(shí)現(xiàn) [J].計(jì)算機(jī)應(yīng)用與軟件,2010,27 (11):255-258.]

[13]ZHANG Yi,LIU Xumin,GUAN Yong.Density-based detection for outliers and noises [J].Journal of Computer Applications,2010,30 (3):802-805 (in Chinese).[張毅,劉旭敏,關(guān)永.基于密度的離群噪聲點(diǎn)檢測(cè) [J].計(jì)算機(jī)應(yīng)用,2010,30 (3):802-805.]

[14]GAO Weihua,XIE Kanglin.New model and related algorithm for the prediction of web user’s directions [J].Computer Applications and Software,2007,24 (3):142-144 (in Chinese).[高衛(wèi)華,謝康林.Web用戶行為預(yù)測(cè)的一種新模型及 算 法 [J].計(jì) 算 機(jī) 應(yīng) 用 與 軟 件,2007,24 (3):142-144.]

[15]LI Xuejun,LI Longshu,XU Yi.Research on web user’s behavior prediction base on rough set [J].Computer Engineering and Applications,2008,44 (13):134-136 (in Chinese).[李學(xué)俊,李龍澍,徐怡.基于粗糙集的Web用戶行為預(yù)測(cè)研究 [J].計(jì)算機(jī)工程與應(yīng)用,2008,44 (13):134-136.]

[16]FAN Jixiang,ZHANG Hong.Application of BP neural network and multi-variable linear regression in rate prediction[J].Computer Engineering and Applications,2007,42(23):203-204.

猜你喜歡
用戶分析檢測(cè)
“不等式”檢測(cè)題
“一元一次不等式”檢測(cè)題
“一元一次不等式組”檢測(cè)題
隱蔽失效適航要求符合性驗(yàn)證分析
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
電力系統(tǒng)及其自動(dòng)化發(fā)展趨勢(shì)分析
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
小波變換在PCB缺陷檢測(cè)中的應(yīng)用
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
主站蜘蛛池模板: 欧美性猛交一区二区三区| 久青草免费视频| 久久久亚洲色| 亚洲欧洲日韩久久狠狠爱| 色哟哟精品无码网站在线播放视频| 亚洲欧美另类专区| 内射人妻无码色AV天堂| 国产精品久久自在自2021| 黄片在线永久| 伊人婷婷色香五月综合缴缴情| 日韩欧美在线观看| 婷婷亚洲天堂| 日本a∨在线观看| 亚洲码一区二区三区| 亚洲免费黄色网| 国产欧美高清| 国产综合欧美| a天堂视频在线| 国产欧美日本在线观看| 四虎国产永久在线观看| 亚洲福利网址| 亚洲国产成人在线| 免费亚洲成人| 亚洲综合极品香蕉久久网| 成人字幕网视频在线观看| 欧美特级AAAAAA视频免费观看| 伊人网址在线| 亚洲黄网在线| 国产xxxxx免费视频| 天天躁夜夜躁狠狠躁躁88| 热九九精品| 找国产毛片看| 亚洲三级片在线看| 成人国产精品视频频| 欧美区国产区| 澳门av无码| 欧美精品三级在线| 国产精品久久久久久搜索| 在线人成精品免费视频| 欧美成a人片在线观看| 午夜爽爽视频| 国产在线视频欧美亚综合| 蜜桃臀无码内射一区二区三区| 亚洲人成电影在线播放| 丝袜无码一区二区三区| 久久亚洲国产视频| 人妻中文字幕无码久久一区| 热re99久久精品国99热| 成人国产精品网站在线看| 亚洲,国产,日韩,综合一区| A级毛片高清免费视频就| 黄色一级视频欧美| 91 九色视频丝袜| 免费视频在线2021入口| 亚洲综合二区| 久久人人妻人人爽人人卡片av| 特级欧美视频aaaaaa| 成人一区专区在线观看| 日韩精品久久无码中文字幕色欲| 九九香蕉视频| 在线观看国产黄色| 亚洲永久视频| 狠狠色狠狠色综合久久第一次| 伊人久久婷婷| 婷五月综合| 国产在线一区视频| 国产成人精品在线1区| 国产成人精品一区二区免费看京| 国产成人久久综合777777麻豆| 四虎成人免费毛片| 欧美日韩免费| 天堂av高清一区二区三区| 一级不卡毛片| 67194成是人免费无码| 欧美一级99在线观看国产| 久久伊伊香蕉综合精品| 国产福利观看| 欧美综合中文字幕久久| 色综合热无码热国产| 日韩福利在线观看| 91久久偷偷做嫩草影院电| 婷婷99视频精品全部在线观看|