999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

高效識(shí)別用戶(hù)上網(wǎng)行為和提高大數(shù)據(jù)準(zhǔn)確性的研究

2016-08-29 07:08:45李艷霞張海波
關(guān)鍵詞:用戶(hù)檢測(cè)方法

張 穎, 李艷霞, 郭 新, 張海波

(1. 北京服裝學(xué)院 計(jì)算機(jī)信息中心, 北京 100029; 2. 清華大學(xué) 信息化技術(shù)中心, 北京 100084;3. 北京城市學(xué)院 實(shí)驗(yàn)室管理中心, 北京 100083)

?

高效識(shí)別用戶(hù)上網(wǎng)行為和提高大數(shù)據(jù)準(zhǔn)確性的研究

張穎1, 李艷霞2, 郭新3, 張海波1

(1. 北京服裝學(xué)院 計(jì)算機(jī)信息中心, 北京100029; 2. 清華大學(xué) 信息化技術(shù)中心, 北京100084;3. 北京城市學(xué)院 實(shí)驗(yàn)室管理中心, 北京100083)

針對(duì)網(wǎng)絡(luò)產(chǎn)生的大量用戶(hù)上網(wǎng)行為記錄數(shù)據(jù),探討如何在海量數(shù)據(jù)中提取有用的信息,為學(xué)校領(lǐng)導(dǎo)提供決策支持和科學(xué)依據(jù)。提出了建立網(wǎng)絡(luò)行為特征和AC算法檢測(cè)模型來(lái)識(shí)別網(wǎng)絡(luò)用戶(hù)上網(wǎng)行為的方法,該方法通過(guò)檢測(cè)模型識(shí)別服務(wù)器響應(yīng)的content-type類(lèi)型,判斷其是否為提前預(yù)設(shè)的類(lèi)型,如果是則將其標(biāo)注為有效訪問(wèn)。實(shí)驗(yàn)結(jié)果表明,該方法能夠有效識(shí)別用戶(hù)實(shí)際點(diǎn)擊訪問(wèn)網(wǎng)站行為,為學(xué)校大數(shù)據(jù)分析提供準(zhǔn)確的數(shù)據(jù)來(lái)源,進(jìn)而能夠?yàn)閷W(xué)校領(lǐng)導(dǎo)者的決策提供有力的支持。

大數(shù)據(jù)分析; 用戶(hù)上網(wǎng)行為; AC算法

隨著信息技術(shù)的不斷發(fā)展,人們?cè)谙硎芫W(wǎng)絡(luò)帶來(lái)的方便的同時(shí),也產(chǎn)生了大量用戶(hù)上網(wǎng)的行為記錄,如何對(duì)用戶(hù)的上網(wǎng)行為進(jìn)行統(tǒng)計(jì)和分析,從這些海量的數(shù)據(jù)中提取企業(yè)和學(xué)校關(guān)心的數(shù)據(jù),是一個(gè)比較困難的問(wèn)題。現(xiàn)有的商業(yè)軟件還無(wú)法有效識(shí)別出某個(gè)HTTP請(qǐng)求是由用戶(hù)訪問(wèn)網(wǎng)站發(fā)起,還是在用戶(hù)訪問(wèn)中由瀏覽器自動(dòng)發(fā)起的。例如,用戶(hù)通過(guò)使用瀏覽器訪問(wèn)北京服裝學(xué)院網(wǎng)站(www.bift.edu.cn)的過(guò)程中,HTTP請(qǐng)求有近100個(gè),其中只有1個(gè)HTTP請(qǐng)求是由用戶(hù)訪問(wèn)該網(wǎng)站產(chǎn)生的,其余的HTTP請(qǐng)求是瀏覽器為了下載和顯示該網(wǎng)站上的圖片等信息自動(dòng)發(fā)起的。如何識(shí)別出用戶(hù)訪問(wèn)網(wǎng)站產(chǎn)生的HTTP請(qǐng)求,對(duì)分析用戶(hù)訪問(wèn)網(wǎng)站的行為至關(guān)重要。

然而,目前還沒(méi)有一種成熟且有效的技術(shù)能夠?qū)崿F(xiàn)這一功能。有的軟件通過(guò)檢測(cè)返回的Referer字段和統(tǒng)計(jì)次數(shù)來(lái)識(shí)別用戶(hù)的實(shí)際點(diǎn)擊行為,但是每個(gè)瀏覽器對(duì)HTTP協(xié)議的實(shí)現(xiàn)有一些差別。目前已經(jīng)發(fā)現(xiàn),IE6的瀏覽器Referer的值是可以被篡改的。對(duì)于新版瀏覽器,雖然無(wú)法纂改Referer值,但部分用戶(hù)基于隱式權(quán)的需要,可以設(shè)置瀏覽器發(fā)送的請(qǐng)求不包含Referer信息[1]。這些用戶(hù)在訪問(wèn)時(shí)會(huì)被誤認(rèn)為實(shí)際的點(diǎn)擊請(qǐng)求,從而造成識(shí)別準(zhǔn)確率低的問(wèn)題。

文獻(xiàn)[2]提出了上網(wǎng)行為檢測(cè)方法,該方法只能針對(duì)FireFox,Chrome,Safari這3種瀏覽器中的一種,根據(jù)預(yù)設(shè)的Accecpt頭進(jìn)行的檢測(cè),該方法雖然檢測(cè)出的結(jié)果精確,但是只能對(duì)以上的3種瀏覽器進(jìn)行檢測(cè),有較大的局限性。

針對(duì)這一問(wèn)題,筆者提出了基于AC算法的識(shí)別網(wǎng)絡(luò)用戶(hù)上網(wǎng)行為的方法。該方法通過(guò)識(shí)別基于HTTP協(xié)議響應(yīng)的content-type類(lèi)型是否為提前預(yù)設(shè)的類(lèi)型,采用網(wǎng)絡(luò)行為特征和AC多模匹配算法建立檢測(cè)模型,利用該模型對(duì)用戶(hù)實(shí)際點(diǎn)擊進(jìn)行標(biāo)注,從而比較準(zhǔn)確地識(shí)別出用戶(hù)的實(shí)際點(diǎn)擊訪問(wèn)網(wǎng)站行為,大大減少了訪問(wèn)網(wǎng)站時(shí)由于瀏覽器自動(dòng)發(fā)出大量HTTP請(qǐng)求造成的識(shí)別干擾,方便網(wǎng)管人員進(jìn)行統(tǒng)計(jì)。

1 HTTP用戶(hù)實(shí)際點(diǎn)擊網(wǎng)絡(luò)行為分析

基于HTTP協(xié)議的用戶(hù)實(shí)際點(diǎn)擊行為,可使用服務(wù)器響應(yīng)標(biāo)頭中的content-type類(lèi)型進(jìn)行檢測(cè)判斷。content-type是HTTP協(xié)議header中一個(gè)重要的參數(shù),它用于標(biāo)識(shí)發(fā)送或接收到的數(shù)據(jù)的類(lèi)型,瀏覽器根據(jù)該參數(shù)來(lái)決定數(shù)據(jù)的打開(kāi)方式。

html是一切網(wǎng)頁(yè)語(yǔ)言的基礎(chǔ),當(dāng)前流行的jsp、asp、php文檔都以html為基礎(chǔ),只是用程序代碼動(dòng)態(tài)輸出html代碼,特點(diǎn)是同一文檔根據(jù)不同情況可以輸出不同的html代碼。jsp、asp、php文檔都要經(jīng)過(guò)編譯后生成html代碼,也就是我們?cè)跒g覽器中看到的結(jié)果[3]。基于這個(gè)特性,可以認(rèn)定用戶(hù)實(shí)際點(diǎn)擊網(wǎng)頁(yè)響應(yīng)的content-type類(lèi)型,絕大多數(shù)都是“text/html”。當(dāng)然,如果某個(gè)網(wǎng)頁(yè)中有嵌套的iframe等情況,這時(shí)一個(gè)網(wǎng)頁(yè)中可能存在多個(gè)“text/html”,因而雖然實(shí)際用戶(hù)只點(diǎn)擊了一次網(wǎng)站,通過(guò)該方法檢測(cè)出的結(jié)果可能就出現(xiàn)多條檢測(cè)記錄,這是該方法的一個(gè)弊端。

2 方法模型

2.1模型概述

該方法包括以下步驟:dev設(shè)備對(duì)HTTP的服務(wù)器響應(yīng)報(bào)文做DPI[4]檢測(cè),提取其中的content-type類(lèi)型;通過(guò)AC多模匹配算法,快速、高效地檢測(cè)出該類(lèi)型是否為預(yù)先設(shè)置的類(lèi)型(例如“text/html”等可以明確判斷是客戶(hù)端實(shí)際點(diǎn)擊行為),如果匹配成功,則將該HTTP請(qǐng)求標(biāo)記為用戶(hù)訪問(wèn)網(wǎng)站行為,將相關(guān)的URL搜集以報(bào)文方式發(fā)送給數(shù)據(jù)中心。數(shù)據(jù)中心的管理員再根據(jù)相應(yīng)的需求對(duì)URL進(jìn)行統(tǒng)計(jì)分析,得出哪些網(wǎng)站用戶(hù)的關(guān)注度高,從而為學(xué)校的發(fā)展提供有力的決策支持。方法模型如圖1所示。

圖1 方法模型圖

2.2AC多模匹配算法

早在1975年,貝爾實(shí)驗(yàn)室的兩位研究人員Alfred V. Aho 和Margaret J. Corasick就提出了以他們的名字命名的高效匹配算法——AC算法。

該算法的基本思想是:

(1) 在預(yù)處理階段,AC自動(dòng)機(jī)算法建立3個(gè)函數(shù)——轉(zhuǎn)向函數(shù)goto、失效函數(shù)failure和輸出函數(shù)output,由此構(gòu)造了一個(gè)樹(shù)型有限自動(dòng)機(jī);

(2) 在搜索查找階段,通過(guò)這3個(gè)函數(shù)的交叉使用掃描文本,定位出在文本中所有出現(xiàn)的位置;

(3) 此算法有兩個(gè)特點(diǎn),一是掃描文本時(shí)完全不需要回溯,二是時(shí)間復(fù)雜度為O(n),時(shí)間復(fù)雜度與的數(shù)目和長(zhǎng)度無(wú)關(guān)。

多模式匹配AC算法的核心仍然是尋找模式串內(nèi)部規(guī)律,達(dá)到在每次失配時(shí)的高效跳轉(zhuǎn)。這一點(diǎn)與單模式匹配KMP算法和BM算法是一致的。不同的是,AC算法尋找的是模式串之間的相同前綴關(guān)系。

AC算法有限狀態(tài)自動(dòng)機(jī)的存儲(chǔ)占用了大量的內(nèi)存資源,降低了算法的cache性能,巨大的存儲(chǔ)開(kāi)銷(xiāo)是影響AC算法性能的重要因素。一些研究者基于優(yōu)化AC有限狀態(tài)自動(dòng)機(jī)存儲(chǔ)空間,提出了相關(guān)的改進(jìn)方法,以提升AC算法的性能[5-9]。

3 實(shí)例分析

以用戶(hù)在瀏覽器地址欄輸入北京服裝學(xué)院網(wǎng)址www.bift.edu.cn,訪問(wèn)北京服裝學(xué)院主頁(yè)為例,鍵入回車(chē)后可以看到圖2所示內(nèi)容。瀏覽器共發(fā)起了98個(gè)HTTP請(qǐng)求,其中絕大多數(shù)是圖片(content-type類(lèi)型為img/*)、腳本(content-type類(lèi)型為application/javascript)、樣式表(content-type類(lèi)型為text/css),實(shí)際上只有第一個(gè)請(qǐng)求是用戶(hù)發(fā)起的請(qǐng)求,content-type類(lèi)型為text/html,此時(shí)把這個(gè)請(qǐng)求給記錄下來(lái)才是有效的數(shù)據(jù)。

圖2 學(xué)校主頁(yè)請(qǐng)求信息

但是對(duì)于復(fù)雜的頁(yè)面,例如包含了子頁(yè)面的情況,訪問(wèn)父頁(yè)面會(huì)帶來(lái)對(duì)子頁(yè)面的加載訪問(wèn),這時(shí)也會(huì)產(chǎn)生HTTP請(qǐng)求,content-type類(lèi)型仍為text/html,因?yàn)榇朔治龇椒ㄒ蕾?lài)于特定的content-type類(lèi)型,這里很明顯對(duì)于子頁(yè)面的訪問(wèn)非用戶(hù)的點(diǎn)擊行為,會(huì)生成干擾數(shù)據(jù),影響后續(xù)的行為分析。

如繼續(xù)使用上述例子,點(diǎn)擊首頁(yè)的“校園內(nèi)網(wǎng)”,如圖3所示。

圖3 校園內(nèi)網(wǎng)請(qǐng)求信息

除了第一個(gè)HTTP請(qǐng)求content-type類(lèi)型為text/html外,后續(xù)還有若干個(gè)請(qǐng)求的類(lèi)型也為text/html,如圖4所示。

圖4 校園內(nèi)網(wǎng)后續(xù)請(qǐng)求信息

可見(jiàn),這次用戶(hù)點(diǎn)擊行為生成的訪問(wèn)記錄有很大部分為干擾記錄。

對(duì)于上述問(wèn)題,可以在針對(duì)單一Web應(yīng)用的場(chǎng)景下抑制無(wú)效記錄的產(chǎn)生,如開(kāi)發(fā)Web應(yīng)用時(shí),對(duì)子頁(yè)面的URL進(jìn)行規(guī)劃,例如包含特定的字符標(biāo)記,如果有此類(lèi)URL訪問(wèn)記錄被記錄下來(lái),則根據(jù)預(yù)先的字符標(biāo)記,可以過(guò)濾掉此類(lèi)無(wú)效記錄。

4 實(shí)際應(yīng)用

對(duì)于HTTP訪問(wèn)記錄的初步過(guò)濾,可以在DPI設(shè)備上采用錨定的AC算法快速匹配content-type,此算法在只關(guān)注content-type某幾種類(lèi)型(如text/html、application/binary)的情況下,不需要進(jìn)行傳統(tǒng)的AC算法匹配需要做的失敗態(tài)躍遷,時(shí)間復(fù)雜度為O(1),此處為通用處理,面向互聯(lián)網(wǎng)的場(chǎng)景和面向特定Web應(yīng)用的場(chǎng)景均適用,但是存在無(wú)法過(guò)濾非真實(shí)用戶(hù)訪問(wèn)記錄的問(wèn)題。

對(duì)于單一Web應(yīng)用,可以采用針對(duì)URL的特定字符標(biāo)記進(jìn)行二次過(guò)濾(也可以在DPI設(shè)備上實(shí)現(xiàn)),就能得到準(zhǔn)確的訪問(wèn)記錄。可以根據(jù)PV量的大小,采用簡(jiǎn)單的SQL或是Hadoop大數(shù)據(jù)在線/離線分析[10]過(guò)濾等,統(tǒng)計(jì)URL被訪問(wèn)的情況,生成圖形化報(bào)表,從而分析用戶(hù)上網(wǎng)行為,為熱點(diǎn)推送、運(yùn)維數(shù)據(jù)決策等用戶(hù)定制化服務(wù)提供數(shù)據(jù)支持。

當(dāng)然,從降低實(shí)現(xiàn)部署成本角度出發(fā),也可以基于傳統(tǒng)的X86硬件+Linux+開(kāi)源WebServer+各類(lèi)開(kāi)源軟件實(shí)現(xiàn),軟硬件成本更低,不需要網(wǎng)絡(luò)設(shè)備介入,對(duì)于每個(gè)URL訪問(wèn)都進(jìn)行記錄。例如開(kāi)源WebServer nginx,是一個(gè)高性能的HTTP和反向代理服務(wù)器,也是一個(gè)IMAP/POP3/SMTP代理服務(wù)器[11]。可以記錄每個(gè)訪問(wèn),包括時(shí)間、URL、content-type等,之后只需要在線/離線分析記錄即可,并且對(duì)于大數(shù)據(jù)量記錄的分析,使用nginx可以使服務(wù)器的性能提高50%以上[12]。不論使用哪種方式,最終的分析效果是一致的。

5 結(jié)論

基于AC算法不拘泥于瀏覽器的類(lèi)型,在面向互聯(lián)網(wǎng)的場(chǎng)景中能有效識(shí)別用戶(hù)的上網(wǎng)行為,但存在一定局限性;在面向特定Web應(yīng)用的場(chǎng)景中效果較好,能精確識(shí)別用戶(hù)上網(wǎng)行為,但是依賴(lài)于對(duì)Web應(yīng)用使用的URL作事前規(guī)劃,有一定局限性;實(shí)現(xiàn)部署可以采用專(zhuān)用軟硬件,也可以采用通用硬件+開(kāi)源軟件的方案以降低部署成本。高效識(shí)別用戶(hù)上網(wǎng)行為能夠?yàn)槠髽I(yè)大數(shù)據(jù)分析提供準(zhǔn)確的數(shù)據(jù)來(lái)源,為企業(yè)領(lǐng)導(dǎo)者的決策提供有力的支持。

References)

[1] 陳春艷.跨站請(qǐng)求偽造攻擊的基本原理與防范[J].電腦知識(shí)與技術(shù),2014(5):902-904.

[2] 陳釗毅,袁偉.一種識(shí)別用戶(hù)實(shí)際點(diǎn)擊訪問(wèn)網(wǎng)站行為的方法及系統(tǒng):201210047328[p].2012-08-08.

[3] Jackson J C. web技術(shù)[M].北京:清華大學(xué)出版社,2007.

[4] 李云波.基于深度包檢測(cè)技術(shù)入侵檢測(cè)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].沈陽(yáng):東北大學(xué),2009.

[5] Aho A V,Corasick Mar J. Efficient string matching: an aid to bibliog raphic search [J]. Communications of the ACM,1975,18(6):333-340.

[6] Yu Jianming, Xue Yibo, Li Jun. Memory efficient string matching alg orithm for netw ork intrusion management system[J] . Tsinghua Science and Technolog y, 2007, 12(5):585-593.

[7] 徐紅,秦志光.一種面向入侵檢測(cè)的改進(jìn)AC算法[J].微電子學(xué)與計(jì)算機(jī),2010(11):109-112.

[8] 盧汪節(jié),鞠時(shí)光.入侵檢測(cè)系統(tǒng)中一種改進(jìn)的AC算法[J].計(jì)算機(jī)工程與應(yīng)用,2006(15):146-148.

[9] Hou Zhengfeng, Shu Yindong, Han Jianghong, et al. The Study and Improvement of AC_BM Multi-pattern Matching Algorithm[J].Energy Procedia,2011(13):36-42.

[10] 喬媛媛.基于Hadoop的網(wǎng)絡(luò)流量分析系統(tǒng)的研究與應(yīng)用[D].北京:北京郵電大學(xué),2014.

[11] 吳迪,徐國(guó)勝.一種基于Nginx的安全設(shè)備代理方案[C]//中國(guó)通信學(xué)會(huì).第九屆中國(guó)通信學(xué)會(huì)學(xué)術(shù)年會(huì)論文集.北京:中國(guó)通信學(xué)會(huì),2012.

[12] 喬鑫.Nginx:新一代web服務(wù)器軟件[J].科技浪潮,2009(1):11-12.

Research on effective recognition of user’s actual click behavior to improve accuracy of large data

Zhang Ying1, Li Yanxia2, Guo Xin3, Zhang Haibo1

(1. Computer Information Center, Beijing Institute of Fashion Technology, Beijing 100029, China;2. Information Technology Center, Tsinghua University, Beijing 100084, China;3. Laboratory Management Center, Beijing City University, Beijing 100083, China)

How to extract useful data from these massive amounts of data and provide support and scientific basis for the management of the school have become a problem. Therefore, the method of establishing the network behavior characteristic and using AC algorithm to detect model is proposed, which can identify the behavior of Internet users. The method identifies the content-type of the server response by the model, and judges whether the returned type is a preset type, and if so, it is marked as an effective access. Experimental results show that the proposed method can effectively identify the user’s actual Internet behavior, it can provide accurate data source for the school big data analysis, and then can provide the strong support for the school leader’s decision.

big data analysis; user actual click behavior; AC algorithm

DOI:10.16791/j.cnki.sjg.2016.04.041

2015- 09- 29

北京服裝學(xué)院科學(xué)研究項(xiàng)目(2014A-08)資助

張穎(1980—),女,山東煙臺(tái),碩士,助理研究員,研究方向?yàn)樾@信息化建設(shè).

E-mail:jsjzhy@bift.edu.cn

TP311

A

1002-4956(2016)4- 0153- 03

猜你喜歡
用戶(hù)檢測(cè)方法
“不等式”檢測(cè)題
“一元一次不等式”檢測(cè)題
“一元一次不等式組”檢測(cè)題
關(guān)注用戶(hù)
關(guān)注用戶(hù)
小波變換在PCB缺陷檢測(cè)中的應(yīng)用
關(guān)注用戶(hù)
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚(yú)
主站蜘蛛池模板: 国产无码精品在线| 亚洲Va中文字幕久久一区| 欧美日韩在线国产| 欧美成人午夜影院| 天堂网亚洲综合在线| 亚洲免费福利视频| 欧美亚洲综合免费精品高清在线观看| 亚洲日韩精品欧美中文字幕| 成人午夜在线播放| 极品性荡少妇一区二区色欲| 国产精品毛片一区| 精品福利国产| 特黄日韩免费一区二区三区| 日韩一二三区视频精品| 国产精品色婷婷在线观看| 久久天天躁狠狠躁夜夜2020一| 亚洲无码电影| 精品超清无码视频在线观看| 波多野结衣爽到高潮漏水大喷| 91亚洲国产视频| 高清无码手机在线观看| 国产成人高清精品免费软件| 国产精品亚洲精品爽爽| 日韩a级毛片| 成人欧美在线观看| 亚洲第一中文字幕| 国产日韩欧美在线视频免费观看 | 国产成熟女人性满足视频| 亚洲国产系列| 国产欧美视频一区二区三区| 久久久久国产一级毛片高清板| 99精品视频在线观看免费播放| 日韩欧美国产另类| 久久一色本道亚洲| 亚洲精品午夜无码电影网| 国产欧美精品一区二区| 国产黄网永久免费| 伊人查蕉在线观看国产精品| 国产一区二区精品高清在线观看| 中文字幕久久波多野结衣| 亚洲精品国产精品乱码不卞 | 中文字幕免费在线视频| 日韩一区二区在线电影| 狠狠色婷婷丁香综合久久韩国| 国产成人精品三级| 在线观看无码a∨| av无码一区二区三区在线| 手机在线看片不卡中文字幕| 亚洲国产欧洲精品路线久久| 伊人久久福利中文字幕| 91精品福利自产拍在线观看| 日本伊人色综合网| 波多野结衣一二三| 国产情精品嫩草影院88av| 免费一级α片在线观看| 2021亚洲精品不卡a| 就去色综合| 天天摸夜夜操| 黄色网址免费在线| 久久国产精品无码hdav| 日韩一区二区三免费高清| 在线看片中文字幕| 第九色区aⅴ天堂久久香| 久久精品最新免费国产成人| 亚洲资源站av无码网址| 日本国产精品| 综合色婷婷| 亚洲欧洲国产成人综合不卡| 亚洲高清在线播放| 亚洲美女高潮久久久久久久| 夜夜爽免费视频| 一区二区日韩国产精久久| 色综合中文综合网| 曰韩免费无码AV一区二区| 波多野结衣无码中文字幕在线观看一区二区| 在线免费不卡视频| 欧美国产三级| 蜜臀AV在线播放| 福利一区三区| 一本一道波多野结衣av黑人在线| 丰满人妻久久中文字幕| 波多野结衣在线se|