秦 鵬,曹天杰
(1.六盤水師范學院 計算機科學與信息技術系,貴州 六盤水 553004;2.中國礦業大學 計算機科學與技術學院,江蘇 徐州 221116)
基于樸素貝葉斯網頁分類的用戶行為推衍*
秦 鵬1,曹天杰2
(1.六盤水師范學院 計算機科學與信息技術系,貴州 六盤水 553004;2.中國礦業大學 計算機科學與技術學院,江蘇 徐州 221116)
針對傳統網頁分類中存在的準確率和查全率不高、分類效率低的情況,提出一種基于樸素貝葉斯分類的網頁預分類算法.算法根據用戶的網上活動情況提取相關網址,分析網頁內容和網頁關鍵詞,利用樸素貝葉斯分類算法進行分類,根據用戶對各類網頁的瀏覽情況分析用戶的行為特征.采用改進的文本權值計算方法,并引進網址預分類機制,提高數據的處理效率以及分類的準確率.結果表明,網址分類算法準確,能夠充分發掘用戶的興趣喜好,可以作為用戶行為分析的數據算法進行商業推廣和司法取證.
網頁關鍵詞;樸素貝葉斯;網頁分類;行為特征;權值計算方法;網址預分類;商業推廣;司法取證
信息化時代網絡產生海量數據,針對用戶網上行為數據挖掘成為數據分析的一大熱點話題.對于公司,可以通過發掘用戶行為習慣,推出相應產品;對于社會,通過分析用戶數據,可以發現潛在的社會問題,完善相關機制,打擊網絡犯罪;對于高校,可以分析學生的行為特征,提供個性化網站服務.
國內外眾多學者對網頁分類進行了積極的探究,金一寧等[1]提出一種基于VSM模型的KNN分類算法,分別對基于標題、正文、正文和鏈接結合及標題和鏈接結合的分類結果進行比較;許世明等[2]提出通過預置關鍵詞表進行預分類的方法,極大地提高了分類的速度;江國薦等[3]基于網頁半結構化特點,提出了一種基于稀疏自動編碼和LBP神經網絡的分類器,降低了文本訓練時間,網址分類正確率得到了極大提高;代寬[4]等結合網頁半結構化特征改進TF-IDF算法,提高了網頁的召回率和準確率;國外學者Lee等[5]提出一種簡化群優化SSO訓練權重的方法,并采用Taguchi方法設置參數,充分發揮單詞權重的更新性;Hernndez等[6]提出一種基于URL自動化網頁分類方案,根據URL模式區分網頁類別.
本文針對中文網頁結構和URL特點,改進TF-IDF權值計算方法,并基于樸素貝葉斯分類算法,引進網址預分類機制,提出一種基于樸素貝葉斯的中文網頁預分類算法,根據分類結果分析用戶的興趣愛好.
網頁分類一般包括網頁文本提取、構建文本特征及文本分類三個過程.
要對網頁進行分類,首先需要提取網頁文本,對網頁文本進行預處理,提取body標記中的文本數據、錨文本、Title標記、Meta標記、H1、H2等標記內容[7-8],去除注釋標記內容和網頁通用內容.
對處理后的文本進行文本分詞,得到具有獨立信息的載體.文本分詞是網頁關鍵詞提取和文本分類的基礎,本文采用的文本分詞算法是在.NET環境中集成中科院的分詞技術ICTCLAS,該算法的優點是支持用戶詞典接口擴展以及分詞粒度可調[9].
文本表示方法主要有布爾模型、向量空間模型和統計語言模型,本文主采用向量空間模型VSM來表示具體的頁面,向量形式為(ti1,wi1,ti2,wi2,…,tij,wij),其中,tij為頁面i的第j個特征詞,wij為頁面i的第j個特征詞的權值[10].
在網頁文本分詞后,為了減少文本空間的向量維數,需要進行關鍵詞提取,找出能夠代表整篇網頁主要內容的詞語,構建每個網頁的文本特征庫.
1.2.1 計算詞條權重
傳統的TF-IDF單詞權重計算方法表示為
W=UTFfIDF
(1)
式中:UTF為詞頻,指單詞出現在給定文檔中的次數;fIDF為逆向文檔頻率,是反映單詞在文檔集中頻繁度的重要指標,其計算公式為
fIDF=log2(N/n)
(2)
式中:N為總文檔數;n為包含詞條的文檔數.
在HTML半結構化網頁中,不同標記中文本的重要程度不同,傳統TF-IDF算法不適用于網頁文本權重計算.HTML中存在很多不同的域,比如標題Title、元數據Meta、正文Body,正文中又可分為段標記數據、H標記數據、錨文本數據等.如果詞條出現在頁面title中,其重要程度最大,因為一篇網頁的標題基本上反映其描述的內容,可以為其賦予較高的權值[11].表1中顯示了不同標記在文本中的重要程度.

表1 標記在頁面中的重要性Tab.1 Importance of sign in page
根據網頁特點,本文將網頁文本分為body內容文本和關鍵特征文本(kff),關鍵特征詞包括標題Title標簽,Meta標簽中名為keywords和description的元數據,鏈接文本,H1、H2標記段落文本以及其他一些重要的Html標簽域中的文本[12-13],因此詞條改進后的權重計算公式為
Wid=?Wbody+(1-?)Wkff
(3)
式中,?為協調因子,0<1,通過調整?的大小進行試驗,找到最優的權重計算方法.正文中詞條權重Wbody與關鍵特征權重Wkff表達式為
Wbody=UTFf
(4)
f=log2(Nm/n)
(5)

(6)
式中:m為某一類Ci中包含詞條的文檔數;fik為Wkff在文檔中特征域上出現的次數;Wik為Wkff在頁面中的重要程度.
1.2.2 選取關鍵詞
計算完詞語的權重后,通??梢圆扇煞N方式確定網頁的關鍵詞,一種是通過設定關鍵詞權重閥值,權重超過該閥值的即可認為是關鍵詞;另外一種是將詞語按照詞權重大小逆序排列,選取權重排名靠前的幾個詞語作為網頁關鍵詞[14],本文選擇權值靠前的詞語作為網頁關鍵詞.
網頁分類即是對網頁中的文本進行分類,常用的分類方法有基于統計的Bayes分類、KNN、支持向量機、決策樹及回歸模型等.本文基于樸素貝葉斯分類算法,提出一種改進的預分類算法以提高分類效率.文本分類首先要提取待分類文本的特征項,根據訓練文本集構建文本分類器,然后將特征項在分類器中進行分類,輸出分類結果[15-16].網頁分類系統的一般模型如圖1所示.

圖1 網頁分類系統的一般模型Fig.1 General model for web page classification system
貝葉斯理論是基于統計推斷的過程,需要計算一般信息和先驗信息,得到后驗信息.它的主要特點是利用概率來表示所有不確定的形式,并且利用概率規則來實現學習和推理,通過計算過去某段時間發生的概率來估計將來發生的概率.
貝葉斯分類器是一個簡單的基于應用貝葉斯獨立假設理論的概率分類器.貝葉斯定理中條件概率和反條件概率之間的關系可表示為

(7)
式中:P(Y)為Y的先驗概率或是邊沿概率,即不將X的任何信息考慮在內的概率;P(Y|X)為給定X后,Y的條件概率,它的值來自或是取決于X的值.構建后驗概率時,很多情況下需要給定一個數據D,并找到在數據集E中的條件概率P(E|D).假設最大值e包含于E,任何最大可能性的假設均稱作最大后驗假設,標記為EMAP,即
EMAP=argmaxe∈EP(E|D)=
(8)
樸素貝葉斯分類的實現過程主要包括以下步驟:
1) 計算類的先驗概率.數據樣本用一個n維的特征向量X表示,用于描述屬性對樣本的度量,系統中的屬性值即為特征詞,接著計算每個分類Ci的先驗概率P(Ci),即
P(Ci)=Nci/N
(9)
式中,Nci為總樣本中屬于類Ci的樣本數.
2) 計算每個類的條件概率.樸素貝葉斯算法使用獨立假設檢驗,認為屬性值相互條件獨立,Ci類條件概率為

(10)
式中:Nxc為Ci類中包含屬性x的樣本數,系統中Nxc即為在Ci類中包含詞條x的樣本數;V為樣本中總的類別數,即類別C的總數.為了避免極端零值的情況出現,此處對Nxc的值進行加1處理.
3) 計算類后驗概率.根據貝葉斯分類理論,將數據樣本劃分給后驗概率較大的類,因此在計算完后驗概率后,即可知道網頁的分類情況.后驗概率計算表達式為

(11)
對于每一個數據樣本,P(X)均一樣,因此式(11)可簡化為
P(Ci|X)=aP(Ci)P(X|Ci)
(12)
在分析過程中,為了避免計算值較小情況的出現,可以對后驗概率進行放大處理,這樣方便分類的處理.在此只需要對后驗概率值乘以一個整數M即可,最終的后驗概率表達式為
P(Ci|X)=aP(Ci)P(X|Ci)M
(13)
完整的基于樸素貝葉斯網頁分類流程如圖2所示.
在數據計算過程中,為了在較短時間內獲取足夠多的信息,需要提高計算效率.由于用戶瀏覽的網址較多,緩存文件也很大,如果通過傳統的分析方法很難在短時間內獲取有效信息.為了提高分類速度,統計用戶對每種類別網頁的瀏覽情況,本文針對網頁獨有的特點,提出一種網頁預分類方法.
在網頁開發的過程中,網頁開發者首先設計的是其首頁,然后根據相關功能建立相應的子類網址.一個典型的域名通常包括傳輸協議、主機類型、主機名、二級域名和頂級域名.其中頂級域名是一個國家獨有的,比如中國的頂級域名為cn.二級域名中使用最多的主要有5個,分別是com、org、net、mail、edu,其中com適用于商業公司,org用于非盈利機構,net用于大型網絡中心,mail用于軍事機構,edu用于教育網站.以學校網址http://www.lpssy.edu.cn為例,其主機名為lpssy,二級域名為edu,頂級域名為cn.
假設網頁不受黑客入侵,其網址對應的網頁類別是不變的,如上所述,可以先根據頂級域名進行初次劃分,再對不同的類別進行判斷.如果每次都進行分類則要耗費大量時間,故可以為已經正確分類的網址建立一個哈希表.在對獲取的網址進行分類時,首先將獲取的網址和已經進行正確分類的網址進行對比,如果該網址與已經存在的網址相同,則直接輸出分類結果.如果該網址的主機名存在于已經正確分類的網址中,則直接輸出分類結果.如果該網址不存在已經建立的哈希表中,根據頂級域名進行分類,如果分類成功,則直接輸出分類結果;否則再根據樸素貝葉斯算法進行具體分類,輸出分類結果,其流程圖如圖3所示.

圖3 預分類的網頁分類流程圖Fig.3 Flow chart of web page pre-classification
在文本分類中,常用于評估參數的指標有3種,分別是分類查全率r、準確率p和F1測試值.其中查全率和準確率可以通過分類混合矩陣來描述,分類混合矩陣中包含了真實的情況和分類器的預測結果.
準確率p和查全率r反映的是分類質量的兩個方面,理論上是不相干的,然而實際情況中高準確率通常是在犧牲查全率的情況下獲得的,因此,引入評估指標F1測試值,其定義為

(14)
系統中采用的訓練文本集數據為SouGou提供的網頁文本集,總類別為10個,分別是文化、郵箱、IT、體育、教育、軍事、色情、黑客、音樂及財經.測試數據集為用戶瀏覽網址下載的相關網頁文本.
訓練集中每一類別的數據采用2 000篇網頁文本作為訓練集,總的訓練集數據為20 000篇網頁文本.測試時,每個類別的網頁分別采用100篇網址進行測試,總網址為1 000條URL網址.測試效果如表2所示.
由表2可知,本文采用的網頁預分類算法具有很高的準確性,幾種類別的F1值均超過了0.85,郵箱、色情、體育、軍事、黑客及音樂類F1值都在0.9以上,可以滿足分類要求,算法準確率較高,且分類時間較短.
從表2中還可以看出,文化、教育、IT及財經類的分類效果不是很理想,分析其原因可以歸結為以下幾個方面:
1) 文化、教育類網頁題材內容部分重疊,網頁關鍵詞代表性不夠,導致分類效果不佳;
2) IT類和黑客類區分度不大,黑客類網站中包含很多IT類知識介紹,內容容易混淆,難以區分;
3) 財經類網站特點不明顯,內容涉及范圍較廣,因此分類容易出錯.
通過對用戶瀏覽的網址進行分類,統計各類網站的瀏覽情況,可以分析出用戶的行為習慣,如圖4所示.從圖4中可以看出,目標用戶網上活動分布較廣,各種頁面內容均有涉及,其中對IT和文化類網站瀏覽數量較多,黑客及色情網站也存在部分瀏覽量.
本文通過用戶的網頁瀏覽記錄獲取網址內容,進行網頁分類,挖掘用戶的行為特征.主要創新之處在于:根據網頁結構特征提出改進的單詞權值計算方法,根據URL特點提出網頁預分類算法,二者有機結合在一起,可以快速進行網址分類.該分類算法可以幫助相關法證部門分析犯罪分子心理;也可作為商業服務為用戶提供喜歡的網站;還可以在高校中為學生提供個性化服務,具有很強的實用性.

圖4 用戶行為分析Fig.4 Behavior analysis of user
[1] 金一寧,王華兵,王德峰.基于KNN及相關鏈接的中文網頁分類研究 [J].哈爾濱商業大學學報,2011,27(2):203-206.
(JIN Yi-ning,WANG Hua-bing,WANG De-feng.Research on chinese webpages classification based on k-nearest neighbour algorithm and relative hyperlinks [J].Journal of Harbin University of Commerce,2011,27(2):203-206.)
[2] 許世明,武波,馬翠,等.一種基于預分類的高效SVM中文網頁分類器 [J].計算機工程與應用,2010,46(1):125-128.
(XU Shi-ming,WU Bo,MA Cui,et al.Efficient SVM chinese web page classifier based on pre-classification [J].Computer Engineering and Applications,2010,46(1):125-128.)
[3] 江國薦,顧乃杰,張旭,等.基于SAE-LBP的網頁分類研究 [J].小型微型計算機系統,2016(4):738-742.
(JIANG Guo-jian,GU Nai-jie,ZHANG Xu,et al.Research on webpage classification based on sparse auto-encoder and layer-wise back propagation [J].Journal of Chinese Computer Systems,2016(4):738-742.)
[4] 代寬,趙輝,韓冬,等.基于向量空間模型的中文網頁主題特征項抽取 [J].吉林大學學報(信息科學版),2014,32(1):88-94.
(DAI Kuan,ZHAO Hui,HAN Dong,et al.Theme feature extraction of chinese webpage based on vector space model [J].Journal of Jilin University (Information Science Edition),2014,32(1):88-94.)
[5] Lee J H,Yeh W C,Chuang M C.Web page classification based on a simplified swarm optimization [J].Applied Mathematics & Computation,2015,270(3):13-24.
[7] 袁津生,毛新武.基于組合特征的中文新聞網頁關鍵詞提取方法 [J].計算機工程與應用,2014,50(19):222-226.
(YUAN Jin-sheng,MAO Xin-wu.Keyword extraction from chinese news Web pages based on multi-features [J].Computer Engineering and Applications,2014,50(19):222-226.)
[8] 孟海東,肖銀龍,宋宇辰.基于Hadoop的Dirichlet樸素貝葉斯文本分類算法[J].現代電子技術,2016,39(4):29-33.
(MENG Hai-dong,XIAO Yin-long,SONG Yu-chen.Classification algorithm for Dirichlet Naive Bayes text based on Hadoop[J].Modern Electronics Technique,2016,39(4):29-33.)
[9] 潘志文,柏灼,謝政.基于Lucene的Web信息檢索系統設計與實現 [J].軟件導刊,2014(10):88-90.
(PAN Zhi-wen,BAI Zhuo,XIE Zheng.Design and implementation of web information retrieval system based on lucene [J] Software Guide,2014(10):88-90.)
[10]羅芳,李春花,周可,等.基于多屬性的海量Web數據關聯存儲及檢索系統 [J].計算機工程與科學,2014,36(3):404-410.
(LUO Fang,LI Chun-hua,ZHOU Ke,et al.An associated storage and retrieval system of massive web data based on multi-attributes [J].Computer Engineering & Science,2014,36(3):404-410.)
[11]Zhu J,Xie Q,Wong W H,et al.Exploiting link structure for web page genre identification [J].Data Mining & Knowledge Discovery,2016,30(3):550-575.
[12]周煒,牛連強,王斌.面向社交網絡的認證模型 [J].沈陽工業大學學報,2016,38(5):545-550.
(ZHOU Wei,NIU Lian-qiang,WANG Bin.Authentication models faced on social networks [J].Journal of Shenyang University of Technology,2016,38(5):545-550.)
[13]俞浩亮,王秋森,馮旭鵬,等.基于特征加權的網絡不良內容識別方法[J].現代電子技術,2016,39(3):76-79.
(YU Hao-liang,WANG Qiu-sen,FENG Xu-peng,et al.Feature weighting based identification method for network undesirable content[J].Modern Electronics Technique,2016,39(3):76-79.)
[14]Jiang L,Li C,Wang S,et al.Deep feature weighting for naive Bayes and its application to text classification [J].Engineering Applications of Artificial Intelligence,2016,52(3):26-39.
[15]夏莘媛,戴靜,潘用科,等.基于貝葉斯證據框架下SVM的油層識別模型研究 [J].重慶郵電大學學報(自然科學版),2016,28(2):260-264.
(XIA Xin-yuan,DAI Jing,PAN Yong-ke,et al.Oil layer recognition model based on SVM within Bayesian evidence framework [J].Journal of Chongqing University of Posts and Telecommunications(Natural Science Edition),2016,28(2):260-264.)
BehaviorderivationofusersbasedonNaiveBayeswebpageclassification
QIN Peng1, CAO Tian-jie2
(1.Department of Computer Science and Information Technology, Liupanshui Normal University, Liupanshui 553004, China; 2.School of Computer Science and Technology, China University of Mining and Technology, Xuzhou 221116, China)
Aiming at the situation that the accuracy and recall rate of traditional web page classification are not high and the classification efficiency is low, a web page pre-classification algorithm based on Naive Bayes classification was proposed.According to the online activity situation of users, the relevant websites were extracted, the contents and keywords of web pages were analyzed, and the classification was performed with the Naive Bayes algorithm.According to the browse situation of users on various web pages, the behavior characteristics of users were analyzed.The improved web text weight calculation method was adopted, the web site pre-classification mechanism was introduced, and the processing efficiency of data and classification accuracy were improved.The results show that the web site classification algorithm is accurate, can fully explore the interest and preference of users, and can be applied in both the commercial popularization and forensic evidence as the data algorithm for the behavior analysis of users.
web page keyword; Naive Bayes; web page classification; behavior characteristic; weight calculation method; website pre-classification; business promotion; forensic evidence
2017-03-29.
貴州省科學技術基金計劃資助項目(20157606);貴州省教育廳青年科技人才成長資助項目(2016267).
秦 鵬(1986-),男,貴州六枝人,講師,碩士,主要從事計算機人工智能及信息安全等方面的研究.
* 本文已于2017-12-21 14∶47在中國知網優先數字出版.網絡出版地址:http://kns.cnki.net/kcms/detail/21.1189.T.20171220.1758.010.html
10.7688/j.issn.1000-1646.2018.01.15
TP 181
A
1000-1646(2018)01-0082-06
景 勇 英文審校:尹淑英)