肖宏飛
(滁州職業技術學院,安徽滁州239000)
Web日志挖掘在個性化網站中的應用初探
肖宏飛
(滁州職業技術學院,安徽滁州239000)
本文分析了傳統網站系統的現狀及其弊端,針對這些問題提出使用web日志挖掘技術,對網站瀏覽者的行為進行分析,并在此基礎上對瀏覽者訪問網站的行為進行預測,從而為瀏覽者提供個性化的訪問頁面,提供訪問者的檢索效率,同時根據對瀏覽者訪問記錄的web日志挖掘結果,改進網站結構及功能設計。
web日志挖掘;個性化;網站改進
隨著網絡信息技術的飛速發展和互聯網的廣泛應用,網站的數量已經數以億計,各式各樣的網站系統也層出不窮,其功能也越來越多,但大多數網站系統卻不能真正完全適應瀏覽者的要求。其原因主要是忽視了瀏覽者日志這一重要信息,沒有給出針對日志信息的個性化服務,降低了瀏覽者的訪問速率。
所謂的個性化網站服務,就是一種有針對性的網站服務方式,根據用戶瀏覽習慣來設定,依據web日志對瀏覽者的興趣愛好、瀏覽習慣、關注資訊等相關資源,向用戶提供和推薦相關信息,以滿足用戶的需求。從整體上說,個性化網站服務打破了傳統的讓用戶來適應網站系統的模式,能充分利用各種網絡資源優勢,主動開展以滿足用戶個性化需求為目的的全方位的web服務。個性化網站服務是一種網絡信息服務的方式,開展網站個性化服務是提供信息檢索和信息資源有效使用的重要手段,突出了網站信息服務的主動性,開拓了網站信息服務的新思路。
隨著internet的飛速發展,大量的數據囤積在互聯網上,在數據背后隱含著重要的知識。如何從互聯網數據中提取有用的信息,已成為當今計算機技術研究的一個熱點課題。按照挖掘對象的不同,一般將web挖掘分為3大類:web內容挖掘、web結構挖掘和web日志挖掘。
Web日志挖掘是對用戶訪問web時在服務器上面留下的訪問日志進行挖掘,即對用戶訪問web站點的存取方式進行挖掘,發現用戶的訪問模式和興趣愛好等信息和知識。挖掘的目的是在海量的網絡數據中自動、快速地發現用戶的訪問模式,如訪問路徑、檢索信息、用戶聚類等。分析和探索web日志記錄中的規律,可以識別網站的潛在用戶,增強對用戶的信息服務質量,并通過對web日志的分析改進網站結構。web日志挖掘過程如下圖1所示。

圖1 w eb日志挖掘過程
下面以一個《網站動畫設計》課程網站為例來說明web日志挖掘的應用。該網站主要欄目有:教學課件、實例視頻、教學大綱、作品展示、素材下載、在線答疑等,訪問者主要為滁州職業技術學院信息工程系08級圖形圖像專業學生,網站采用學號注冊方式進行訪問。根據學員的訪問記錄,在學員下次再訪問該網站時,推薦學員感興趣的知識點和相關資訊,以滿足不同興趣、不同訪問目的的學員的需求,從而實現主動推薦的目的。網站結構如下圖2所示。

圖2 《網站動畫設計》網站結構圖
瀏覽者在訪問網站時會留下很多信息,如訪問IP、訪問時間、離開時間、所請求URL資源、訪問的HTTP狀態碼、客戶端瀏覽軟件等。在網站服務器上的原始的web日志中,不是所有的訪問日志記錄對于web日志使用數據挖掘都是有用的,進行web日志挖掘只需要對包含有用信息的日志記錄進行挖掘,因此要對原始數據進行預處理。數據預處理是Web日志挖掘的重要環節,其任務是將原始日志數據轉換成適合數據挖掘和模式發現所必需的格式,預處理可以直接簡化數據挖掘過程,使結果更具客觀性。數據預處理包括數據凈化、用戶識別、會話識別、路徑補充四個步驟。
1、數據凈化
所謂數據凈化,是指將等待處理的web日志數據導入到相關的關系數據表中,刪除web日志數據中不正確的值或者缺失值等信息,同時把與web日志挖掘無關的變量和數據進行清理,達到簡化數據挖掘過程的目的。在本例中我們只保留了用戶名、時間、瀏覽地址等信息。
2、用戶識別
用戶識別,是將瀏覽者和訪問頁面相關聯的過程。從web日志數據信息中找出每個瀏覽者的訪問信息,避免web日志挖掘的重復性。目前,由于本地緩存、代理服務器和防火墻的存在,使得識別用戶的過程變得復雜。由于學院內部采用統一代理IP上網,所以所有學員的IP地址都是一樣的,由于網站采用學號注冊登錄,因此識別學員信息非常簡單。通過表1我們可以直觀的得出有三個學員在訪問。訪問路徑分別是首頁-視頻-習題-首頁-資源,首頁-在線答疑-首頁-資源和首頁-習題-首頁-資源。如下表1所示。

表1 原始日志信息(截取部分信息)
3、會話識別
會話識別是指同一個瀏覽者在一段時間內連續請求訪問的頁面進行分析所得到的用戶會話。例如,時間跨度超過了規定的界限,則認為是新的會話開始。會話識別的目的是將用戶的訪問序列分成單個的訪問序列,以便為web數據挖掘打下基礎。通過表1我們可以可將會話分為首頁-視頻-習題、首頁-在線答疑、首頁-習題-首頁-資源和首頁-資源四個會話。
4、補充路徑
補充路徑,指通過web日志數據推斷出讀取緩存網頁的情況。由于客戶端緩存和代理服務器緩存,使得服務器的日志通常會遺漏一些重要的頁面請求。用戶瀏覽頁面時很可能使用瀏覽器的前進和后退按鈕,或者使用一個曾經點擊過的鏈接,導致當前請求的頁面與上一次請求的頁面直接沒有超級鏈接。此時應該根據用戶訪問路徑的前后頁進行推斷,檢查引用web日志確定當前請求來自哪一個頁面,并將遺漏的頁面補充在路徑里。通過表1的分析我們可以得出,資源頁面和習題頁面不能相互直接達到,而是通過了首頁作為中轉,形成完整的用戶會話。
模式識別,是對預處理后的web日志數據用數據挖掘算法來分析處理數據,也就是對用戶的每一次訪問序列集合進行語義分組,分割成多個邏輯單元,為每個用戶建立有意義的數據聚集,然后把處理結果轉化為適合web日志挖掘所需的形式。
模式分析的目的在于使用各種數據挖掘技術,發掘出隱藏在數據背后的規律和通用的模式。通過對原始數據做分析,找出用戶的瀏覽規律,為網站的規劃和網站結構的調整提供具體理論依據。通過對圖2和表1的分析,我們可以看到,學員在訪問視頻頁面的同時,大部分會同時訪問習題頁面,這樣我們就可以在學員下次打開視頻頁面的時候,同時推薦相應的習題資源,以便更好的為學員的學習開展針對性的教學。
現在web日志挖掘已經成為網絡研究、數據挖掘、個性化推薦等領域的熱點問題。研究web日志挖掘對于優化web站點、個性化學習、信息檢索等領域,都有著十分重要的意義。本文簡要的介紹了web日志挖掘對于個性化網站建設中的應用。如何將這些技術深入、完善,并盡快運用到網絡中,還需要進一步的研究。
[1]王麗娜.Web日志挖掘技術研究.光盤技術[J].2008,(4).
[2]高哲,魏海平,王福威,趙曉碧.基于Web日志挖掘的Web文檔聚類[J].計算機工程與設計,2008,(9).
[3]Richard J.Roiger,Michael W.Geatz.數據挖掘教程[M].北京:清華大學出版社,2003.
[4]李珊,袁方.基于Web日志挖掘的頁面興趣度方法的改進[J].計算機時代,2007,(3).
TP393.18
A
1671-5993(2011)01-0065-02
2010-03-08
肖宏飛(1983-),男,安徽蚌埠人,合肥工業大學在讀研究生,滁州職業技術學院教師。