摘要:深入研究了基于點擊技術的方案的服務流程和體系結構,根據方案的特點和實施要點總結出實現點擊流信息服務方案的實施流程。對點擊流數據的主要來源Web日志文件結構和內容進行深入的分析,總結出點擊流數據的預處理內容和方法,使之變成能夠進行數據挖掘和數據分析的數據倉庫表文件。
關鍵詞:用戶點擊;數據挖掘;Web日志
中圖分類號:TP274文獻標識碼:A文章編號:1009-3044(2009)33-9412-03
Click on the User Interest in Data Mining Technology Research
YAN Bing-kuan
(Xinxing Pipes Group Technology Center,Handan 056017,China)
Abstract: The in-depth study of the program click technology-based service processes and architecture, based on program characteristics and implementation of the key points summarize information services to enable click-stream implementation of the program flow. Right click-stream data, the main source of Web log file structure and content of in-depth analysis, summarized clickstream data pre-processing the content and methods to be turned into to carry out data mining and data analysis of the data warehouse table file.
Key words: user hits; data mining; web log
在電子商務網站環境中,點擊流的分析越來越有價值,已經遠遠超出點擊流的范圍,對這些數據深層次分析已經成為電子商務網站了解經營狀況、了解用戶行為的有效工具。點擊流分析以WEB上的點擊流數據為基礎,利用OLAP、數據挖掘等技術滿足電子商務企業的所有人員的需求。不同的部門有不同的需求,通過對點擊流數據不同角度的分析來達到不同的目的。
1 基于點擊流技術的服務方案
基于點擊流的個性化信息服務方案主要是對電子商務網站信息用戶瀏覽信息的行為采用點擊流技術進行記錄、采用數據挖掘的方法,分析得出用戶在不同時期內的準確而全面的信息興趣。同時為了彌補方案初期用戶瀏覽信息記錄數據的不足,分析不準確的缺點,在用戶成為網站用戶的初期采用用戶定制信息的方式。具體實現機制是:
1)在用戶最初注冊時根據用戶填寫的基本信息,為用戶提供個性化信息推薦服務;
2)利用點擊流技術對用戶對信息行為記錄跟蹤,通過建立點擊流數據倉庫、點擊流數據集市抽取用戶信息行為的相關數據,再利用商務智能工具進行用戶當前信息需求偏好的分析,對用戶需求信息的類型加以修正、補充;
3)再通過點擊流技術對用戶推薦的信息行為跟蹤,對分析模型進行評測、改造,直至提出一個完善的用戶信息行為分析模型。
這個個性化信息服務的流程如圖1所示。
2 基于點擊流技術的服務結構
本文所描述的用戶信息興趣分析主要使用Web內容挖掘和Web使用記錄挖掘對Web日志文件和網站信息頁內容進行挖掘,得出加權的用戶曾訪問過信息類和信息關鍵字,然后通過聚類的方法得出用戶的信息興趣集合,來判定用戶感興趣的信息。然后通過信息推薦平臺把網站的信息頁和分析得出的信息興趣集合進行比對,符合一定條件的信息將由系統自動推薦給用戶。用戶信息興趣分析階段主要是離線完成,信息發布階段主要是在線進行,以滿足用戶的信息需求。
系統的體系結構見圖2,圖中分為兩個部分,用戶信息訪問興趣分析部分和信息發布部分。由于每個用戶都有不同的登錄時間和興趣類型,信息發布是根據用戶訪問行為的不同實時地進行信息發布的,因此信息發布部分為在線處理部分。而用戶訪問信息興趣分析部分則為離線處理部分。
3 基于點擊流技術的用戶興趣服務設計
基于點擊流技術的用戶興趣服務方案的實現分為用戶訪問信息興趣分析和在線發布信息兩個部分,在離線部分中要對點擊流數據進行收集,預處理和建立點擊流數據倉庫才能建立起對用戶訪問興趣分析的數據基礎,用戶的信息興趣描述特征集合是通過Web挖掘方法的應用并結合挖掘算法才能得出。在線部分需要結合用戶的信息興趣描述特征集合使用過濾算法向用戶推薦信息。本章對這些關鍵技術及如何在實施個性化信息服務中應用進行了詳細介紹和描述,并總結出了一個實施基于點擊流技術的個性化信息服務流程。
3.1 方案的總體實施流程
在本文系統實施中重點為用戶訪問信息興趣分析。用戶訪問興趣分析中本文根據實際的系統實施結果分為三個處理步驟,一是收集支持興趣分析的數據基礎;一是處理收集來的數據,即對收集來的點擊流數據和信息內容數據預處理,使這些基礎數據轉換成能夠進行數據挖掘和數據分析的點擊流數據倉庫數據;三是利用數據挖掘方案,建立分析方案分析這些數據獲取用戶的信息興趣類型。本文將信息服務方案的實施分為點擊流數據收集,點擊流數據預處理,用戶信息興趣分析,信息匹配、信息推薦四個階段。這四個階段也別有各自的結果集,點擊流數據記錄,點擊流數據倉庫,客戶信息興趣類型,網站推薦的信息。如圖3所示。為了便于實施,本文將點擊數據的收集,點擊流數據的預處理都包含進建立點擊流數據倉庫階段中。
3.2 建立點擊流數據倉庫
點擊流數據倉庫通常包含來源于Web服務器的日志文件和其他數據源的各種數據。從前面的有關日志文件所包含內容可以得知,從日志數據方面看要進行點擊流的分析遠遠不夠。在很多電子商務網站建立點擊流數據倉庫,而不是僅僅使用Web站點分析工具的主要原因之一是服務器日志數據的不完整性。如要達到商務分析要求,需要更多的有關站點內容,用戶活動以及用戶全貌的詳細信息,這些信息來自企業內外的各種各樣的數據源。所以點擊流數據倉庫的數據源除了Web服務器和Web應用服務器的日志數據,還需要在線商務處理的數據,和Web網站的內容等信息系統的數據。在本文的個性化信息服務方案中要關注的還有網站信息的詳細資料和客戶資料,所以點擊流數據倉庫中至少還應包括信息數據和客戶資料數據。
3.3 數據預處理
由于本地緩存、代理服務器以及防火墻的存在,使得Web日志中收集的數據缺乏完整性,從而也影響了Web日志數據的可靠性。由于這些問題存在,直接在Web日志上進行挖掘就非常困難,首先需要修補收集到的Web日志數據的不完整性和不一致性,繼而從Web日志數據中抽取有用的數據,將數據轉化成適合Web日志挖掘算法可用的數據格式,這些都屬于數據預處理過程研究的范疇。數據預處理的工作量占整個挖掘過程的50%。數據預處理的結果是挖掘算法的輸入,它直接影響挖掘質量,因而數據預處理是整個數據挖掘過程中關鍵而又非常必要的一步。瀏覽記錄處理處理過程數據預處理可以大大改進數據的質量,從而提高其后的數據挖掘的精度和性能。如圖4所示。
1)數據轉換
數據轉換是將非結構化或半結構化數據轉換成結構化數據,然后利用現在成熟的、廣為使用的數據庫、數據倉庫技術來處理。Web日志Web日志文件是文本文件,是一種半結構化數據,可以采用將文本文件轉換為數據表文件的方式解決。根據日志格式的不同,首先判斷該日志是標準格式的日志文件還是擴展格式的日志文件,然后根據日志中記錄的各個不同的部分按實際意義分開,在數據表中構造對應的字段。經過數據轉換,半結構化的Web日志文本文件變成了結構化的數據表記錄。
2)數據凈化
數據凈化,就是指刪除Web日志中與數據挖掘目標無關的垃圾數據。具體的數據凈化方法很多,在具體實現上采取的是在向數據庫中導入數據時進行程序操作凈化。經過數據凈化處理后的Web日志文件不但大幅度縮小,而且具備了相對精確的原始數據。
3)數據抽取
數據抽取,就是指在充分理解挖掘目標后,規劃所需要的數據源和數據定義,制定抽取規則,以去掉與挖掘目標無關的數據,形成一個個主題源數據。數據抽取操作是與挖掘目標緊密聯系,不同的挖掘目標,由于所需要的數據源是不同的,因而有不同的抽取規則。完成上述工作之后,就形成了比較精確的Web日志原始數據。
4)數據集成
完成以上幾個步驟后,要進行數據集成處理。數據集成是將多個相關數據源中的數據結合起來存放到一個一致的數據存儲中(如中央數據庫或者數據倉庫)。相關數據源如注冊用戶數據表,網站結構數據表等。數據集成處理是將注冊用戶數據表,網站結構數據表以及經過類似處理的其他相關日志文件根據一定數據匹配模式進行集成,形成網站的中央數據庫。中央數據庫是數據挖掘的數據基礎,中央數據庫的形成標志著數據預處理的基本結束。
網站可以根據實際情況,選擇一定的時間周期,將不斷產生的Web日志文件經過數據轉換、數據凈化、數據抽取、數據集成后形成的新的數據表記錄追加到一個固定數據表文件中。
3.4 點擊流數據倉庫
點擊流數據倉庫是數據倉庫在電子商務系統中的應用,是存儲供查詢和決策分析用的集成化信息倉庫,與傳統的數據倉庫相比點擊流數據倉庫的主要數據來源是人們網絡活動中進行各種活動從而在各個網絡服務器中所留下的Web日志文件及其它的相關數據庫。
在本文中點擊流數據倉庫的建立主要是建立面向用戶信息興趣分析的點擊流數據倉庫,在這個數據倉庫中需要匯集的是在Web日志文件中的信息用戶點擊信息頁面的點擊事實表和信息數據庫中各個包含信息頁面的信息數據表,以及確認用戶身份的客戶資料數據庫中的客戶信息表。
在表達分析主題的邏輯模型設計中,數據倉庫多采用星形模型和雪花模型。星形圖清晰地反映概念模型中各種實體間的邏輯關系,可以更好地在此基礎上組織檢索和查詢,使設計者完整地掌握系統的數據流程.星形圖包含三種邏輯實體:維度、指標和詳細類別實體。在很多情況下,維度實體還要向外延伸至詳細類別實體,或者說,詳細類別實體是維度實體的附加信息,是維度實體的擴展,說明了維度實體間的關系。這種在維度實體上擴展詳細類別實體的星形圖稱為雪花圖。具體采用哪種模型來表示,還要結合具體分析主題設計來定。
4 用戶信息興趣的挖掘
在本文中采用采用Web數據挖掘來分析統計用戶在瀏覽網站信息所體現出的信息興趣。Web挖掘指使用數據挖掘技術在WWW數據中發現潛在的、有用的模式或信息。
通常來講,經典的數據挖掘算法都可以直接用到Web用法挖掘上來,但為了提高挖掘質量,研究人員在擴展算法上進行了努力,包括復合關聯規則算法、改進的序列發現算法,分類聚類算法等。
在本文中是針對WEB挖掘進行個性化挖掘,針對單個用戶的使用記錄對該用戶進行建模,結合該用戶基本信息分析他的使用習慣、個人喜好,目的是在電子商務環境下為該用戶提供與眾不同的個性化信息服務,應用到的算法是分類、聚類算法。
參考文獻:
[1] 趙水森.基于因特網的個性化信息服務研究[J].中國圖書館學報,2003(4).
[2] 何軍,周明大.信息網絡中的信息過濾技術[J].系統工程與電子技術,2001(11).
[3] 高鳳榮,馬文峰,工珊.數字圖書館個性化信急推薦系統研究[J].情報理論與實踐,2003(4).
[4] 陳金海.實現Internet個性化信急服務[J].情報雜志,2003(5).
[5] 王繼成,潘金貴,張福炎.Web文木挖掘技術研究[J].計算機研究與發展,2000(5).
[6] 胡昌斗.個性化一網絡環境下信急服務的趨勢[J].圖書館理論與實踐,2004(6).