
摘要:本文在介紹了Web數據挖掘、Agent技術的概念和特點的基礎上,提出了一種面向電子商務的多AgentWeb數據挖掘模型。利用這種模型可以把任務由大化小,由復雜變簡單,簡化了問題的復雜性。
關鍵詞:Web;數據挖掘;電子商務;Agent
1引言
隨著Internet及Web技術的快速發展,各類電子商務網站風起云涌。 在競爭日益激烈的電子商務市場中,只有贏得用戶才能最終贏得競爭的優勢。一個網站每天需要搜集和處理大量的數據,如何將這些繁瑣的數據轉換為有價值的信息和知識是我們面臨的問題。利用數據挖掘技術可以有效地幫助網站經營者分析網上獲取的數據,提取出有效信息,進而調整營銷策略,給客戶提供個性化的高效率服務。Web數據挖掘正是使用Web技術,從網站數據庫中發現知識的過程。
2 Web數據挖掘
2.1 Web數據挖掘概念
Web數據挖掘是是從數據挖掘發展過來的集Web技術、數據挖掘、計算機技術、信息科學等多個領域的一項技術。Web數據挖掘可從大量的Web文檔及Web服務中自動發現蘊涵的、未知的、有潛在應用價值的、非平凡的信息。它所處理的對象包括:靜態網頁、Web數據庫、Web結構、用戶使用記錄等信息。通過對這些信息的挖掘,可以得到僅通過文字檢索所不能得到的信息。
基于Web的數據挖掘和傳統的基于數據倉庫的數據挖掘有著不同的含義。Web挖掘的研究對象是以半結構化和非結構文檔為中心的Web,這些數據沒有統一的模式,數據的內容和表示互相交織,數據內容基本上沒有語義信息進行描述,僅僅依靠HTML語法對數據進行結構上的描述。為了對這種半結構化數據進行分析和處理,Web挖掘必須和其研究手段結合起來。由于涉及到很多的知識領域,Web挖掘現在是多個研究方向的交匯點,包括數據庫、信息獲取、人工智能、機器學習、模式識別、統計學、自然語言處理等。
2.2 Web數據挖掘的類型
電子商務網站中Web信息的多樣性決定了挖掘任務的多樣性。按照Web數據類型的不同,Web數據挖掘可以分為三種類型:Web內容挖掘、Web結構挖掘以及Web使用模式挖掘,如圖1。
(1)Web內容挖掘。Web內容挖掘是自動地從數以萬計的Web站點和在線數據庫中搜索和獲取信息和資料的過程,從Web文檔的內容信息中挖掘出隱藏在網絡數據或文檔中的知識內容知識。網絡信息資源類型眾多,從網絡資源的形式來看,包括文本、圖像、音頻、視頻等形式的數據,因此Web內容挖掘可又可將其分為基于文本的挖掘和基于多媒休的挖掘。目前Web文本挖掘已經有了比較實用的功能。
(2)Web結構挖掘。整個Web空間里,有用的知識不僅包含在Web頁面的內容之中,而且也包含在頁面的結構之中。Web結構挖掘就是挖掘Web潛在的鏈接結構模式,是對Web頁面超鏈接關系、文檔內部結構、文檔URL中的目錄途徑結構的挖掘,所以Web結構挖掘又可將其分為超鏈接挖掘、內部挖掘和URL挖掘。
(3)Web使用模式挖掘。Web使用模式挖掘(又稱為日志挖掘),是對用戶訪問Web服務器時留下的訪問記錄進行挖掘,從中得出用戶的訪問和訪問興趣的過程,主要用來了解用戶的網絡行為數據所具有的意義,是對現代電子商務戰略的一個重要支持,它通常可分為:一般訪問模式挖掘和個性化服務模式挖掘。
Web訪問日志,是登錄某個Web站點的用戶經過一系列的站點瀏覽后,系統自動記錄的用戶瀏覽行為數據,諸如用戶的IP、用戶的訪問時間、瀏覽過頁面的URIJ、請求方法、請求的字節數、客戶端的操作系統和瀏覽器版本號等。通過對Web站點上用戶訪問日志文件中的數據的挖掘,可以了解登錄Web站點的大多數用戶經常采用的瀏覽模式、瀏覽路徑,從而改進站點的設計。
3 電子商務中的Web數據挖掘
3.1 電子商務中的Web挖掘算法
面向電子商務的Web數據挖掘主要包括Web內容挖掘和Web日志挖掘。利用Web內容挖掘,可進行電子商務海量商品信息采集;利用Web日志挖掘,可有效地對Web日志進行定量分析,輔助商家理解用戶的行為,從而改進站點結構,調整銷售策略,提供個性化服務。
在電子商務中常用的挖掘算法有:關聯規則、序列模式、聚類、分類等。關聯分析用于了解顧客的購物習慣和偏好,決定市場商品的擺放和產品的捆綁銷售策略;序列模式是用某時間點發現的產品購買或行為模式來預測將來顧客購買產品的概率;聚類用于市場細分,將顧客按其行為或特征模式的相似性劃分為若干細分市場,以采取有針對性的營銷策略;分類用于預測哪些人會對郵寄廣告、贈卷促銷手段有反應,還可用于顧客類別劃分等。
3.2 基于多Agent的Web數據挖掘模型
傳統的Web數據挖掘需要人們的大量參與,一次需要處理大量數據,并且可能因為低準確性而造成多次重復操作,大大降低了它的智能性和高效性,浪費了用戶的時間和精力。隨著Agent技術的出現和研究,人們嘗試著將其應用到Web數據挖掘中來。Agent能實現自我控制狀態和行為,能在無人或其他程序介入時操作和運行。
基于多Agent的Web挖掘模型其基本原理是把web挖掘任務分配給多個Agent來共同完成。每個Agent都有自己的目標,有獨立完成任務的能力,也可以和用戶等外部環境進行交互。同時各個Agent之間相互學習和幫助,通過交互和協調增強web挖掘的能力。
模型主要由客戶Agent、適配器、協同Agent、數據挖掘Agent、全局知識庫、知識庫和原型庫、用戶信息庫構成,如圖2。
(1)客戶Agent。客戶Agent是用戶和計算機進行人機對話的接口。在用戶初迸系統時,客戶Agent接收用戶的注冊與查詢請求,并對用戶的請求進行編碼,分析和判斷,主動幫助用戶細化查詢要求,把任務的詳細分析交給管理Agent。
(2)適配器。適配器用來初始化Agent,實現Agent之間的通信。一方面,它把從協同Agent傳來的各移動Agent挖掘的結果進行組合、裝配形成規則,存入全局知識庫和提交給客戶Agent,另一方面它又扮演通信員的角色,負責用戶接口Agent同移動Agent系統的任務傳達。
(3)協同Agent。協同Agent用來初始化和管理Agent,它連接客戶Agent和挖掘Agent,一方面負責把客戶Agent下達的任務分解,分配到各個挖掘Agent,負責它們之間的交流和協作,另一方面負責完成本子系統發現的規則的裝配井傳遞給客戶Agent。
(4)數據挖掘Agent。它是數據模型的封裝體,封裝了具體的算法及其數據和執行動態。數據挖掘Agent的主要功能包括學習挖掘規則和數據挖掘。學習Agent的任務是發現用戶訪問模式和感興趣的主題,為用戶生成用戶必趣模型。數據挖掘Agent執行所分配的任務或子任務,是由若干個挖掘算法Agent組成的,每個挖掘算法Agent都有固定的特性,根據這些特性可以完成不同的任務。當一個Agent無法完成所分配的任務時,就需要和其他的挖掘算法Agent進行通信,請求其他的挖掘算法Agent來幫助完成任務。
(5)全局知識庫。挖掘的結果除了提交給用戶之外還要存儲到全局知識庫,這樣便于日后的查詢和比較分析。
(6)原型庫和知識庫。它們是為了存儲一些領域知識和規則,以及數據挖掘所需要的一些原型,并且隨著不斷的應用,可以利用全局知識庫的模型對其進行更新和編輯,增強其智能性和可靠性。
工作流程是:首先由用戶輸入要求,客戶Agent對其進行智能性分析,然后經適配器傳達到協同Agent,協同Agent動態地創建移動Agent,并把它們派到各電子商務站點DB中,執行挖掘任務,再返回各站點挖掘的規則。這些規則經適配器的組裝,形成知識,一方面存入全局知識庫,另一方面提交給用戶,結束本次挖掘任務。
4 結束語
本文介紹的基于多Agent的Web挖掘模型,采用了當前數據挖掘、人工智能等方面的最新思想和技術。每個Agent都有自己的日標、功能和行為,可以自主運行,同時Agent之間通過協調和合作共同準確且高效地完成任務。利用這種模型可以把任務由大化小,由復雜變簡單。可以有效地幫助經營者分析網上獲取的數據,提取出有效信息,進而調整營銷策略,給客戶提供個性化的高效率服務。隨著Agent不斷融入到電子商務中,電子商務的前景會更加廣闊更加美好。
參考文獻
[1]夏火松.數據倉庫與數據挖掘技術[M].北京:科學出版社,2004.
[2]劉兵.Web數據挖掘[M].北京:清華大學出版社,2009.
[3]程筱勝,廖文和,田宏,等.面向電子商務的Web挖掘系統模型研究與應用[J].南京航空航天大學學報,2004(3):322-326.
[4]周麗莉,李耀輝,董顥霞.基于Web的數據挖掘在電子商務中的應用[J].微計算機信息,2006(21):162-163.
[5]閻建紅.企業智能化Web商務數據挖掘引擎算法設計與實現[J].計算機工程與設計,2007(4):926-928.
[6]劉業政,李亞飛,楊善林.電子商務環境下基于Agent的Web數據挖掘[J].計算機工程,2004(20):107-108.