[摘要] Web挖掘是一項涉及Web技術、數據挖掘、計算機語言學、信息學等多個領域的綜合技術,利用Web挖掘可以提高電子商務系統對消費者的服務能力和競爭優勢。文章從四個方面對Web挖掘進行了論述。
[關鍵詞] 數據挖掘Web挖掘電子商務
隨著互聯網的高速發展和企業、個人上網的普及,電子商務成為未來商務交易的主要運營方式,電子商務是運用互聯網技術進行的經濟貿易活動,是一種基于因特網、以交易雙方為主體、以銀行電子支付和結算為手段、以客戶數據為依托的全新商務模式,其內容包括廣告、交易、支付、服務等活動。商家與其合作伙伴、客戶通過計算機網絡進行商務活動,可以拉近企業與客戶的距離,縮短生產時間,降低流通成本,提高產品質量,為生產者和消費者提供更多的信息,擴大客戶的選擇,提高企業的競爭力。
利用網絡提供優質的產品及優良的服務是今天電子商務發展的核心與重點。如何在電子商務活動中通過技術手段來與顧客溝通,了解其消費偏好、習慣以及潛在的消費意識,進而設計出滿足不同客戶群體的個性化網站,以完成對每一個客戶的優質個性化服務,這些已成為電子商務活動中迫切需要解決的問題。利用Web數據挖掘技術就可以有效解決以上問題。
一、Web挖掘的概念
數據挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。數據挖掘是從人工智能和機器學習中發展起來的,它是一種新的信息處理技術,其主要特點是對大量的數據進行抽取、轉換、分析和其他模型化處理,從中提取人們感興趣的知識。數據挖掘的對象可以是數據庫,也可以是文件系統,還可以是其他任何組織在一起的數據集合。
Web挖掘是從數據挖掘發展而來,Web挖掘是從Web文檔和Web活動中發現、抽取感興趣的潛在的有用模式和隱藏的信息,它是一項綜合技術,涉及Web技術、數據挖掘、計算機語言學、信息學等多個領域。
雖然Web挖掘由數據挖掘發展而來,但其與數據挖掘相比有獨特之處。傳統數據挖掘的對象局限于數據庫中的結構化數據;而Web挖掘的對象是大量、異質、分布的Web文檔,其是半結構化或無結構的且缺乏機器可理解的語義。
二、Web挖掘的類型
根據控制對象的不同,Web挖掘可以分為三類:Web內容挖掘、Web結構挖掘、Web數據的使用挖掘。
1.Web內容挖掘
Web內容挖掘,就是從Web頁面上的文件內容及其描述信息中獲取潛在的、有價值的知識和模式的過程。Web內容挖掘包括文本文件的挖掘和多媒體文檔的挖掘。
2.Web結構挖掘
Web結構挖掘,是從Internet的整體結構和網頁的相互鏈接以及網頁的本身結構中發現知識的過程。
在整個Web空間,有用的知識不僅包含在頁面的內容之中,而且也包含在頁面的結構中。Web結構挖掘主要針對的就是頁面的超鏈接結構,如果有較多的超鏈接指向它,那么該頁面就是重要的,發現的這種知識可以用來改進搜索路徑等。
3.Web數據的使用挖掘
Web數據的使用挖掘,是通過挖掘相應站點的日志文件和相關數據來發現該站點上的瀏覽者和顧客的行為模式。
盡管WWW作為一個信息資源是繁雜、異質和龐大的,然而從局部來說,在每一個提供信息資源的服務器上都有一個結構化的記錄集,即Web訪問日志。每當有獲取資源的請求到來時,Web服務器都將記錄和積累這些關于用戶交互作用的數據。分析不同的Web站點的Web訪問日志可以幫助人們理解用戶的行為和Web的結構,從而提高網站的實際工作效率。
三、Web數據的使用挖掘過程
Web使用挖掘遵循傳統數據挖掘的研究思路,挖掘過程分為4個階段:源數據收集、數據預處理、模式發現和模式分析。
1.源數據收集
在Web數據的使用挖掘中,數據最直接的來源是Web服務器上的Web日志文件。Web日志文件非常明確地記錄了訪問者的瀏覽行為,Web日志文件包括服務器log、代理log和客戶端log。
2.數據預處理
收集到的實際數據一般都具有不完全性、冗余性和模糊性,要想更有效地挖掘出知識,就必須對收集到的數據進行預處理,為挖掘提供準確、簡潔的數據。數據的預處理包括數據清理、用戶識別、用戶會話識別、訪問路徑補充和事務識別等步驟。
(1)數據清洗的主要任務就是刪除Web日志中與數據不相關的冗余項,縮小被挖掘數據對象的范圍。
(2)在數據凈化后就必須確定單一的用戶,用戶識別的目的就是對用戶唯一性的識別。用戶識別可以借助于cookie技術、用戶登記技術和啟發性規則來實現。
(3)在用戶識別的基礎上須進行用戶會話識別,其目的是將每個用戶的訪問信息劃分成若干個獨立的會話進程,最簡單的方法是采用超時估計的辦法,即當對頁面之間的請求時間間隔超出所給定值時,即可以認為用戶已經開始了一次新的會話。
(4)因為頁面緩存技術和代理服務器的廣泛使用,使得Web服務器訪問日志中所記錄的可能不是用戶完整的訪問路徑。不完整的訪問日志不能準確地反映用戶的訪問模式,所以有必要進行訪問路徑的補充。進行路徑補充可以利用Web站點的拓撲結構,對頁面進行分析。
(5)事務識別是建立在用戶會話識別的基礎上的,其目的是依據數據挖掘任務的需求將事務做分割或合并處理,使其適合于數據挖掘需求的分析。
3.模式發現
模式發現階段就是利用挖掘算法挖掘出有效的、新穎的、潛在的、有用的及最終可以理解的信息和知識。其方法有分類分析、關聯規則發現、序列模式發現、聚類分析和依賴性建模等。
(1)分類分析是將數據項按照預先定義的類別進行劃分,其主要是將用戶配置文件歸屬到既定的用戶類別。得到分類后,就可以針對這一類客戶的特點展開商務活動,提供有針對性的個性化的信息服務。
(2)關聯規則發現主要用于從Web日志數據庫的訪問項中挖掘出相關的規則,通過分析用戶訪問網頁間的潛在聯系而發現隱藏在數據間的相互關系。
(3)序列模式發現就是要挖掘出交易集之間有時間序列關系的模式。在網站服務器日志里,用戶的訪問是一個間斷的時間序列,這些序列反映出用戶的行為,序列模式挖掘側重點在于分析數據間的前后或因果關系。序列模式發現便于電子商務的組織者預測客戶的訪問模式,有助于開展有針對性的服務。
(4)聚類分析是把具有相似特征的用戶或數據項歸類,用于把有相似特性的用戶、數據項集合到一起,它可以幫助進行市場決策。
(5)依賴性建模的目標是開發出一種能表達出Web領域中各種變量之間顯著依賴性的模型。其不僅能為分析用戶行為提供理論框架,還具有預測Web資源消耗的潛力。
4.模式分析
模式分析主要是為了從模式發現算法找到的模式集合中篩選出有興趣的模式。經過模式分析得到有價值的模式,即我們感興趣的規則、模式,采用可視化技術,以圖形界面的方式提供給使用者。
四、Web挖掘在電子商務中的應用
在日益激烈的電子商務買方市場競爭中,任何與消費者行為有關的信息對商家來說都是非常寶貴的。電子商務一個主要的挑戰是需要了解到顧客盡可能多的愛好、價值取向,以保證在電子商務時代的競爭力。Web挖掘可用來發現不明顯的、有潛在價值的數據,其可以提高電子商務系統對消費者的服務能力和競爭優勢。
1.個性化服務
所謂個性化服務,就是在用戶瀏覽Web站點時,盡可能的迎合每個用戶的瀏覽興趣并且不斷調整白己來適應用戶瀏覽興趣的變化,使得每個用戶都有是該Web站點唯一用戶的感覺。
而要做到個性化服務,首先得獲取和收集服務對象的信息,掌握顧客的消費習慣、愛好、消費心理等,然后才能有針對性地提供個性化服務。要取得消費者的消費行為模式,傳統營銷方式是十分困難的,但利用Web挖掘技術則可以做到。
2.完善電子商務網站設計
網站的吸引力取決于其內容和組織結構的合理設計,Web挖掘可以提供用戶行為的詳細情況,從而能夠為網站設計者改進網站的設計提供決策依據。
3.廣告效益評價
利用Web挖掘對大量消費行為模式進行分析,可精確地評價各種廣告手段的效益,并可組合設計出最佳的商品宣傳組合方案,幫助商品在銷售過程找到合適的出路。
4.輔助選擇產品類型
電子商務網站通過長期運營,通過對由Web挖掘所存入數據倉庫的大量消費行為模式的分析、組合和推理,得出市場對產品種類的需求和銷售情況,進而由產品的生產決策者根據相關因素決定生產產品的種類和數量。因而Web挖掘可以用于輔助企業開發出適銷對路的產品。