劉星星
【摘要】電子商務與數據挖掘技術都是新興事物,在電商領域應用數字挖掘技術可以幫助電子商務網站對海量數據進行分析和處理,挖掘出潛在有價值的信息,從而發現業務發展的趨勢,幫助企業做出正確的引導,使企業在發展中更具優勢。
【關鍵詞】電子商務;數據挖掘
隨著網絡科技的飛速發展,電子商務也隨之迅猛發展,充分發揮它的優勢,獲得更多的效益。Web已經成為企業開展電子商務的基礎,數據挖掘是近年來隨著數據庫技術和人工智能技術的發展而出現的一種全新的信息技術,它融合了數據庫、人工智能以及統計學等多種學科的知識,從數據庫中提取有用的資料。在電商領域,運用數據挖掘技術,在海量的數據中提取真正有價值的資料,輔助企業更好的發展,Web數據挖掘就是在這樣的背景下與電子商務結合在一起的。
一、數據挖掘
數據挖掘(Data Mining)是從大量的實際應用數據中,提取人們有用的數據的過程。對所得到的經過轉換的數據進行挖掘,除了完善選擇合適的挖掘算法外,其余一切工作都能自動地完成。整個挖掘過程應該是交互的,數據挖掘算法是整個數據挖掘系統的核心部分。
二、Web數據挖掘
1、Web數據挖掘概述
Web的搜索引擎能解決部分資源問題,Web挖掘可在多方面發揮作用,如搜索引擎結構的挖掘,搜索引擎的開發,改進和提高搜索引擎的質量和效率。通過Web挖掘,不僅可以從大量多種信息的Web頁面中提取出我們需要的有用的知識,還可以得到關于群體用戶訪問行為和方式的普遍知識,用以改進Web服務設計。更重要的是,通過對用戶特征的理解和分析。
2、Web數據挖掘分類
Web數據有四種類型:
(1)內容數據,即Web頁面,如HTML文檔、動畫、圖片;
(2)用戶訪問數據,即描述用戶使用網絡資源的數據,通常以日志文件的形式存在,如Server logs和Cookie logs;
(3)結構數據,如網頁的內部鏈接和網頁間的超鏈接;
(4)在線市場數據,即傳統的關系數據庫結構數據。
三、電子商務推薦系統以及Web日志挖掘
1、電子商務及其面臨的問題
電子商務是商業領域的一種新興商務模式,它是以網絡為平臺,以現代信息技術為手段,以經濟效益為中心的現代化商業運轉模式,其最終目標是實現商務活動的網絡化,自動化與智能化。隨著網絡技術的飛速發展和社會信息水平的提高,電子商務顯示出巨大的市場價值和發展潛力。電子商務可以拉近企業和客戶的距離,縮短生產時間,降低流通成本,提高商品產量,為生產者和消費者提供更多的信息,擴大客戶的選擇,提高企業的競爭力,是推動未來經濟增長的關鍵動力。但是,當用戶和電子商務的商家充分享受電子商務的快捷和方便時,他們同事面臨著某些新的問題,開展在線零售業務的電子商務系統的一個重要問題是:一方面,用戶面對網站上提供的琳瑯滿目的眾多商品,他們只對其中的一部分商品感興趣。用戶要實現一次的購買,就必須瀏覽許多不相干的網頁,在眾多的商品分類中找到自己所需要的商品;另一方面,商家面對眾多的用戶,不知道他們對商品的興趣和要求是什么。因此,電子商務的商家無法及時調整網站的頁面結構,提供給所有用戶是千篇一律的界面,缺乏個性化服務已經成為制約電子商務發展的關鍵問題。
2、電子商務推薦系統
個性化服務是電子商務的發展方向,利用Web挖掘技術建立的電子商務推薦系統就可以有效的解決這些問題。隨著互聯網的普及和電子商務的發展,推薦系統逐漸成為電子商務IT技術的一個重要研究內容,得到越來越多研究者的關注。目前,幾乎所有的大型電子商務系統都不同程度的使用了各種形式的電子商務推薦系統。成功的電子商務推薦系統都不同程度的使用了各種形式的電子商務推薦系統。成功的電子商務推薦系統將會產生巨大的經濟社會效益,在電子商務系統中具有良好的發展和應用前景。
(1)推薦系統
推薦系統(Recommendation System)就是根據用戶個人的喜好、習慣來向其推薦信息、商品的程序。電子商務推薦系統能夠直接與用戶交互,模擬商店銷售人員向用戶提供商品推薦,幫助用戶找到所需商品,從而順利完成交易。從用戶角度來看,電子商務推薦系統通過對收集到的用戶的訪問行為、訪問頻度、訪問內容等瀏覽信息進行挖掘,提供用戶的特征,獲取用戶訪問的模式,動態的調整頁面結構,為用戶實現主動推薦,提供個性化服務。
一般來說,推薦系統在電子商務活動中的作用可以歸納為以下幾點:1、把瀏覽者轉變成購買者;2、增加交叉銷售量;3、提供個性化的服務;4、提高客戶忠誠度。
(2)電子商務推薦技術使用的主要技術
目前,電子商務推薦系統使用的技術主要有:聚類(Clustering)、關聯規則(Association Rules)和協同過濾技術(Collaborative Filtering)。
①協同過濾推薦技術
推薦系統中被廣泛研究和來用的是協同過濾技術。
協同過濾技術可能的出發點是:興趣相近的用戶可能會對同樣的東西感興趣,所以只要維護關于用戶喜好的數據,從中分析得出具有相似品味的用戶,然后就可以根據相似客戶的意見來向其推薦。另一種可能的出發點是:用戶可能較偏愛與其已購買的東西相類似的商品。可以根據用戶對各種東西的評價來判斷商品之間的相似程度,然后推薦與用戶興趣最接近的那些商品。
②聚類技術
聚類技術基于一組用戶進行預測。聚類技術通過觀察與分析,可以將數據集劃分為多個類,使得同一類對象具有較高的相似度,而不同種類的對象差別較大。
③關聯規則
關聯規則挖掘是指從一個大型的數據集中發現有趣的關聯或相關關系,即從數據中識別出頻繁出現的屬性值集合,也稱為頻繁項集,然后再利用這些頻繁項集創建描述關聯關系的規則的過程。
人們通常只對滿足一定的支持度和置信度的關聯規則感興趣。為了發現有意義的關聯規則,需要給定兩個閾值:一個是最小支持度(minimum support),表示發現的關聯規則必須滿足的最小支持度,簡稱為minsupport;另一個是最小置信度(minimum confidence),表示發現的關聯規則必須滿足的最小置信度約束條件的所有規則。
關聯規則的挖掘問題可以分解成以下兩個子問題:
A、找出事務數據庫D中所有大于或等于用戶指定最小支持度的項目集。具有最小支持度的項目集稱為最大項目集。這里項目集的支持度是指在事務數據庫D中包含該項目集的事務的項目。
B、利用最大項目集生成所需要的關聯規則。對每一最大項目集A,找到A的所有非空子集a。
第一步頻繁項集的發現最耗時,是算法的瓶頸,但可以離線進行。
3、電子商務中Web數據源的挖掘
隨著研究的深入,電子商務推薦算法應該利用盡可能多的信息,收集多種類型的數據并有效集成,從而提供更加精確有效的推薦。Web訪問信息挖掘可以獲取用戶對網站使用情況的第一手資料,Web上可以用來作為數據挖掘分析的數據量比較大,其中Web服務器日志記錄著用戶訪問該站點時每個頁面的請求信息。Web日志記錄了用戶信息及瀏覽網頁情況等信息,可以說是Web挖掘的重點。
Web日志挖掘主要分為三個步驟:
①數據預處理。根據挖掘的目的,對原始日志文件中的數據進行選擇、過濾、分解和合并,最后轉化為適合進行數據挖掘的數據格式,并保存到關系型數據庫表中,等待進一步處理;
②模式識別。運用各種算法對處理后的數據進行挖掘,生成模式;
③模式分析。對已產生的模式進行分析、綜合,過濾掉無意義的模式,將有價值的模式取出來的過程。
由于Web數據具有數據量龐大,頁面復雜,缺乏統一的結構等特點,數據預處理技術也就成為Web訪問信息挖掘中的一個關鍵問題。只有保證了數據的準確性,才能正確的反映用戶的意圖,從而使以后的分析沿著正確的方向進行。
四、總結
深入學習數據挖掘的基礎理論和Web數據挖掘技術,分析Web挖掘在電子商務中的應用現狀,詳細研究當前電子商務中廣泛應用的推薦系統。