程軍鋒
(隴南師范高等專科學校 數信學院,甘肅 隴南 742500)
?
數據挖掘技術在電子商務中的應用研究
程軍鋒
(隴南師范高等專科學校 數信學院,甘肅 隴南 742500)
[摘要]隨著Internet的日益普及,電子商務作為一種新型的商業形式,可以通過網絡進行產品的推廣、銷售等。數據挖掘技術是一種有效的數據分析和處理技術,通過相應的關聯規則、分類、聚類、預測技術等對銷售數據進行分析和處理,發現數據中隱含的知識,進而可以為營銷策略的制定和產品開發提供決策,在電子商務中有著廣泛的應用。
[關鍵詞]電子商務;數據挖掘;聚類;個性推薦
0緒論
網絡技術的發展改變了人們的生活方式,現如今通過網上購物已經成為一種潮流,網上購物占社會消費品總額的比重越來越大。電子商務區別于實體店購物形式,就是通常所說的借助互聯網面向消費者銷售產品或提供服務的一種新型商業模式。指個人或企業通過網絡,以電子交易方式進行和開展商務活動,包括廣告、銷售、付賬等服務,通過線上的銷售和支付,然后再通過線下把物品送達或提供服務的一種商業模式。電子商務作為一種新的商業模式促使經濟領域發生了重大變革,提供了一種快速、方便、低價等特點的新交易平臺,突破了傳統商務活動的時空限制。
電子商務活動的快速發展,使得網上相關數據爆炸性的增長。這些電子商務產生的數據,數據量大,隱含巨大的商業價值,對開展電子商務有重要的指導意義。數據挖掘作為知識發現的重要一環,為解決這一重要問題提供了可能。
1數據挖掘技術概述
數據挖掘是一門思想來源于計算機、統計學、人工智能,可視化技術等的交叉學科,就是從大量數據中發現隱含的模式和知識的過程,具有未知性,有效性和實用性三個特征。數據挖掘技術作為知識發現的一項重要的技術,在電子商務中應用前景廣闊。電子商務應用中產生的大量交易和客戶等數據,這些數據保存在電子商務網站的服務器上,隱含著有價值的知識。通過對顧客訪問過程中系統保留下來的日志文件和Cookie以及海量真實交易數據進行挖掘,利用關聯規則和聚類、分類各種技術,可以從中發現知識,最終找出客戶群體行為的相似度,進行網頁結構有針對性地動態調整,提供個性化界面,開發推薦系統[1],改進Web服務,滿足客戶的需求。
1.1.1關聯分析
關聯分析也叫做頻繁項集處理,是根據給定的支持度和可信度發現數據間的彼此關系,通常用于在已知數據集中發現頻繁出現的模式,包括頻繁項集、頻繁序列模式和頻繁子結構,也叫做關聯規則。關聯規則的挖掘[2]廣泛應用于購物籃數據和實務數據等。
1.1.2分類
分類是數據分析中最常用的方法,在數據分析的過程中經常通過分類來歸納數據的特點。分類就是通過分析給定數據集中的數據,根據這些數據集建立相應的分類模型器。然后使用構造的分類模型器對類別未知的待測試集中的數據進行分類,產生它們的分類號,也就是預測出類標號未定數據的類。分類中主要的決策樹算法主要用于客戶群體的細分、客戶流失的預測、大客戶特征的識別等方面。
1.1.3聚類
聚類分析技術根據數據之間的相似度量值,在沒有任何先驗知識點前提下,把有共性的數據自動分成若干類,使得同類數據盡可能相似,不同類數據盡可能不相似。也就是說同一簇內部的點之間距離盡可能短,不同的簇中的點之間的距離盡可能大。聚類是一種無監督的分類方法,分類前不需要任何先驗知識就可以自動產生分類號。在電子商務上,可以應用于客戶群體的細分、大客戶特征的識別,資源聚類[3]等方面。
1.1.4回歸分析
回歸分析是用于確定變量之間相互依賴關系的一種分析方法,通過這種依賴關系,可以根據相關統計量總體參數做出推測,建立各種分析統計模型進行統計預測。它類似于分類模式,區別在于分類模式的預測值是離散的,回歸模式的預測值是連續的。回歸分析主要應用于移動通信領域的業務預測等方面。
1.1.5離群點檢測
離群點數據檢測也叫做異常數據挖掘,通常用于發現行為和模型異常、區別與正常數據的數據。在大多數情況下,為了使得挖掘結果更加準確,這些離群點數據一般作為噪聲和異常數據丟棄進行處理,但這些數據在有些領域有著一定的應用價值。例如,某商場把一類商品根據類型集中擺放在的某個區域,一般情況下大多數商品銷售良好,但是此類商品卻購買量很低,這類商品質量可靠,價格也適中。這種異常現象的出現對于商場來說無疑是很好的值得思考的方面,找出其中原因,有利于商場的決策和管理。
1.1.6序列模式挖掘
序列挖掘通過分析時間數據的前后數據關系,發現這些數據隱含的一些模式,也可以進行序列隨時間變化的趨勢分析和序列間的相似度量。通過時間序列搜索出重復發生概率比較高的模式,并且可以處理一些特殊的時間范圍,如具有周期性的星期、月、季、年等。它主要應用于移動通信領域的客戶呼叫模式、業務量預測等方面。
數據挖掘是知識發現的重要一個環節,為了得到高質量的數據挖掘結果,在數據挖掘之前必須做好數據的預處理,以提高數據挖掘的算法的速度和結果的精度。
1.2.1數據清洗
高質量的結果建立在高質量的數據基礎之上,而收集的數據由于人工和設備等原因,這些數據通常并不一定是高質量的,存在數據不完整、有噪聲和不一致的情況,數據的清洗就是去除和光滑噪聲數據和離群點數據,填充數據的缺失值,糾正數據的不一致性。數據清洗通過使用模式識別和其他技術,在原始數據轉換和移入數據倉庫之前來改進原始數據質量。
1.2.2數據集成
來自不同的數據源由于管理系統和數據模型等原因,由于形式不統一數據的不便于進行挖掘。這個過程把從不同數據源獲取的數據逐個映射到新的數據結構,用于解決不同的數據源之間的數據不一致和冗余的問題,使不同數據源的數據保持統一的格式和結構。
1.2.3數據歸約
通過數據歸約可以得到數據集的一種壓縮歸約表示,這種數據歸約的表示比原有數據集小的多,但依舊保持原有完整數據的特性。在這些歸約上面挖掘,可以得到和原數據集上十分相近或者幾乎相同的結果,但在歸約上處理效率更高。
1.2.4數據轉化
數據轉換從數據歸約階段接受數據,由于集成和歸約得到的數據并不是可以挖掘的數據形式,通過數據轉換和映射,集成與歸約成的數據形式可以挖掘的。為了方便挖掘,數據轉換一般采用的方法是數據規范化技術,對數據進行規范處理。
1.2.5數據挖掘
就是利用各種數據挖掘的知識和技術,挖掘數據集中潛在的知識和價值,隱含規則和模式。這當中包含關聯規則算法、分類算法和聚類算法等技術。是知識發現的一種重要技術,也是知識發現中最重要的一個環節。
1.2.6模式評估
通過數據挖掘技術得到的知識并不一定是有趣的,有些知識是沒有意義或者低價值的。必須對挖掘出來的知識進行評估、優化和篩選,篩選出有意義的知識。在此過程中必須有一套衡量標準對其做出判斷,甚至還涉及對結果的修正。
1.2.7知識表示
數據挖掘的結果往往是一些抽象的模式和知識表達,通過可視化、計算機仿真和相關知識表示技術清晰有效地表示數據的特性,把數據挖掘得到的結果和知識給用戶表達出來,幫助用戶理解挖掘結果。
2數據挖掘技術在電子商務中的應用
電子商務中產生和收集的海量數據,通過數據挖掘可以改進營銷策略,發現潛在客戶、改進產品開發等,提高企業和產品的競爭力。
通過了解顧客的個性經驗來吸引長期顧客對于在線電子商店來說非常關鍵。使用分類和聚類對具有相似瀏覽行為的客戶進行歸類,并分析類中客戶的共同特征,以便幫助電子商務的企業和個人更好地了解客戶,提供具有相同興趣的網頁,向客戶提供更吸引、更適合的服務。電子商務網站還可以根據實際用戶的瀏覽記錄、 Web日志文件來挖掘顧客的瀏覽行為,從中提取知識,最終找出客戶群體行為的相似度, 挖掘用戶感興趣的內容,定期為用戶推送相關信息,對網頁結構有針對性地動態調整,改變網站中網頁的內容和鏈接結構,為用戶提供個性化界面和個人定制服務,滿足客戶的需求,改進Web服務,提高顧客對網站的興趣。通常采用動態網頁設計技術,Web服務器會自動更新知識數據庫,根據用戶的信息提供相應的個性化主頁,進行智能預測查詢[4]。
為顧客提供優質的個性化服務,一方面能使顧客快速地檢索到所需商品,另一方面還能拉近企業和用戶的距離,更好地為用戶進行服務。如淘寶網通過對用戶的搜索、點擊、收藏、瀏覽某些商品的頻率進行挖掘和收集,把最近瀏覽過的一些商品和感興趣的一些相關商品推薦出來,增加電子商務站點的收益率。
對電子商務網站的瀏覽信息挖掘研究,可以發現用戶最頻繁的訪問模式和序列,為用戶頻繁訪問頁面間建立相關鏈接, 改進站點結構和布局,提高用戶訪問便捷性、忠誠度和滿意度。數據挖掘技術通過對 Web Log內容的挖掘、日志文件和Cookie來發現該站點上的訪問者和客戶的瀏覽模式,挖掘結果可以作為優化頁面之間鏈接和網站拓撲結構的依據,也可以用作開展電子商務活動和進行市場開發的依據,還可以作為網站向用戶提供個性服務和構建智能頁面的依據。利用路徑分析技術判定在一個Web站點中最頻繁的訪問路徑,對相互關聯的頁面之間建立導航鏈接,便于用戶的訪問,可以把十分相關的商品信息放在這些頁面中,改進頁面布局和優化網站結構的設計,增加網頁對客戶的吸引力,提高銷售量,吸引商家投放廣告,增加網站的收益。
而且,通過日志挖掘可以改進網站服務效率,電子商務的網頁設計者在設計網頁時可以依靠網站運行的實際情況進行設計。找到平衡服務器的負荷,優化傳輸,縮短用戶,減少阻塞等待時間,提高服務質量和系統效率,同時還有助于提高網站的性能和安全性。
在電子商務網站中,用戶的瀏覽和訪問記錄是非常有價值的數據。運用Web數據挖掘中的序列模式發現技術,通過對網上用戶購買數據進行分析和挖掘,發現用戶的購買規律,在看似毫無關系的用戶購買行為中發現隱含的商品銷售關聯,改進頁面結構和制定相應運營策略,方便交易,有助于企業開拓了新的市場。在對客戶訪問信息的挖掘中,通過分類發現,對己存在的訪問者和一個新的訪問者進行分類,識別出這個新客戶,根據己經分類的存在客戶的一些公共的描述,從而對這個新客戶進行正確的描述,發現未來潛在的客戶。然后根據客戶的類型,就可以對不同客戶有針對性地動態地展示感興趣的頁面。
在電子商務網站中通過數據挖掘技術對大量商業活動行為進行綜合分析,可精確地評價廣告手段帶來的增長率和產生的效益,并設計出最佳的商品廣告、推廣組合方案,依據用戶的訪問模式來確定廣告的排放位置,增強廣告針對性,提高廣告的效益。通過挖掘用戶的消費模式可以在不同群體中發掘共同消費喜好,從中加入其感興趣商品的某些廣告,可以大幅提高廣告效益和投資回報率。同樣,停留在網絡頁面上觀看廣告的用戶可能會成為未來潛在的新客戶,可以讓企業投資一部分資金做在線廣告吸引新客戶。而用戶訪問該網站時留下的大量及時被存儲在數據庫中的信息,可以通過數據挖掘技術,挖掘關鍵信息有效了解用戶需求,幫助商家進行個性化的營銷策略。而將潛在的客戶通過廣告的特點模糊分區,分析客戶對廣告的關注情況,了解客戶需求,可提高對某些客戶群體更有針對性的服務,并開發出相關產品。
3總結與展望
電子商務中產生的海量數據存在巨大的商業價值,通過一些基本的數據分析結果就可以帶來顯而易見的好處,而數據挖掘技術在此類產生價值的過程中將扮演著重要的角色。在未來的電子商務發展中,將會有更多數據挖掘需求產生,也必然帶來更多研究的出發點。
[參考文獻]
[1]馮永平.數據挖掘技術在電子商務中的應用研究[D]. 成都:電子科技大學,2012.
[2]祝文祥.B2C 電子商務中數據挖掘技術的研究與應用[D].合肥:中國科學技術大學,2011.
[3]王鐘莊,鄧倫丹,石文兵.數據挖掘技術在電子商務推薦系統中的應用研究[J].微電子學與計算機,2007:197-199.
[4]劉麗霞,莊奕琪.電子商務系統的數據挖掘與智能推薦預測的研究[J].計算機科學與工程,2008:92-95.
[責任編輯:D]
Data Mining And Its Applications In Eleetronic Commerce
CHEN Jun-feng
(Department of Mathematies, Longnan Teachers' College,Longnan 742500,China)
Abstract:With the increasingly popularization of the Internet, e-commerce as a new form of business can realize promotion and sale of productst. Data mining technology is an effective data analysis and processing technology, it can find the implicit knowledge through the association rules, classification, clustering, forecast the sales data, which can provide decision-making for the formulation of the marketing strategy and product development, has been widely used in electronic commerce.
Key words:e-commerce;Data mining;clustering;Personal recommendation
[文獻標識碼][中圖分類類]TP274A
[文章編號]1671-5330(2015)02-0040-04
[作者簡介]程軍鋒(1980—)男,甘肅禮縣人,講師,主要從事數據庫與數據挖掘.系統建模與仿真研究。
[基金項目]隴南師范高等專科學校校級科研項目(2014LSZK02004)
[收稿日期]2015-01-10