999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

電子商務(wù)中客戶行為特征的挖掘方法

2008-12-31 00:00:00
商場現(xiàn)代化 2008年29期

[摘 要] 本文討論了Web數(shù)據(jù)挖掘的一個重要分支—Web用法挖掘在電子商務(wù)客戶行為特征挖掘中的應(yīng)用。介紹了客戶行為特征挖掘的主要方法,并詳細描述了一個基于粗糙集的電子商務(wù)客戶行為特征挖掘模型。

[關(guān)鍵詞] 電子商務(wù) 客戶行為特征 Web 用法挖掘 粗糙集

一、Web用法挖掘的概念

Web使用記錄實際上是一種用戶瀏覽網(wǎng)站的操作流水記錄,它詳實地記錄著使用者對Web服務(wù)器訪問的細節(jié)情況。Web用法挖掘即Web使用記錄挖掘是指通過挖掘相關(guān)的Web日志記錄,來發(fā)現(xiàn)用戶訪問Web頁面的模式,通過分析日志記錄中的規(guī)律,來識別用戶的忠實度、喜好、滿意度,并發(fā)現(xiàn)潛在用戶,增強站點的服務(wù)競爭力。

Web使用記錄除了指服務(wù)器的日志記錄外,還包括代理服務(wù)器日志、瀏覽器端日志、注冊信息、用戶會話信息、交易信息、Cookie中的信息、用戶查詢、鼠標點擊流等一切用戶與站點之間可能的交互記錄。

利用Web用法挖掘來對客戶的行為特征進行挖掘是指從Web用戶的使用記錄集合C中發(fā)現(xiàn)隱含的模式P。如果將C看作輸入,P看作輸出,那么客戶行為特征挖掘的過程就是從輸入到輸出的一個映射:ε∶C→P

二、客戶行為特征挖掘的必要性

客戶行為類信息是指客戶的消費行為、客戶偏好和生活方式,客戶滿意度、客戶忠誠度及與企業(yè)的聯(lián)絡(luò)記錄等相關(guān)信息。但這些信息并不等同于客戶行為特征信息。通過對上述信息進行客戶行為模型與數(shù)據(jù)挖掘處理,才能提煉出客戶的行為特征信息,從而為企業(yè)的決策提供精確的數(shù)據(jù)支持。客戶行為特征挖掘的重要性體現(xiàn)在以下幾個方面:

1.發(fā)現(xiàn)潛在客戶,提高現(xiàn)有客戶忠誠度及滿意度。

2.對系統(tǒng)改進提供決策依據(jù)。如通過分析網(wǎng)絡(luò)的非法入侵數(shù)據(jù)找到系統(tǒng)弱點,從而改進系統(tǒng)以提高站點安全性。

3.對改進站點結(jié)構(gòu)與內(nèi)容提供決策依據(jù),使站點的結(jié)構(gòu)和內(nèi)容更加優(yōu)化與合理以方便用戶使用。

4.幫助銷售商合理安排銷售策略。聚類客戶,對不同類別客戶提供個性化服務(wù)。

5.識別競爭對手,保護企業(yè)敏感信息,有效地發(fā)現(xiàn)并阻止商業(yè)情報活動。

三、客戶行為特征挖掘的方法

利用Web用法挖掘技術(shù)來對客戶行為特征進行挖掘是一個有效的方法。基于Web的數(shù)據(jù)挖掘作為一個完整的技術(shù)體系,在進行挖掘之前的信息獲得IR(Information Retrieval)和信息抽取IE(Information Extraction)相當重要。信息獲得(IR)的目的在于找到相關(guān)Web文檔;而信息抽取(IE)的目的是對數(shù)據(jù)進行濃縮并給出它的緊湊描述。

客戶行為特征挖掘大致可以分為數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)挖掘、和模式分析幾個主要步驟。

1.數(shù)據(jù)采集

數(shù)據(jù)采集是客戶行為特征挖掘流程中的重要部分。在數(shù)據(jù)采集時要盡可能地搜索所有與客戶行為特征有關(guān)的內(nèi)部和外部數(shù)據(jù)信息,并從中選擇出適用于數(shù)據(jù)挖掘應(yīng)用的數(shù)據(jù)。

(1)服務(wù)器端采集。服務(wù)器端的Web日志是客戶行為特征挖掘的的重要數(shù)據(jù)來源。在服務(wù)器端,客戶的行為可以被TCP/IP包監(jiān)測器跟蹤,以提取客戶的請求信息。服務(wù)器主要以Web日志的形式記錄客戶每一次的網(wǎng)頁請求信息。主要包括:客戶標識、遠程IP、請求日期和時間等,并且可以記錄COOKIES和查詢參數(shù)來描述各個不同客戶的行為。這些日志文件能夠以常用日志格式或擴展日志格式存在。為了做好下一步數(shù)據(jù)清洗,可以根據(jù)客戶行為特征挖掘的具體目的來調(diào)整Web日志的記錄字段,這樣既可以將不必要的數(shù)據(jù)去掉,也可以增加一些在后面分析時可能用到的字段,這樣采集的數(shù)據(jù)更加便于后面的數(shù)據(jù)清洗。

使用服務(wù)器端數(shù)據(jù)采集可以實時采集數(shù)據(jù),并能把來自不同服務(wù)器的數(shù)據(jù)整合到一個日志中。但同時也存在獲取客戶信息失真及信息量不足等問題。

(2)客戶端采集。客戶端數(shù)據(jù)采集方法需要用戶的合作如自覺使用修改過的瀏覽器,或者實現(xiàn)javascript 和java applets的功能。在使用客戶端數(shù)據(jù)采集時可能會遇到客戶不配合及涉及客戶隱私等問題。

(3)代理器端采集。在代理器端可以采集多用戶甚至多網(wǎng)站的行為。代理器端數(shù)據(jù)采集適合有大量靜態(tài)頁面的網(wǎng)站。但使用代理器端數(shù)據(jù)采集時遇到的問題是不能區(qū)分代理器后端的不同的顧客(群)。

2.數(shù)據(jù)清洗

采集到的信息通常是非結(jié)構(gòu)化或半結(jié)構(gòu)化的、動態(tài)的、并且是容易造成混淆的,所以很難直接對采集到的數(shù)據(jù)進行數(shù)據(jù)挖掘,而必須經(jīng)過必要的數(shù)據(jù)處理。數(shù)據(jù)清洗目的是從取得的原始數(shù)據(jù)中剔除無用信息和將信息進行必要的整理。經(jīng)過數(shù)據(jù)凈化,數(shù)據(jù)可以十分集中。

在進行客戶行為特征挖掘時,應(yīng)該根據(jù)分析需要,首先確定需要的行為,再確定這些行為出現(xiàn)的一些條件和特征,從而確立一些分析規(guī)則,將這些行為特征挖掘出來,對于不需要的行為數(shù)據(jù)應(yīng)該盡量過濾。

3.數(shù)據(jù)挖掘

客戶行為特征挖掘常用的分析規(guī)則有:遍歷路徑,關(guān)聯(lián)規(guī)則,聚集發(fā)現(xiàn)和分類發(fā)現(xiàn)。

(1)遍歷路徑。遍歷路徑分析的側(cè)重點在于分析用戶訪問路徑間的前后序列關(guān)系。通常,一個會話(Si)是一個以時間為順序的頁視圖(Vi)(單個用戶在某次訪問一個站點時所產(chǎn)生)的集合。而每個頁視圖Vi又具有標志符vi,頁文件hj,首先訪問時間tf,最后訪問時間tl,視圖結(jié)束時間te的屬性。如下表示:

Si={V1,....Vn}

Vi=

對單用戶,可以將上述集合用一個有向圖來表示,Gi=(Si,Ei),

其中:Si是頁面的集合,Ei是頁面之間的超連接集合, 定義頁面為圖中的頂點,而頁面間的鏈接定義為圖中的有向邊。頂點Si的入邊表示對Si的引用,出邊表示Si引用了其他的頁面。

對于多用戶在某時間段訪問站點時產(chǎn)生的會話則可以用單用戶會話的集合Gi來表示, 即

G={G1, G2, … Gn}, 也即:

G={{S1,E1},{S2,E2} … {Sn,En}}。

從上式可以得到:

G={{S1,S2, … Sn}, {E1,E2, … En}}, 也即是 G={S, E}。

在遍歷路徑時,首先在每個用戶會話Gi中找出該用戶的所有最大向前路徑Ei, 然后在所有用戶會話G中的子集合--最大向前路徑E中,找出頻繁出現(xiàn)的連續(xù)子序列。要尋找這些頻繁遍歷路徑,必須定義這些連續(xù)子序列的長度和支持度,所謂支持度就是包含頻繁遍歷的用戶會話數(shù)目。

(2)關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則分析主要用于從用戶訪問序列數(shù)據(jù)庫的序列項中挖掘出相關(guān)的規(guī)則,也就是用戶的訪問頁面之間的潛在聯(lián)系,而這些頁面之間可能并不存在直接的參引(Reference)關(guān)系。

在客戶行為特征挖掘中,關(guān)聯(lián)規(guī)則指:只要頁面的支持度大于某個被給定的閥值,那么這些頁面就都被訪問。即只要訪問頁面A就有可能訪問B(和C...)。從Web日志中挖掘出最大頻繁訪問項集,這個項集就是關(guān)聯(lián)規(guī)則挖掘出來的用戶訪問模式。最常用的方法是用APRIOR算法。關(guān)聯(lián)規(guī)則能夠有助于Web設(shè)計者重新組織站點的內(nèi)容編排。

(3)聚集發(fā)現(xiàn)。聚集發(fā)現(xiàn)是把整個原數(shù)據(jù)分成不同的群組。它的目的是要在群與群之間差別很明顯,而同一個群內(nèi)的數(shù)據(jù)要盡量相似。在WEB方法挖掘中,主要涉及兩種聚類:用戶聚類和頁聚類。用戶聚類將具有相似訪問特性的用戶歸在一起,在站點的個性化服務(wù)中,這種技術(shù)尤其有用。頁聚類將內(nèi)容相關(guān)的頁面歸在一起,在搜索引擎和WEB結(jié)構(gòu)設(shè)計領(lǐng)域中,這種技術(shù)發(fā)揮著巨大作用。

此外聚集發(fā)現(xiàn)還可以作為其他算法(如特征和分類等)的預處理步驟。聚集發(fā)現(xiàn)比較常用的分析方法是組織神經(jīng)網(wǎng)絡(luò)方法和K-均值法。

(4)分類發(fā)現(xiàn)。與聚集發(fā)現(xiàn)不同,分類發(fā)現(xiàn)要解決的問題是為一個事件或?qū)ο蠓珠T別類地歸入預先設(shè)定好的幾個類中。分類方法是建立一個分類函數(shù)或分類模型(分類器),該模型能把數(shù)據(jù)庫中的數(shù)據(jù)項映射到給定類別中的某一個。分類發(fā)現(xiàn)可以從歷史數(shù)據(jù)中自動推導出對給定數(shù)據(jù)的推廣描述,從而能對未來數(shù)據(jù)進行預測。在客戶行為特征挖掘中, 分類發(fā)現(xiàn)可以根據(jù)web日志得到的個人或共同的訪問模式,得出訪問某一服務(wù)器文件的用戶特征分類。

分類器的構(gòu)造方法有統(tǒng)計方法、機器學習方法、神經(jīng)網(wǎng)絡(luò)方法、粗糙集方法等,它們使用不同的算發(fā)。其中粗糙集方法(Rough Set)是處理知識的有效方法,已在眾多領(lǐng)域得到廣泛的應(yīng)用, 所建立的基于粗糙集的客戶行為特征挖掘模型是有效、可行的。

4.模式分析

模式分析是客戶行為特征挖掘的最后步驟。它的目的是對模式發(fā)現(xiàn)過程中產(chǎn)生的規(guī)則和模式進行過濾,從中濾除不感興趣的部分。

客戶行為特征挖掘的結(jié)果應(yīng)當用一些直觀的、易于理解的可視化的方法提交給使用者。此外,應(yīng)當讓用戶能夠以一種方便的方式參與挖掘分析過程,這樣可能會得到更好的、用戶更樂于接受的結(jié)果。

四、一種基于粗糙集的客戶行為特征挖掘模型

在進行客戶行為特征挖掘方案設(shè)計時,可以根據(jù)客戶行為特征挖掘的具體目的對Web日志記錄字段進行調(diào)整,增加一些在后面分析時可能需要用到的字段。如:客戶標識、遠程IP、請求日期和時間、頁視圖集合S={S1,S2,S3,S4}等。

假設(shè)通過遍歷路徑分析,我們得到了如表一所示的用戶瀏覽記錄,然后利用粗糙集的約簡算法對數(shù)據(jù)進行清洗。

表1是經(jīng)過遍歷路徑分析后得到的用戶瀏覽記錄,S1,S2,S3,S4代表4種頁視圖集合S的子集。IP為Web日志中來訪客戶的IP地址。Yes表示該訪客瀏覽了某個頁視圖集合S的子集;No則表示沒有。

在利用粗糙集的約簡算法對數(shù)據(jù)進行清洗時,主要是計算知識的約簡、核、上近似及下近似(正域)。本模型以決策規(guī)則為例說明S1、S2、S3、S4之間的從屬關(guān)系,也即訪問S1或S2或S3的用戶會不會訪問S4。

根據(jù)粗糙集理論,論域U={C1,C2,C3,C4,C5,C6,C7,C8},

條件屬性集C={S1,S2,S3},

決策屬性集D={S4}。

容易計算得出:

U關(guān)于等價關(guān)系C的劃分U/C={X1,X2,X3,X4,X5},

其中,X1={C1},

X2={C2,C3},

X3={C4},

X4={C5,C7},

X5={C6,C8}。

U關(guān)于等價關(guān)系D的劃分U/D={Y1,Y2},

其中,Y1={C2,C3,C6,C7,C8},

Y2={C1,C4,C5}。

類似地,U/{S1}={{C1,C2,C3},{C4,C5,C6,C7,C8}},

U/{S2}={{C1,C2,C3,C4,C6,C8},{C5,C7}},

U/{S3}={{C2,C3,C5,C6,C7,C8},{C1,C4}},

U/{S1,S2}={{C1,C2,C3},{C4,C6,C8},{C5,C7}},

U/{S1,S3}={{C1},{C2,C3},{C4},{C5,C6,C7,C8}},

U/{S2,S3}={{C1,C4},{C2,C3,C6,C8},{C5,C7}}

以下計算正域:

posC(D)={ C1,C2,C3,C4,C6,C8}

pos(C-{S1})(D)={ C1,C4,C2,C3,C6,C8}=posC(D)

pos(C-{S2})(D)={ C1,C2,C3,C4}≠posC(D)

pos(C-{S3})(D)=φ≠posC(D)

pos(C-{S1,S2})(D)={ C1,C4}≠posC(D)

pos(C-{S1,S3})(D)=φ≠posC(D)

pos(C-{S2,S3})(D)=φ≠posC(D)

因此,C的D約簡為{S2,S3}。故表1經(jīng)過粗糙集數(shù)據(jù)清洗后得到表2。

決策規(guī)則的提取

定義決策規(guī)則為:

Rij:des(Xi) → des(Yj),Xi∩Yj≠0。

其中,des()為對等價類的描述。

定義規(guī)則Rij的確定性因子μ(Xi,Yj)=| Xi∩Yj |/| Xi |。顯然,

0<μ(Xi,Yj)≤1。

根據(jù)粗糙集理論,當確定性因子μ(Xi,Yj)=1時,Rij是確定的;當0<μ(Xi,Yj)<1時,Rij是不確定的。

這樣,可以得到以下確定性規(guī)則:

R12:(訪問S2)且(不訪問S3)→ (不可能訪問S4)

R21:(訪問S2)且(訪問S3)→ (可能訪問S4)

R32:(訪問S2)且(不訪問S3)→ (不可能訪問S4)

R51:(訪問S2)且(訪問S3)→ (可能訪問S4)

不確定性規(guī)則為:

R41:(不訪問S2)且(訪問S3)→ (可能訪問S4),μ(X4,Y1)=0.5

R42:(不訪問S2)且(訪問S3)→ (不可能訪問S4),μ(X4,Y2)=0.5

模式解釋:

在實際應(yīng)用中挖掘到的模式和規(guī)則數(shù)量通常都很大,在模式解釋之前還必須對挖掘到的大量模式和規(guī)則進行篩選與合并。就本例來說,經(jīng)過篩選、合并挖掘到的6條模式和規(guī)則后最終可以得到兩條確定性規(guī)則,即:

1.(訪問S2)且(訪問S3)→ (可能訪問S4)

2.(訪問S2)且(不訪問S3)→ (不可能訪問S4)

在進行網(wǎng)站結(jié)構(gòu)改進時,可基于這兩條確定性規(guī)則作出決策:S1與S2鏈接,而沒有必要與S3、S4、S4鏈接;S2與S3, S3和S4進行鏈接;而將S2和S4的鏈接斷開以方便用戶使用。對于不確定規(guī)則,可作參考或直接刪除均可。

五、小結(jié)

使用Web用法挖掘技術(shù)來進行電子商務(wù)客戶行為特征的挖掘是一項復雜的技術(shù)。本文通過給出的一個基于粗糙集的客戶行為特征挖掘模型來討論了數(shù)據(jù)挖掘在電子商務(wù)系統(tǒng)應(yīng)用中的一個重要分支—Web用法挖掘。并重點論述了客戶行為特征挖掘中的數(shù)據(jù)收集、數(shù)據(jù)預處理及數(shù)據(jù)挖掘分析部分。運用Web數(shù)據(jù)挖掘技術(shù)對電子商務(wù)網(wǎng)站上的各種數(shù)據(jù)源進行挖掘,發(fā)現(xiàn)相關(guān)的一些知識模式,可以指導企業(yè)更好地運作站點和向客戶提供更優(yōu)質(zhì)的個性化的服務(wù),能有效提高商業(yè)站點的競爭力。

參考文獻:

[1]鄧鯤鵬 周延杰 嚴瑜莜:數(shù)據(jù)挖掘與電子商務(wù)[J].商場現(xiàn)代化,2007(9S)

[2]袁 柱:電子商務(wù)中Web數(shù)據(jù)挖掘的應(yīng)用研究[J].商場現(xiàn)代化,2007(8S)

[3]張文修等:粗糙集理論與方法[M].北京:科學出版社,2001

[4]高 燕 胡景濤:Web數(shù)據(jù)挖掘原理、方法及應(yīng)用[J].現(xiàn)代圖書情報技術(shù),2002

[5]王玉珍:Web數(shù)據(jù)挖掘的分析與探索[J].計算機發(fā)展與應(yīng)用,2003

主站蜘蛛池模板: 好吊色国产欧美日韩免费观看| 四虎永久在线精品影院| 拍国产真实乱人偷精品| 亚洲男人的天堂久久香蕉| 中文字幕不卡免费高清视频| 国内老司机精品视频在线播出| 亚洲五月激情网| 亚洲精品视频网| 日韩精品一区二区三区免费在线观看| 五月婷婷亚洲综合| 99久久精品美女高潮喷水| 午夜福利视频一区| 亚洲IV视频免费在线光看| 免费在线a视频| 黄色不卡视频| 国产久操视频| 在线国产毛片手机小视频 | 2020国产精品视频| 久久久久久尹人网香蕉| 播五月综合| 亚洲AV无码乱码在线观看裸奔 | 亚洲欧美极品| 91精品在线视频观看| 伊人久久大线影院首页| 国产拍在线| 国产18在线| 91国内在线视频| 麻豆精品视频在线原创| 免费又黄又爽又猛大片午夜| 国产精品妖精视频| 欧洲日本亚洲中文字幕| 精品1区2区3区| 亚洲不卡网| 蜜桃视频一区二区| 精品欧美视频| 亚洲日本精品一区二区| 日本欧美在线观看| 中文国产成人精品久久| 91丨九色丨首页在线播放| 欧美区国产区| 国产人免费人成免费视频| 亚洲人成网址| 久久精品人妻中文系列| 亚洲另类色| 天天做天天爱夜夜爽毛片毛片| 国产精品亚洲а∨天堂免下载| 黄片在线永久| 亚洲一区二区三区国产精华液| 久久国产亚洲偷自| 中文字幕1区2区| 一区二区三区四区精品视频| 亚洲浓毛av| 国产精品夜夜嗨视频免费视频| 国产第四页| 9999在线视频| 日韩国产黄色网站| 成人中文字幕在线| 黑人巨大精品欧美一区二区区| 亚洲中文精品久久久久久不卡| 国产精品亚洲天堂| 亚洲无码不卡网| 爱做久久久久久| 亚洲日本精品一区二区| 欧美性爱精品一区二区三区 | 日韩美一区二区| 国产成人av一区二区三区| 国产精品第5页| 99re精彩视频| 成人夜夜嗨| 久久天天躁狠狠躁夜夜2020一| 久久黄色视频影| 55夜色66夜色国产精品视频| 色悠久久久| 国产精品白浆在线播放| 亚洲欧洲日韩综合色天使| 国产高颜值露脸在线观看| 露脸一二三区国语对白| 91破解版在线亚洲| 色综合激情网| 国产一区自拍视频| 欧美成人一区午夜福利在线| 欧美a级在线|