999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

決策樹(shù)技術(shù)在網(wǎng)上書(shū)店系統(tǒng)中的應(yīng)用

2008-12-31 00:00:00
商場(chǎng)現(xiàn)代化 2008年25期

[摘要] 數(shù)據(jù)挖掘技術(shù)是在大量的數(shù)據(jù)中發(fā)現(xiàn)未知知識(shí)的數(shù)據(jù)分析技術(shù),利用數(shù)據(jù)挖掘技術(shù)分析客戶(hù)數(shù)據(jù),發(fā)現(xiàn)其中的規(guī)律,從而為商務(wù)決策提供依據(jù)。本文對(duì)決策樹(shù)技術(shù)進(jìn)行了相關(guān)分析,并應(yīng)用于網(wǎng)上書(shū)店系統(tǒng),實(shí)現(xiàn)對(duì)客戶(hù)數(shù)據(jù)的挖掘。

[關(guān)鍵詞] ID3算法 決策樹(shù) 數(shù)據(jù)挖掘 網(wǎng)上書(shū)店

目前,據(jù)《電腦商情報(bào)》通過(guò)最近的調(diào)查研究得出的結(jié)果顯示,截至去年6月,我國(guó)的網(wǎng)上書(shū)店數(shù)量已經(jīng)達(dá)到300家以上,比前年同期增長(zhǎng)25.8%。同行之間的競(jìng)爭(zhēng)日益激烈,特別是客戶(hù)是商家爭(zhēng)奪的焦點(diǎn)。

網(wǎng)上書(shū)店的業(yè)務(wù)系統(tǒng)每天都要產(chǎn)生大量的業(yè)務(wù)數(shù)據(jù),這些業(yè)務(wù)數(shù)據(jù)記錄了各類(lèi)客戶(hù)在網(wǎng)上書(shū)店相關(guān)業(yè)務(wù)的信息和客戶(hù)的基本信息,這些數(shù)據(jù)用數(shù)據(jù)庫(kù)保存起來(lái)。在競(jìng)爭(zhēng)日益激烈的知識(shí)經(jīng)濟(jì)環(huán)境下,數(shù)據(jù)庫(kù)不再只是用于查詢(xún)、輸出報(bào)表等一般的用途,還要在眾多的數(shù)據(jù)中挖掘出有用的知識(shí)以便作為決策支持。這些數(shù)據(jù)中的一部分是需要經(jīng)過(guò)一番分析形成知識(shí)后才能被決策所利用。數(shù)據(jù)挖掘技術(shù)在網(wǎng)上購(gòu)書(shū)系統(tǒng)中起著重要作用,使用數(shù)據(jù)挖掘技術(shù)進(jìn)行訂單數(shù)據(jù)的挖掘, 通過(guò)決策樹(shù)技術(shù)得到客戶(hù)進(jìn)行分析,發(fā)現(xiàn)客戶(hù)所處的生命周期,針對(duì)處于不同客戶(hù)生命周期的客戶(hù),采取個(gè)性化的策略,實(shí)現(xiàn)向其推薦書(shū)籍和客戶(hù)保持,提高客戶(hù)滿(mǎn)意度,進(jìn)而建立忠誠(chéng)度。從而實(shí)現(xiàn)客戶(hù)的保持,防止客戶(hù)流失。

一、決策樹(shù)技術(shù)基本概述

決策樹(shù)基本思想是:選取一個(gè)最能區(qū)分不同類(lèi)別樣本的屬性,讓其作為樹(shù)根,并把訓(xùn)練樣本集分為相應(yīng)的幾塊,接下來(lái)再依次在每一塊樣本集中選出區(qū)分度最大的屬性,作為樹(shù)的第二層結(jié)點(diǎn)。依此類(lèi)推,直到所有的葉結(jié)點(diǎn)都只包含一類(lèi)樣本時(shí)終止,這樣構(gòu)建起來(lái)的一棵樹(shù)就稱(chēng)作決策樹(shù)。然后進(jìn)行驗(yàn)證,就可得出結(jié)果。因此在分析客戶(hù)流失情況時(shí),將己有的客戶(hù)信息的統(tǒng)計(jì)作為基礎(chǔ)數(shù)據(jù),選擇好的屬性,構(gòu)造決策樹(shù),決策樹(shù)技術(shù)可以清晰的顯示哪些字段比較重要,對(duì)挽留客戶(hù)指明了方向。

決策樹(shù)是應(yīng)用非常廣泛的分類(lèi)方法,目前有多種決策樹(shù)方法,如ID3、CN2、SLIQ、SPRINT等。

二、ID3算法及其在網(wǎng)上書(shū)店中的應(yīng)用

ID3算法是Quinlan提出的一個(gè)著名決策樹(shù)生成方法。它的基本概念是決策樹(shù)中每一個(gè)非結(jié)點(diǎn)對(duì)應(yīng)著一個(gè)非類(lèi)別屬性,樹(shù)枝代表這個(gè)屬性的值。一個(gè)葉結(jié)點(diǎn)代表從樹(shù)根到葉結(jié)點(diǎn)之間的路徑對(duì)應(yīng)的記錄所屬的類(lèi)別屬性值。每一個(gè)非葉結(jié)點(diǎn)都將與屬性中具有最大信息量的非類(lèi)別屬性相關(guān)聯(lián)。采用信息增益來(lái)選擇能夠最好地將樣本分類(lèi)的屬性。

ID3選擇具有最高信息增益的屬性作為當(dāng)前結(jié)點(diǎn)的測(cè)試屬性。該屬性使得對(duì)結(jié)果劃分中的樣本分類(lèi)所需的信息量最小,并反映劃分的最小隨機(jī)性或“不純性”。這種信息理論方法使得對(duì)一個(gè)對(duì)象分類(lèi)所需的期望測(cè)試數(shù)目達(dá)到最小,并盡量確保找到一棵簡(jiǎn)單的樹(shù)來(lái)刻畫(huà)相關(guān)的信息。

設(shè)S是s個(gè)數(shù)據(jù)樣本的集合,假定類(lèi)標(biāo)號(hào)屬性具有m個(gè)不同值,定義m個(gè)不同類(lèi)Ci(i =1,2,…,m)設(shè)si是Ci類(lèi)中的樣本數(shù),對(duì)一個(gè)給定的樣本分類(lèi)所需的期望信息由下式給出:

其中,Pi是任意樣本屬于Ci的概率,并用si/s估計(jì)。

設(shè)屬性A具有v個(gè)不同值{a1,a2,…,av},可以用屬性A將S劃分為v個(gè)子{Si,…,Sv},其中,Sj包含 S中這樣一些樣本,它們對(duì)應(yīng)的屬性A的值為aj。如果A選作測(cè)試屬性(即最好的劃分屬性),則這些子集對(duì)應(yīng)于由包含集合S的結(jié)點(diǎn)生長(zhǎng)出來(lái)的分支。設(shè)sij是子集Sj中類(lèi)Ci的樣本數(shù)。根據(jù)A劃分的子集的嫡或期望信息由下式給出:

充當(dāng)?shù)趈個(gè)子集的權(quán),并且等于子集(即A值為ai)中的樣本個(gè)數(shù)除以S中的樣本總數(shù)。

這次分類(lèi)之后,還需要的分類(lèi)信息量為:

Pij是Sj中的樣本屬于類(lèi)Ci的概率。

對(duì)描述屬性的元素計(jì)算信息增益值:

選擇最高信息增益的創(chuàng)建一個(gè)結(jié)點(diǎn),并以該屬性標(biāo)記,對(duì)該屬性的每個(gè)值創(chuàng)建一個(gè)分支,并據(jù)此進(jìn)行劃分。

網(wǎng)上書(shū)店分析客戶(hù)流失情況,決策樹(shù)技術(shù)中的是解決這一問(wèn)題的有效途徑。ID3算法是一個(gè)著名決策樹(shù)生成方法。具體的過(guò)程如下:

1.構(gòu)造訓(xùn)練集

根據(jù)各種渠道收集的用戶(hù)信息以及日志文件創(chuàng)建了網(wǎng)上書(shū)店的數(shù)據(jù)倉(cāng)庫(kù),從中提取客戶(hù)活動(dòng)信息。如下表:

表 訓(xùn)練集

2.信息增益計(jì)算

將決策樹(shù)的算法應(yīng)用在客戶(hù)保持中,生成決策樹(shù)算法的執(zhí)行過(guò)程描述如下:

計(jì)算IfLost的期望信息:

類(lèi)標(biāo)號(hào)屬性IfLost有兩個(gè)不同值{yes,no},因此有兩個(gè)不同的類(lèi)(m=2)。設(shè)類(lèi)C1對(duì)應(yīng)于yes,而C2對(duì)應(yīng)于no,類(lèi)yes有6個(gè)樣本,類(lèi)no有4個(gè)樣本。

根據(jù)公式,可得給定樣本分類(lèi)所需的期望信息:

計(jì)算每個(gè)屬性的期望信息。從屬性業(yè)務(wù)種類(lèi)(Online-time)開(kāi)始,觀察Online-time的每個(gè)樣本的yes和no分布,可算出Online-time的期望信息:

對(duì)于Online_time=“<3小時(shí)”s11=2,s21=2

Online_time=“≥3小時(shí)”s12=4,s22=2

根據(jù)公式(5-4),樣本按Online-time劃分,對(duì)一個(gè)給定的樣本計(jì)算Online-time的期望信息為:

同理,計(jì)算出屬性ContracType、IfInsales、Proression的期望信息。

因此,根據(jù)公式,計(jì)算出Online-time的信息增益是:

同理得到ContractType、IfInsales、Profession的信息增益:

Gain(ContractType)=0.44635

Gain(IfInsales)=0.12452

Gain(Profession)=0.13530

根據(jù)計(jì)算出的信息增益,對(duì)應(yīng)最高信息增益的結(jié)點(diǎn)作為分枝結(jié)點(diǎn),分枝結(jié)點(diǎn)ContractType在屬性中具有最高信息增益,選作測(cè)試屬性,創(chuàng)建一個(gè)屬性,用ContractType作標(biāo)志,并對(duì)于每個(gè)屬性值,引出一個(gè)分支,樣本據(jù)此劃分,初始分枝點(diǎn)如圖1所示。

圖1 是否參加過(guò)促銷(xiāo)活動(dòng)的分支

重復(fù)上述過(guò)程,直到樹(shù)不再生長(zhǎng)。再對(duì)以上的兩個(gè)分支作為初始分裂點(diǎn)分別計(jì)算每個(gè)屬性的信息增益,選出測(cè)試屬性,創(chuàng)建結(jié)點(diǎn)繼續(xù)樹(shù)的生長(zhǎng),算法最終返回的決策樹(shù)如下圖2所示。

圖2 最后生成的決策樹(shù)

從上面對(duì)決策樹(shù)分析,結(jié)果表明:合同類(lèi)型是決策樹(shù)分枝的最重要因素,其次為從事職業(yè)、在線時(shí)長(zhǎng)、促銷(xiāo)活動(dòng)等。結(jié)果表明:

易流失客戶(hù)為:與本網(wǎng)上書(shū)店未簽訂合同,每日上網(wǎng)時(shí)間長(zhǎng)<3小時(shí)的普通客戶(hù);與本網(wǎng)上書(shū)店簽訂團(tuán)體合同,行政機(jī)關(guān);與本網(wǎng)上書(shū)店未簽訂合同,從事行政工作的公務(wù)員。

非流失客戶(hù)為:與本網(wǎng)上書(shū)店簽訂個(gè)人合同,從事教育工作的教育工作者;與本網(wǎng)上書(shū)店簽訂團(tuán)體合同,從事教育事業(yè)的教育機(jī)構(gòu);與本網(wǎng)上書(shū)店未簽訂合同,每日上網(wǎng)時(shí)間長(zhǎng)≥3小時(shí)的普通客戶(hù);與本網(wǎng)上書(shū)店簽訂個(gè)人合同,從事行政工作的公務(wù)員。這些客戶(hù)是本網(wǎng)站的注冊(cè)者、常客、忠實(shí)客戶(hù)。

三、決策樹(shù)技術(shù)在網(wǎng)上書(shū)店中的應(yīng)用

挖掘的目的是為了應(yīng)用。因此,利用能夠?qū)崿F(xiàn)分類(lèi)回歸樹(shù)的算法的數(shù)據(jù)挖掘工具,可以精確獲得預(yù)測(cè)流失率,建立流失預(yù)測(cè)模型,分析客戶(hù)流失傾向,即可在客戶(hù)流失之前做出預(yù)警可能性的大小。業(yè)務(wù)人員也可以根據(jù)每個(gè)客戶(hù)的流失可能性對(duì)客戶(hù)從高到低排序,找出流失傾向較高的群體,并結(jié)合這些客戶(hù)對(duì)應(yīng)的分群特征,采取相應(yīng)的客戶(hù)挽留策略,以進(jìn)行更加精細(xì)的客戶(hù)保有工作,提高客戶(hù)挽留的成功率。

四、結(jié)束語(yǔ)

利用決策樹(shù)技術(shù)可以挖掘大量的客戶(hù)信息為構(gòu)建預(yù)測(cè)模型,較準(zhǔn)確地找出符合離開(kāi)因素的客戶(hù),制定相應(yīng)的方案。最大程度挽留他們。本文對(duì)決策樹(shù)技術(shù)的基本思想和決策樹(shù)生成方法ID3算法進(jìn)行了詳細(xì)的分析,討論了網(wǎng)上書(shū)店系統(tǒng)業(yè)務(wù)信息的挖掘。本文中許多方法和思路在比如超市其他方面有一定的借鑒意義。

參考文獻(xiàn):

[1]范云峰:客戶(hù)開(kāi)發(fā)營(yíng)銷(xiāo)[M].北京:中國(guó)對(duì)處經(jīng)濟(jì)貿(mào)易出版社,2003.7

[2]毛國(guó)君段立娟:數(shù)據(jù)挖掘原理與算法[M].清華大學(xué)出版社,2005.7

[3]蘇新寧楊建林:數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘[M].清華大學(xué)出版社,2006.4

[4]中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)數(shù)據(jù)挖掘中心:數(shù)據(jù)挖掘中的決策樹(shù)技術(shù)入其應(yīng)用[J].統(tǒng)計(jì)與信息論壇.2002.3

[5]費(fèi)賢舉王文琴莊燕濱:基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘技術(shù)在CRM中的應(yīng)用研究[J].常州工學(xué)院學(xué)報(bào).2005.4

[6]徐緒松:數(shù)據(jù)結(jié)構(gòu)與算法導(dǎo)論[M].北京:電子工業(yè)出版社,1996

主站蜘蛛池模板: 98超碰在线观看| 亚洲丝袜中文字幕| 久久无码高潮喷水| 国产超碰在线观看| 国产综合精品一区二区| 欧美三級片黃色三級片黃色1| 亚洲日韩Av中文字幕无码| 精品乱码久久久久久久| 91久久夜色精品国产网站 | 欧美精品aⅴ在线视频| 国产精品露脸视频| 制服丝袜一区| 欧美激情第一欧美在线| 免费无码一区二区| 动漫精品中文字幕无码| 精品国产自| 久久男人资源站| 欧美一级黄色影院| 精品久久人人爽人人玩人人妻| 亚洲第一国产综合| 久久一级电影| 国产aⅴ无码专区亚洲av综合网 | 欧美日韩动态图| 国产一级视频久久| 久久精品波多野结衣| 狠狠综合久久| 亚洲一区网站| 亚洲美女一区二区三区| 玖玖精品视频在线观看| 日本人妻一区二区三区不卡影院 | 国产精品尤物在线| 免费一级全黄少妇性色生活片| 啪啪免费视频一区二区| 九九香蕉视频| 午夜免费小视频| 亚洲自拍另类| 亚洲中文字幕23页在线| 亚洲女同一区二区| 亚洲中文字幕23页在线| 久久超级碰| 日韩高清欧美| 熟女视频91| 中文成人在线视频| 中文字幕人成乱码熟女免费 | 无码'专区第一页| 中国国语毛片免费观看视频| 国模极品一区二区三区| 欧美不卡二区| 日本日韩欧美| 欧美成人区| 国产玖玖玖精品视频| 欧美激情综合一区二区| 青青青国产免费线在| 欧美天堂久久| 免费A∨中文乱码专区| 91区国产福利在线观看午夜| 国产精品午夜福利麻豆| 亚洲小视频网站| 伊人成人在线| 成人综合久久综合| 丁香亚洲综合五月天婷婷| 亚洲中文精品久久久久久不卡| 天天干天天色综合网| 91在线无码精品秘九色APP| 亚洲中文无码h在线观看 | 亚洲天堂网2014| 国产成人乱码一区二区三区在线| 国产在线观看人成激情视频| 亚洲视频二| 国产精品精品视频| 国产自无码视频在线观看| 亚洲精品国产精品乱码不卞| 中国国语毛片免费观看视频| 男人天堂伊人网| 波多野结衣在线se| 永久免费精品视频| 亚洲日韩精品欧美中文字幕| 欧美视频二区| 国产精品大白天新婚身材| 97se亚洲综合不卡| 77777亚洲午夜久久多人| 国精品91人妻无码一区二区三区|