999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于分類規則算法對存款意愿傾向的研究

2018-12-01 06:37:50新疆財經大學烏魯木齊市830012吳珍珍
石河子科技 2018年2期
關鍵詞:分類

(新疆財經大學,烏魯木齊市,830012) 吳珍珍

關鍵字 J48(C4.5)算法;Na?ve Bayes算法;對比分析

分類是數據挖掘中一項非常重要的任務,在現實生活中有非常廣泛的應用。例如,根據某一天的天氣狀況判斷這一天是否適合出門游玩;根據病人各項檢查指標判斷是否患有某種疾?。桓鶕娮余]件的標題和內容判斷其是否為垃圾郵件等,以上這些實例都體現出了分類的重要性。

而構造分類器的方法有很多,常見的方法有決策樹、規則歸納、貝葉斯學習、神經網絡、支持向量機以及Ensemble方法等。在這些方法中決策樹因為其易理解、效率較高的優點占有重要的地位,其中作為決策樹方法中經典算法的ID3算法的改進算法C4.5能夠有效地揭示需要進行分類數據的結構化信息。除此之外,樸素貝葉斯方法因為其對不確定知識表達形式的特別以及綜合了先驗知識的優質特性成為一種簡單高效的分類算法,在數據挖掘中應用廣泛。

1 數據挖掘分類規則的基礎理論

構造分類器的方法有很多,這里主要對決策樹方法中的ID3改進算法C4.5以及樸素貝葉斯算法的基礎理論和其算法基本原理作簡要介紹。

1.1 C4.5算法基本原理

ID3算法是由羅斯昆(J.Ross Quinlan)于1975年在悉尼大學提出的一種分類預測算法。該算法以信息論為基礎,其核心是“信息熵”,通過計算每個屬性的信息增益,認為信息增益高的是好的屬性,每次劃分選取信息增益最高的屬性作為劃分標準,并重復這個過程,最后實現對數據的歸納分類,生成一個能夠完美分類訓練集的決策樹。

設D是一個包含|D|個數據樣本的集合,C為分類屬性,|C|為分類類別數目,A為一個屬性,Da為D中滿足條件A=a的樣本集合,PD(Ci)和分別表示D和Da中屬于類別C(ii=1,2,…,|C|)的樣本數所占百分比。那么由信息熵的定義得出樣本集合D對于的信息熵為:

利用屬性A對樣本集合D中進行劃分所對應的信息熵為:

因此,屬性A在樣本集合D中為分類所提供的信息量即信息增益為:

而C4.5算法是由羅斯昆(J.Ross Quinlan)提出的對ID3算法的一個改進算法,它繼承了ID3算法的優點,并且利用信息增益率來選擇屬性,克服了用信息增益選擇屬性時偏向選擇取值多屬性的不足,且在構造決策樹的過程中能對其進行剪枝,使得產生的分類規則易于理解,準確率較高。

C4.5算法利用增益比率來克服ID3算法用信息增益選擇屬性偏向選擇取值多的屬性作為決策樹樹根的問題,那么就有:

因此,屬性A在樣本集合D中為分類所提供的信息量占比即信息增益率為:

一般情況下認為信息增益率高的是好的屬性,每次劃分選取信息增益率最高的屬性為劃分標準,并重復這個過程,直至生成一個能夠完美分類訓練集的決策樹。

1.2 樸素貝葉斯方法基本原理

樸素貝葉斯方法是基于貝葉斯定理與特征條件獨立假設的一種分類方法,故有這種方法構造的貝葉斯分類器基于一個簡單的假定,即給定目標值時屬性之間相互條件獨立。和決策樹相比,樸素貝葉斯方法構造分類器發源于古典數學理論,有更加堅實的數學基礎,以及更穩定的分類效率。

設為最大可能后驗概率,D是一個包含|D|個數據樣本的集合,V為假設空間,為假設H的事前概率,為D的事前概率,這對于假設H而言是一個常數定值,假設H在樣本集D下出現的條件概率。那么樸素貝葉斯算法根據貝葉斯定理,在基于給定目標值時屬性之間相互條件獨立的簡單假設前提下,來預測屬性分類的結果就有:

假設樣本集D有n個屬性,記為A1,A2,…,An,其對應的屬性值記為a1,a2,…,an;C為分類屬性,|C|為分類類別數目。并且可以預測樣本D屬于類Ci當且僅當有p( Ci|D )>p(Cj|D ),其中i≠j,且i,j=1,2,…,|C|。

而根據貝葉斯定理可以得到p(C i|D )=,這里p(D)對于所有類均為常數,故只需要最大化p( D|Ci)p(Ci)即可。如果所屬類別的先驗概率p(Ci)未知,則通常假設p(Ci)=p( Cj),這里≠j,且i,j=1,2,…,|C|,所以在給定目標值時屬性之間相互條件獨立的假設前提下有p( D|Ci)=,從而得出樣本D應屬類別。

2 基于C4.5及樸素貝葉斯算法的實例解析

Bank Matketing Data Set中共有4 119條數據,其中規定其含有訓練數據集2 719條,測試數據集1 400條,分類的目標屬性為存款(定期)意愿,記為y。根據年齡(age)、工作類型(job)、婚姻狀況(marital)、教育程度(education)、拖欠款狀況(default)、房貸(housing)、個人貸(loan)等屬性來判斷其存款傾向(y)是否有意愿。

在進行分析之前,由于weka部分分類分析算法要求屬性必須是nominal類型,故需要將數據集中原本是numeric類型的屬性進行離散化,將其轉換成nominal類型,例如年齡(age)屬性我們定義小于等于20的記為“young”,大于50的記為“old”,大于20且小于等于50的記為“wrinkly”,從而完成了數據的轉換。(詳見表1)

2.1 算法分類結果將數據集

以.csv的格式導入weka軟件中去,使用J48(C4.5)以及樸素貝葉斯等三種分類算法對該數據集進行分類。(詳見表2)

從分類結果中可以看出,Na?ve Bayes算法的分類效果在準確率與誤差率上要比J48(C4.5)算法有微小優勢差距,且其算法分類所需要的時間也要比J48(C4.5)算法有著較明顯的優勢。

2.2 算法分類結果分析

2.2.1 J48(C4.5)算法結果分析

根據weka軟件運行結果,J48(C4.5)算法具體分類結果(即Confusion Matrix)見表3。從表3可知,沒有存定期款傾向意愿且分類結果也將其劃分為沒有意愿的實例個數為1 238個;沒有存定期款傾向意愿但分類結果將其劃分為有意愿的實例個數為0個;有存定期款傾向意愿且分類結果也將其劃分為有意愿的實例個數為0個;有存定期款傾向意愿但分類結果將其劃分為沒有意愿的實例個數為162個。

表1 部分數據集情況

表2 不同算法針對Bank Marketing數據集的分類結果

表3 J48(C4.5)算法對Bank Marketing數據集的分類結果

表4 J48(C4.5)算法在對Bank Marketing數據集的分類效果

表5 J48(C4.5)置信因子調節對分類精度的影響情況

由上,分類正確的實例個數為1 238個,分類錯誤的實例個數為162個。所以分類的準確率為88.4286%,分類的錯誤率為11.5 714%。下面再給出J48(C4.5)算法分類的正確率、召回率和F-measure指標的值,結果如表4所示。

由表4可知,正確率(Precision)表示實際上存定期款傾向真實有意愿(真實沒意愿)的實例個數占分類成有存定期款傾向意愿(沒意愿)的實例個數的比例;召回率(Recall)表示正確分類成有存定期款意愿(沒有存定期款意愿)的實例個數占總的有存定期款意愿(沒有存定期款意愿)的實例個數的比例;F-measure指標則將正確率與召回率結合起來,揭示兩者間的關系,衡量兩者的平衡性能,且一般情況下,計算F-measure有公式:

綜上,作為ID3算法改進的J48(C4.5)算法,在對Bank Marketing數據集的分類預測中,J48(C4.5)的準確率達到了88.4 286%,分類的速度為0.03秒,它增加了樹枝的修剪,克服了關于數據缺失和噪音數據的缺點,該算法應用在該數據集上所得的結果是可以接受的。但是,weka中J48(C4.5)算法有置信因子及新分類的葉子節點上需要含有的實例個數這兩個參數可以調節。調節其中一個參數:置信因子,此時得到的分類結果如下表5所示:

由表3~5,可以得到:隨著置信因子的增加,J48算法的運行速度、正確率都有所上升,這主要是因為置信因子的增加將減少對樹的修剪,從而獲得一棵更加特殊的樹。

2.2.2 Na?ve Bayes算法結果分析

根據weka軟件運行結果,Na?ve Bayes算法具體分類結果(即Confusion Matrix)如表6所示:

從表6中,可以得到:沒有存定期款傾向意愿且分類結果也將其劃分為沒有意愿的實例個數為1 227個;沒有存定期款傾向意愿但分類結果將其劃分為有意愿的實例個數為11個;有存定期款傾向意愿且分類結果也將其劃分為有意愿的實例個數為0個;有存定期款傾向意愿但分類結果將其劃分為沒有意愿的實例個數為150個。

表6 Na?ve Bayes算法對Bank Marketing數據集的分類結果

表7 Na?ve Bayes算法在對Bank Marketing數據集的分類效果

表8 Bank Marketing數據集上不同算法的比較情況

由上,分類正確的實例個數為1239個,分類錯誤的實例個數為161個。所以分類的準確率為88.5%,分類的錯誤率為11.5%。下面再給出Na?ve Bayes算法分類的正確率、召回率和F-measure指標的值,結果如表7所示。

2.3 J48(C4.5)與Na?ve Bayes算法結果的比較分析

數據挖掘中算法的性能比較一般可以從以下幾個方面,包括分類速度、準確率、可伸縮性、強壯性以及可理解性等進行比較??缮炜s性表示對于數據量很大的數據集能有效構造模型的能力,樸素貝葉斯算法因其獨特的特質對數據量極大且數據集樣本屬性之間關聯盡量小的數據集進行分類的效果具有很大的優勢;強壯性表示模型對噪聲數據或空缺值數據正確預測的能力,從對基礎理論的介紹中我們已經知道了J48(C4.5)算法對這方面的處理更好。因此,表8對所采用的算法進行了一個簡單的比較。

由表8可以得到,Na?ve Bayes算法相較J48(C4.5)算法不僅分類速度更快,對數據集分類的準確率也更優勝一籌。除此之外,對于樣本空間容量巨大的數據集也能夠比較有效的進行分類,雖然其對數據值缺失及噪音數據等問題的處理能力比不上J48(C4.5)算法,但在缺失數據量不大的情況下,對由于數據值缺失及噪音數據所引起的問題是可以容忍的。因此,可以得出樸素貝葉斯Na?ve Bayes算法要比J48(C4.5)算法的分類效果更好。

3 總結

隨著信息化步伐的加快,面對龐雜的數據,如何提取出這些數據中未知的且具有潛在價值的信息就顯得尤為重要。利用數據挖掘技術對有用知識進行提取能夠為人類提供有決策意義的信息。在介紹數據挖掘中分類技術基礎理論的基礎上,基于weka平臺,利用分類算法中的J48(C4.5)及Na?ve Bayes算法對Bank Marketing數據集進行分類實驗分析,并從運行速度、正確率、可伸縮性、強壯性等方面對兩種算法的分類效果進行了對比分析,得出了Na?ve Bayes算法相較J48(C4.5)算法能得到更有效的分類結果的結論。這為銀行在對客戶相關信息的了解基礎上判斷該客戶是否具有存定期存款傾向的意愿具有重要意義,從而有針對性的增加意愿存定期款客戶數量,提高該銀行在銀行市場的競爭力。

猜你喜歡
分類
2021年本刊分類總目錄
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
星星的分類
我給資源分分類
垃圾分類,你準備好了嗎
學生天地(2019年32期)2019-08-25 08:55:22
分類討論求坐標
數據分析中的分類討論
按需分類
教你一招:數的分類
主站蜘蛛池模板: 亚洲日韩第九十九页| 婷婷六月综合| 亚洲第一网站男人都懂| 欧美国产成人在线| 日本在线欧美在线| 99精品高清在线播放| 久久动漫精品| 欧美成人一级| 国产91丝袜在线播放动漫 | 国产人成在线观看| 一边摸一边做爽的视频17国产| 国产极品粉嫩小泬免费看| 囯产av无码片毛片一级| 午夜福利免费视频| 国产va在线观看| 国产欧美精品午夜在线播放| 四虎永久在线| 成人国产精品网站在线看| 黄色免费在线网址| 亚洲a免费| 亚洲综合色吧| 中文毛片无遮挡播放免费| 久久亚洲国产视频| 国产精品亚洲欧美日韩久久| 欧美日韩另类国产| 亚洲成人黄色网址| 亚洲精品制服丝袜二区| 91精品伊人久久大香线蕉| 国产欧美日韩综合在线第一| 二级毛片免费观看全程| 免费无码AV片在线观看国产| 欧美三级视频在线播放| 中文字幕久久亚洲一区| 亚洲AV无码不卡无码| 99久久精品免费观看国产| 国产三区二区| 免费在线播放毛片| 在线观看免费AV网| 一区二区理伦视频| 久久香蕉国产线| 久久99久久无码毛片一区二区| 伊人色天堂| 亚洲欧美精品日韩欧美| 亚洲AⅤ永久无码精品毛片| 国产麻豆91网在线看| 亚洲swag精品自拍一区| …亚洲 欧洲 另类 春色| 色视频国产| 日本黄色不卡视频| 亚洲欧美成人影院| 国产免费高清无需播放器| 亚洲乱码在线播放| 亚洲人妖在线| 久久婷婷色综合老司机| 97青青青国产在线播放| 色噜噜在线观看| 欧美一区精品| 高h视频在线| AV网站中文| 久久精品无码专区免费| 久久香蕉国产线看观看亚洲片| 久久久久无码精品| 五月天丁香婷婷综合久久| 波多野结衣一区二区三区四区 | 国产精品欧美激情| 国产69精品久久| 国产精品欧美激情| 亚洲婷婷在线视频| 日本人妻一区二区三区不卡影院| 午夜电影在线观看国产1区| 免费观看成人久久网免费观看| 精品国产美女福到在线不卡f| 91精品国产丝袜| 亚洲国产91人成在线| 欧洲日本亚洲中文字幕| 亚洲国产精品成人久久综合影院| 日韩午夜片| 国产亚洲欧美另类一区二区| 免费在线国产一区二区三区精品| 88av在线播放| 久久精品只有这里有| 亚洲天堂久久|