999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

樸素貝葉斯模型及樸素貝葉斯假設改進

2017-07-25 09:25:12李文超王彥焱吉林大學軟件學院
數碼世界 2017年7期
關鍵詞:分類體育模型

李文超 王彥焱 吉林大學軟件學院

樸素貝葉斯模型及樸素貝葉斯假設改進

李文超 王彥焱 吉林大學軟件學院

分類問題是數據挖掘領域內的重要研究課題,而樸素貝葉斯分類是最常見的分類算法之一。本文系統的探討了對NB模型中的樸素貝葉斯假設進行改進的多種方法,介紹了樸素貝葉斯模型及多種擴展模型,并對模型的優劣進行了簡單分析。

樸素貝葉斯 分類模型 數據挖掘

1 引言

樸素貝葉斯(Naive Bayes)分類器是一種簡單而高效的分類器,它可以與決策樹和經過挑選的神經網絡分類器等算法相媲美。但是樸素貝葉斯算法對各屬性相互獨立的要求過于苛刻,于是人們采用不同的辦法進行改進。本文對其進行系統的整理。

2 樸素貝葉斯模型

2.1 模型描述

樸素貝葉斯分類器(Naive Bayes Classifier,NBC)是最基本的貝葉斯模型。模型結構如圖1所示:

圖1 樸素貝葉斯模型結構圖

給定的數據集屬性過多時,計算開銷可能過大。此時可以做類條件獨立的樸素假定,假設各屬性值獨立于類別變量C,此時,=1

k。若ak是分類屬性,則是屬性為ak的值為 xk的Ci類的元組數除以Ci類的總元組數;若ak是連續值屬性,則可按照高斯分布計算。

分類器訓練完畢后,為了預測元組x的類標號,對每個類Ci,計算上述步驟(2)中分子的值,使該值最大化的即為被預測的類別。

2.2 模型主要優缺點

優點:公式形式簡單,均為數學中的基本公式,可擴展性強;模型時間和空間復雜性小,易于實現;算法的性能穩定,模型的健壯性較好。

缺點:實際問題中元組各屬性的相互獨立性很難實現,所以該模型無法處理組合特征產生的變化結果;算法依賴于所選的訓練集的質量,如果訓練集含有較多噪聲,則分類結果的準確性將受明顯影響。

3 半樸素貝葉斯分類模型

3.1 模型描述

SNBC的基本想法是適當考慮一部分屬性間的相互依賴信息,從而既不需要進行完全聯合概率計算,又不至于徹底忽略了比較強的屬性依賴關系。實際上,SNBC將屬性劃分為幾個沒有交集的屬性組,使得屬性組以獨立的方式存在,這樣就實現了屬性組間的獨立性,放低了對屬性間完全獨立的要求。SNBC的模型圖如圖2所示:

圖2 半樸素貝葉斯模型結構圖

在實際問題中應用SNBC時,最常用的一種策略是“獨依賴估計”(One-Dependent Estimator),即每個屬性在類別之外最多僅依賴于一個其他屬性。而最直接的實現ODE的做法是令所有屬性都指向同一個父節點“超父”(super-parent),然后通過模型選擇的相關算法確定超父屬性。

3.2 模型主要優缺點

由于體育旅游專業的復合屬性,現有基礎師資構成主要是以體育專業出身和旅游專業出身的師資為主。體育院校類和綜合高校的體育院系開設體育旅游方向的專業,師資力量的構成主要是體育學教師,旅游院系則主要是旅游管理類教師,缺乏復合型的師資體系和教學隊伍。進一步完善教學師資力量結構體系是體育旅游專業人才培養首先需要解決的問題。應加強體育旅游專業人才師資隊伍的建設,建立專門的培養機構或者在相關高等院校開設長短期的進修班,培養復合應用型的師資隊伍。

優點:通過建立屬性組,減少了過于嚴苛的獨立性假設對分類性能的負面影響。

缺點:如果目標數據集太大,或者數據集中的屬性太多,那么條件互信息的計算效率將非常高,對運行環境有較高的要求。不過,采用ODE策略可以在一定程度上緩解該問題。

4 提升的樸素貝葉斯分類模型

4.1 模型描述

Freund等提出了提升的樸素貝葉斯分類模型。這種算法可以把“弱學習算法”提升為“強學習算法”,且并未改變獨立性假設。AdaBoost算法的大概流程如下:

①設總樣本數為Nm,將所有樣本的初始權重設為1/N。

②做T次循環,T是趟數。A)訓練弱分類器ym,直到權重誤差函數取最小值。B)計算話語權α。C)更新權重。D)得到最后的分類器

優點:較大的提高了分類準確性,提高了分類性能。

缺點:仍然沒有解決獨立性假設的限制;當訓練集中存在噪音數據時,boosting過程會把噪音數據也當成有用的信息而放大。

5 基于屬性相關性分析的貝葉斯分類模型

5.1 模型描述

文獻[3]提出了基于屬性相關性分析的貝葉斯分類模型CB(Correlated Bayes),改進了NB模型在屬性獨立性假設方面的問題。CB模型中事件 x屬于類Ci的概率計算公式為為向量相關度的估計公式:特征向量X共有n個屬性,連乘的個數,β是控制參數,可設置為0.1~0.3。

要構建CB分類模型,首先要求出屬性類條件概率及相關度,然后確定控制參數。該算法通過估算向量相關度的方法,從另一個角度改進了對屬性獨立性的依賴。

5.2 模型主要優缺點

優點:拋棄了樸素貝葉斯假設,改進了NBC。

缺點:控制參數的最優值不易求出,增加了算法的計算量和成本。對連續型數據的處理不夠便利。

6 結束語

NBC在數據挖掘領域被人們廣泛利用,具有良好的效率和準確性。但其條件獨立假設過于嚴苛,在實際應用時存在一定的偏差。對于如何改進樸素貝葉斯假設帶來的準確性問題仍將是一個研究焦點。

[1]Stern M, Beck J, Woolf B. Naive Bayes classifiers for user modeling[J]. Center for Knowledge Communication, Computer Science Department, University of Massachusetts, 1999

[2]HanJiaWei,KamberM. 數據挖掘概念與技術[M].范明,孟小峰等譯.北京:機械工業出版社

[3]章舜仲,王樹梅,黃河燕等.基于屬性相關性分析的貝葉斯分類模型[J].情報學報,2007,(2):271-274

猜你喜歡
分類體育模型
一半模型
分類算一算
重要模型『一線三等角』
提倡體育100分 也需未雨綢繆
甘肅教育(2020年2期)2020-11-25 00:50:04
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
2016體育年
3D打印中的模型分割與打包
主站蜘蛛池模板: 亚洲色图在线观看| 国产色婷婷视频在线观看| 正在播放久久| 亚洲国产欧美国产综合久久| 国产成人一区在线播放| 蜜臀av性久久久久蜜臀aⅴ麻豆| 国产欧美视频在线| 国产va在线观看免费| 青青操视频在线| 国产尹人香蕉综合在线电影| 9999在线视频| 亚洲精品视频网| 秘书高跟黑色丝袜国产91在线| 国产美女主播一级成人毛片| 91精品久久久无码中文字幕vr| 国产在线观看高清不卡| 精品国产自在在线在线观看| 国产精品真实对白精彩久久| 国产福利影院在线观看| 亚洲一区第一页| 亚洲区一区| 中文字幕久久亚洲一区| 欧美在线三级| 国产日本欧美在线观看| 精品人妻AV区| 欧美日韩高清| 久久情精品国产品免费| 亚洲欧洲美色一区二区三区| 中文成人无码国产亚洲| 国产黄网永久免费| 亚洲伊人久久精品影院| 国产福利观看| 91久久偷偷做嫩草影院电| 国产a在视频线精品视频下载| 国产手机在线小视频免费观看 | 色婷婷成人| 精品国产一二三区| 欧美α片免费观看| 亚洲αv毛片| 日韩人妻无码制服丝袜视频| 午夜小视频在线| 日韩欧美中文字幕一本| P尤物久久99国产综合精品| 91破解版在线亚洲| 91在线无码精品秘九色APP| 国产又爽又黄无遮挡免费观看| 久久性视频| 成人毛片在线播放| 国产精品亚洲一区二区三区在线观看| 97人人模人人爽人人喊小说| 成人亚洲国产| 高清无码一本到东京热| 国产91高跟丝袜| 在线视频一区二区三区不卡| 亚洲人成网站观看在线观看| 福利国产微拍广场一区视频在线| 亚洲人成网址| 欧美性色综合网| 欧美日韩一区二区在线播放| 91偷拍一区| 九九久久精品免费观看| 欧美亚洲另类在线观看| 国产成人精品综合| 国产无码性爱一区二区三区| 亚洲二区视频| 欧洲熟妇精品视频| 一级毛片在线免费看| 热99精品视频| 99久久精品国产麻豆婷婷| 久久综合成人| 国产你懂得| 欧美成人精品高清在线下载| swag国产精品| 亚洲天堂视频在线免费观看| 天堂亚洲网| 日本高清在线看免费观看| 免费一级α片在线观看| 尤物国产在线| 久久99热这里只有精品免费看| 免费日韩在线视频| 丁香婷婷激情网| 毛片在线区|