摘要:肥胖問題一直是人類難以擺脫的健康問題。為了更深入了解肥胖問題,本文從KDD Dataset下載有關公民身體各項指標的有關調查數據,選擇的主要指標有性別(Gender)、種族(Race_Ethnicity)、婚姻狀況(Marital_Status)、身體質量指數(BMI)、腰圍(Waist)共5項指標來反映公民健康情況。本文使用數據挖掘分類規則中的樸素貝葉斯分類進行分析,對樣本所屬分類進行預測。
關鍵詞:數據挖掘;樸素貝葉斯;分類
中圖分類號:G254.11文獻標識碼:A文章編號:1008-4428(2019)03-0126-02
一、 引言
數據挖掘(Data Mining),是數據庫中知識發現(KDD, Knowledge Discovery in Databases)的步驟之一,是從大型數據庫或數據倉庫中提取人們感興趣的知識的過程,這些知識是隱含的、實現未知的、潛在有用的信息。數據挖掘作為一門交叉學科,涉及機器學習、模式識別、歸納推理、統計學、智能數據庫、數據可視化高性能計算等多個領域。
數據挖掘的主要任務是從大量數據中提取出可信的、新穎的、有效的并能被人們理解的模式,挖掘數據背后蘊含的許多重要的信息以便充分利用這些數據。數據挖掘的兩個高層次目標是預測和描述。前者是根據一些變量或數據庫的若干已知字段預測其他感興趣的變量或字段的未知的未來的值;后者是找到描述數據的可理解模式。根據發現知識的不同,可以將數據挖掘人為歸納為特征規則、序列模式、分類、關聯規則、聚類、預測、變化和偏差分析。
在數據挖掘的各種方法中,分類是一種主要的分析手段,旨在生成一個分類函數或分類模型,由該模型把數據庫中的數據映射到某一給定類別中,從而實現對數據的分類。目前研究的分類模型主要有決策樹、貝葉斯分類、神經網絡、粗糙集、統計方法、遺傳算法等。
近年來,隨著人民生活水平的普遍提高,人民的身體健康問題越來越被得到重視。在國家發布“健康中國”的號令后,健身、慢走等運動成了百姓們更熱衷的休閑方式。為了探究什么因素對人類肥胖有影響,本文從KDD Dataset下載有關公民身體各項指標的有關調查數據,使用分類方法中的樸素貝葉斯分類進行分析,對樣本所屬分類進行預測,這能對人們有效地關注人類健康問題提供建議。
二、 貝葉斯理論背景
(一)條件概率和乘法定理
已知事件A發生的條件下,事件B發生的概率,叫作事件B在事件A發生下的條件概率,記為P(B|A),其中P(A)叫作先驗概率,P(B|A)叫作后驗概率,
計算條件概率的公式為:P(B|A)=P(B∩A)P(A)
條件概率公式通過變形得到乘法公式:P(B∩A)=P(B|A)×P(A)
(二)事件的獨立性
設A,B為兩個隨機事件,如果有P(AB)=P(A)×P(B)成立,則稱事件A和B相互獨立,此時有P(A|B)=P(A),P(AB)=P(A)P(B)成立。
設A1,A2,…,An為n個隨機事件,如果對其中任意m個(2≤m≤n)個事件Ak1,Ak2,…,Akm,都有P(Ak1,Ak2,…,Akm)=P(Ak1)P(Ak2)…,P(Akm)成立,則稱事件Ak1,Ak2,…,Akm相互獨立。
(三)貝葉斯公式
設B1,B2,…,Bn為互不相容事件,P(Bi)>0,i=1,2,…,n,P(A)>0,則在事件A發生的條件下,事件Bi發生的概率為,P(Bi|A)=P(BiA)P(A)=P(Bi)×P(A|Bi)∑ni=1P(Bi)×P(A|Bi)則該公式稱為貝葉斯公式。
(四)極大后驗假設和極大似然假設
首先介紹先驗概率。先驗概率(prior probability)表示的是還沒有訓練數據前,某一假設所擁有的初始概率,它反映了這一假設是正確假設的背景知識多少。令P(C)是假設C的先驗概率,X為訓練樣本,P(X)為將要觀察的訓練樣本X的先驗概率。P(X|C)表示在假設C正確的條件下樣本X出現的概率,根據貝葉斯公式可以得到后驗概率的計算公式:P(C|X)=P(X|C)P(C)P(X),它反映了訓練樣本X出現后假設C成立的置信度。
設C為待選的假設集合,在給定訓練樣本X時,通過計算找到可能性最大的假設(或存在多個這樣的假設時選擇其中之一)c∈C,具有最大可能性的假設被稱為極大后驗假設(maximum a posteriori),記cmap=argmaxc∈CP(c|X)=argmaxc∈CP(X|c)P(c)P(X)。由于P(C)與假設C無關,上式可變為:cmap=argmaxc∈CP(X|c)P(c)。確定極大后驗假設的方法是用貝葉斯公式計算每個候選假設的后驗概率。
如果沒有給定類別概率的情形下,假設C中每個假設都有相等的先驗概率(即對C中任意的ci,cj∈C(i≠j),有 P(ci)=P(cj)),進一步簡化后,計算使P(X|c)達到最大的假設,這時P(X|c)被稱為極大似然假設(maximum likelihood),記為cml=argmaxc∈CP(X|c)。
三、 樸素貝葉斯分類模型
樸素貝葉斯分類器(Naive Bayes Classifier, NBC)是貝葉斯分類模型中一種最簡單、有效而且易于實現的分類器,多用于文本分類,比如垃圾郵件過濾。其基本思想是:對于待分類的樣本,求解在此項出現的條件下各個類別出現的概率,將此待分類項歸類為概率最大的類別。求解樸素貝葉斯分類的工作過程如下:
1. 設待分類樣本為X={x1,x2,…,xn}。
2. 設類別集合為C={c1,c2,…,cm},預測X屬于某一類的過程即為求解P(ci|X)最大值的過程。
3. 根據貝葉斯定理,要使得P(ci|X)最大化,需要P(X|ci)P(ci)最大化。其中ci類的先驗概率P(ci)用頻率Si/S去估計,Si是給定類別Ci中訓練樣本的個數,S是訓練樣本的總數。
4. 對待分類樣本進行劃分,如果有:P(ci|X)=max{P(c1|X),P(c2|X),…,P(cm|X)},則X∈Ci。
四、 樸素貝葉斯分類模型
(一)實驗平臺
本實驗是在WEKA 3.6平臺上完成的。WEKA(Waikato Environment for Knowledge Analysis)是一種具有全面功能的機器學習和數據挖掘應用程序平臺。該軟件集成了許多能完成數據挖掘任務的機器學習算法,其中包括對數據進行預處理、聚類、分類、關聯規則挖掘等,它還能夠提供豐富的可視化功能。
(二)數據來源及預處理
本文數據來源于KDD Dataset中的分類數據,通過刪除一些不相關因素和缺失數據,再進行規約后,得到10149個公民的身體狀況表。
(三)分析過程與結果
本次實驗分為兩次進行,第一次實驗隨機選擇70%的數據作為訓練集,剩余30%作為測試集。WEKA的分類結果展示如表1:
五、 總結
本文從KDD Dataset下載有關公民身體各項指標的有關調查數據,選擇的主要指標有性別(Gender)、種族(Race_Ethnicity)、婚姻狀況(Marital_Status)、身體質量指數(BMI)、腰圍(Waist)共5項指標來反映公民健康情況。本文使用分類規則中的樸素貝葉斯分類進行分析,對樣本所屬分類進行預測。預測結果顯示,基于樸素貝葉斯算法分類對結果的預測準確率很高,一個人是否肥胖,確實和性別、種族、婚姻狀況、身體質量指數相關,但文中并沒有指出他們之間的具體關系,這是本文的不足之處。
參考文獻:
[1]王峻.樸素貝葉斯分類模型的研究與應用[D].合肥:合肥工業大學,2006.
[2]韓家煒,Kamber.M.數據挖掘:概念與技術[M].北京:機械工業出版社,2001.
[3]蔣良孝.樸素貝葉斯分類器及其改進算法研究[D].武漢:中國地質大學,2009.
[4]段晶.樸素貝葉斯分類及其應用研究[D].大連:大連海事大學,2011.
作者簡介:
張旭光,男,河南商丘人,新疆財經大學統計與信息學院碩士研究生,研究方向:大數據應用。