999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

決策樹和貝葉斯分類算法在學(xué)生專業(yè)錄取數(shù)據(jù)中的應(yīng)用研究

2017-12-12 01:33:45黃雪華
關(guān)鍵詞:分類學(xué)生

黃雪華

?

決策樹和貝葉斯分類算法在學(xué)生專業(yè)錄取數(shù)據(jù)中的應(yīng)用研究

黃雪華

(湖南城市學(xué)院信息與電子工程學(xué)院,湖南 益陽 413000)

分類算法是數(shù)據(jù)挖掘中最重要的挖掘理論之一,廣泛應(yīng)用于天氣預(yù)測、反垃圾郵件、疾病診斷等應(yīng)用中﹒通過介紹應(yīng)用最廣泛的兩類分類算法決策樹和貝葉斯理論及算法,并應(yīng)用于湖南城市學(xué)院專業(yè)招生錄取數(shù)據(jù)中,結(jié)合SQL server及ASP.NET,獲取每個專業(yè)的學(xué)生性別預(yù)測,獲取每個專業(yè)生源省份預(yù)測,并對預(yù)測結(jié)果和實際結(jié)果進行比較,得到誤差率分別在0.01和0.2以內(nèi)﹒

分類;決策樹;樸素貝葉斯;ASP.NET;SQL Server2014;專業(yè)錄取

分類算法是預(yù)測離散數(shù)據(jù)的分類標(biāo)號﹒最著名的例子如韓家煒的AllElectronics郵寄清單數(shù)據(jù)庫[1],根據(jù)顧客姓名、年齡、收入、職業(yè)和信譽度,可對他們是否購買計算機建立分類模型,并預(yù)測未知顧客所屬分類;再如銀行中預(yù)測貸款是否存在風(fēng)險,客戶信用卡等級劃分,這樣可以降低銀行信貸的風(fēng)險,減少資金的流失;又如文本分類、網(wǎng)絡(luò)異常檢測、垃圾短信過濾等應(yīng)用﹒

1 決策樹相關(guān)理論及算法分析

1.1 決策樹定義

從數(shù)據(jù)結(jié)構(gòu)來看,決策樹是一顆倒立的樹﹒從樹的根節(jié)點到葉節(jié)點的路徑實際就是決策的過程,確定數(shù)據(jù)樣本所屬類標(biāo)號的過程,它是一個遞歸地從上到下確定分支節(jié)點和葉節(jié)點的過程﹒葉節(jié)點存放的是數(shù)據(jù)樣本所屬的類標(biāo)號;分支節(jié)點根據(jù)數(shù)據(jù)樣本的某個合適的屬性值進行數(shù)據(jù)集劃分﹒

1.2 決策樹構(gòu)造步驟

決策樹的構(gòu)造分為2個步驟:第1步是建立決策樹階段,通過樣本數(shù)據(jù)建立決策樹;第2步是樹剪枝階段,對決策樹減去不必要的分枝以及過度擬合,主要是處理噪聲數(shù)據(jù)和異常數(shù)據(jù)﹒

1.3 決策樹算法分析

決策樹算法有很多種,最為著名的有ID3[1],C4.5[2]﹒決策樹建立的差異主要在屬性值的選取上﹒ID3的分支節(jié)點屬性選擇是通過計算屬性的信息增益值來選擇的﹒C4.5算法是對ID3算法的改進﹒ID3算法只能針對離散數(shù)據(jù)進行樣本分類,C4.5擴充了連續(xù)數(shù)據(jù)的分類方法﹒

設(shè)是個數(shù)據(jù)樣本的集合,假定類標(biāo)號屬性具有個不同值,定義個不同類C(=1,…,),又設(shè)S是類C中的樣本數(shù),樣本分類期望信息為

P是任意樣本屬于類C的概率,用S/估計﹒設(shè)屬性A具有個不同值{1,…,a},屬性A將樣本劃分為個子集{1,…,S},S是子集S中類C的樣本數(shù)﹒根據(jù)A劃分子集的熵由式(2)和式(3)給出﹒

然后計算每個屬性的信息增益,在屬性A上的信息增益為Gain(A)=(S,…,S)-(A),以具有最高信息增益值的屬性作為劃分屬性,并為每個值創(chuàng)建分支且迭代劃分樣本﹒

2 貝葉斯定義及算法理論

2.1 貝葉斯定義

貝葉斯分類方法是另外一種著名的分類算法,它主要是根據(jù)后驗概率來預(yù)測數(shù)據(jù)所屬的最有可能的分類﹒

2.2 樸素貝葉斯概念

貝葉斯分類算法有多種,其中比較著名的是樸素貝葉斯分類,它假定每個屬性值對分類的影響是相互獨立的﹒

2.3 貝葉斯算法[3-5]

假設(shè)A1,A2,…,A是數(shù)據(jù)集的個屬性,CC,…,C是數(shù)據(jù)集的個分類,={1,2,…,x}是一個具體的樣本對象,這個樣本對象屬于類C的概率可以利用貝葉斯公式(見式(4))計算出來﹒

當(dāng)(C|)大于(C|)時,認(rèn)為該樣本對象屬于類C,因此需要求出最大的(C|)值,而對于所有分類,樣本的概率()可以視為常數(shù)﹒因此只需(|C)(C)最大,如果類的先驗概率未知,則通常假定(1)=(2)=…=(C),否則按(C)=S/計算,其中S是屬于類C中的訓(xùn)練樣本數(shù),是訓(xùn)練樣本總數(shù),且假定各屬性之間是相互條件獨立的,則可得

對于每個類C,只需求出最大的(|C)(C)值,則樣本屬于該類﹒

3 算法應(yīng)用

3.1 學(xué)生專業(yè)錄取數(shù)據(jù)說明

我校的招生錄取數(shù)據(jù),共15 734條數(shù)據(jù),原始數(shù)據(jù)分散在4張EXCEL表中,包含2013年、2014年、2015年、2016年的新生錄取情況,由考生號ksh、學(xué)生姓名xm、性別xb、錄取專業(yè)lqzy、高考分?jǐn)?shù)grade、投檔線pass grade及省份sf構(gòu)成﹒部分錄取原始數(shù)據(jù)樣本見表1﹒

表1 學(xué)生專業(yè)錄取原始數(shù)據(jù)

對這15 000多條數(shù)據(jù)進行處理,把4張EXCEL表導(dǎo)入到SQL Server中的表kaoshengdata中,并增加id字段,增加錄取年份start year屬性字段,增加考生分?jǐn)?shù)與投檔線分?jǐn)?shù)差differ score字段﹒通過T-SQL編程,編寫觸發(fā)器等方法對數(shù)據(jù)進行處理,處理之后的部分源數(shù)據(jù)見表2﹒

3.2 決策樹算法應(yīng)用

在學(xué)校里,男女性別人數(shù)差異的問題可能會造成很多其他的問題,如宿舍分配、洗澡堂、衛(wèi)生間等與性別相關(guān)的公共設(shè)施都將產(chǎn)生影響﹒采用決策樹算法對每個專業(yè)學(xué)生性別的情況進行預(yù)測,學(xué)生的性別取值只有男和女兩個值﹒因此可看做0和1的分類問題﹒在該考生的錄取數(shù)據(jù)中,與學(xué)生的性別相關(guān)的屬性主要是專業(yè),專業(yè)本身的屬性將會對學(xué)生所屬學(xué)科及興趣愛好有一定影響,而學(xué)生的分?jǐn)?shù)、學(xué)生的考生號、投檔線、考生所來自的省份都與性別無關(guān)聯(lián)﹒因此對該數(shù)據(jù)建立決策樹模型﹒根據(jù)樣本集建立分類模型,再對測試數(shù)據(jù)進行預(yù)測其所屬的性別標(biāo)號﹒

表2 學(xué)生專業(yè)錄取處理后的數(shù)據(jù)

在ASP.NET所編寫的客戶端應(yīng)用程序中,根據(jù)所選擇的專業(yè),可以分析出該學(xué)生可能的性別及相應(yīng)的概率﹒圖1挖掘結(jié)果顯示我校經(jīng)濟統(tǒng)計學(xué)專業(yè)的學(xué)生大部分是女生,是女生的概率為67.9%﹒對該預(yù)測結(jié)果進行驗證,經(jīng)濟統(tǒng)計學(xué)專業(yè)錄取的女生有30人,而該專業(yè)的總?cè)藬?shù)為50人,女生占比為34/50(0.68),預(yù)測值與實際值相差約為0.01;同樣地對城鄉(xiāng)規(guī)劃專業(yè)進行預(yù)測,為女生的概率為51.2%,該專業(yè)總?cè)藬?shù)為281人,女生為144人,占比為51.2%﹒可見采用決策樹預(yù)測算法對性別的預(yù)測準(zhǔn)確率非常高﹒

圖1 決策樹數(shù)據(jù)挖掘結(jié)果

該預(yù)測涉及到的DMX語句如下:

select kaoshengdata.xb,predictprobability(xb) as [probability] from kaoshengdata natural prediction join (select '" + profession + "' as lqzy)as t

其中profession是要預(yù)測考生所屬的專業(yè)﹒

ASP.NET中的C#語言通過連接字符串"Provider=MSOLAP.3;Integrated Security=SSPI;Persist Security Info=True;Initial Catalog=kaosheng;Data Source=."與SSAS建立連接,并顯示出預(yù)測結(jié)果﹒

利用決策樹算法預(yù)測專業(yè)的性別結(jié)果數(shù)據(jù)見表3(由于篇幅原因只給出一部分專業(yè)數(shù)據(jù))﹒表3給出了每個專業(yè)學(xué)生性別的預(yù)測和實際結(jié)果,還給出了預(yù)測結(jié)果與實際結(jié)果的誤差率,并得出其誤差率在0.01以內(nèi),預(yù)測結(jié)果準(zhǔn)確率非常高﹒

表3 決策樹算法性別預(yù)測結(jié)果

3.3 貝葉斯算法應(yīng)用

預(yù)測專業(yè)招生學(xué)生中最可能來自的省份,據(jù)此可制定相應(yīng)高校招生策略,增加或減少該專業(yè)在該省的招生人數(shù),如果在該專業(yè)中沒有或很少的學(xué)生屬于該省,那么可以減少在該省招生人數(shù),否則增加招生人數(shù)﹒根據(jù)考生的屬性專業(yè)、年份、分?jǐn)?shù),對考生所來自的省份進行預(yù)測﹒由于各屬性之間對類別所屬省份的影響是相互獨立的,因此對考生數(shù)據(jù)建立樸素貝葉斯分類模型,并對測試數(shù)據(jù)進行預(yù)測﹒建立的貝葉斯模型見圖2﹒

圖2 貝葉斯模型

根據(jù)輸入學(xué)生專業(yè)、錄取年份及高考分?jǐn)?shù)預(yù)測該專業(yè)錄取的學(xué)生來自的省份及可能的概率﹒

該預(yù)測涉及到的DMX語句如下:

select kaoshengdata2.sf,predictprobability(sf) as [probability] from kaoshengdata2 natural prediction join (select '"+profession +"' as lqzy,'"+startyear1 +"' as startyear,'"+grade1 +"' as grade)as t

其中profession為學(xué)生的錄取專業(yè),變量startyear1為考生的錄取年份,變量grade1為考生的高考成績,預(yù)測結(jié)果見圖3﹒2016年城鄉(xiāng)規(guī)劃專業(yè)的學(xué)生,最可能來自的省份為湖南省,其概率為55.3%﹒而在原始數(shù)據(jù)中城鄉(xiāng)規(guī)劃專業(yè)在2016年總共招收了81人,其中湖南的學(xué)生有54人;同年電子科學(xué)與技術(shù)專業(yè)總共招收了74人,來自湖南的58人,與預(yù)測的84%的電子科學(xué)與技術(shù)專業(yè)的學(xué)生來自湖南情況相吻合﹒

利用貝葉斯算法預(yù)測每個專業(yè)每年所來自的省份結(jié)果數(shù)據(jù)見表4(因篇幅原因只給出2016年部分專業(yè)生源數(shù)據(jù))﹒表4給出了部分專業(yè)學(xué)生所來自省份的預(yù)測結(jié)果和實際結(jié)果,并得出其預(yù)測誤差率在0.2以內(nèi),具有比較高的準(zhǔn)確率﹒

圖3 貝葉斯數(shù)據(jù)挖掘結(jié)果

表4 貝葉斯算法生源預(yù)測結(jié)果

4 總結(jié)

本文研究了決策樹分類和貝葉斯分類的相關(guān)理論,包括其定義、相關(guān)概念及算法,用SQL Server2014為湖南城市學(xué)院學(xué)生專業(yè)錄取數(shù)據(jù)建立模型并進行挖掘分析,采用DMX語句獲取挖掘結(jié)果,為學(xué)校專業(yè)招生制定相應(yīng)決策提供了數(shù)據(jù)支持,通過C#語言并采用ADOMD.NET對挖掘結(jié)果進行訪問,最終把預(yù)測的結(jié)果顯示在網(wǎng)頁中﹒本文采用決策樹分類算法對所錄取的學(xué)生進行性別預(yù)測,預(yù)測值與實際結(jié)果的誤差率大小在0.01以內(nèi);采用貝葉斯算法對所錄取的學(xué)生可能來自的省份進行預(yù)測,預(yù)測值與實際結(jié)果的誤差率大小在0.2以內(nèi)﹒兩者都具有較高的準(zhǔn)確率﹒

[1]HAN J W, KAMBER M, PEI J, 等. 數(shù)據(jù)挖掘概念與技術(shù)[M]. 北京: 機械工業(yè)出版社, 2012.

[2]程斐斐, 王子牛, 侯立鐸. 決策樹算法在Weka平臺上的數(shù)據(jù)挖掘應(yīng)用[J]. 微型電腦應(yīng)用, 2015, 31(6): 63-65.

[3]張輪, 楊文臣, 劉拓, 等. 基于樸素貝葉斯分類的高速公路交通事件檢測[J]. 同濟大學(xué)學(xué)報: 自然科學(xué)版, 2014, 42(4): 558-563.

[4]楊雷, 曹翠玲, 孫建國, 等. 改進的樸素貝葉斯算法在垃圾郵件過濾中的研究[J]. 通信學(xué)報, 2017, 38(4): 140-148.

[5]呂昊, 林君, 曾曉獻(xiàn). 改進樸素貝葉斯分類算法的研究與應(yīng)用[J]. 湖南大學(xué)學(xué)報: 自然科學(xué)版, 2012, 39(12): 56-61.

(責(zé)任編校:龔倫峰)

Application of Decision Tree and Bayes Classification Algorithm in Student Enrollment Data

HUANG Xuehua

(School of Information and Electronic Engineer, Hunan City University, Yiyang, Hunan 413000, China)

Classification algorithm is one of the most important mining theories in data mining. It is widely used in weather forecasting, anti spam, disease diagnosis and other applications. The theory and algorithm of the most widely used decision tree and Bayes are introduced, and applied to student enrollment data of Hunan City University combining with SQL server and ASP.NET to get gender prediction for each major and predict the province students are from. Compare the predicted results with the actual results, it is found that the error rates are within 0.01 and 0.2 respectively.

classification; decision tree; naive Bayes; ASP.NET; SQL Server2014; student enrollment

TP301.6

A

10.3969/j.issn.1672-7304.2017.04.0014

1672–7304(2017)04–0064–04

2017-06-25

黃雪華(1983- ),女,湖南郴州人,講師,碩士,主要從事數(shù)據(jù)庫、數(shù)據(jù)挖掘研究﹒E-mail: 107531852@qq.com

猜你喜歡
分類學(xué)生
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
快把我哥帶走
分類討論求坐標(biāo)
《李學(xué)生》定檔8月28日
電影(2018年9期)2018-11-14 06:57:21
趕不走的學(xué)生
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
學(xué)生寫話
學(xué)生寫的話
主站蜘蛛池模板: 欧美a在线看| 试看120秒男女啪啪免费| swag国产精品| 97成人在线视频| 国产99精品视频| 亚洲日韩久久综合中文字幕| 亚洲三级色| 色综合成人| 欧美亚洲国产精品久久蜜芽| 人妻精品久久无码区| 亚洲精品无码av中文字幕| 日韩中文无码av超清| 最新日本中文字幕| 91精品亚洲| 成人午夜视频在线| 全裸无码专区| 国产香蕉在线| a级毛片免费看| 亚洲乱强伦| 最新国产网站| 国产精品熟女亚洲AV麻豆| 亚洲最大福利网站| 国产一级二级在线观看| 色婷婷亚洲十月十月色天| 亚洲国产精品日韩av专区| 久久久久亚洲av成人网人人软件| 国产精品99久久久| 嫩草在线视频| 免费高清a毛片| 婷婷色一区二区三区| 国产精品大白天新婚身材| 毛片基地美国正在播放亚洲| 亚洲国产欧美国产综合久久| 国产亚洲欧美在线视频| 免费人成网站在线高清| 嫩草国产在线| 99视频精品全国免费品| 香港一级毛片免费看| 无码网站免费观看| 一级全黄毛片| 成年人久久黄色网站| 99久久精品久久久久久婷婷| 欧美a在线视频| 亚洲中文字幕久久无码精品A| 久久午夜影院| 亚洲开心婷婷中文字幕| 国产精品黄色片| 国产视频大全| 国产精品国产三级国产专业不| 亚洲国产成人在线| 制服丝袜 91视频| 国产欧美又粗又猛又爽老| 欧美笫一页| 国产成人一级| 亚洲综合一区国产精品| 日韩无码黄色| 亚洲中文久久精品无玛| 日韩欧美国产另类| 丁香六月激情婷婷| 亚洲欧洲国产成人综合不卡| 国产欧美精品一区二区| 全部免费毛片免费播放| 国内毛片视频| 波多野结衣一区二区三区AV| 国产成人综合欧美精品久久| 欧美日韩国产在线观看一区二区三区| 午夜视频免费一区二区在线看| 国产精品亚欧美一区二区 | 怡春院欧美一区二区三区免费| 人人看人人鲁狠狠高清| 亚洲人在线| 欧美a在线| 亚洲第一黄色网址| 无码免费的亚洲视频| 午夜小视频在线| 久久午夜夜伦鲁鲁片不卡| 久久综合成人| 色妞www精品视频一级下载| 老司机精品久久| 久久婷婷六月| 免费啪啪网址| 在线不卡免费视频|