999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于決策樹算法的招生數據挖掘應用研究

2022-11-03 09:22:38朱莉萍
現代信息科技 2022年17期
關鍵詞:規則

朱莉萍

(成都文理學院,四川 成都 610000)

0 引 言

招生工作是各大院校的常規工作也是最重要的工作之一,對于民辦高職院校而言,招生工作更是關乎全校教職工的生計。報考率和報到率是招生人員最為關心的兩個因素,也是衡量一個學校招生管理水平和成效的重要依據。利用數據挖掘技術對招生錄取數據進行挖掘分析,提煉出影響報到率的重要因素,進行報到預測,將挖掘結果用于指導招生宣傳和服務,輔助招生管理決策。

文獻[1]中,作者利用決策樹算法對不同專業考生的性別進行預測,利用貝葉斯算法預測每個專業的生源省份,得到的預測結果和實際結果之間的誤差率較低;文獻[2]中,作者用CHAID 算法構建決策樹模型,挖掘出性別同專業、成績,生源地同專業等方面的潛在信息。

1 決策樹算法

決策樹是一種使用非常廣泛的分類技術。在分類的過程中,用一棵倒置的樹從根節點開始由上到下逐漸構建決策的分支。常見的決策樹算法有ID3、CHAID、CART、C4.5 等。為了確保在決策樹的構建過程中每一個決策分支之間的差異最大,ID3 算法將信息增益作為確定劃分的標準,而C4.5算法將信息增益率作為確定劃分的標準。C4.5 算法是在ID3算法的基礎上改進而來的,不僅可以處理離散型數據,也能處理連續性數據,因此本文考慮利用C4.5 算法對招生數據進行挖掘。下面介紹幾個概念和公式:

(1)信息熵:表示信息的不確定性,公式定義如下:

(2)屬性分裂后信息熵

假設屬性有個離散值,數據集合中的元組被劃分為個子集合D,按照屬性分裂后的信息熵定義為:

(3)信息增益

(4)信息增益率

2 數據挖掘準備

2.1 招生數據

本文將某民辦高職院校近三年的招生錄取數據作為研究對象。招生錄取源數據從招辦系統導出,屬性很多,包含考生號、準考證號、考生姓名、性別、出生年月、民族代碼、政治面貌代碼、考生科類代碼、畢業類別代碼、中學代碼、身份證號、家庭地址、郵政編碼、專業志愿、提檔成績、錄取成績等幾十個字段。

2.2 數據預處理

在數據預處理階段采用何種方法和技術需要在充分理解招生業務特點、招生數據挖掘目標和對源數據本身的理解的基礎上進行選擇。

2.2.1 數據集成

由于高職院校有單獨招生考試和普通招生考試兩種考試錄取制度,且每年數據單獨存放,因此需要將三年的錄取數據合并,增加“錄取方式”字段,填入“單招”和“統招”屬性值。

2.2.2 數據清理

招生數據中的大部分字段對挖掘任務沒有意義,將準考證號、出生年月、聯系電話等字段刪除?!笆欠駡蟮健弊侄问窃谛律鷪蟮狡陂g手動填寫的信息,有幾條空值,去除少數缺失數據,同時將保留學籍的數據處理為“是”,將退學的數據處理為“否”。將專業志愿中簡寫的專業名稱更改為規范名稱。

2.2.3 數據轉換

根據招生經驗,生源地對考生報到有一定影響,但生源地的類別較多,故按照東西南北方向將生源地進行泛化,轉換成川東、川南等6 個地區。

同樣,對眾多的專業根據學校院系劃分進行泛化,轉換為財稅金融、公共管理、建筑設計等10 個專業群。

另外,成績是連續的數據,且單獨招生考試和普通招生考試的單科分值等存在較大差異,因此先將考分進行標準化,再進行離散化,最終將成績轉換為A(優良)、B(中等)、C(較差)三個等級。

2.2.4 預處理結果

對招生數據進行預處理之后的數據效果如圖1所示。

圖1 預處理后的數據集

3 建立決策樹

根據C4.5 算法中的公式(1)~(4),下文計算招生數據中各個屬性的信息量、信息增益、信息增益率等。

3.1 計算測試屬性信息量

招生數據集共計15 526 條,按測試屬性“是否報到”分為T 和F 兩類,T=13 125,F=2 401,得到測試屬性的信息量為:

3.2 計算各個屬性的信息量

分別計算性別、考生類別、成績、錄取方式、生源地、考生科類、專業志愿7 個屬性的信息量如下:

(1)“性別”屬性各節點是否報到的數據為男[7 079,1 289],女[6 046,1 112]

(2)“考生類別”屬性各節點是否報到的數據為農村[10 011,1 936],城鎮[3 114,465]

(3)“成績”屬性各節點是否報到的數據為A[2 056,267],B[9 211,1 633],C[1 858,501],同理可得:

Info(A)=0.514 6

Info(B)=0.611 3

Info(C)=0.746

(4)“錄取方式”屬性各節點是否報到的數據為單招[9 831,1 430],統招[3 294,971]

Info(單招)=0.549 1

Info(統招)=0.773 9

(5)“生源地”屬性各節點是否報到的數據為川東[3 254,642],川南[2 705,523],川西[1 770,308],川北[1 737,298],川東北[2 969,477],三州[690,153]

Info(川東)=0.645 6

Info(川南)=0.639 1

Info(川西)=0.605 4

Info(川北)=0.600 9

Info(川東北)=0.580 1

Info(三州)=0.638 8

(6)“考生科類”屬性各節點是否報到的數據為對口高職[5 650,1 340],理工[2 417,333],文史[4 905,670],藝體[153,58]:

Info(對口高職)=0.705

Info(理工)=0.532 5

Info(文史)=0.529 9

Info(藝體)=0.848 4

(7)“專業志愿”屬性各節點是否報到的數據為財稅金融[1 028,171],公共管理[1 476,252],健康[2 660,591],建筑設計[1 382,202],教育管理[1 248,211],汽修[821,189],數媒[1 266,227],通信[878,168],物流電商[663,124],信息技術[1 703,266]:

Info(財稅金融)=0.591 1

Info(公共管理)=0.599 3

Info(健康)=0.684

Info(建筑設計)=0.550 6

Info(教育管理)=0.596 2

Info(汽修)=0.695 4

Info(數媒)=0.614 9

Info(通信)=0.635 8

Info(物流電商)=0.628 4

Info(信息技術)=0.571 2

3.3 計算各個屬性的信息熵

各個屬性的信息熵計算結果為:

同理:

Info(考生類別)=0.620 3

Info(成績)=0.617 3

Info(錄取方式)=0.610 9

Info(生源地)=0.620 5

Info(考生產類)=0.613 5

Info(專業志愿)=0.619 3

3.4 計算各個屬性分裂后的信息量

各個屬性分裂后的信息量為:

同理:

SInfo(考生類別)=0.778 9

SInfo(成績)=1.184 7

SInfo(錄取方式)=0.848 1

SInfo(生源地)=2.454 4

SInfo(考生科類)=1.575 5

SInfo(專業志愿)=3.206 2

3.5 計算各個屬性的信息增益率

同理:

GainR(考生類別)=0.001 3

GainR(成績)=0.003 4

GainR(錄取方式)=0.012 3

GainR(生源地)=0.000 3

GainR(考生科類)=0.005

GainR(專業志愿)=0.000 6

3.6 比較各屬性信息增益率

根據第(5)步的結果可知“錄取方式”字段信息增益率最大,故將其作為根節點,然后分別在單招和統招兩種情況下繼續計算其他屬性值的信息熵和信息增益率,將信息增益率相對最高的屬性作為下一級分支節點,不斷重復以上幾個步驟,完成各個分支的劃分,并最終得到是否報到的完整決策樹。由于生成的完整的決策樹較大不便展示,圖2僅顯示了其中較小一部分。

圖2 決策樹局部

4 生成規則

決策樹每一條分支的路徑就是一條規則,由決策樹生成的部分規則表示如下:

(1)規則用于“是否報到”=“F”的5 個規則:

規則1:IF 性別 = 女 and 考生科類 = 對口高職類 and 提檔成績 = C and 錄取方式 = 統招and 專業 = 物流電商專業群and 考生類別 = 農村 Then F

規則 :IF 性別 = 女and 生源地 in [ "三州地區" "川北地區" "川西地區" ]

and 考生科類 = 對口高職類and 錄取方式 = 統招 and 專業 = 信息技術專業群Then F

規則3:IF 生源地 = 川南地區 and 提檔成績 = C and 錄取方式 = 統招

and 專業 = 財稅金融專業群 Then F

規則4:IF 性別 = 男and 考生科類 = 對口高職類and 錄取方式 = 統招

and 專業 = 物流電商專業群 Then F

規則5:IF 考生科類 in[“文史類””理工類”]and 生源地 = 川南地區and 錄取方式 = 統招and 專業 = 財稅專業群and 提檔成績 = C Then F

(2)規則用于“是否報到”=“T”的5 個規則:

規則1:IF 考生科類 in [ "文史類" "理工類" ]and 提檔成績 = A Then T

規則2:IF 考生科類 in [ "文史類" "理工類" ]and 專業 in [ “信息技術專業群” “健康專業群” “公共管理專業群” “建筑設計專業群” “教育管理專業群” “數媒專業群”“汽修專業群” “物流電商專業群” ]Then T

規則3:IF 考生科類 in[ “文史類” “理工類” ]and提檔成績 = Band 性別 = 男 Then T

規則4:IF 生源地 in [ “三州地區” “川東北地區”“川東地區” “川北地區” “川西地區” ]and 考生科類 in ["文史類" "理工類” ]Then T

規則5:IF 專業 = 通信專業群 and 錄取方式 = 單招Then T

5 結 論

根據決策樹規則,對招生數據挖掘模型進行測試,得到預測的準確率為85.91%,得到各因素影響報到的重要程度排序為:錄取方式、專業志愿、生源地、考生科類、考生類別、性別。

決策樹算法簡單,建立的樹型結構也容易讓不懂數據挖掘的招生人員看懂,對報到情況的預測準確率也滿足需求,挖掘結果對招生管理工作有一定的輔助作用,未來可以考慮集合更多數據,對決策樹算法進行改進,更好地應用于招生數據挖掘。

猜你喜歡
規則
拼寫規則歌
撐竿跳規則的制定
數獨的規則和演變
依據規則的推理
法律方法(2019年3期)2019-09-11 06:26:16
善用首次銷售規則
中國外匯(2019年7期)2019-07-13 05:44:52
規則的正確打開方式
幸福(2018年33期)2018-12-05 05:22:42
顛覆傳統規則
環球飛行(2018年7期)2018-06-27 07:26:14
讓規則不規則
Coco薇(2017年11期)2018-01-03 20:59:57
TPP反腐敗規則對我國的啟示
啦啦操2010—2013版與2013—2016版規則的對比分析
運動(2016年6期)2016-12-01 06:33:42
主站蜘蛛池模板: 午夜日韩久久影院| 中文字幕亚洲第一| 国产女人18毛片水真多1| 就去吻亚洲精品国产欧美| 国产区91| 波多野结衣第一页| 国产精品香蕉在线观看不卡| 婷婷综合缴情亚洲五月伊| 欧美三级不卡在线观看视频| 她的性爱视频| 国产成人区在线观看视频| 免费视频在线2021入口| 国产亚洲精品97AA片在线播放| 国产成人一区免费观看| 日本久久久久久免费网络| 性视频一区| 国模视频一区二区| 日韩欧美国产三级| 国产呦精品一区二区三区网站| 亚洲国模精品一区| 国产精品第一区在线观看| www.亚洲色图.com| 欧洲av毛片| 亚洲无码日韩一区| 无码一区二区三区视频在线播放| 精品一区二区无码av| 国产日韩AV高潮在线| 国产91无码福利在线| 成人年鲁鲁在线观看视频| 欧美成人国产| 538国产视频| 看国产一级毛片| 欧类av怡春院| 最新国产高清在线| 亚洲精品欧美日本中文字幕| 亚洲无线一二三四区男男| 丁香亚洲综合五月天婷婷| 67194在线午夜亚洲| 成人国产免费| 免费日韩在线视频| 超碰91免费人妻| 欧美高清国产| 日韩高清在线观看不卡一区二区| 国产最爽的乱婬视频国语对白| 美女无遮挡免费网站| 91精品人妻互换| 欧美天天干| 4虎影视国产在线观看精品| 亚洲天堂2014| 久久成人免费| 久久一色本道亚洲| 亚洲有码在线播放| 成人在线观看不卡| 久久99国产综合精品1| 永久免费av网站可以直接看的| 伊人久久精品亚洲午夜| 国产18在线| 在线观看无码a∨| 东京热一区二区三区无码视频| 国产三级毛片| 另类重口100页在线播放| 国产精品污污在线观看网站| 亚洲第一香蕉视频| 国产xx在线观看| 日本人妻丰满熟妇区| 亚洲中文在线看视频一区| 久久国产高潮流白浆免费观看| 夜夜操狠狠操| 毛片卡一卡二| 91视频首页| 在线国产资源| 精品一区二区三区自慰喷水| 九九免费观看全部免费视频| 99热这里只有精品国产99| 国产精品第一区在线观看| 热这里只有精品国产热门精品| 日韩a级片视频| 国产毛片网站| 色综合久久无码网| 国产成人综合久久| 午夜爽爽视频| 中文字幕在线日韩91|