999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于糊模ID3算法的高校學生流失數據挖掘研究

2014-04-29 00:44:03趙永暉
計算機時代 2014年3期
關鍵詞:數據挖掘

趙永暉

摘 要: 目前高校不斷擴招,生源卻逐漸減少,于是預防和減少學生流失正成為各高校必須面對的問題。通過對高校學生流失情況進行數據挖掘,可發現一些有價值的信息,為解決高校學生流失問題提供幫助。基于糊模理論提出了糊模ID3算法,并將該算法運用于分析高校學生流失原因之中。通過實驗證明,該算法生成的決策樹更加合理,分類速度更快,為解決高校學生流失問題提供了理論依據。

關鍵詞: 學生流失; 數據挖掘; 糊模ID3算法; 決策樹

中圖分類號:TP311.1 文獻標志碼:A 文章編號:1006-8228(2014)03-36-02

0 引言

我國高等教育歷經十多年的改革發展,各高校不斷擴大招生規模,學校也越來越多,而參加高考的人數近年來卻逐漸減少,所以生源競爭日趨激烈,生源質量也有所下降,同時,學生流失在當前各高校是一個十分普遍的現象,這些對高校的管理和教學是一個挑戰,而如何預防和減少學生的流失則成為各高校需要迫切解決的問題[1]。

高校在發展的同時,也積累了大量的學生個人信息數據。在這些海量的數據中隱藏著一些內在的聯系和規律,對分析研究高校學生流失的原因有很大的幫助。從海量數據中挖掘出有價值的信息,是預防和減少學生流失的一個重要手段。傳統的統計分析方法,只能獲取一些表面的信息,有很大的局限性,分析和預測的結果不夠理想。

目前,以ID3算法為代表的決策樹算法是數據挖掘中一種重要的方法,該算法是1986年由Quinlan提出的[2],但該算法對不精確、不確定信息的處理能力較弱。糊模ID3算法基于糊模理論提出對ID3算法的一種推廣,綜合了模糊理論和決策樹的優點,不僅具有很強的分類處理能力,而且能很好地處理模糊性和不確定性問題[3]。

1 模糊決策樹

1.1 ID3算法

決策樹的算法中最典型的是ID3學習算法,它采用分治策略,通過遞歸構造決策樹,在樹的結點上采用信息增益最大的屬性作為分枝屬性,具有容易理解、處理速度快等優點。

1.2 糊模ID3算法

模糊決策樹學習算法有很多,比較常見的是糊模ID3算法,它是模糊理論在ID3算法中的運用,主要用于處理模糊和不確定的信息。它也采用了分治策略,在構造模糊決策樹時,選取最小模糊信息熵作為節點屬性選擇標準。

設有經過模糊后的示例集合V={V1,V2,…,Vn},模糊特征屬性A={A1,A2,…,Am},模糊類屬性C={C1,C2,…,Cj},每個屬性Ai的屬性值K(Ai)={ai1,ai2,…,aiki}(i=1,2,…,m),隸屬度umn表示第m個示例Vm關于第n個屬性的值,它是K(Am)上的模糊子集。

對于數據集V的信息增益G(Ai,V)的計算公式如下:

公式⑴

其中,,j為分類個數,。

構建模糊決策樹過程如下:選取一個結點中的任一個屬性值Ai,根據公式⑴計算出每個屬性Ai對于數據集V的信息增益G(Ai,V),從所有屬性值中選取最大信息增益的屬性作為測試屬性,根據這個屬性進行模糊分割,得到其他節點,并依次判別是否葉子節點,重復以上的過程,直到每一個結點都是葉子為止。

葉子節點產生的條件:①測試屬性全部用完;②當前節點的模糊分割的隸屬度之和小于給定的閾值α;③當前節點中僅包含一類的示例。

2 利用模糊決策樹分析學生流失

各高校都有學生信息管理系統,積累了大量的學生考試成績數據和其他學生基本情況信息,這為數據挖掘提供了基礎條件。通過把糊模決策樹算法運用于學生信息數據庫中,利用數據挖掘技術,挖掘出有價值的信息,以供分析學生流失的原因。

2.1 數據模糊化處理

分析學生流失的原因,勢必要討論評測學生的各項指標,如學生專業課考試成績、大學英語、技能水平和性別等。其中專業課考試成績、大學英語是百分制數據,比較特殊,是離散型數據。

在以往的數據挖掘過程中,離散型數據劃分成若干個區間,得到一個符號類屬性,但在臨界處會突變,從而增加誤差。如規定大學英語成績在90到100之間為優,若甲學生的成績為90分,評價為優,而乙同學成績為89分,評價為良,其實兩個同學成績非常接近,英語水平相差無幾,現強行區分成兩個等級,很明顯增加了誤差。這是采用決策樹ID3算法的一個缺點,所以對于模糊數據,采用糊糊決策樹算法是比較科學。

本文的原始數據是我校2006級到2010級學生的成績和相關一些基本情況信息,主要包括學生的姓名、性別、身份證號、地址、民族、籍貫、各門功課的成績、技能成績等。收集數據后,把各門功課的成績求出平均值作為學生的專業課成績,抽取了一部分作為訓練集,同時根據分析學生流失原因的需要,去掉了學生的民族、籍貫和地址等一些與流失不太相關的屬性,并對數據進行了模糊化處理,處理后得到數據如表1所示。

表1 模糊處理后的訓練集(學生信息表)

[編號\&性別\&專業成績\&專業技能\&文理科\&是否流失\&男\&女\&優\&良\&中\&差\&強\&中\&弱\&文\&理\&是\&否\&1\&0\&0\&0.7\&0.2\&0.1\&0\&0.1\&0.6\&0.3\&0\&1\&0\&1\&2\&1\&0\&0.1\&0.7\&0.2\&0.1\&0.7\&0.1\&0.2\&1\&0\&0\&1\&3\&1\&0\&0.8\&0.1\&0.1\&0\&0.3\&0.6\&0.1\&1\&0\&0\&1\&4\&0\&1\&0.8\&0.1\&0\&0.1\&0.1\&0.2\&0.7\&0\&1\&0\&1\&5\&1\&0\&0.5\&0.2\&0.1\&0.2\&0.2\&0.3\&0.5\&0\&1\&1\&0\&6\&0\&1\&0.7\&0.2\&0.1\&0\&0.1\&0.3\&0.6\&0\&1\&0\&1\&7\&1\&1\&0.6\&0.2\&0.1\&0.1\&0.5\&0.3\&0.2\&0\&1\&0\&1\&8\&0\&1\&0.6\&0.2\&0.1\&0.1\&0.8\&0.1\&0.1\&1\&0\&0\&1\&9\&1\&0\&0.1\&0.2\&0.6\&0.1\&0.4\&0.1\&0.5\&0\&1\&1\&0\&……\&90\&1\&0\&0.8\&0.2\&0\&0\&1\&0\&0\&0\&1\&1\&0\&]

2.2 構造模糊決策樹

采用1.2節介紹的構建模糊決策樹過程構造模糊決策樹,閾值α=0.7。由于計算過程比較復雜,在這里不詳細敘述,僅給出糊模ID3算法生成的部分模糊決策樹,如圖1所示。

[D\&專業成績\&][D∩優\&0.89\&][D∩良\&專業技能\&][D∩中\&0.34\&][D∩差\&0.27\&] [優][良][中] [差][0.72\&][0.90\&][0.46\&] [強][中][弱]

圖1 部分模糊決策樹

2.3 決策推理

一個嚴格決策樹可以轉變成一個規則集合[4]。模糊決策樹與ID3決策樹一樣可以轉變成相應的模糊規則。從根節點開始,沿著決策樹的分支,通過屬性值向下搜索到葉節點,即為一個規則。輸入一個樣本,依次從根節點到葉節點的順序進行決策,由于模糊決策樹中的樣本可能同時被劃分到多個葉節點上,因此結果為[0 1]之間的隸屬度。

在本例中,根據模糊決策樹轉換得到的一組模糊規則挖掘到一些有價值的信息。

專業成績優秀學生流失可能性小,這是因為專業成績優秀的學生學習興趣高,自信心足,學習目標明確。專業技能強但專業成績良的學生也不太會流失,主要原因是這類學生動手能力強,學習技能熱情高,就業前景好。專業成績中等,專業技能一般的學生流失與不流失概率差不多,因此這部分學生是最需要關注的,要及時指導他們的學習,培養其學習興趣,加強溝通,了解原因,防止學生流失。專業成績和技能都比較差的學生流失可能性最大,主要原因是對專業不感興趣,學習動力不足,基礎較差等。

2.4 實驗結果比較與分析

為了驗證本文提出的模糊決策樹算法的有效性,針對表1中模糊處理后的高校學生流失數據信息,分別采有ID3算法和糊模ID3算法進行了分析,結果如表2所示。其實驗環境如下:Intel Core(TM2) Duo CPU 1.83GHz,2G內存,Windows Vista,Matlab7.0[5]。

表2 實驗結果

[算法名稱\&訓練精度\&測試精度\&運行時間/s\&ID3算法\&0.86%\&0.72\&9.7\&糊模ID3算法\&0.84%\&0.79\&7.6\&]

實驗結果表明,在測試精度和運行時間兩個方面糊模ID3算法比ID3算法更優。由于ID3算法與訓練數據過度適應,ID3算法比糊模ID3算法的訓練精度更高。在各種現象中,往往存在著許多事物,不能簡單劃分到某一個區間,存在著不確定性,而糊模ID3算法能很好地體現不確性。ID3算法由于生成規則是明確的,沒有反映出不確定性,所以糊模ID3算法具有較強的分類能力及穩健性,規則以一定的隸屬度表示,知識的表示更為自然,更加容易理解。

3 結束語

為了解決ID3算法對不精確、不確定信息的處理能力較弱的問題,基于糊模理論提出了糊模ID3算法,并將算法應用于高校學生流失原因分析和預測,并利用我校的學生信息數據進行了實驗。實驗結果表明,糊模ID3算法用于高校學生流失原因分析中,生成的決策樹更加合理,精度和速度更優,知識的表示更為自然,更容易理解。這些優勢能很好地為高校管理提供準確的學生流失信息,為預防和減少學生流失提供了強而有力的理論依據。

參考文獻:

[1] 楊清波.高校學生流失問題分析及對策[J].科學咨詢(科技·管理),

2012.10:12-13

[2] Quinkm J R.Induction of decision tree[J]. Machine Learning,

1986.1(1):81-106

[3] 楊斷利,張銳,王文顯.基于模糊決策樹的高校就業數據挖掘研究[J].

河北農業大學學報,2012.35(2):111-113

[4] 張朝杰.一種基于模糊決策樹的軟件工作量估算方法[D].國防科學技

術大學,2010:21-22

[5] 張化光,劉鑫蕊,孫秋野.MATLIB/SIMULINK實用教程[M].人民郵電

出版社,2009.

猜你喜歡
數據挖掘
基于數據挖掘的船舶通信網絡流量異常識別方法
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘在高校圖書館中的應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發實踐
主站蜘蛛池模板: 亚洲精品欧美重口| 国产欧美日韩资源在线观看| 91精品最新国内在线播放| 3344在线观看无码| 亚洲高清中文字幕| 欧美.成人.综合在线| 国产亚洲视频中文字幕视频| 久久久久久久久久国产精品| 日本久久久久久免费网络| 精品国产成人av免费| 尤物精品视频一区二区三区| 国产精品一区在线观看你懂的| 国产aaaaa一级毛片| 亚洲AV无码不卡无码| 99免费视频观看| 中文字幕在线一区二区在线| 自慰高潮喷白浆在线观看| 青青青草国产| 亚洲aaa视频| 亚洲视频免费在线看| 久久久久青草大香线综合精品 | A级毛片高清免费视频就| 欧美在线黄| 免费无遮挡AV| 国产嫩草在线观看| 香蕉蕉亚亚洲aav综合| 中文无码伦av中文字幕| 久久久久88色偷偷| 欧美日韩国产在线人| 亚洲综合狠狠| 毛片久久网站小视频| 国内精自线i品一区202| 久久精品电影| 嫩草在线视频| 亚洲第一黄片大全| 国产精品.com| 白丝美女办公室高潮喷水视频| 亚洲综合久久成人AV| 亚洲V日韩V无码一区二区 | 玖玖精品视频在线观看| 青青草原国产免费av观看| 国产91蝌蚪窝| 狠狠亚洲婷婷综合色香| 狠狠色狠狠综合久久| 一区二区三区在线不卡免费 | 日韩欧美色综合| 亚洲欧美自拍视频| 国产精品永久不卡免费视频| 亚洲二区视频| 久久国产亚洲偷自| 国产成人高清精品免费5388| 色综合五月婷婷| Jizz国产色系免费| 午夜无码一区二区三区| 又黄又湿又爽的视频| 一级毛片免费的| 日韩在线第三页| 日韩在线2020专区| 色悠久久久久久久综合网伊人| 亚洲精品大秀视频| 亚洲天堂久久| 午夜国产精品视频| 国产aaaaa一级毛片| 日本五区在线不卡精品| JIZZ亚洲国产| 老司机精品一区在线视频| 91福利片| 三级毛片在线播放| 在线观看国产精品第一区免费| 亚洲综合欧美在线一区在线播放| 久久国产免费观看| 久久久噜噜噜久久中文字幕色伊伊| 无码人中文字幕| 国产噜噜噜视频在线观看| 一级毛片a女人刺激视频免费| 日本不卡在线视频| 国产素人在线| 国产一级特黄aa级特黄裸毛片| 国产欧美日韩另类精彩视频| 99精品免费在线| 就去色综合| 国产拍揄自揄精品视频网站|