999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于糊模ID3算法的高校學生流失數據挖掘研究

2014-04-29 00:44:03趙永暉
計算機時代 2014年3期
關鍵詞:數據挖掘

趙永暉

摘 要: 目前高校不斷擴招,生源卻逐漸減少,于是預防和減少學生流失正成為各高校必須面對的問題。通過對高校學生流失情況進行數據挖掘,可發現一些有價值的信息,為解決高校學生流失問題提供幫助。基于糊模理論提出了糊模ID3算法,并將該算法運用于分析高校學生流失原因之中。通過實驗證明,該算法生成的決策樹更加合理,分類速度更快,為解決高校學生流失問題提供了理論依據。

關鍵詞: 學生流失; 數據挖掘; 糊模ID3算法; 決策樹

中圖分類號:TP311.1 文獻標志碼:A 文章編號:1006-8228(2014)03-36-02

0 引言

我國高等教育歷經十多年的改革發展,各高校不斷擴大招生規模,學校也越來越多,而參加高考的人數近年來卻逐漸減少,所以生源競爭日趨激烈,生源質量也有所下降,同時,學生流失在當前各高校是一個十分普遍的現象,這些對高校的管理和教學是一個挑戰,而如何預防和減少學生的流失則成為各高校需要迫切解決的問題[1]。

高校在發展的同時,也積累了大量的學生個人信息數據。在這些海量的數據中隱藏著一些內在的聯系和規律,對分析研究高校學生流失的原因有很大的幫助。從海量數據中挖掘出有價值的信息,是預防和減少學生流失的一個重要手段。傳統的統計分析方法,只能獲取一些表面的信息,有很大的局限性,分析和預測的結果不夠理想。

目前,以ID3算法為代表的決策樹算法是數據挖掘中一種重要的方法,該算法是1986年由Quinlan提出的[2],但該算法對不精確、不確定信息的處理能力較弱。糊模ID3算法基于糊模理論提出對ID3算法的一種推廣,綜合了模糊理論和決策樹的優點,不僅具有很強的分類處理能力,而且能很好地處理模糊性和不確定性問題[3]。

1 模糊決策樹

1.1 ID3算法

決策樹的算法中最典型的是ID3學習算法,它采用分治策略,通過遞歸構造決策樹,在樹的結點上采用信息增益最大的屬性作為分枝屬性,具有容易理解、處理速度快等優點。

1.2 糊模ID3算法

模糊決策樹學習算法有很多,比較常見的是糊模ID3算法,它是模糊理論在ID3算法中的運用,主要用于處理模糊和不確定的信息。它也采用了分治策略,在構造模糊決策樹時,選取最小模糊信息熵作為節點屬性選擇標準。

設有經過模糊后的示例集合V={V1,V2,…,Vn},模糊特征屬性A={A1,A2,…,Am},模糊類屬性C={C1,C2,…,Cj},每個屬性Ai的屬性值K(Ai)={ai1,ai2,…,aiki}(i=1,2,…,m),隸屬度umn表示第m個示例Vm關于第n個屬性的值,它是K(Am)上的模糊子集。

對于數據集V的信息增益G(Ai,V)的計算公式如下:

公式⑴

其中,,j為分類個數,。

構建模糊決策樹過程如下:選取一個結點中的任一個屬性值Ai,根據公式⑴計算出每個屬性Ai對于數據集V的信息增益G(Ai,V),從所有屬性值中選取最大信息增益的屬性作為測試屬性,根據這個屬性進行模糊分割,得到其他節點,并依次判別是否葉子節點,重復以上的過程,直到每一個結點都是葉子為止。

葉子節點產生的條件:①測試屬性全部用完;②當前節點的模糊分割的隸屬度之和小于給定的閾值α;③當前節點中僅包含一類的示例。

2 利用模糊決策樹分析學生流失

各高校都有學生信息管理系統,積累了大量的學生考試成績數據和其他學生基本情況信息,這為數據挖掘提供了基礎條件。通過把糊模決策樹算法運用于學生信息數據庫中,利用數據挖掘技術,挖掘出有價值的信息,以供分析學生流失的原因。

2.1 數據模糊化處理

分析學生流失的原因,勢必要討論評測學生的各項指標,如學生專業課考試成績、大學英語、技能水平和性別等。其中專業課考試成績、大學英語是百分制數據,比較特殊,是離散型數據。

在以往的數據挖掘過程中,離散型數據劃分成若干個區間,得到一個符號類屬性,但在臨界處會突變,從而增加誤差。如規定大學英語成績在90到100之間為優,若甲學生的成績為90分,評價為優,而乙同學成績為89分,評價為良,其實兩個同學成績非常接近,英語水平相差無幾,現強行區分成兩個等級,很明顯增加了誤差。這是采用決策樹ID3算法的一個缺點,所以對于模糊數據,采用糊糊決策樹算法是比較科學。

本文的原始數據是我校2006級到2010級學生的成績和相關一些基本情況信息,主要包括學生的姓名、性別、身份證號、地址、民族、籍貫、各門功課的成績、技能成績等。收集數據后,把各門功課的成績求出平均值作為學生的專業課成績,抽取了一部分作為訓練集,同時根據分析學生流失原因的需要,去掉了學生的民族、籍貫和地址等一些與流失不太相關的屬性,并對數據進行了模糊化處理,處理后得到數據如表1所示。

表1 模糊處理后的訓練集(學生信息表)

[編號\&性別\&專業成績\&專業技能\&文理科\&是否流失\&男\&女\&優\&良\&中\&差\&強\&中\&弱\&文\&理\&是\&否\&1\&0\&0\&0.7\&0.2\&0.1\&0\&0.1\&0.6\&0.3\&0\&1\&0\&1\&2\&1\&0\&0.1\&0.7\&0.2\&0.1\&0.7\&0.1\&0.2\&1\&0\&0\&1\&3\&1\&0\&0.8\&0.1\&0.1\&0\&0.3\&0.6\&0.1\&1\&0\&0\&1\&4\&0\&1\&0.8\&0.1\&0\&0.1\&0.1\&0.2\&0.7\&0\&1\&0\&1\&5\&1\&0\&0.5\&0.2\&0.1\&0.2\&0.2\&0.3\&0.5\&0\&1\&1\&0\&6\&0\&1\&0.7\&0.2\&0.1\&0\&0.1\&0.3\&0.6\&0\&1\&0\&1\&7\&1\&1\&0.6\&0.2\&0.1\&0.1\&0.5\&0.3\&0.2\&0\&1\&0\&1\&8\&0\&1\&0.6\&0.2\&0.1\&0.1\&0.8\&0.1\&0.1\&1\&0\&0\&1\&9\&1\&0\&0.1\&0.2\&0.6\&0.1\&0.4\&0.1\&0.5\&0\&1\&1\&0\&……\&90\&1\&0\&0.8\&0.2\&0\&0\&1\&0\&0\&0\&1\&1\&0\&]

2.2 構造模糊決策樹

采用1.2節介紹的構建模糊決策樹過程構造模糊決策樹,閾值α=0.7。由于計算過程比較復雜,在這里不詳細敘述,僅給出糊模ID3算法生成的部分模糊決策樹,如圖1所示。

[D\&專業成績\&][D∩優\&0.89\&][D∩良\&專業技能\&][D∩中\&0.34\&][D∩差\&0.27\&] [優][良][中] [差][0.72\&][0.90\&][0.46\&] [強][中][弱]

圖1 部分模糊決策樹

2.3 決策推理

一個嚴格決策樹可以轉變成一個規則集合[4]。模糊決策樹與ID3決策樹一樣可以轉變成相應的模糊規則。從根節點開始,沿著決策樹的分支,通過屬性值向下搜索到葉節點,即為一個規則。輸入一個樣本,依次從根節點到葉節點的順序進行決策,由于模糊決策樹中的樣本可能同時被劃分到多個葉節點上,因此結果為[0 1]之間的隸屬度。

在本例中,根據模糊決策樹轉換得到的一組模糊規則挖掘到一些有價值的信息。

專業成績優秀學生流失可能性小,這是因為專業成績優秀的學生學習興趣高,自信心足,學習目標明確。專業技能強但專業成績良的學生也不太會流失,主要原因是這類學生動手能力強,學習技能熱情高,就業前景好。專業成績中等,專業技能一般的學生流失與不流失概率差不多,因此這部分學生是最需要關注的,要及時指導他們的學習,培養其學習興趣,加強溝通,了解原因,防止學生流失。專業成績和技能都比較差的學生流失可能性最大,主要原因是對專業不感興趣,學習動力不足,基礎較差等。

2.4 實驗結果比較與分析

為了驗證本文提出的模糊決策樹算法的有效性,針對表1中模糊處理后的高校學生流失數據信息,分別采有ID3算法和糊模ID3算法進行了分析,結果如表2所示。其實驗環境如下:Intel Core(TM2) Duo CPU 1.83GHz,2G內存,Windows Vista,Matlab7.0[5]。

表2 實驗結果

[算法名稱\&訓練精度\&測試精度\&運行時間/s\&ID3算法\&0.86%\&0.72\&9.7\&糊模ID3算法\&0.84%\&0.79\&7.6\&]

實驗結果表明,在測試精度和運行時間兩個方面糊模ID3算法比ID3算法更優。由于ID3算法與訓練數據過度適應,ID3算法比糊模ID3算法的訓練精度更高。在各種現象中,往往存在著許多事物,不能簡單劃分到某一個區間,存在著不確定性,而糊模ID3算法能很好地體現不確性。ID3算法由于生成規則是明確的,沒有反映出不確定性,所以糊模ID3算法具有較強的分類能力及穩健性,規則以一定的隸屬度表示,知識的表示更為自然,更加容易理解。

3 結束語

為了解決ID3算法對不精確、不確定信息的處理能力較弱的問題,基于糊模理論提出了糊模ID3算法,并將算法應用于高校學生流失原因分析和預測,并利用我校的學生信息數據進行了實驗。實驗結果表明,糊模ID3算法用于高校學生流失原因分析中,生成的決策樹更加合理,精度和速度更優,知識的表示更為自然,更容易理解。這些優勢能很好地為高校管理提供準確的學生流失信息,為預防和減少學生流失提供了強而有力的理論依據。

參考文獻:

[1] 楊清波.高校學生流失問題分析及對策[J].科學咨詢(科技·管理),

2012.10:12-13

[2] Quinkm J R.Induction of decision tree[J]. Machine Learning,

1986.1(1):81-106

[3] 楊斷利,張銳,王文顯.基于模糊決策樹的高校就業數據挖掘研究[J].

河北農業大學學報,2012.35(2):111-113

[4] 張朝杰.一種基于模糊決策樹的軟件工作量估算方法[D].國防科學技

術大學,2010:21-22

[5] 張化光,劉鑫蕊,孫秋野.MATLIB/SIMULINK實用教程[M].人民郵電

出版社,2009.

猜你喜歡
數據挖掘
基于數據挖掘的船舶通信網絡流量異常識別方法
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘在高校圖書館中的應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發實踐
主站蜘蛛池模板: 欧美日韩国产精品va| 欧美午夜在线观看| 久视频免费精品6| 精品人妻无码区在线视频| 国产一级α片| 久久亚洲美女精品国产精品| 色香蕉影院| 国产91成人| 日韩a在线观看免费观看| 一级一级特黄女人精品毛片| 国产精品主播| 久久青草精品一区二区三区| 毛片在线区| 国内精品视频在线| 亚洲妓女综合网995久久| 乱码国产乱码精品精在线播放| 亚洲 日韩 激情 无码 中出| 小13箩利洗澡无码视频免费网站| 91无码网站| 精品国产网站| 欧洲成人免费视频| 国产美女免费| 99999久久久久久亚洲| 永久免费精品视频| 久久99久久无码毛片一区二区| 亚洲av无码久久无遮挡| 国产成人亚洲无码淙合青草| 国产精品视频猛进猛出| 欧美日本激情| 特级精品毛片免费观看| 免费一级大毛片a一观看不卡| 国产自在线拍| 日韩精品一区二区三区中文无码| 日韩国产综合精选| 久久国语对白| 欧美国产日韩在线| 亚洲成肉网| 亚洲国产av无码综合原创国产| 台湾AV国片精品女同性| 久久久成年黄色视频| 免费国产高清视频| 亚洲国产成人综合精品2020| 亚洲天堂在线免费| 在线精品亚洲国产| 亚洲日本精品一区二区| 香蕉国产精品视频| 真实国产乱子伦视频| 亚洲精品国产成人7777| 欧美日韩在线亚洲国产人| 国产91在线|中文| 欧美劲爆第一页| 91成人在线观看| 亚洲永久精品ww47国产| 欧美 亚洲 日韩 国产| 亚洲水蜜桃久久综合网站| 色爽网免费视频| 国产女人综合久久精品视| 97视频免费在线观看| 影音先锋亚洲无码| 国产日产欧美精品| 97色伦色在线综合视频| 狠狠操夜夜爽| 亚洲首页国产精品丝袜| 91网在线| 精品福利国产| 亚洲伊人电影| 五月婷婷中文字幕| 婷婷综合色| 免费播放毛片| 亚洲成人一区二区三区| 青青热久麻豆精品视频在线观看| 四虎AV麻豆| 97超碰精品成人国产| 国产成人精品视频一区二区电影 | 亚洲伊人天堂| 亚洲成人黄色网址| 日韩a级毛片| 国产亚洲视频播放9000| 在线精品视频成人网| 亚洲动漫h| 四虎精品黑人视频| 亚洲高清在线天堂精品|