999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

決策樹算法在高職學生學業目標評價中的應用研究

2023-10-02 11:41:50周璇
電腦知識與技術 2023年24期
關鍵詞:學生

周璇

(天津商務職業學院,天津 300350)

0 引言

數據挖掘技術是一門在大數據背景下基于統計學、計算機科學和人工智能等多個領域生成的交叉學科,它從海量數據中篩選出有應用價值和研究價值的信息數據,深層次地分析多維度的信息數據的特點,揭示不同類別信息數據之間的內在關聯,從而為決策者提供決策支持。數據挖掘技術包括關聯規則挖掘、K-Means 聚類分析、貝葉斯分類分析、人工神經網絡分析、決策樹分類分析等[1]。決策樹算法作為當前應用最廣的數據挖掘算法之一,能夠對數據進行分類和預測,其中C4.5 算法理論清晰、方法簡單、學習能力強,是數據挖掘和機器學習領域中一個有效的數據處理工具[2]。

本文通過使用C4.5 決策樹算法對影響高職學生學業目標評價的各項因素及內在關聯進行數據挖掘與深入分析,提取分類規則并聯系教學管理工作實際提出建議,以期為開展高職學生的學業指導工作提供決策基礎和數據參考。

1 決策樹算法

決策樹算法是一種典型的分類方法,是一種類似于流程圖的樹狀結構,其中心思想是IF-THEN 的規則,用于數值型因變量的預測和離散型因變量的分類[3]。通過構造決策樹,可以發現數據當中蘊涵著的分類規則,它能夠表示人們為了做出某種決策而進行的一系列判斷過程,生成一套“在什么條件下會得到什么結果”的規則。

決策樹算法簡單直觀、易解釋,在實際應用中有著其他算法難以比肩的速度優勢。一般情況下,一棵決策樹包含一個根節點、若干個決策節點和若干個葉節點[4]:整棵決策樹最頂端的節點被稱為根節點,包含樣本全集;每個決策節點表示一種特征或屬性,包含數據集中滿足從根節點到該節點所有條件的數據的集合;每個葉節點代表一種可能的分類結果,如果數據被包含在該葉節點中,則屬于該類別。在沿著決策樹由上至下的遍歷過程中,每個節點都會遇到一個測試,每個節點對于問題的不同測試結果將導致不同的分支[5],最后到達一個葉節點,從根節點到每個葉結點的路徑對應一個判定測試序列,表現出的是一種映射關系。

2 決策樹的構造

構造一棵高精度、小規模、泛化性能好,能夠高效、有效處理未知數據的決策樹,通常有兩個過程:第一個過程是通過預處理劃分好的數據集構建決策樹,即生成決策樹;第二個過程是對構建的決策樹進行檢驗和校正,即決策樹剪枝。

2.1 生成決策樹

將原始數據作為訓練樣本數據集,根據決策的實際需要對樣本數據進行預處理,選擇最能夠體現樣本特殊性的屬性作為決策屬性,并確定每個樣本的決策屬性取值;對訓練樣本數據集進行處理,選擇影響決策屬性是何取值的最主要屬性作為根節點,根據根節點屬性的不同取值,將完整的訓練樣本數據集劃分為幾個不同的數據子集;分別對每一個數據子集進行處理,在當前數據子集中選擇對決策屬性是何取值影響最大的屬性作為一個決策節點,繼續對當前數據子集進行劃分,當某個數據子集中所有樣本的決策屬性取值都相同時則停止,并將該數據子集的決策屬性作為一個葉節點;重復上述步驟,形成若干個決策節點和若干個葉節點,從而生成一棵完整的決策樹。

2.2 決策樹剪枝

隨著決策樹深度的增加,模型的準確度將會得到顯著提升,但對于新的未知數據,決策樹會出現過分適應數據的情況。而且,由于數據中存在著噪聲和孤立點,許多分支反映的是訓練數據中的異常,將導致對新樣本數據的預測不準確的情況。為防止構建的決策樹出現過度擬合,需要對決策樹進行剪枝。

決策樹的剪枝方法一般有預剪枝和后剪枝。預剪枝(Pres-Pruning)是指對劃分前后的兩棵樹的泛化性能進行評估,根據評估結果決定該節點是否進行劃分,事先指定決策樹生長的最大深度,使很多節點沒有提前展開,降低了過擬合的風險,也減少了訓練決策樹花費的時間。后剪枝(Post-Pruning)是在構造完成一棵完整的決策樹后,從上至下計算每個節點的經驗熵,遞歸地從決策樹的葉節點進行回縮,通過計算與比較回縮前后的損失函數來判斷是否進行剪枝。后剪枝可進行局部剪枝,通常比預剪枝方法保留了更多的分支。在一般情況下,后剪枝決策樹欠擬合的風險很小,泛化性能優于預剪枝決策樹,但訓練時間會比預剪枝方法長。

3 決策樹算法C4.5

3.1 算法思想

20 世紀80 年代初期,機器學習研究人員昆蘭開發了決策樹迭代二叉樹3 代(Iterative Dichotomiser3,ID3)算法,使決策樹在機器學習領域得到極大發展,他后來又提出ID3 的改進——C4.5 算法,成為新的監督學習算法的性能比較基準。C4.5算法在沿用ID3算法的信息熵和信息增益兩種概念的基礎上,又加入分裂信息熵的概念,使用信息增益率作為屬性選擇度量,選取具有最高信息增益率的屬性作為每個節點的劃分標準,尋找最佳分組變量和分割點,然后重復這個過程,直到生成的決策樹能分類訓練樣本[6]。較ID3算法而言,C4.5算法能夠處理非離散數據或不完整數據,能夠應用于對新的未知類別的分類,提升了算法的有效性。

3.2 基本概念

1)信息熵

信息熵是對于數據集純度的描述指標,用來描述數據集信息量的大小,是所有樣本各種類別出現的不確定性之和。數據集的變量越不穩定,則信息量越大,信息熵值越高。數據集X={X1,X2,…,Xn}的信息熵Entropy(X)表示為:

其中,p(xi)表示數據為xi時的概率。

對于根據屬性A劃分的m個子集,各種類別出現的不確定性之和,即屬性A的信息熵Entropy(X,A)表示為:

其中,Xi表示根據屬性A劃分的數據集X的第i個子集;|X|和|Xi|分別表示數據集X和子集Xi中的樣本數目。

2)信息增益

信息增益是原本數據集的信息熵與劃分之后的新數據集的信息熵之間的差值,用來衡量信息熵的期望減小值,表示在使用某種屬性對樣本進行劃分之后,樣本各種類別出現的不確定性的減少程度。信息增益越大,則信息熵的期望減小值越大。使用屬性A對數據集X進行劃分獲得的信息增益Gain(A)表示為:

3)分裂信息

分裂信息用來將信息增益規范化[7],表示在使用某種屬性進行劃分時分支的數量信息和尺寸信息,通常將其稱為屬性的內在信息,類似于信息熵Entropy(X)。由數據集X劃分成的對應于屬性A輸出的m個子集產生的分裂信息熵SplitEntropy(X,A)表示為:

4)信息增益率

信息增益和分裂信息熵的比值就是信息增益率。C4.5 算法選擇具有最大信息增益率的屬性作為分裂屬性,將該屬性作為決策節點。屬性A的信息增益率GainRate(A)表示為:

4 C4.5在高職學生學業目標評價中的應用

4.1 確定研究對象與設計問卷

本文選定某高職院校大二年級學生作為研究對象,該年級的學生正面臨著升學或者就業的選擇,個體之間關于有無學業目標、是何學業目標等問題已經基本呈現出差異。

經過對學生的個人訪談可知,學生對自己學業目標的定位大致可分為參加升學考試、評選保送升學、專業就業、靈活就業、不升學不就業五種方向。本文將有升學和就業意愿的學業目標均評價為“明確”,將無升學和就業意愿的學業目標評價為“不明確”,選定自我效能水平、學業投入程度、時間管理傾向三個維度設計調查問卷(見表1),對學生的升學和就業意愿進行測量,以進行學生學業目標的評價。自我效能水平維度包含入學成績、現在班級排名、是否任學生干部、是否獲得獎學金、是否評得榮譽稱號五個方面,學業投入程度維度包含職業技能競賽獲獎情況、專業實踐活動參加情況、社團協會活動參加情況、專升本考試報名情況、職業資格考試報名情況五個方面,時間管理傾向維度則主要考量學生課余時間的分配情況。

表1 關于高職學生學業目標評價的調查問卷

4.2 數據采集與預處理

使用調查問卷共采集到80 份數據,從中篩選出73 份有效數據作為此次實驗的訓練數據集。在設計問卷時已對連續屬性字段進行了離散化處理,為了方便后續處理,對收集到的離散化數據進行重新定義。

在自我效能水平維度中:將入學成績400 分及以上定義為“高”,300 分至400 分定義為“中”,300 分及以下定義為“低”;將現在班級排名1~10 名定義為“優”,11~25名定義為“良”,26名及以后定義為“差”;在學業投入程度維度中:將職業技能競賽獲獎情況獲得市級及以上獎項定義為“優秀”,獲得校級獎項定義為“一般”,從不參加、未獲過獎定義為“無”;將專業實踐活動參加情況和社團協會活動參加情況兩個題目的三個選項均依次定義為“經常”“偶爾”“從不”;將專升本考試報名情況和職業資格考試報名情況兩個題目的兩個選項均分別定義為“是”和“否”;將時間管理傾向維度的課余時間分配情況題目的作答情況作為目標變量,使用“學業目標”標識,包含有備賽備考或是實踐實習任一選項的數據則表示有升學和就業意愿,定義為“明確”,否則定義為“不明確”。

為了簡化訓練數據表,將題目1~10 分別對應屬性1~10。經過預處理的訓練數據表(部分)和完整的訓練數據表中各屬性的數據量統計表分別見表2、表3。

表2 訓練數據表(部分)

表3 數據量統計表

4.3 創建決策樹

為了深入分析影響高職學生學業目標評價的各項因素及內在關聯,使用訓練數據集中的73條數據,生成一棵能夠預測高職學生學業目標是否明確的決策樹。

1)目標變量“學業目標”屬性有“明確”和“不明確”兩個取值,因此可將訓練數據集劃分為兩個類,類“明確”有56 個樣本,類“不明確”有17 個樣本。計算訓練數據集的信息熵:

2)計算各屬性的信息熵:

依次計算出屬性2 至屬性10 的信息熵分別為:0.749、0.753、0.761、0.774、0.711、0.759、0.639、0.669、0.745。

3)計算各屬性的信息增益:

依次計算出屬性2至屬性10的信息增益分別為:0.034、0.03、0.022、0.009、0.072、0.024、0.144、0.114、0.038。

4)計算各屬性的分裂信息熵:

依次計算出屬性2 至屬性10 的分裂信息熵分別為:1.474、0.847、0.806、0.914、1.355、1.387、1.461、0.939、0.914。

5)計算各屬性的信息增益率:

依次計算出屬性2 至屬性10 的信息增益率分別為:0.0231、0.0354、0.0272、0.0098、0.0531、0.0173、0.0985、0.1214、0.0416。

選取信息增益率最大的屬性作為分裂屬性,因此將屬性9“專升本考試報名情況”作為決策樹的根節點,用“升學考試”標識,并生成“是”和“否”兩個分支。使用同樣方法在每個分支上對其他屬性進行進一步的處理,最終選取屬性2、4、6、7、8、10作為決策樹的決策節點,依次用“班級排名”“獎學金”“競賽獲獎”“專業實踐”“社團協會”“職業證書”標識。根據各個屬性取值的不同生成若干個分支,當分支上目標變量取值完全相同時則生成葉節點。通過后剪枝的方法剪枝后,最終生成的決策樹如圖1所示。

圖1 高職學生學業目標評價決策樹

4.4 提取分類規則

從決策樹中可以提取出學業目標為“不明確”的分類規則如下:

IF“升學考試=是”AND“專業實踐=從不”AND“職業證書=是”AND“獎學金=否”AND“競賽獲獎=從不”THEN“學業目標=不明確”;

IF“升學考試=是”AND“專業實踐=從不”AND“職業證書=否”AND“班級排名=差”THEN“學業目標=不明確”;

IF“升學考試=否”AND“社團協會=偶爾”AND“專業實踐=偶爾”AND“競賽獲獎=無”AND“職業證書=否”THEN“學業目標=不明確”;

IF“升學考試=否”AND“社團協會=從不”THEN“學業目標=不明確”。

4.5 數據分析

從決策樹和上述分類規則可以看出:

1)影響高職學生學業目標評價是否明確的最主要因素是專升本考試報名情況,有意愿報名、參加專升本考試的學生普遍擁有著更明確的學業目標;

2)經常積極參與各項各類專業實踐活動、社團協會活動和職業技能競賽的學業投入意愿較強、程度較高的學生,普遍擁有著明確的學業目標;

3)不參加升學考試和職業證書考試,對各項各類專業實踐活動、社團協會活動和職業技能競賽均持中等意愿的學生,普遍擁有著不明確的學業目標;

4)參加升學考試或職業證書考試,但成績落后、未評得過獎學金、未獲得過競賽獎項等自我效能水平較低的學生,普遍擁有著不明確的學業目標。

因此,在高職學生的培養過程中,教育工作者應當首先注重加強學生對升學考試和專業相關職業資格證書的認識,可以開展學生間的學業經驗交流活動,同伴群體間的榜樣作用能夠幫助學生對學業目標產生更清晰的認知,其次要為學生創設更多參加專業實踐活動、社團協會活動和職業技能競賽的機會,讓學生在實際參與的過程中認識到個人興趣所在以及明確就業方向,提升學生學業投入程度的精度和深度,在經驗增長的過程中,促使學生的自我效能水平也得到相應提升。

5 結束語

本文以某高職院校大二年級學生作為研究對象,設計高職學生學業目標評價的調查問卷并進行數據收集,利用C4.5 決策樹算法進行數據挖掘,并對挖掘結果進行深入分析,認為影響高職學生學業目標評價是否明確的最主要因素是專升本考試報名情況,在進行高職學生的學業指導工作時,教育工作者應當注重為學生提供有關升學考試和職業資格證書的講解與經驗交流機會,積極組織開展更多專業實踐活動、社團協會活動和職業技能競賽,著眼于提升學生學業投入程度的精度和深度及其自我效能水平,引導學生在此過程中逐步明確其學業目標。

猜你喜歡
學生
快把我哥帶走
親愛的學生們,你們并沒有被奪走什么
英語文摘(2020年9期)2020-11-26 08:10:12
如何喚醒學生自信心
甘肅教育(2020年6期)2020-09-11 07:45:16
怎樣培養學生的自信
甘肅教育(2020年22期)2020-04-13 08:10:54
如何加強學生的養成教育
甘肅教育(2020年20期)2020-04-13 08:04:42
“學生提案”
當代陜西(2019年5期)2019-11-17 04:27:32
《李學生》定檔8月28日
電影(2018年9期)2018-11-14 06:57:21
趕不走的學生
學生寫話
學生寫的話
主站蜘蛛池模板: 日韩 欧美 小说 综合网 另类| 日韩国产一区二区三区无码| 国产欧美亚洲精品第3页在线| 亚洲愉拍一区二区精品| 国产精品久久久久久久久久久久| 草草线在成年免费视频2| 国产成人综合网| 欧洲日本亚洲中文字幕| 免费在线a视频| 亚洲国产日韩一区| 欧美国产成人在线| 视频二区国产精品职场同事| 午夜少妇精品视频小电影| 999精品色在线观看| 中文字幕在线不卡视频| 国产精品无码久久久久久| 九色91在线视频| 奇米精品一区二区三区在线观看| 亚洲中文久久精品无玛| 日韩毛片免费| 久久动漫精品| 色哟哟国产精品一区二区| 在线播放91| 久青草网站| 亚洲成aⅴ人在线观看| 日本三级黄在线观看| 成人精品免费视频| 亚洲视频a| Aⅴ无码专区在线观看| 夜精品a一区二区三区| 亚洲综合色区在线播放2019| 日韩亚洲综合在线| 伦伦影院精品一区| 久久美女精品| 视频二区中文无码| 国产无码制服丝袜| 国产精品美人久久久久久AV| 亚洲婷婷六月| 欧美日韩亚洲综合在线观看| 色精品视频| 9丨情侣偷在线精品国产| 亚洲狠狠婷婷综合久久久久| 人人91人人澡人人妻人人爽| 永久在线播放| 伊人91视频| 色国产视频| 日本成人精品视频| 亚洲国产精品无码AV| 少妇精品在线| 99国产精品国产| a网站在线观看| 欧美中文字幕无线码视频| 无码丝袜人妻| 福利在线不卡| 一区二区三区国产精品视频| 狠狠综合久久久久综| 人妻21p大胆| AV在线麻免费观看网站| 亚洲乱码精品久久久久..| 伊人成色综合网| 国产黑丝一区| 亚洲日韩精品伊甸| 亚洲精品第1页| 97国产在线观看| 成人国产精品一级毛片天堂| 超碰色了色| 亚洲国产精品一区二区第一页免 | 2021精品国产自在现线看| 四虎亚洲国产成人久久精品| 2019国产在线| 日本人真淫视频一区二区三区| 在线免费亚洲无码视频| 久久久久亚洲AV成人人电影软件 | 99这里只有精品免费视频| 欲色天天综合网| 国产jizz| 91精品国产91久无码网站| 日韩少妇激情一区二区| 麻豆精品视频在线原创| 亚洲国产成人精品青青草原| 91久久国产热精品免费| 凹凸精品免费精品视频|