付榮華



摘要:通過數據挖掘技術分析各個領域大量數據之間的關系,可以發現這些記錄中隱藏的學生學習和生活狀態。該研究開發了一個綜合分析系統,其系統引入了數據挖掘技術,包括決策樹算法和關聯規則挖掘算法。通過分析來自農村的大學生圖書館記錄和消費記錄以及農村學生完成的課程成績和心理測試數據可以看出,該系統可以挖掘農村學生的生活和學習狀態及其關聯性,并將結果展示出來,可以讓學校或老師及時清晰地了解其狀態,有助于更好的教學。
關鍵詞:數據挖掘;決策樹算法;關聯規則挖掘算法;數據庫應用
中圖分類號:TP311.13 ? ? ? ? 文獻標識碼:A
文章編號:0439-8114(2020)10-0150-004
DOI:10.14088/j.cnki.issn0439-8114.2020.10.035 ? ? ? ? ? 開放科學(資源服務)標識碼(OSID):
Absrtact: By using data mining technology to analyze the relationship between these data, The hidden students' learning and living conditions in these records were founded. A comprehensive analysis system was developed, which introduces data mining technology, including decision tree algorithm and association rule mining algorithm. By analyzing the records of college students' libraries and consumption from the countryside, as well as the data of curriculum achievements and psychological tests completed by rural students, the system can excavate the life and learning status of rural students and their correlation, and display the results, so that schools or teachers can understand their status in time and clearly, which is help fulfor better teaching.
Key words: data mining; decision tree algorithm; association rule mining algorithm; database application
數據挖掘是數據庫中最重要的領域之一,可以從數據庫的大量數據中揭示出隱含的、先前未知的并且有價值的信息,從而為使用者提供決策幫助[1]。高等教育狀況在很大程度上代表著國家教育的發展,合理、有效地幫助大學生完成學業,對高校教育有著至關重要的意義。目前,大學校園都采用校園卡系統進行電子化管理,產生大量學生相關的學習、生活等數據[2]。因此,運用數據挖掘技術,對大學生的學習、生活等數據記錄進行分析和挖掘,為學校管理提供決策輔助,進而有效管理大學生,是當前高校教育的一個重要研究方向[3]。
部分研究人員已經研究了學生數據之間的部分關系[4,5],但未從農村大學生這一特殊群體的不同方面進行分析,其研究功能模塊是分散的,沒有挖掘學生的相關數據中存在的關系,無法發現學生(以下學生特指農村大學生)的學習、生活等行為狀態之間的潛在關聯。高校管理系統數據庫中的學生數據是全面的,但在研究過程中,研究人員并沒有注意它們之間的關系。因此,當選擇優秀的學生、優秀的班長、研究生推薦或貧困學生時,學校通常習慣于手工分析。此外,由于學業壓力等問題,部分大學生容易出現心理問題,學校老師往往不能及時發現,直到這些學生發生嚴重事件時才能發覺,從而造成嚴重的后果。
根據目前存在的這些缺陷,本研究設計并實現了一個綜合分析系統,該系統記錄了學生的活動,包括校園購物、餐廳用餐、課程學習、圖書館記錄等數據。同時,該系統使用決策樹算法和關聯規則挖掘算法來分析系統數據庫中的大量數據,挖掘不同數據之間的關系,發現其中隱含的有價值信息,為高校管理提供決策支持,從而使得學校可以更加方便、及時、合理地管理學生,幫助學生順利完成學業。
1 ?方法論
1.1 ?決策樹算法
決策樹算法是一種近似離散函數值的方法,基于樹結構來進行決策,常用于分類問題[6]。C4.5算法[7]是機器學習中一種重要的分類決策樹算法,是對ID3算法的一種改進,能夠處理連續型和離散型數據[8-13]。因此,在該系統中,使用C4.5算法分析大學生的成績得分、心理狀態和消費情況,構建了學生綜合評價的決策樹。
該算法分類標準基于成績平均分,分為>90分、80~90分、70~80分、60~70分和<60分5個等級。首先,計算學生成績樣本的信息熵[14],信息熵用于計算信息的期望,如式(1)所示。
式中,Ci代表來自X的信號源,Tj代表來自Y的信號源,P(Ci|Tj)表示Y為Tj且X為Ci時的概率。
H(X)和H(X|Y)的關系可由式(3)的信息增益給出[15]。
Gain(X|Y)=H(X)-H(X|Y) ?(3)
1.2 ?關聯規則挖掘算法
在該系統中,使用Apriori關聯規則挖掘算法,挖掘數據之間的隱含關聯[10-12]。該算法引入兩個重要度量,分別為支持度和置信度,支持度表示項目集在數據庫中的出現頻率,置信度用來衡量規則的可信程度。該綜合評價系統的評價結果根據這兩個標準給出,由式(4)計算支持度,P(X)表示X出現在D中的概率。
支持度(X)=發生(X)/計數(D)=P(X) (4)
然后根據式(5)計算置信度,P(X|Y)反映了X和Y之間的相關關系。
置信度(X→Y)=支持度(X∪Y)/支持度(X)=P(X|Y) ? (5)
2 ?實例應用
該系統包括4個功能模塊,分別為得分分析模型、消費分析模型、心理狀態測試模型、綜合分析模型。得分分析模型用于分析學生不同學年的課程得分,消費分析系統記錄學生的消費情況,心理狀態測試模型用于分析學生的心理狀態變化,綜合分析模型挖掘學生所有數據(課程成績、消費記錄、心理測試)之間的關聯,發掘有價值的信息。整體分析系統框架如圖1所示。
運用決策樹算法對學生的得分、消費屬性和心理狀態進行不同程度的分類;運用關聯規則挖掘算法,發現數據中隱含的信息。通過調整算法輸入數據的屬性、規模等,兩種算法結合使用,進行多次訓練來規范評估結果。
2.1 ?決策樹算法在系統中的應用
第一個功能模型是得分分析,如圖2所示,它對每個學生的所有課程分數進行分析,使用決策樹算法構建分類模型,并在一個學生的不同課程中獲得規律性。例如,如果一個學生擅長操作系統,那么他有很大可能也擅長數據庫理論;如果一個學生在第一年、第二年和第三年表現良好,那么其畢業設計也會表現良好。從數據庫中根據需求抽取數據集合,計算每個學生X的信息熵H(X),其度量X的不確定性;然后計算條件熵H(X|Y),其度量Y在以后X剩下的不確定性;最后根據信息熵和條件熵計算信息增益,其度量X在Y以后不確定性的減少程度。根據信息增益來判斷當前節點應該選取什么特征來構建決策樹,信息增益越大,越適合用于分類。
決策樹以表示樣本的單個節點開始,構建決策樹的算法過程如下:
①如果樣本已存在于同一類別中,則此節點是標記為此類別的葉節點。
②否則,它將自動生成節點,該節點選擇占據大部分屬性的節點。
③經過分析和總結,樣本信息分為多個組。每個分支節點都可以獲取其子集的值,每個子集對應一個分支。對于最后一步的每個子集,重復該過程;然后,它將為每個樣本生成一個決策樹。
④一旦某種屬性出現在一個節點中,就不需要考慮它的后代。
當滿足以下條件時,該算法將停止:
①節點的所有樣本屬于同一類別。
②沒有用于劃分的左側屬性。在這種情況下,樹的節點將在分析和結束后更新,并且它可以自動生成標記有具有最多元素的類別的葉節點。
③如果一個分支沒有滿足這個現有類別的樣本,它將構建一個葉子節點,其中樣本具有多數類。
2.2 ?關聯規則算法在系統中的應用
使用關聯規則算法,首先找出所有頻繁項集,采用支持度作為衡量標準;然后由頻繁項集產生強關聯規則,采用置信度作為衡量標準;最后,根據關聯規則來支持系統在選擇優秀學生、優秀班長、研究生推薦和貧困學生時的決策。基于Apriori[13]算法,實現方法如下:
①在數據庫中構建學生分數、消費情況、心理測試狀態和圖書館記錄的初始化集合。
②計算不同數據集合下的置信度,并給出在規則庫中構建的關聯規則。
③如果學生的置信度滿足設置的閾值,那么該學生將成為候選人。
整體實現思路如圖3所示。
2.3 ?兩種算法的融合
這兩種算法都有解決特定問題的優點,將它們引入本系統中,利用各自的優勢。分析學生得分時,使用決策樹算法構建分類模型;然后,結合關聯規則算法分析學生的消費情況和心理狀態,發現關聯信息,分析過程如圖4所示。
式中,i.score(X)表示學生X的課程i的得分,
H(X)反映學生X得分的穩定性,M(X)表示平均表型值。如果該學生只是一個新生,則將平均表型值M(X)根據式(6)計算;如果該學生是二年級學生,則按照式(7)計算;以類似的方式,如果該學生是三年級學生,將使用式(8)計算;只有當該學生是畢業年級學生時才會采用式(9)。
因此,根據學生X的H(X)可以掌握學生X的學習狀態。如果H(X)變低,則可以使用第二個核心模型——心理狀態測試模型,通過心理測試分析,可以得知學生得分不佳的原因。
2.3.2 ?心理狀態測試模型分析 ? 該模型包括8個部分,每個部分都有許多測試主題,這些主題由系統從問題數據庫自動生成(圖5)。這個問題數據庫由權威健康心理問題構成,并能夠及時更新[14]。選擇Highcharts[9,15]技術顯示來自學生測試的結果,包括直線圖、柱狀圖、餅狀圖等圖表類型,可以根據需要選擇合適的圖表,來清晰、準確地展示測試分析結果。根據式(10)計算分析結果總值。
Zx=w1Z1+w2Z2+w3Z3+…+w8Z8 ?(10)
式中,wi表示分別來自8個部分的受試者的數量,Zi表示受試者所占的比例。通過測試分析,可以掌握學生的動態心理。如果學生出現一些嚴重的心理疾病,如抑郁癥,根據分析結果,學校或老師可以及時發現,并給予幫助。如果學生的心理狀態是正確的,還可以檢查他進出圖書館的記錄。如有必要,也可以檢查其消費記錄。
2.3.3 ?優秀學生選拔算法 ?該模型包括選拔優秀學生、優秀班長、研究生推薦和貧困學生。首先,建立模型需要的標準值,并從分數數據庫中獲得平均表型值、消費價值和心理健康價值數據。然后,將數據源構建為(Y)數據集合(表1)。在綜合分析系統中,該部分的每個功能模型都有各自的規則。因此,做不同選擇時應該使用不同的規則算法。
選擇優秀學生時,應考慮兩個因素,包括一個學生的平均表型值和得分信息熵;選擇優秀班長及他或她是否是班長時,將需要考慮額外的因素;選擇貧困學生,授予貧困學生獎學金時,同時需要參考消費價值、心理健康價值和圖書館地位信心價值數據,進行綜合分析;同時,該算法也適用于研究生推薦的選擇。算法過程如下。
1)優秀學生選拔算法。輸入:每個學生的(X)和Hi(X),i取值1到n;輸出:學生設置Z1。
①過濾數據, 篩選同一班級中每個學生的Hi(X)和Mi(X);
②將所有學生的M(X)組從大到小排序;
③如果不止一個學生的相同值等于Mi(X),則這些具有相同價值的學生Mi(X)屬于一組S(X);
④將S(X)中所有學生的Hi(X)從小到大排序; 隊列的頂部屬于Z1。
2) 貧困學生的選擇算法。輸入:Hi(X)、Mi(X)、PS(X)、C(X)和S(X);輸出:學生設置Z3。
①為Mi(X)設置閾值T,如75,根據T過濾學生;
②通過基于Hi(X)和Mi(X)的上述算法,得到隊列 Z1′;
③對Z1′中所有學生的數據C(X)進行排序,然后按照從小到大的順序存儲在隊列R1中;
④為C(X)設置閾值C,根據Z1′過濾學生,小于C的學生分類為Z2′;
⑤對Z2′中所有學生的數據PS(X)進行排序,然后按順序從大到小存儲在隊列R2中;
⑥對Z2′中所有學生的數據S(X)進行排序,然后按照從大到小的順序存儲在隊列R3中;
⑦對Z2′中所有學生的數據H((PS(X),S(X))|(C(X),M(X),H(X))進行排序,然后按從小到大順序存儲在Z3中。
3 ?小結
本研究提出了一種高等教育學校選擇特殊學生,輔助教育管理的特征選擇方法,并實現了一個綜合分析系統。首先,將數據庫中數據進行預處理,根據需求將數據抽取為指定格式。然后,通過決策樹算法和關聯規則算法進行挖掘分析,發現數據中潛在關聯和有價值信息,并將分析結果通過圖表展示出來,清晰地提供給學校或老師。系統實施后表明,該系統對大學生管理和學習生活的重大改進提供了極大幫助。學校或老師可以掌握每個學生的學習狀態、心理活動等信息。如,如果某個學生的研究被拒絕,可以得到該學生的圖書館記錄和信息熵,以了解他是否變得懶散;或者該學生是否存在過多娛樂性的消費記錄;通過心理健康測試分析,了解該學生是否出現心理方面的消極變化。綜上可知,該系統可以發掘學生學習、生活、活動的潛在關聯,輔助學校或老師的管理決策,從而更加有效、合理地管理學生的學習和生活。
參考文獻:
[1] 楊茂青,謝健民,秦 ?琴,等.基于RF算法的突發事件網絡輿情演化預測分析[J].情報科學,2019,37(7):95-100.
[2] 吳 ?蓓.基于決策樹算法的成績預測模型研究及應用[D].西安:西安理工大學,2019.
[3] 尹 ?儒,門昌騫,王文劍.一種模型決策森林算法[J].計算機科學與探索,2020,14(1):108-116.
[4] 胡明明.決策樹算法在學生課程成績分析中的應用研究[D].哈爾濱:哈爾濱師范大學,2019.
[5] 謝霖銓,徐 ?浩,陳希邦,等.基于PCA的決策樹優化算法[J].軟件導刊,2019(9):75-77,82.
[6] 張小奇.基于決策樹算法的教學管理數據分析[J].青島大學學報(自然科學版),2019,32(2):86-94.
[7] 劉 ?亮.基于數據挖掘的銀行客戶評級系統設計與實現[D].石家莊:河北科技大學,2019.
[8] 南小琴,張 ?澤,印彩霞,等.基于決策樹算法的棉花產量預測研究[J].農村科技,2019(1):29-35.
[9] 李 ?云.大數據分析技術及其在貧困生幫扶工作中的應用研究[D].貴陽:貴州大學,2018.
[10] 武善鋒,陸 ?霞.基于決策樹算法的體育課程分析與管理系統 ? ? 設計[J].現代電子技術,2019,42(3):131-133,138.
[11] 潘 ?燕.決策樹算法在高職院校課程關聯分析中的應用研究[J].現代信息科技,2019,3(2):151-153.
[12] 卜 ?陽.數據挖掘決策樹技術在高職教學質量評價中的應用[J].湖北開放職業學院學報,2018,31(21):32-34.
[13] 尹 ?儒,門昌騫,王文劍,等.模型決策樹:一種決策樹加速算法[J].模式識別與人工智能,2018,31(7):643-652.
[14] 陰亞芳,孫朝陽.決策樹算法在實踐教學中的應用研究[J].計算機與數字工程,2018,46(6):1078-1082,1088.
[15] 朱瑞瑞.基于改進決策樹算法的績效測評應用研究[D].合肥:安徽大學,2018.