999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據挖掘的分類算法應用
——以XGBoost為例

2022-12-21 07:41:36
無線互聯科技 2022年19期
關鍵詞:分類特征心理

田 威

(常德職業技術學院,湖南 常德 415000)

0 引言

近年來,大量研究資料表明,高校“00后”中有相當一部分人存在心理問題,且數量逐年上升,關注、解決高校學生存在的這種問題刻不容緩。據統計,獨生子女、留守兒童經歷、家長對子女的教育等因素都會對學生的心理健康產生很大的影響。常德職業技術學院對學生的心理普查非常重視,對于有問題的學生會積極予以干預輔導和教育。但是當前學院對學生的心理普測仍然采用傳統的問卷調查方法,即通過組織全院學生填寫SCL-90量表,篩查結果往往不盡人意。原因如下:(1)篩查結果不準確,學生在填寫問卷答題時,刻意隱瞞、隨意亂填或者當時環境因素不好都會造成調查結果出現較大的偏差,而且問卷答題只能收集某一時刻學生的心理狀態,缺乏時效性。(2)心理問題是一個相對動態的過程,對有潛在心理問題的學生沒有辦法進行及時輔導。(3)老師需要組織全院學生,且要保證學生在一個相對比較理想不受外界干擾的環境中填寫,成本比較大[1]。

為了解決上述問題,本文從大數據和數據挖掘的角度,使用XGBoost分類算法,設計了學生心理健康問題預測應用,應用對比調查問卷具有高準確率、低成本等優點,能識別出有潛在心理問題的學生,還能夠根據學生的特征數據變化不斷自適應優化,保證高準確率。

1 XGBoost算法原理

XGBoost算法采用了集成思想,將多個弱分類器逐步迭代,集成組合在一起形成一個強分類器,是梯度提升決策樹(GBDT)的一種高效實現。相對于GBDT,XGBoost具有能并行學習的優點,快速實現迭代運算。同時,算法也設置了懲罰因子來防止過擬合,具體算法步驟如下。

優化目標函數:l(yi,yi')=(yi-yi')2

每棵決策樹逐步迭代,形成一個強分類器。

決策樹如果葉子節點太多,會增加過擬合的風險,通常目標函數還需加入正則項Ω(ft)來對決策樹進行剪枝。

式中,γ為正則化強度;T為葉子節點個數;w為葉子節點權重。

加入正則化項后要優化的完整目標函數為

分別記gi,hi為l的一階和二階導數

最終求出目標函數最優解為

根據上式,作為樹分裂結構的分數,分數越高,則樹的結構越優異,最終獲得最優的樹結構。算法的停止取決于預設的樹深度或者分裂后的結果值小于某個閾值[2]。

2 模型實現

2.1 模型訓練

高職院校往往由于傳統業務系統存在信息孤島問題,管理人員僅僅只能看到學生的一維數據,如通過教務系統,管理人員只能查看到學生的學籍、學分、掛科、處分、考生評價等信息,無法獲取學生綜合管理系統、一卡通消費、上網行為、社交評論等信息數據。本文基于學校搭建的數據中臺,在數據高度共享的前提下構造數據集,采用XGBoost分類算法實現對學生的自動分類。模型訓練基本實現流程如圖1所示。

圖1 模型訓練流程

2.2 數據準備

通過數據中心,獲取了教務系統、學生綜合管理系統、一卡通平臺、網絡行為管理日志、微信企業號等多個業務系統中學生的多維度信息數據,并對其中某些字段缺失的數據、文本類型數據和異常數據進行預處理,通過特征轉換,最終構造學生個人畫像特征[3]。學院健康教育中心按照心理問題嚴重程度,統計出一級問題學生831人、二級問題1 105人、三級問題1 487人、心理狀況良好人數11 056人,將以上數據作為模型樣本。

2.3 模型實現

本文基于XGBoost的python實現。將一級、二級、三級、良好的學生分別標識為A,B,C,D。通過數據中臺抽取學生特征并進行特征轉化。

學生學籍特征:性別、專業、民族、所屬省份、生源地區、戶籍性質、家庭經濟情況等,這些特征均屬于離散類特征,對這類特征進行one-hot編碼,如性別特征轉化如表1所示。

表1 性別特征轉化

其他特征則類似編碼。

學生教務特征:成績、處分次數、是否惡意評價教學等。對于成績特征,以優、良、不及格來取值,然后將各科成績按照取值次數進行匯聚計算,學生教務特征具體如表2所示。

表2 學生教務特征

處分次數屬于連續性特征,以正常數值表示即可,是否惡意評價則按照上述離散類特征處理。

學生事務特征:學生請假、學生個人操行分、宿舍缺勤、班級排名等。

學生一卡通特征:圖書借閱、消費情況等。

上網行為特征:學生上網時長、App使用類型等。

最終,特征轉換編碼規則為:對于無序離散類特征采用one-hot編碼,對于有序離散類特征通過數值大小作為標識,再進行歸一化,對于連續性特征,進行歸一化。

隨機將數據集按照7∶3分為訓練集和測試集,模型評價指標采用多分類F1-score,通過交叉驗證選取模型參數如表3所示。

表3 模型超參數選擇

2.4 模型結果分析

通過XGBoost算法模型在測試集進行測試,結果如表4所示,從表中可以看出模型對心理健康狀況良好和存在一級問題的學生預測準確率分別為98.00%和96.78%,對二級問題的學生預測準確率相對較低。模型總體識別的準確率遠遠優于SCL-90量表調查問卷的結果。通過分析結果,對模型識別的特征重要性進行排序,如圖2所示。其中,是否有留守經歷、是否單親家庭、成績的特征重要性所占權重最大。同時,可以通過模型計算出學生屬于各分類的概率,將概率接近分類閾值的學生劃分為該類下有潛在心理疾病風險的學生,讓心理輔導老師對學生提前進行干預輔導[4-5]。

表4 測試集識別準確率

圖2 特征重要性排序

3 結語

本文通過運用數據中心,打通了各業務系統信息孤島,獲取了學生在各個業務系統多維度數據,采用XGBoost算法從分類的角度,設計了預測模型,相對于采用SCL-90量表的測評,能高效識別出有心理問題的學生,極大地降低了學校管理的成本,并且模型數據具有一定的可解釋性,心理老師也可以根據數據為學生進行個性化干預輔導。但是模型對二級問題的預測還存在比較大的誤報率,后續還應該多分析數據,挖掘學生有效特征,提升模型的準確率。

猜你喜歡
分類特征心理
看見具體的自己
光明少年(2024年5期)2024-05-31 10:25:59
心理“感冒”怎樣早早設防?
當代陜西(2022年4期)2022-04-19 12:08:54
分類算一算
心理感受
娃娃畫報(2019年11期)2019-12-20 08:39:45
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
主站蜘蛛池模板: 在线观看国产网址你懂的| 日韩无码白| 国产99在线| 九九九精品视频| 亚洲视频在线网| 国产网站一区二区三区| 国产一区二区三区精品欧美日韩| 国产www网站| 亚洲福利片无码最新在线播放| 欧美乱妇高清无乱码免费| 成人夜夜嗨| 在线无码九区| 毛片免费高清免费| 中文字幕第4页| 91毛片网| 大陆国产精品视频| 亚洲综合色婷婷| 99久久无色码中文字幕| 成人伊人色一区二区三区| 国产精品亚洲欧美日韩久久| 日韩欧美中文亚洲高清在线| 亚洲国产中文在线二区三区免| 香蕉色综合| 精品一區二區久久久久久久網站| 凹凸精品免费精品视频| 久久久久88色偷偷| 亚洲欧美自拍一区| 91麻豆精品视频| 超薄丝袜足j国产在线视频| 中文字幕欧美日韩| 尤物精品国产福利网站| 91精品国产麻豆国产自产在线| 国产精品第一区在线观看| 免费99精品国产自在现线| 伊人查蕉在线观看国产精品| 日韩东京热无码人妻| 欧洲成人免费视频| 色噜噜综合网| 伊人色天堂| 四虎成人精品在永久免费| 亚洲精品久综合蜜| 99九九成人免费视频精品| 就去吻亚洲精品国产欧美| 亚洲日韩精品综合在线一区二区| 国精品91人妻无码一区二区三区| 久久一日本道色综合久久| 成人自拍视频在线观看| 欧洲成人在线观看| 91破解版在线亚洲| 亚洲欧洲AV一区二区三区| 国产精品香蕉在线| 日韩国产无码一区| 亚洲第一区在线| 亚洲成肉网| 国产成人1024精品| 中美日韩在线网免费毛片视频| 久久国产精品麻豆系列| 国产男人天堂| 国产aaaaa一级毛片| 日本五区在线不卡精品| 日本成人在线不卡视频| 久久综合一个色综合网| 在线观看国产小视频| 国产喷水视频| 亚洲水蜜桃久久综合网站 | 国产91无码福利在线| 亚洲中文字幕手机在线第一页| 五月天天天色| 国产裸舞福利在线视频合集| 婷婷五月在线视频| 最新无码专区超级碰碰碰| a毛片在线免费观看| 亚洲精品欧美日本中文字幕| 欧美成人精品高清在线下载| 中文字幕 欧美日韩| 国产精品永久在线| 久久精品无码一区二区日韩免费| 国产高清不卡视频| 91视频区| 欧美一区二区三区香蕉视| 国产精品亚洲天堂| 中文字幕欧美日韩|