999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據挖掘的分類算法應用
——以XGBoost為例

2022-12-21 07:41:36
無線互聯科技 2022年19期
關鍵詞:分類特征心理

田 威

(常德職業技術學院,湖南 常德 415000)

0 引言

近年來,大量研究資料表明,高校“00后”中有相當一部分人存在心理問題,且數量逐年上升,關注、解決高校學生存在的這種問題刻不容緩。據統計,獨生子女、留守兒童經歷、家長對子女的教育等因素都會對學生的心理健康產生很大的影響。常德職業技術學院對學生的心理普查非常重視,對于有問題的學生會積極予以干預輔導和教育。但是當前學院對學生的心理普測仍然采用傳統的問卷調查方法,即通過組織全院學生填寫SCL-90量表,篩查結果往往不盡人意。原因如下:(1)篩查結果不準確,學生在填寫問卷答題時,刻意隱瞞、隨意亂填或者當時環境因素不好都會造成調查結果出現較大的偏差,而且問卷答題只能收集某一時刻學生的心理狀態,缺乏時效性。(2)心理問題是一個相對動態的過程,對有潛在心理問題的學生沒有辦法進行及時輔導。(3)老師需要組織全院學生,且要保證學生在一個相對比較理想不受外界干擾的環境中填寫,成本比較大[1]。

為了解決上述問題,本文從大數據和數據挖掘的角度,使用XGBoost分類算法,設計了學生心理健康問題預測應用,應用對比調查問卷具有高準確率、低成本等優點,能識別出有潛在心理問題的學生,還能夠根據學生的特征數據變化不斷自適應優化,保證高準確率。

1 XGBoost算法原理

XGBoost算法采用了集成思想,將多個弱分類器逐步迭代,集成組合在一起形成一個強分類器,是梯度提升決策樹(GBDT)的一種高效實現。相對于GBDT,XGBoost具有能并行學習的優點,快速實現迭代運算。同時,算法也設置了懲罰因子來防止過擬合,具體算法步驟如下。

優化目標函數:l(yi,yi')=(yi-yi')2

每棵決策樹逐步迭代,形成一個強分類器。

決策樹如果葉子節點太多,會增加過擬合的風險,通常目標函數還需加入正則項Ω(ft)來對決策樹進行剪枝。

式中,γ為正則化強度;T為葉子節點個數;w為葉子節點權重。

加入正則化項后要優化的完整目標函數為

分別記gi,hi為l的一階和二階導數

最終求出目標函數最優解為

根據上式,作為樹分裂結構的分數,分數越高,則樹的結構越優異,最終獲得最優的樹結構。算法的停止取決于預設的樹深度或者分裂后的結果值小于某個閾值[2]。

2 模型實現

2.1 模型訓練

高職院校往往由于傳統業務系統存在信息孤島問題,管理人員僅僅只能看到學生的一維數據,如通過教務系統,管理人員只能查看到學生的學籍、學分、掛科、處分、考生評價等信息,無法獲取學生綜合管理系統、一卡通消費、上網行為、社交評論等信息數據。本文基于學校搭建的數據中臺,在數據高度共享的前提下構造數據集,采用XGBoost分類算法實現對學生的自動分類。模型訓練基本實現流程如圖1所示。

圖1 模型訓練流程

2.2 數據準備

通過數據中心,獲取了教務系統、學生綜合管理系統、一卡通平臺、網絡行為管理日志、微信企業號等多個業務系統中學生的多維度信息數據,并對其中某些字段缺失的數據、文本類型數據和異常數據進行預處理,通過特征轉換,最終構造學生個人畫像特征[3]。學院健康教育中心按照心理問題嚴重程度,統計出一級問題學生831人、二級問題1 105人、三級問題1 487人、心理狀況良好人數11 056人,將以上數據作為模型樣本。

2.3 模型實現

本文基于XGBoost的python實現。將一級、二級、三級、良好的學生分別標識為A,B,C,D。通過數據中臺抽取學生特征并進行特征轉化。

學生學籍特征:性別、專業、民族、所屬省份、生源地區、戶籍性質、家庭經濟情況等,這些特征均屬于離散類特征,對這類特征進行one-hot編碼,如性別特征轉化如表1所示。

表1 性別特征轉化

其他特征則類似編碼。

學生教務特征:成績、處分次數、是否惡意評價教學等。對于成績特征,以優、良、不及格來取值,然后將各科成績按照取值次數進行匯聚計算,學生教務特征具體如表2所示。

表2 學生教務特征

處分次數屬于連續性特征,以正常數值表示即可,是否惡意評價則按照上述離散類特征處理。

學生事務特征:學生請假、學生個人操行分、宿舍缺勤、班級排名等。

學生一卡通特征:圖書借閱、消費情況等。

上網行為特征:學生上網時長、App使用類型等。

最終,特征轉換編碼規則為:對于無序離散類特征采用one-hot編碼,對于有序離散類特征通過數值大小作為標識,再進行歸一化,對于連續性特征,進行歸一化。

隨機將數據集按照7∶3分為訓練集和測試集,模型評價指標采用多分類F1-score,通過交叉驗證選取模型參數如表3所示。

表3 模型超參數選擇

2.4 模型結果分析

通過XGBoost算法模型在測試集進行測試,結果如表4所示,從表中可以看出模型對心理健康狀況良好和存在一級問題的學生預測準確率分別為98.00%和96.78%,對二級問題的學生預測準確率相對較低。模型總體識別的準確率遠遠優于SCL-90量表調查問卷的結果。通過分析結果,對模型識別的特征重要性進行排序,如圖2所示。其中,是否有留守經歷、是否單親家庭、成績的特征重要性所占權重最大。同時,可以通過模型計算出學生屬于各分類的概率,將概率接近分類閾值的學生劃分為該類下有潛在心理疾病風險的學生,讓心理輔導老師對學生提前進行干預輔導[4-5]。

表4 測試集識別準確率

圖2 特征重要性排序

3 結語

本文通過運用數據中心,打通了各業務系統信息孤島,獲取了學生在各個業務系統多維度數據,采用XGBoost算法從分類的角度,設計了預測模型,相對于采用SCL-90量表的測評,能高效識別出有心理問題的學生,極大地降低了學校管理的成本,并且模型數據具有一定的可解釋性,心理老師也可以根據數據為學生進行個性化干預輔導。但是模型對二級問題的預測還存在比較大的誤報率,后續還應該多分析數據,挖掘學生有效特征,提升模型的準確率。

猜你喜歡
分類特征心理
看見具體的自己
光明少年(2024年5期)2024-05-31 10:25:59
心理“感冒”怎樣早早設防?
當代陜西(2022年4期)2022-04-19 12:08:54
分類算一算
心理感受
娃娃畫報(2019年11期)2019-12-20 08:39:45
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
主站蜘蛛池模板: 91精品国产91久久久久久三级| 国产精品视频猛进猛出| 丁香六月综合网| 中文字幕亚洲无线码一区女同| 久久99国产综合精品1| 久久精品这里只有精99品| 欧美在线伊人| 一本色道久久88| 国产成人精品视频一区二区电影 | 久久免费精品琪琪| 日韩欧美视频第一区在线观看| 高清久久精品亚洲日韩Av| 国产成a人片在线播放| 欧美午夜在线视频| 在线永久免费观看的毛片| h视频在线观看网站| 在线免费不卡视频| 激情综合图区| 国产浮力第一页永久地址| 国产乱子伦手机在线| 中国丰满人妻无码束缚啪啪| 欧美一级夜夜爽| 在线视频精品一区| 波多野结衣中文字幕久久| 欧美综合区自拍亚洲综合绿色| 欧美乱妇高清无乱码免费| 又粗又大又爽又紧免费视频| 呦系列视频一区二区三区| 亚洲成人一区二区三区| 高清无码手机在线观看| 人妻少妇久久久久久97人妻| 黑人巨大精品欧美一区二区区| 久久一本精品久久久ー99| 欧美精品亚洲精品日韩专区va| 呦视频在线一区二区三区| 女人18毛片一级毛片在线 | 九九精品在线观看| 亚洲最大在线观看| 亚洲成在人线av品善网好看| 久久国产av麻豆| 最新国产网站| 最新亚洲人成网站在线观看| 91精品国产麻豆国产自产在线| 亚洲成综合人影院在院播放| 熟女成人国产精品视频| 99久久国产综合精品女同 | 亚洲第一精品福利| 色首页AV在线| 人妻一本久道久久综合久久鬼色| 亚洲三级电影在线播放 | 综合色区亚洲熟妇在线| 五月婷婷丁香色| 国产精品尹人在线观看| 国产免费高清无需播放器| 亚洲日韩第九十九页| 亚洲色图狠狠干| 久久久精品国产SM调教网站| 国产成人在线无码免费视频| 国产乱子伦无码精品小说| 亚洲无限乱码| 91亚洲精选| 色综合天天综合中文网| 久久精品国产一区二区小说| 日韩无码白| 2020国产精品视频| 高清无码一本到东京热| 中文字幕久久亚洲一区| 91丝袜美腿高跟国产极品老师| 色视频久久| 欧美区一区| 日本色综合网| 免费一级毛片在线观看| 福利小视频在线播放| 色天天综合久久久久综合片| 国产日产欧美精品| 欧洲熟妇精品视频| 欧美a在线| 91小视频在线播放| 黄色网在线| 国产精品视频观看裸模| 日本午夜精品一本在线观看| 综合五月天网|