999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數據驅動下高校學生社會適應力研究

2020-07-27 16:25:36耿嶠峙徐菲淦亞婷安心然張湑行
現代信息科技 2020年6期
關鍵詞:灰色關聯分析

耿嶠峙 徐菲 淦亞婷 安心然 張湑行

摘要:文章以天津商業大學理學院數學系學生為研究對象,提出了一種主要依據學生社交網絡平臺數據的社會適應力預測模型:基于因子分析一灰色關聯法的隨機森林模型,分類準確率達到78.43%。結果顯示學生的學習行為以及線上發布與評論行為具有較強的類型識別度,為高校開展就業創業教育工作、實現高等教育“依數治理”提供參考依據。

關鍵詞:高校學生;社會適應力;因子分析;灰色關聯分析;隨機森林

中圖分類號:TP183;G449.5? ? 文獻標識碼:A? ? 文章編號:2096-4706(2020)06-0021-04

0? 引? 言

20世紀80年代到20世紀末,數據挖掘技術開始應用到教育領域[1],起初運用的研究方法比較簡單,研究成果較少。而本世紀初至今,隨著互聯網技術的發展,教育研究技術得到了進一步發展,采用的數據挖掘技術也變得更豐富。

如今大學生畢業率逐年上漲,根據人力資源和社會保障部數據,2019年我國高校畢業生總數為843萬,相較于上一年增長23萬。因此對于學生來說,建立清晰的自我認知,逐步提高社會適應力以面對日益嚴峻的就業形勢也就尤為重要;對于高校來說,如何獲取并合理評估學生的多方面信息,并據此對學生進入社會進行干預引導,仍需要探索有效路徑。

1? 相關研究綜述

社會適應力是根據生活或職業角色變化而助推個體發展的能力,是個體交互的結果[2]。本文是指高校學生從學校進入社會所需要具備的融入社會的能力。

在相關研究上,崔秋月[3]從體育運動入手,通過文獻資料法、訪談法、問卷調查法研究高校學生社會適應力,得出學生參與體育項目有利于提升學生的社會適應力,且在各類運動中,集體性運動效果更好。胡志偉[4]通過文獻研究法、辯證分析法、問卷調查法、個案分析法研究高校學生網絡人際關系來探究高校學生的社會適應力,得出好的網絡人際關系有利于提升學生的社會適應力。

綜上所述,以往對學生社會適應力的研究大多從心理學、經濟學、教育學等角度出發,在方法上常使用問卷調查法、文獻研究法,較少關注學生的客觀行為數據,尤其是在互聯網平臺留下的信息。因此,本文立足于學生的社交網絡平臺數據,運用機器學習算法對學生個性化的社會適應特征進行預判。研究結果對高校學生畢業后職業發展以及高校制定培養方案具有重要意義。

2? 數據來源及預處理

本文以本校2017級數學系學生為研究對象,在征得學生本人的同意下利用Python爬蟲技術獲取102名學生的社交網絡平臺(騰訊QQ)記錄;同時,在學生教務管理平臺以及發放的問卷中獲取學生的成績數據、行為數據等;以教育部編制的《中國大學生適應量表》[5]的部分題項為基礎,對學生的社會適應力進行測量并打分。

對采集的數據進行初步處理,首先刪除重復值和異常值,其次運用平均值法填補缺失數據,各部分字段以學號作為主鍵連接,進一步提取學生屬性以及篩選有效變量。

3? 研究過程

建立基于因子分析-灰色關聯法的隨機森林分類器:首先運用因子分析對經過預處理的數據進行屬性提取,然后在各屬性內運用灰色關聯分析篩選有效變量以降低維度,最后建立隨機森林模型并對其預測性能進行評價。

3.1? 學生屬性提取

為去除原始變量存在的復雜內部關系,首先進行因子分析,提取出幾個公共因子用于后續的模型建立。其中KMO值大于0.5,且Bartlett檢驗顯著,保留特征值大于1的公因子,如表1所示。

根據因子旋轉后的成分矩陣,提取出6個屬性,對其分別命名為:線上發布屬性、線上評論屬性、學習行為屬性、消費屬性、校內表現屬性、線下社交屬性,之后我們將在這6個屬性下對高校學生社會適應力進行研究。

3.2? 有效變量篩選

對提取的6個屬性中的19個指標,進一步作降維處理。鑒于學生的行為數據與社會適應力并非簡單的線性相關關系,故采用灰色關聯分析法。我們通過計算社會適應序列和行為特征序列之間的關聯系數和關聯度,實現對有效變量的篩選。同時為保證后續模型中對學生刻畫的完整性和多樣性,我們只在相同屬性中排序比較關聯度,具體如下:

(1)參考序列:社會適應力得分{x01,x02,…,x0n}

比較序列:各屬性的指標 (k=1,2,…,6)

(2)對于非時間序列數據的處理,區間值化:

(3)計算關聯系數:

(4)計算關聯度:

經查閱文獻,灰度關聯分析的ρ值為分辨系數,一般取值為0.5,因此本文ρ取值為0.5,計算得出各指標與社會適應力的關聯度并進行排序,結果如表2~表4所示。

分別選取6個屬性中排序在前兩位的變量,并且依據屬性內關聯度的接近程度進行適當的添加、去除,最終有10個變量作為輸入變量進入后續模型,分別為:評論回復比例、不同設備數、圖片數、總說說數、表情數、課堂專心時長、每周自習時長、每月餐飲消費、第二學年加權成績、每周兼職時長。

3.3? 隨機森林模型建立

3.3.1? 模型建立

本研究選用隨機森林(Random Forest)算法構建學生社會適應力分類模型,這是一種基于決策樹的集成學習分類算法。算法流程如下:

Step1.對訓練集采用自助法抽取n個訓練樣本子集,建立ntree=n棵決策樹。

Step2.在訓練一棵決策樹的過程中,考慮一個分裂節點,隨機在全部m個變量中選擇mtry=m個變量作為候選分裂變量。

Step3.對生成的n棵決策樹分類結果進行投票,輸出最終預測類別。

讀取全體數據集,首先以社會適應力得分(score)的下側0.4分位數為界,構建二分類變量,如式(1),對學生的社會適應力類型進行標記。然后按照1:1進行隨機抽樣,劃分訓練集與測試集,抽取的兩樣本中分別有37.25%、43.14%被標記為1,代表社會適應力相對較弱的學生群體。

其中q0.4為score的下側0.4分位數。

根據篩選后的10個有效變量,用R軟件對訓練集D建立隨機森林模型。該模型需要調整兩個參數:決策樹個數(ntree)、分裂點選擇變量個數[6](mtry)。采用網格搜索選取最優參數為:ntree=10 000,mtry=6。

3.3.2? 模型評價與檢驗

(1)查全率、查準率與F1指標。運用上述模型對測試集中51名學生的社會適應力類型進行識別,得到混淆矩陣如表5所示。

表5? 測試集混淆矩陣

模型的整體正確率為78.43%,進一步由式(2)~式(4)計算得到其他準確性度量指標,查全率、查準率與F1值分別為:77.27%,73.91%,75.56%。

(2)ROC曲線與PR曲線。考慮到模型在兩類學生預測準確率上的差異性,以及我們更關注對正例(即社會適應力較弱)學生的識別能力,故引入ROC曲線與PR曲線對模型性能進行可視化的綜合評價,如圖1所示。

ROC曲線靠近圖形的左上角區域,同時曲線下方面積即AUC指標值為0.855 799,接近完美分類器的理想值1;PR曲線在平衡點時模型的查全率與查準率相等,且位于0.7上方,可認為模型能夠在誤報率處于低水平時盡可能多的將正例識別出來。綜上,模型在測試集中表現的性能良好。

(3)十折交叉驗證。本文采用十折交叉驗證對模型進行檢驗,該方法在訓練時用到了大部分的原始數據:將全部學生數據平均劃分為10折,在前9折擬合模型,用第10折測試,重復此步驟10次并求得平均正確率為76.67%,表明模型在未知數據中具有一定的泛化能力。

3.4? 模型結果

進一步分析變量對學生社會適應力的影響程度,以影響最大的變量為基準計算各變量相對重要性如圖2所示。由圖可得到位于前五的變量,其中,每周自習時長和第二學年加權成績隸屬于學習行為屬性和校內表現屬性,處于第一梯隊,是關鍵分類因素;其次,總說說數與圖片數、評論回復比例隸屬于線上發布屬性與評論屬性,作為補充因素。可以推斷,不同社會適應水平的學生群體,可能在社交平臺中表現出不同的行為特點。

4? 結? 論

社交網絡平臺中記錄了豐富的學生數據,這些數據建立在學生本人與平臺以及他人的交互過程之上,區別于傳統的數據風格。本文運用爬蟲技術采集這類數據,并結合其他行為數據,嘗試挖掘其中潛藏的規律,將其作為預測變量放入模型。研究結果顯示學生的學習行為、校內表現屬性以及線上發布、評論屬性具有較強的類型識別度,表明這類行為特征與學生的社會適應力存在一定程度的關聯性。

根據本文的研究思路,我們可以將學生的評價結論反饋至學生與高校雙方,進一步應用到高校就業創業教育決策中,促進個性化、信息化的教學發展,完善教育體系。并且,在今后的研究中,可以考慮獲得更多源的學生數據,如家庭背景數據、圖書館借閱數據、微博點贊數據等;或者對比選擇不同的機器學習算法,優化模型性能。

參考文獻:

[1] 周慶,牟超,楊丹.教育數據挖掘研究進展綜述 [J].軟件學報,2015,26(11):3026-3042.

[2] 孫麗璐,曾飛揚,汪韶源.大學生社會適應力模型研究——以“95后”大學生為例 [J].四川理工學院學報(社會科學版),2016,31(1):20-29.

[3] 崔秋月.體育運動對大學生社會適應能力影響的研究 [D].蘇州:蘇州大學,2013.

[4] 胡志偉.大學生網絡人際關系對其社會適應力影響研究 [D].哈爾濱:哈爾濱理工大學,2017.

[5] 教育部《大學生心理健康測評系統》課題組,方曉義,沃建中,等.《中國大學生適應量表》的編制 [J].心理與行為研究,2005(2):95-101.

[6] 方匡南,吳見彬,朱建平,等.隨機森林方法研究綜述 [J].統計與信息論壇,2011,26(3):32-38.

作者簡介:耿嶠峙(1983-),男,漢族,河南新鄉人,講師,博士研究生,研究方向:大數據分析,教育大數據;徐菲(1998-),女,漢族,山西大同人,本科在讀,研究方向:應用統計;淦亞婷(1997-),女,漢族,江西九江人,本科在讀,研究方向:統計學;安心然(1998-),女,漢族,河南焦作人,本科在讀,研究方向:數學與應用數學;張湑行(1999-),男,漢族,河南鄭州人,本科在讀,研究方向:信息與計算科學。

猜你喜歡
灰色關聯分析
內蒙古產業結構與經濟增長的動態關系研究
運動員組織承諾水平的評價與提升策略
新疆向西開放度與經濟增長灰色關聯分析
基于灰色關聯分析的制造企業跨國并購財務決策
秸稈資源化對吉林省經濟結構的影響研究
中國能源消費與經濟增長關系研究
時代金融(2016年30期)2016-12-05 19:01:53
基于灰色關聯分析的京津冀區域物流一體化協同發展
探究區域碳績效評價體系
中國市場(2016年30期)2016-07-18 05:05:12
海南省第三產業及其子行業對經濟增長的作用分析
中國市場(2016年20期)2016-06-12 04:45:59
甘肅省農產品物流與其影響因素關系的實證研究
商(2016年13期)2016-05-20 10:22:02
主站蜘蛛池模板: 日韩一级毛一欧美一国产| 欧美日韩第三页| www精品久久| 手机在线免费不卡一区二| 玖玖免费视频在线观看| 久久综合国产乱子免费| 青草精品视频| 秋霞午夜国产精品成人片| 国产电话自拍伊人| 香蕉综合在线视频91| 91青青草视频| 青草午夜精品视频在线观看| 好吊妞欧美视频免费| 国产成人在线无码免费视频| 欧美激情视频一区二区三区免费| 色妺妺在线视频喷水| AV在线麻免费观看网站| 青青草91视频| 国产激爽大片高清在线观看| 午夜影院a级片| 久久这里只有精品国产99| 尤物精品国产福利网站| 欧美精品啪啪| 成人91在线| 久久人搡人人玩人妻精品| 亚洲国产中文精品va在线播放| 午夜a级毛片| 日本AⅤ精品一区二区三区日| 国产91av在线| 国产微拍精品| 国产成人久久综合一区| 久久亚洲中文字幕精品一区| 国产激情无码一区二区三区免费| 日韩欧美国产成人| 色色中文字幕| 国产精品妖精视频| 免费国产黄线在线观看| 成人国产精品网站在线看| 亚洲国产精品成人久久综合影院| 国产精品大尺度尺度视频| 97在线碰| 激情亚洲天堂| 免费在线国产一区二区三区精品| 2018日日摸夜夜添狠狠躁| 在线观看国产精美视频| a天堂视频在线| 日本高清在线看免费观看| 26uuu国产精品视频| 国产欧美成人不卡视频| 黄色在线不卡| 久久精品国产999大香线焦| 国产超碰一区二区三区| 国产大片喷水在线在线视频| 99视频全部免费| 丁香婷婷激情网| 国产极品美女在线观看| 最近最新中文字幕在线第一页| 四虎免费视频网站| 国产小视频a在线观看| 亚洲中文字幕在线一区播放| 久久国产精品嫖妓| 99人妻碰碰碰久久久久禁片| 亚洲人成在线精品| 亚洲视频色图| 国产91透明丝袜美腿在线| 全部免费毛片免费播放| 久久精品免费看一| 日本爱爱精品一区二区| 日a本亚洲中文在线观看| 欧美性精品| 久久国产成人精品国产成人亚洲| Aⅴ无码专区在线观看| 精品伊人久久久香线蕉| 成人福利在线视频免费观看| 人妻夜夜爽天天爽| 久久国产香蕉| 麻豆精品在线| 尤物在线观看乱码| 综合色在线| 亚洲国产欧美国产综合久久| 老司国产精品视频91| 亚洲第一香蕉视频|