謝光敏,羅光明,趙文杰,郭 妍
(四川水利職業技術學院信息工程學院,成都 610039)
隨著信息技術的不斷發展,大數據時代已經悄然來臨,人們將進入全新的生活,適應新的工作環境。2015 年國務院發布《促進大數據發展行動綱要》,明確了數據已成為國家基礎性戰略資源,要求抓住數據發展的機遇,有效推動科技、文化、教育等領域的發展[1]。高校作為集教學、科研、實踐、育人、管理為一體的綜合場所,在高校開展各項育人工作中會產生海量的數據,但絕大部分數據沒有得到充分的利用,導致許多問題無法解決。比如,學生學習效率不高、專業匹配度不高、就業率低等。因此,急需利用大數據技術來解決高校面臨的問題。
本文根據每個學生的能力水平、學習興趣、學習風格等數據,采用個性化的教學策略,讓每個學生得到最適合自己的教育方式,提高學生學習效率。也可以根據學生學習情況、考試成績、社會實踐,結合就業形勢來提高學生精準就業率,真正實現高校育人精準化。
大數據網絡育人平臺是一款能夠全面統籌科研、文化、課程、實踐、網絡各領域的育人資源和育人能量,實現高校育人工作互聯互通,協同協作的“新”平臺。當今社會,大數據技術已經成為人們邁向信息化、數字化必不可少的核心力量。本平臺通過數據采集、數據清洗、數據分析、數據可視化等技術[2]實現一個全方位的育人平臺。總體技術框圖如圖1所示。

圖1 大數據育人系統技術框圖
本文采用的數據采集工具為Kettle[3],其可以采集本地數據、單機數據庫數據、網頁數據,進行多源異構數據整合,得到一個更加完整的數據;與此同時,也能使后續的數據分析結果更加可靠,提高數據的價值,解決數據孤島問題。通過Kettle采集到完整的數據,數據中可能存在缺失值、重復值、異常值。針對存在的問題,采用Python 語言,結合Pandas和Numpy庫,來完成數據清洗,從而去除錯誤、不準確和不完整的數據,提高數據處理效率和數據準確性。對于清洗后的數據,我們可以采用聚類分析、關聯規則挖掘、異常檢測、特征提取、預測分析等方法來最大化地開發數據的功能,發揮數據的作用。最后通過圖形或圖表等可視化方式進行展示,以便于幫助數據分析者更好地發現數據中存在的規律和關系,加強對數據的理解。
常用的數據采集方法有網絡爬取、Kettle 工具采集。平臺主要用于學校育人管理,所以采用內網模式部署,因此網絡爬取的方式不適用于本平臺。由于數據是由學校官方提供,一般為文本數據(比如excel,csv文件)和數據庫數據(比如教務系統、財務系統、科研系統等信息化平臺)。因此,本文采用Kettle作為數據采集工具。
Kettle采集工具是由UI層、核心層和數據源層三部分組成,其中UI層由工作區、轉化/步驟控件、資源庫、作業控件和流程控制控件五部分組成。核心層的核心組件由作業(Job),轉換(Transform)和步驟(Step)三部分構成。可以支持JDBC/JNDI,LDAP,VFS,FTP,Mail,HTTP,WebService,SOAP 等格式的文件。數據源層則是由數據庫、文件系統、LDAP 對象和應用服務器組成,整個模型架構如圖2所示。

圖2 kettle工具模型架構
一般在以下三種情況下采集的數據需要進行數據清洗:第一種情況是數據存在缺失;第二種情況是數據存在重復或冗余;第三種情況是數據存在極端值或異常值。
1.3.1 數據清洗判定
數據存在缺失值的情況,可以通過熱流圖判定、info 方法判定、apply 方法統計缺失值等方式進行缺失值判定。數據存在重復或冗余,通過唯一標識符、數據哈希值進行重復值判定。數據存在異常值,通過均值標準差、上下四中位數中位差方式進行異常值判定。清洗方法判定如圖3所示。

圖3 數據清洗判定
1.3.2 數據清洗方法
數據存在缺失值可通過刪除法、填充法處理;數據存在重復值采用刪除法;數據存在異常值采用刪除、重寫等方法進行處理。清洗方法如圖4所示。

圖4 數據清洗方法
本文以提高學生學習效率為例,首先需要采集學生的學習數據,主要包括課堂表現、作業完成情況、考試成績、在線學習情況、課外活動情況、圖書館進出及圖書借閱數據等。學習數據需要經過預處理,包括數據清洗、特征選擇和數據歸一化等。
通過對學習數據進行挖掘,分析出學生的學習模式、難點和瓶頸,以及學習進度和效果等。數據挖掘過程大致分為如下步驟:
(1)聚類分析:通過聚類分析算法,將學習數據分為不同的類,從而識別出不同的學習模式和趨勢。例如,可以使用K-means算法[4]將學生分為優等生、中等生和差等生等不同的人群。
(2)關聯規則挖掘:通過關聯規則挖掘算法,找出學習數據之間的關聯性,從而發現學習對象之間的聯系和規則。例如,可以發現不同課程之間的關聯性,從而為學生提供交叉學科的學習建議和資源。
(3)異常檢測:通過異常檢測算法,識別和學習數據中的異常行為和趨勢,從而發現學生的學習異常行為和需求。例如,可以檢測出學生的異常成績和行為,及時發現學生的學習問題和需求。
(4)特征提?。和ㄟ^特征提取算法,從學習數據中提取有用的特征,從而更好地理解學生的學習行為和需求。例如,可以提取學生的學習時間、學習頻率、作業完成情況等特征,更好地理解學生的學習習慣和學習需求。
(5)預測分析:通過預測分析算法,利用學習數據預測未來的趨勢和結果,從而制定更好的學習計劃和策略。例如,可以預測學生的考試成績和職業發展方向,為學生提供科學的學習計劃、職業規劃,提高學校精準就業率等。
根據分析結果,為每個學生提供個性化的學習方案,例如,提供針對性的學習資源、學習建議和輔導等。通過實時監控學生的學習行為和成績,及時發現學生的學習問題,并給予相應的反饋和指導。定期分析學生的學習數據,評估學生的學習效果和進步,為學生學習計劃的調整提供參考。
經過上述數據分析結果,大數據一體化育人平臺可以為每個學生提供個性化的學習方案和實時反饋,從而提高學生的學習效率和效果。具體來說,平臺可以通過以下措施實現大數據技術提高學生學習效率和精準就業率:
(1)建立學生的學習檔案,全面記錄學生的學習情況和行為。
(2)利用數據挖掘技術,分析學生的學習數據,為每個學生提供個性化的學習方案和反饋。
(3)提供在線學習平臺,方便學生隨時隨地進行學習,并記錄學生的學習行為和成績。
(4)建立完善的數據分析系統,定期對學生的學習數據進行分析和評估,為學生學習計劃的調整提供參考。
(5)提供針對性的學習資源和建議,幫助學生更好地理解和掌握知識,提高學習效率。
通過以上措施,平臺可以利用大數據技術提高學生的學習效率和效果,為學生提供更加科學和個性化的學習服務,為學生提供更為精準的就業環境。
數據分析結果以更加直觀和易于理解的方式進行可視化展示,從而更好地利用數據來提高學生學習效率和精準就業率。下面列舉幾種常見的展示方式:
(1)趨勢圖:可以將學生的學習成績、學習時間、學習頻率等數據以趨勢圖的形式展示,從而展示學生的學習趨勢和變化。
(2)散點圖:可以通過散點圖展示學生的學習成績和學習時間之間的關聯性,從而展示學生的學習效率和效果。
(3)熱力圖:可以通過熱力圖展示學生的學習行為和習慣,如學習時間、學習頻率、作業完成情況等,從而展示學生的學習方式和習慣。
(4)柱狀圖:可以將不同課程之間的關聯性以柱狀圖的形式展示,從而展示課程之間的相互關系和影響。
(5)表格:可以將不同學習模式和趨勢以表格的形式展示,從而展示不同學習模式和趨勢之間的區別和特點。
通過以上方法,學??梢詫⑼ㄟ^大數據技術提高學生學習效率的分析結果以更加直觀和易于理解的方式進行可視化展示,從而讓用戶更好地利用數據來提高學生學習效率和精準就業率。
本文大數據育人平臺可通過多種方式將分析結果進行共享,便于授課教師、輔導員或管理員實時掌握分析結果。
(1)數據庫共享:將分析結果存儲在數據庫中,并設置相應的權限,使不同的人員可以根據自己的權限進行查看和下載。
(2)文件共享:將分析結果以文件的形式共享,并設置相應的權限和密碼,使不同的人員可以根據自己的權限進行查看和下載。
(3)鏈接共享:將分析結果以鏈接的形式共享,并設置相應的權限和密碼,使不同的人員可以通過鏈接直接查看和下載。
(4)電子郵件或即時通訊工具:將分析結果以電子郵件或即時通訊的方式發送給相應的人員,讓他們可以直接查看和下載。
大數據技術的不斷發展,使其在教育領域的應用也越來越廣泛。本文利用大數據技術構建一個高校網絡育人平臺,該平臺可以提高學生學習效率,提高精準就業率。
首先,平臺可以利用大數據技術分析學生的學習數據,包括課堂表現、作業完成情況、測試成績、在線學習行為等,從而了解學生的學習模式、難點和瓶頸,以及學習進度和效果等。
其次,平臺利用大數據技術可以為學生提供個性化的學習方案和反饋,根據學生的不同情況,提供針對性的學習資源、學習建議和輔導等,從而幫助學生更好地理解和掌握知識,提高學習效率。
此外,平臺利用大數據技術還可以預測學生的未來學習趨勢和職業發展方向,為學生提供科學的學習計劃和職業規劃建議,從而幫助學生更好地實現精準就業。
綜上所述,本文提出的網絡育人平臺利用大數據技術可以提高學生學習效率,從而提高精準就業率。學校可以通過建立學生的學習檔案、利用數據挖掘技術[5]分析學習數據、提供個性化的學習方案和反饋、預測未來學習趨勢和職業發展方向等方式,實現大數據技術提高學生學習效率的目標,為學生提供更加科學和個性化的學習服務。