胡繼明 辛海源 李揚陽 牛文鈺 付航
摘 要: 針對學生成績影響的問題,對學生成績和其所在的環境進行分析,找出學生成績影響的因素,首先運用爬蟲原理對所需數據的爬取工作,在爬取的過程中刪掉噪聲數據,保存有效數據,安裝Hadoop,Linux環境,進行聯機操作,對數據進行分析,最后制圖進行可視化工作。
關鍵詞: 數據收集;數據清洗;數據挖掘;數據可視化;
【中圖分類號】 G632 【文獻標識碼】 A【文章編號】 2236-1879(2018)14-0046-01
第一章 概述
1.1研究背景:
當今的學生成績在科技的發展下影響其成績的方式已經變得多種多樣,很多學生不知道自己被什么影響了學習成績,平時感覺學的很好,可考試時成績卻不稱心如意。而我們要做的就是分析出有哪些因素影響了學,為學生的成績的提高提供參考。
1.2 項目意義:
認識大數據,處理大數據,挖掘大數據的應用價值,從實踐中學習大數據技術是本項目學習和實踐大數據技術的重要意義。
第二章 大數據技術相關介紹
2.1數據收集。
利用網絡爬蟲從各個教育網爬取所需數據:對于爬取回來的網頁內容,可以通過re、beautifulsoup4等函數庫來處理,其中最重要且最主流的兩個函數庫:requests 和beautifulsoup4,它們都是第三方庫。requests 庫是一個簡潔且簡單的處理HTTP請求的第三方庫,建立在Python 語言的urllib3 庫基礎上。get()是獲取網頁最常用的方式。 Beautiful Soup提供一些簡單的、python式的函數用來處理導航、搜索、修改分析樹等功能。
2.2數據清洗。
數據的格式無法滿足我們的要求,或者是數據出現缺省值等,以至于達不到對數據處理的基本要求,需要對該數據進行預處理。數據集成通過實體識別、冗余和相關性分析來實現。
2.3數據挖掘。
從大量的、不完全的、有噪聲的、模糊的、隨機的實際數據中,提取隱含在其中的、人們所不知道的、但又是潛在有用信息。一般方法有決策樹方法、聚類方法、數學建模法等。根據數據的大小、形式等用不同的方法挖掘潛在的有價值的信息。
2.4數據可視化。
借助于圖形化手段,繪制折線、柱形、扇形、雷達圖等,清晰有效地傳達與溝通信息。數據可視化與信息圖形、信息可視化、科學可視化以及統計圖形密切相關。數據可視化技術包括:數據空間、數據開發等。
2.5環境搭建。
在虛擬機上裝好 Ubuntu 系統,在Ubuntu上安裝必要的python,java,Hadoop環境,java可以選用系統自帶的Java環境配置,python我們選用的是python3.6。
第三章 分析方法總結及結果展示
3.1 學生成績分類標號。
對爬蟲方式收集的數據。將獲得的數據進行標號,對是否是班干部的同學進行標注,是班干部為1,不是為0,家境,教育資源等因素都標號,任何一個因素都標號為1或0。
3.2對學生成績進行分類。
為了實現分析我們將學生成績逐級從低到高分為5類,首先我們分析學習在優良以上的學生情況,從側面反映出學習差的原因
從中我們選取百分制分數60-100段來分析我們對學生家境進行了0和1標號,對家庭富裕的學生進行標號
家庭有車有房為家境較好的
一線城市為教育資源較好的
0代表家境很好的學習成績差的,1代表學習成績好的家境也好的,運用python進行可視化操作進行繪圖。
如上圖所示家庭條件好的,學習成績好的占優勢。
在對家庭條件不好的學生進行標號,0代表學習差的,1代表學習好的,同樣運用python進行可視化操作的如圖所示:
同樣可以看出學習好學生的比例反而比家境好學習好的占的比例更高了。
從圖中可以看出家境好的學習好的人數明顯比家境不好的學習人數多了很多。對這個問題我們進行了分析發現家境不好,學習不好的學生早早出去打工了。
我們還對學生是否當班干部進行了分析發現學生學習好的占了很大一部分比例,經過分析發現大部分學生都是學習好了之后才當上班干部的。從而來促進學生的學習。我們又對不同的地區城市的成績進行了分析,發現城市越發達學生成績好的比例越高。最后發現在外在原因越有利的情況下學習好的比例越高,這個結果也很符合道理。
第四章 總結概括
4.1項目總結。
系統的分析方法可以有效地挖掘出學生成績背后所蘊含的價值,提供衡量校園教學質量信息,讓學生更好的掌握專業技能,幫助學生提高學習效率,提升學習質量,為社會提供更多的價值。
4.2結束語。
本文論述了大數據技術對學生學習成績的分析,大數據技術僅是分析學生學習成績的一種手段,通過數據采集、數據處理、數據清洗、數據挖掘、數據可視化對學生學習成績進行分析,在分析數據的同時挖掘出隱藏在數據背后的價值,以便學校更好地制定教學計劃。
參考文獻
[1] 羅福強 李瑤 陳虹君.大數據技術基礎——基于Hadoop與Spark[M].人民郵電出版社.2017-05
[2] 肖睿 雷剛躍.Hadoop & Spark 大數據開發實踐[M].中國水利水電出版社.2017-07-01
[3] Tom Wbite.Hadoop 權威指南[M].華東師范大學數據科學與工程學.2017-07-01
[4] 劉增杰.MySQL 5.7從入門到精通(視頻教學版).清華大學出版社.2016-08-01
[5] 明日科技.Java精彩編程200例 全彩版.吉林大學出版社.2017-09-01
[6] 張良均,王路,譚立云,蘇劍林.Python數據分析與挖掘實戰.機械工業出版社.2015-11-01
[7] 明日科技.零基礎學Android.吉林大學出版社.2017-09-01