錢輝煌 朱國華 吳芬
摘要摘要:數據挖掘是指從大量數據中,通過算法搜索隱藏于其中的信息的過程,通過將數據轉化為信息,實現數據的價值。以江漢大學數學與計算機科學學院學生為研究對象,通過數據挖掘分類預測分析數據信息,以Rapidminer軟件作為分析工具,采用關聯分析和神經網絡算法,對成功考研學生的群體特征進行分析,研究學習成績、身體素質、性別、專業差別對考研結果的影響。
關鍵詞關鍵詞:數據挖掘;關聯分析;神經網絡算法
DOIDOI:10.11907/rjdk.162876
中圖分類號:TP391
文獻標識碼:A文章編號文章編號:16727800(2017)005014303
0引言
“考研熱”已經成為一種社會現象,并持續升溫。為進一步了解當代大學生的考研現狀和成功考取研究生的因素,展開此次實驗研究,研究對象為江漢大學數學與計算機科學學院(簡稱數計學院)的學生,通過數據挖掘分析,得出哪些因素會影響大學生成功考取研究生。因收集數據量較少,本文將從收集到的數計學院2012級學生的學習成績、身體素質測試成績、考研錄取情況和基本信息等這些數據中,選取大學四年加權平均成績、身體素質測試成績、性別和專業差別這幾方面展開分析。
數據挖掘是從海量數據中發現有趣模式的過程。作為知識發現過程,它通常包括數據清理、數據集成、數據選擇、數據變換、模式發現、模式評估和知識表示這6個方面[1]。其中前4個是數據預處理的不同形式,是為挖掘準備數據,本文將依次介紹本次數據挖掘實驗的具體分析過程。
本次實驗基于Rapidminer 軟件的數據分析平臺,將收集的數據進行數據預處理(數據清理、數據規約、數據集成和數據導入)[2],研究各數據項與成功考取研究生的關系。實驗研究發現,考研成功除去與學習成績相關外,還與身體素質、性別和專業差別相關。此次實驗研究結果可為學校指導學生考研提供參考。
1相關算法
本次數據挖掘運用了目前常用數據挖掘算法中的兩個算法:關聯分析和神經網絡算法。
(1)關聯分析(Association Analysis)。現有的關聯分析算法有基于概率相似度的關聯方法、基于機器學習的關聯方法、基于Bayesian分類器的關聯方法及基于先決條件的關聯方法等。基于機器學習的關聯方法只能對存在于線程中的數據進行關聯,無法對未知數據進行關聯,導致最后的分析結果存在較大誤差。而基于Bayesian分類器的關聯方法雖然時效性很好,但關聯需要的知識依賴于知識庫,無法獲得計算所需的先驗概率和條件概率[3]。
(2)神經網絡(Neural Network)。人工神經網絡是一種通過模仿生物神經網路的工作特征進行分布式信息處理的算法數學模型。神經網絡是目前具有非常強大的預測功能的一種算法模型。一個完整的神經網絡由輸入層、隱含層和輸出層組成,而每一層都由多個神經元組成[4]。
2數據預處理
噪聲是數據結果出現偏差的原因之一,由于采集的數據中有噪聲影響因素,因此要對采集到的數據進行去噪處理,有效的數據預處理可以提高數據挖掘實驗的準確率,經過系統導出來的原始數據存在不一致、不完整和噪聲,根據實驗需要,排除其它不良可忽視因素,結合教學實踐對學生數據空缺、不一致數據進行數據預處理操作。
本次實驗數據源是江漢大學數計學院2012級學生在校四年加權平均成績、身體素質測試各項成績、考研錄取情況和基本信息。基本信息中包含3個專業:數學與應用數學、計算機科學與技術、網絡工程。身體素質測試項目有:身高、體重、肺活量、50米跑、立定跳遠、1000/800米跑、坐體前屈、仰臥起坐/引體向上。數據庫極易受噪聲、缺失值和不一致的侵擾,數據庫龐大并且大多數是來自多個異種數據源。低質量的數據會將導致低質量的挖掘結果,引起數據的具體真實性偏差[5]。因此,本次實驗進行數據預處理主要為3個方面:一是缺失數據(數據屬性中部分記錄顯示為空),二是噪聲數據,三是重復數據(數據屬性相同的記錄)[6]。
本次實驗數據預處理因數據量小,故采用Excel進行初步簡單處理。首先針對考研錄取情況、身體素質測試各項成績、學習成績、基本信息4個表將學號作為關鍵字整合到1個表中,數據收集過程中會有部分數據不完整,因此需將信息殘缺的元組和與此次實驗無關的屬性都剔除;其次數據要符合算法要求,部分文字表達的數據是不符合的,故將其用數字來代替,如男、女分別用0、1表示,3個專業數學與應用數學、計算機科學與技術和網絡工程則分別用0、1、2表示,考研錄取情況用0、1分別表示未錄取和錄取;最后需構建一個預測模型進行預測,需訓練數據集和預測數據集,故從整合后新生成的數據表中隨機抽取10個元組作為預測數據集,其余作為訓練數據集。這是簡單的數據預處理,后面將會運用關聯分析進一步對數據進行處理。
3數據挖掘平臺Rapidminer
RapidMiner(前身是Rapid-I,YALE)是一個十分流行的開源數據挖掘軟件,近年來變得非常受歡迎,并得到了一個大型社區的支持。其視覺吸引力、用戶友好的GUI(圖形用戶界面)和基于WiKi的上下文幫助,允許輕松使用和快速學習曲線。它有多個擴展提供數據和適合于特定的預定義過程應用領域(例如營銷、金融等)和社區,在RapidMiner“市場”上分享流程非常活躍。
RapidMiner的一個重要優勢是其在過程設計中的靈活性,通過“過程/子過程”結構和“宏”表示環境的全局變量,這使得復雜過程的可視設計和高水平自動化得以實現。RapidMiner還提供大量的機器學習算法,用于預處理和可視化的工具包括大多數Weka算子和用于合并定制的R和Python腳本的簡單工具。并且,對深度學習方法和一些更先進的特定機器學習算法(例如,極端隨機樹)的支持目前受到限制,但是可以通過并入R和Python腳本加以解決[7]。
4數據建模
4.1數據導入
經過數據預處理的訓練數據集導入Rapidminer平臺,在屬性類型設置時將考研錄取情況屬性類型設置為Binominal類型,作為實驗預測對象,如圖1所示。
4.2關聯分析
通過關聯分析算法對數據進行建模,調用Set Role和Correlation Matrix算子得到所需要的關聯系數矩陣,進一步對數據進行處理。本次實驗采集數據量較少,故相關系數普遍偏小,經過多次實驗嘗試,發現剔除相關系數小于0.05的屬性,得到新的數據集再通過神經網絡算法建立的預測模型最為準確,如圖2所示。
4.3神經網絡模型建立
通過上述關聯分析得到相關系數,可以在接下來建模時通過調用Select Attributes算子來選擇合適的屬性(將相關系數小于0.05的屬性,如肺活量和坐體前屈屬性剔除)形成新的數據集。姓名屬于不相關屬性但可用來識別元組,因此調用Set Role算子將其設置為id屬性用來識別,考研錄取情況屬性為要預測屬性故將其設置為Label屬性,最后調用Neural Net算子建立神經網絡模型,如圖3所示。
4.4模型驗證及預測
將預測數據集導入Rapidminer平臺中,將其屬性進行篩選和設置,調用Apply Model算子應用神經網絡模型,將其連接全部,如圖4所示。
運行程序得出預測結果,對得到的預測模型進行驗證和判斷,預測數據集的學生考研錄取情況,如圖5所示。
5實驗結果分析
如圖5所示,從得出的預測結果可以看出,預測結果的置信度較高,且預測值與實際值一致,說明該預測模型較為成功。在作關聯分析得出相關系數矩陣時,選取多大相關系數為合適屬性時不能按常規方法,因為本次實驗的數據量較小,而且數據項較少,得出的相關系數也較小,所以只能逐個剔除當前最小相關系數屬性進行建模,將結果一一對比,最后得出保留大于0.05相關系數的屬性最為合理。
由圖2可知,四年加權平均成績的相關系數最高且為0.260,呈正相關,表明學習成績對于考研是重中之重。考研不僅是最后一年的沖刺復習,同樣要注重大學四年平時的學習和知識積累。
其次身體素質成績中的健康成績、立定跳遠成績、1000米/800米成績相關系數都在0.100左右,其中1000米/800米成績相關系數是-0.128。驗證那句俗語“身體是革命的本錢”,在備戰考研的同時,不能以犧牲身體為代價,要加強鍛煉,以提高身體的各項基本素質,特別是長跑,其相關系數在這些身體素質測試項目中略高一籌,在考研備戰期間制定一個合理的運動計劃也尤為關鍵。
再是專業,其相關系數為-0.125,數據顯示網絡工程專業選擇繼續攻讀碩士研究生人數最少,根據進一步調查了解,更多這個專業的學生選擇畢業后直接找工作,因就業前景好,而數學專業選擇考研的人數最多,說明專業差別和就業情況也決定是否選擇考研及最后能否成功考取。
最后是性別,從采集的數據得知,考研成功的學生中女生占很大比例,并且其相關系數為0.144,說明性別也是成功考取研究生的一個因素,并且在漫長的備戰考研中女生更容易堅持下來并取得成功。
6結語
本次研究針對采集到的江漢大學數計學院2012級學生的數據,利用關聯分析算法對預處的數據作進一步處理產生新的數據集,提高預測模型的準確率,最后運用神經網絡算法得出預測模型,并用預測數據集進行驗證。實驗結果表明,影響學生成功考取研究生的因素不僅包括學習成績,還與性別、專業、身體素質相關。最后的預測模型和驗證也證明,本次實驗結果具有可參考的準確性,實驗結果能夠對學校輔導員指導學生考研提供部分依據和建議。但本次實驗也存在數據量偏小、數據偏少等方面的不足,以后可收集更多數據,進一步深入探究,得出更為實質性的結果,提高模型準確率。
參考文獻參考文獻:
[1]HAN JIAWEI,MICHELINE KAMBER.數據挖掘:概念與技術[M].第3版.北京:機械工業出版社,2012.
[2]黃炎,王紫玉,黃方亮.數據挖掘技術在高校學生成績分析中的應用與研究[J].蘭州文理學院學報:自然科學版,2016,30(3):6468.
[3]李燕,曹寶香,馬兆豐,等.關聯分析算法在安全管理平臺中的研究與應用[J].計算機技術與發展,2013,23(10):107110.
[4]徐京薇,謝人超,黃濤,等.基于神經網絡算法的ICN網絡傳輸控制研究[J].重慶郵電大學學報:自然科學版,2016,28(4):539544.
[5]HAN JIAWEI,MICHELINE KAMBER.數據挖掘:概念與技術[M].第3版.北京:機械工業出版社,2012.
[6]徐俊,夏驕雄,周時強.數據斷層分析在廣播電視臺數據處理中的應用[J].計算機應用與軟件,2016,33(9):40.
[7]SVEN VAN POUCKE,ZHONGHENG ZHANG,MARTIN SCHMITZ,et al.Scalable predictive analysis in critically Ill patients using a visual open data analysis platform[J].Plos ONE,2016,11(1):421.
責任編輯(責任編輯:孫娟)