鐘志宏



摘 ?要:通過收集、整理和預處理,獲得較為完整的計算機類畢業生信息數據;分析專業、性別、社會實踐與政治理想、獲取精準扶貧助學金、違規違紀處分、畢業情況等各種因素對學業的影響,進而得到地方本科高校計算機學科教學管理的若干有意義的指導與建議,為學生在校期間的學業做出預測性的評估與預警。
關鍵詞:數據分析;學業預測;計算機教育;地方本科高校;SPSS
中圖分類號:G640 ? ? ? ?文獻標志碼:A ? ? ? ? ? ? 文章編號:2096-000X(2021)19-0052-05
Abstract: By collecting, sorting and preprocessing, this paper obtains more complete information data of computer graduates. Then, the paper analyzes the influence of various factors on academic performance, such as major, gender, social practice and political ideal, targeted poverty alleviation grant, disciplinary punishment and graduation. In the end, some meaningful guidance and suggestions on the teaching management of computer discipline in local universities are put forward, and predictive evaluation and early warning are made for students' academic performance during the school period.
Keywords: data analysis; academic prediction; computer education; local universities and colleges; SPSS
一、問題的提出
隨著我國工業2025和智能制造戰略的提出,以及信息產業“自主可控”的現實意義越來越迫切,高素質信息技術人才成為左右國家政治命脈、經濟發展、軍事強弱和文化復興的關鍵因素。覆蓋了互聯網、軟件開發、硬件設計、云計算、大數據、人工智能等相關專業的計算機教育近年來得到了快速發展。據統計,目前我國也有1200個院校開設了計算機類相關本科專業,其中,“985”“211”院校占15%左右,地方本科院校占85%左右[1]。地方本科院校的計算機類專業人才培養,構成了我國信息產業人才的基礎,為區域經濟社會發展提供了重要智力支持和人才支撐。地方本科院校的生源素質與師資水平,決定了其辦學定位及人才培養目標,當前地方本科院校的計算機類專業均以就業為導向、以應用型為目標的人才培養,以滿足社會發展與需求。
此外,學生在校期間的學業受多種因素的影響[2],而地方本科院校由于生源情況相關影響更為顯著;學校積極利用這些影響因素對學生在校期間學習生活進行指導與激勵,能夠有效提高學生的學業成績;同時,也能夠根據相關因素可能導致的不利結果,對學生做出學業和生活上的合理干預與預警,從而確保學生順利、高效的完成學業,達成人才培養目標[3]。
二、分析研究方法
數據分析與數據挖掘成為進行復雜問題分析的重要方法,通過對客觀真實的數據進行分析,不僅能對預設問題進行合理解釋,也能發現隱藏的新問題。數據分析與數據挖掘方法在教育領域得到了廣泛應用[4-5],促進了教育問題的量化分析,成為制定教育教學各方面決策的主要依據。
本文通過對獲取我院2020屆計算機類專業畢業學生的學業進展數據、黨員發展數據、畢業認證數據、精準扶貧獎學金數據、班級班干成員數據等進行數據集成,然后利用SPSS軟件對數據信息綜合分析[6],力求獲得專業、性別、社會實踐與政治理想、獲取精準扶貧助學金、違規違紀處分、畢業等各種因素對學業的影響,進而總結出有意義的結論與建議。
三、數據準備
數據準備(數據預處理)是數據分析的前提,合理的、高質量的樣本信息是分析結果準確、有效的保證。在數據預處理中,綜合使用了多種手段和工具,如C語言、Access數據庫、SPSS、掃描儀、文字識別軟件等。數據預處理的基本過程如圖1所示。
(一)數據抽取
分析研究涉及到2020屆畢業生的學業進展、黨員發展、畢業認證、精準扶貧獎學金、班級班干成員等數據,這些數據來源于不同的系統和渠道、以多種文件格式(包括數據庫表、Excel、CSV、文本文檔、數據圖片、紙質文檔等)存儲。數據抽取時,將不同渠道獲取的數據均以畢業生的“學生編號”作為標識屬性存儲在不同的數據表中,并存入用于數據初步處理的Access數據庫中。
在上述過程中,處理的難點在于非機構化存儲的文本文檔、圖片和紙質文檔,本文采用的處理方法如下:
1. 對于非結構化存儲的文本文件,編寫字符過濾程序對數據進行格式化。
2. 對于紙質文檔,首先利用掃描儀數字化以PDF文檔形式存儲在計算機中,再通過文字識別軟件進行識別以獲得文字,最后對獲得的文字進行核對及數據格式化。圖片文件采用相應的處理方式。
(二)數據集成
通過數據抽取,將不同渠道信息存儲在Access的不同數據表中,并經過簡單的處理及分析。然后,將Access中的數據表導入SPSS分析軟件,利用“變量合并”功能將多個表中的信息根據“學生編號”標識進行數據合并;合理設計合并后數據表中的變量屬性:數據類型、寬度、小數點位數、標簽、值、度量標準、角色等,最后以SPSS支持的“sav”格式保存數據;通過數據的規范化,便于后續在SPSS中進行數據分析。