劉金憶
(江蘇經(jīng)貿職業(yè)技術學院 江蘇 南京 210000)
學生的成績至關重要,是衡量一所高校教育成果的重要標準。如今,每一所高校都十分重視學生的成績問題,每年高等院校都會通過各種方式考核學生的學習成果,例如:舉行各種競賽、課堂回答問題、校內活動參與、舉行一學期一度的期末考試,這些考核方式的結果最終會根據(jù)一定的比例換算成分數(shù),都體現(xiàn)在教務系統(tǒng)錄入的學生成績單上。所以,現(xiàn)在的大多數(shù)高校雖然利用了互聯(lián)網(wǎng)技術收集了大量的學生成績,但當前存在的問題是對這些數(shù)據(jù)并沒有很好地利用,僅僅是簡單的查詢和統(tǒng)計,無法獲取成績之間隱含的大量信息,比如學生為何取得這些成績,開設課程之間以及學生的成績與課程的設置之間的聯(lián)系[1]。如何科學地解決學校安排與學生成績之間、教學計劃與提高成績之間的問題,更加充分合理科學地利用學生成績的寶貴數(shù)據(jù)資源,形成每一位學生獨特的“學生畫像”,為教學服務,為就業(yè)服務,為每一位學生的健康發(fā)展服務,是現(xiàn)在亟待解決的關鍵問題。
數(shù)據(jù)挖掘技術是一項充分利用了人工智能、模糊邏輯、神經(jīng)網(wǎng)絡、機器學習及數(shù)據(jù)統(tǒng)計等理論知識和方法技術的數(shù)據(jù)庫的核心技術。數(shù)據(jù)挖掘是從大量的、模糊的、繁雜的實際應用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的,但是極為有用的潛在信息和知識[2]。數(shù)據(jù)挖掘技術可以從繁雜的信息中提取有用的知識,實現(xiàn)信息之間的相互連接,有效地利用數(shù)據(jù)信息的寶貴資源。數(shù)據(jù)挖掘技術通常要經(jīng)歷數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)變換、數(shù)據(jù)挖掘、模式評估、知識表示等6個步驟[3]。數(shù)據(jù)挖掘技術的產(chǎn)生和發(fā)展對數(shù)據(jù)庫的實際應用起到了重要的作用,這項技術可以對數(shù)據(jù)庫的內容進行檢索、統(tǒng)計、分析,對數(shù)據(jù)信息資源加以整合,用來解決實際應用中的問題。另外,數(shù)據(jù)挖掘技術還可以通過智能的分析數(shù)據(jù)信息,找出信息與信息之間的聯(lián)系,從而發(fā)現(xiàn)一些事物在發(fā)展過程中的規(guī)律性。所以,利用數(shù)據(jù)挖掘技術可以有效分析事件發(fā)展的規(guī)律,抽絲剝繭,預測事件未來的發(fā)展方向。因此,在我國的高校教育方面,利用數(shù)據(jù)挖掘技術對高校學生的成績進行分析和預測,從而研究和總結出學生的專業(yè)能力和學習水平、學校課程設置和學生成績的取得之間的關系,是教學實踐中的明智之舉。
大多數(shù)科研項目的進行都離不開提出問題、假設條件的過程。與此相同,根據(jù)數(shù)據(jù)挖掘技術建立數(shù)據(jù)庫模型也離不開對提出的問題的探索,只有提出了具體的問題,模型才能根據(jù)問題給出相應的解決策略。在這一過程中,要求提出問題、進行假設時要充分了解數(shù)據(jù)挖掘技術,熟悉這一數(shù)據(jù)庫研究和建設的經(jīng)驗和知識,同時,還要有勇氣和創(chuàng)新力、想象力,大膽地進行假設,根據(jù)某一具體數(shù)據(jù)的數(shù)值,推斷出與之相關聯(lián)的信息,繼而要結合實際,小心謹慎地求證這些問題,得出結論。這一過程是實施數(shù)據(jù)挖掘技術應用于高校學生成績分析,建立相關數(shù)據(jù)庫模型的基礎,要求數(shù)據(jù)挖掘技術的研究者加強與相關領域的專家、學者相互溝通,充分協(xié)作。
一般情況下,收集數(shù)據(jù)的方法通常有“調查法”和“設計實驗法”兩種,“調查法”就是根據(jù)某一具體要求從特定的人群中得出的數(shù)據(jù)結果,有訪問調查、郵寄調查、電話調查、網(wǎng)上調查等。“設計實驗法”是根據(jù)研究主體的特點設置定量和相關變量,根據(jù)二者之間的關系得出大量數(shù)據(jù),之后,研究人員還要根據(jù)數(shù)據(jù)的規(guī)律和研究,填補缺失數(shù)據(jù)。這兩種方法各有其特點,在實際應用中可以靈活地選擇使用。按照以上兩種方法收集的數(shù)據(jù)繁多、較為雜亂,有個別異常數(shù)據(jù)的存在或者個別數(shù)值的缺失,這些都會干擾數(shù)據(jù)挖掘中的信息提取結果,因此,收集到足夠的數(shù)據(jù)之后就要對這些信息進行初步的處理。對于異常數(shù)據(jù)的出現(xiàn),可以在確定它的不合理性后,采用其他數(shù)據(jù)的平均值或者眾數(shù)進行測算,得出相近的、合理的數(shù)值結果進行替代。若存在缺位數(shù)據(jù),可以使用數(shù)據(jù)中的出現(xiàn)較多的數(shù)值或者根據(jù)平均值選擇最為可能的數(shù)值來填補空缺的數(shù)值。
一般而言,收集數(shù)據(jù)是為了得出數(shù)據(jù)之間的關聯(lián)并由此推斷出數(shù)據(jù)信息的發(fā)展規(guī)律,進而分析它們產(chǎn)生的原因和影響的因素。所以,在收集到數(shù)據(jù)并對它們進行了初步的處理以后就要仔細分析,根據(jù)研究的需要建立數(shù)據(jù)挖掘模型。在這一過程中,要求減少人為干擾因素,保持數(shù)據(jù)模型的科學性和客觀性,還要確保數(shù)據(jù)挖掘模型的實用性和準確性,使普通人經(jīng)過一般的學習就可以進行操作。在數(shù)據(jù)挖掘模型建設的科學性和準確性方面,要求數(shù)據(jù)模型開發(fā)者參考相關領域的資料,與相關領域的專家和學者進行合作,運用先進的建模技術,得出高精確度的、高實用性的數(shù)據(jù)挖掘技術模型。
數(shù)據(jù)挖掘技術不斷發(fā)展與進步,高校的數(shù)據(jù)庫建立也越來越完善,數(shù)據(jù)資源越來越多,然而大多數(shù)高校只是把這些統(tǒng)計的成績當作查詢和記錄的數(shù)據(jù),這是對資源的一種浪費。如同電商領域的用戶畫像用于精準定位目標客戶,學生畫像可以將“因材施教”做到極致。及時了解學生成績的影響因素和學校教育與學生成績之間的關系,這些是完成學生畫像繪制的重要環(huán)節(jié)。
高校學生成績由多種考察的結果構成,因此,最終影響學生成績的因素也較多,要利用數(shù)據(jù)挖掘技術對高校學生成績進行分析就要選擇合適的挖掘內容,確立建立數(shù)據(jù)挖掘技術模型的目標。在高校學生的成績構成中,可以選擇期末考試成績?yōu)榛A數(shù)據(jù),以研究影響學生期末考試成績的因素為目標,據(jù)此,建立數(shù)據(jù)挖掘技術模型,進一步分析和總結規(guī)律。
在數(shù)據(jù)挖掘技術模型中有多種算法,例如:分類分析、聚類分析、神經(jīng)網(wǎng)絡方法、決策樹算法等[4]。在這里,數(shù)據(jù)模型建設者可以采用決策樹算法,首先對數(shù)據(jù)進行分類,列出一組組的數(shù)據(jù),分析每一組挖掘數(shù)據(jù),建設出清晰的決策樹。最后,對決策樹的每一個分支進行更詳細的分析和補充,進一步得出學生成績的影響因素。
例如:將學生的期末考試成績分成4個等級,不同的等級對應不同的分數(shù)段,它們分別是“優(yōu)秀”,對應成績?yōu)?5分以上者;“良好”,對應成績在75分到85分的學生;“及格”,對應成績在60分到75分的學生;“不及格”,對應成績在60分以下的學生。根據(jù)這些標準把學生成績分為4組,之后再分析不同組的學生成績的影響因素。最后,根據(jù)以上分析和研究結果得出結論。
分析高校學生成績,就要充分挖掘和收集學生成績的信息。由于目前高校對學生成績的收集較多且極為完善,包括學生的平時課業(yè)成績、課堂考核成績、考試成績,所以,構建模型的學生成績數(shù)據(jù)可以直接從高校的成績數(shù)據(jù)庫中提取。另外,要分析影響學生成績的因素還需要收集學生個人狀況調查數(shù)據(jù),在這一方面可以班級或小組為單位,為保證數(shù)據(jù)的真實性,要統(tǒng)一收集獲取,在學生開班會,集體活動的課后,都可以進行收集。主要了解學生平時的生活習慣,他們對學習的興趣、對課堂聽講的參與態(tài)度、對學校課程安排的意見等,這些都是影響學生成績的關鍵因素。收集的數(shù)據(jù)可以利用表格或統(tǒng)計圖的形式表達,進行整理和分析,最后與學生的成績數(shù)值進行比較,從而得出結論,達到建立數(shù)據(jù)挖掘技術模型的目標。
收集過的數(shù)據(jù)和信息要進行整理和修正,在收集學生的成績數(shù)據(jù)時進行仔細核對、確保準確無誤即可,因為學生成績在導入高校教務系統(tǒng)的數(shù)據(jù)庫已經(jīng)有專業(yè)人員進行過整理和確認。而對學生的調查信息就要進行仔細的檢查和分類整理。在調查開始前就要選擇合適的方式,盡可能地保證學生們反映信息的真實性。為此,數(shù)據(jù)收集要先設計科學合理的問卷調查,不可以將選項固定在一定的范圍內,也不可以設置全部肯定或否定的答案,例如:問題:你對學習是否有興趣?選項:A非常有興趣;B比較有興趣;C一般興趣。這樣的問題設置不能完整地反映學生對學習的全部心理,是一個失敗的問題調查。
對于收集完成的信息數(shù)據(jù)要開始清理和修補,對于異常或是殘缺的信息數(shù)據(jù),無法修補,且結果影響較大的就要予以清除。對于可以修補的數(shù)據(jù),要利用平均信息或常數(shù)進行補充[4]。
當今是互聯(lián)網(wǎng)的時代,大數(shù)據(jù)的開發(fā)與應用是我國發(fā)展的重要內容,各個領域的發(fā)展都離不開數(shù)據(jù)的統(tǒng)計與處理,數(shù)據(jù)挖掘技術已經(jīng)滲透到各個行業(yè)的發(fā)展中。但在教育行業(yè),數(shù)據(jù)挖掘技術的應用還不夠廣泛,高校教務系統(tǒng)收集著大量的學生信息,合理運用這些珍貴的資源,通過對學生畫像的繪制更深刻地了解學生,是當前數(shù)據(jù)挖掘技術在教育領域應用的重點研究內容。本文結合當今時代發(fā)展,根據(jù)高校教育的實施狀況、數(shù)據(jù)資源的收集和管理狀況,從數(shù)據(jù)挖掘技術的實施方案方面分析,提出了數(shù)據(jù)挖掘技術應用于高校學生成績分析中的具體措施,其中包括選擇數(shù)據(jù)挖掘的主要內容和研究目標;構建合適的模型,進行分析;對研究數(shù)據(jù)的挖掘和收集;對學生成績和調查信息的預處理4個措施。雖然當前我國數(shù)據(jù)挖掘技術在高校數(shù)據(jù)系統(tǒng)里應用不夠完善,但經(jīng)過相關領域研究者的不斷努力,這種情況會得到改善。