蔣永旺 江蘇護理職業學院
所謂數據挖掘,是指目的性從大量數據中搜索、尋找數據信息的過程,在這項技術中,需將驗證驅動法作用于數據中,并默認想要搜尋的信息是存在的。在高校管理中,由于辦學規模的擴大,學生數量不斷增長,學校教務管理系統中,累積了大量學生數據資源,數據挖掘技術的應用,對于提升高校教育管理水平有著積極意義。在素質教育背景下,雖然不提倡以成績論英雄的理念,但是成績在一定程度上反映出學生對于專業知識和技能的理解掌握程度,可作為學校教育水平評估的主要依據,應用數據挖掘技術,展開學生成績的分析,根據分析結果,展開教學改革,優化教學理念,轉變教學方法,對于高校的可持續發展有著積極意義。
1.1 概念
數據挖掘是從數量大、種類繁雜的海量數據資源中,根據需求尋找相對應數據信息的過程。數據挖掘是按照業務需求理解、數據理解、數據搜集、建模、模型測評、部署的流程展開的,而且這一流程是迭代式進行的。在這項技術中,工作人員會將分類后的幾個樣本作為模板,來制作模型,并將未分類數據按照規定數目進行分類,建模后,進行數據挖掘,分類輸出值是非連續的,然后,再尋找不同數據間的聯系,對數據進行分組,將相似數據分在同一組。
1.2 常用算法
目前,在數據挖掘技術應用過程中,常用的算法有以下三種:①貝葉斯算法(Bayes)。這是一種典型的不確定性知識的表示、推理方法,在這個原理中,先假設一個先驗概率,在這個假設下觀察不同數據的概率;②決策樹算法(Decision Tree)。這是一種與流程圖相似的樹結構,在這種算法中,根據變量對于數據對象的影響,會顯示為不同的樹枝形狀,以此來進行數據分析預測,以目標變量所產生的影響,制定差異化的分類規則,適用于探測式的知識發現,展現形式直觀形象,被應用于各個領域;③線性回歸算法(Linear Regression)。所謂回歸分析,就是用一個或多個變量的變化,去解釋另一變量變化的方式,萬物都是相關聯的,很多參數都存在相關性,諸如人類的年齡與身高,商品的成本與生產數量,商品的銷售額與廣告費,家庭的收入與支出等,這些參數存在相關性,但是相關關系是不確定的,可采用線性回歸算法分析。
近年來,隨著計算機、互聯網等技術在高校管理中的應用,教務管理基本實現信息化,在學校的教務管理系統數據庫中,可查詢到學生的各類信息,現階段,這些信息的價值并沒有被充分挖掘出來,信息利用僅停留在查詢、統計、制作報表等淺顯階段。以高校學生成績為例,成績的查詢、打印等,只是最基本的利用途徑,如若能夠構建成績數據庫,利用現代化技術從中挖掘有效信息,用以評估學生的學習態度、學習效果,評估教學成果,無論對于學生的提升,還是學校的發展,都有著重要作用。在利用數據挖掘技術,展開學生成績分析時,需歷經以下幾個階段:
(1)數據準備。在數據準備階段,應該先提取出可直接處理分析的數據信息,在此過程中,技術人員需根據所選數據挖掘算法的信息使用需求,集成、篩選、處理信息,為接下來的數據挖掘工作做好準備,以提升分析結果的可信度。值得注意的是,在整個高校學生成績分析過程中,準備階段需花費較多的時間。首先,在分析學生成績時,所提供的數據信息,應該盡量覆蓋多個學科,構建多個數據庫,提升數據量,然后再展開數據的整理分析,消除數據源與源之間的語義模糊性,消除數據信息存在的缺陷,將之整理為統一規范的數據格式;其次,由多種源數據匯集而成的數據合集中,存在大量的無關數據,這些數據無法提升分析結果的可靠性,反而會增加數據挖掘工作量,需要篩選出去,確保留下來的數據都是相關的數據;最后,數據經篩選后,可能存在噪聲問題、不完整問題、數據不一致等問題,因此,技術人員需對數據進行預處理,完善補充分析庫內的數據結構,提升分析結果的可信度和可靠性,而且,為了方便計算,需要將數據庫中屬性字段的信息轉換為可識別、可處理的編碼數據。
(2)數據挖掘。經歷長期的數據準備工作后,即可采取多種數據挖掘算法,處理分析數據庫中的數據信息,發掘出數據間的內在聯系,構建知識圖譜。在此過程中,首先,技術人員應該確定數據挖掘的目標,找準工作定位,然后根據工作任務選擇合適的數據挖掘算法,構建數據模型,確定需分析的參數,利用模型挖掘數據庫中的相關參數,尋找目標關聯規則、數據回歸結構,找出可用于評估與分析的模式表達式。現階段,數據挖掘技術相關軟件已較成熟,在選擇好數據挖掘算法后,后續工作可自動化完成。以利用數據挖掘技術對學生的成績進行挖掘為例,需采集學生的基本額信息,比如姓名、學號、性別、專業、班級等;然后,在成績方面,通過成績數據庫,納入學生的平時成績、考試成績以及總評成績;對于此數據庫,則由教師基于教學過程所產生;通過挖掘學生的各方面成績,了解學生的綜合素養與薄弱知識點,為后續有針對性、分層教學提供有效依據。
(3)結果評估與解釋。數據挖掘工作完成后,管理人員可根據所獲得的分析結果,或者是模式表達式,來評估、判斷其是否有效,是否與學生成績分析需求相符合,如若對挖掘結果不滿意,可更改算法后重新展開數據挖掘。值得注意的是,在學生成績分析挖掘過程中,需采取數據轉換的方式,比如將學生的成績分為三個等級:85-100分;65-84分;0-64分;對這三個等級的學生分數,可轉換成:優、良、差三種轉換方式,然后以深直方圖的形式了解各個等級學生的分布及比重,為后續展開有針對性的教學工作提供客觀科學的參考依據。總之,在學生成績數據挖掘分析過程中,為了直觀、形象地了解整體學生的學習情況,需進行數據轉換。
綜上所述,所謂大數據,就是通過常用計算機軟件無法實現高效信息處理、管理的巨量數據信息集合。數據是一種沒有實際形態的東西,看不見也摸不著,但是作為一種信息載體,廣泛分布在人們的日常生活及社會的生產活動中,在這個信息爆炸的時代,采用大數據技術,展開數據的收集、儲存、分析、挖掘、應用,能夠更好地發揮信息的利用價值。而數據挖掘技術,則能夠讓人們在海量信息中,挖掘出目標信息,應用于高校學生成績分析中,能夠讓學校管理者通過成績這些海量數據,看到各班級、專業、院校的教學水平,再制定教學策略,提升辦學水平。