王春媚/天津輕工職業技術學院
高職院校基于基礎數據建設的數據挖掘研究
王春媚/天津輕工職業技術學院
今年,我院在新能源類專業教學資源庫申報與建設中取得了非常大的成績,近兩年學生在資源庫管理與學習平臺的在線考試系統進行相關課程的考試以及職業能力鑒定已經得到參建聯盟院校廣泛認同和使用,積攢了大量的數據資源,為實施數據挖掘提供了基礎。本文針對考試系統的大量數據進行數據挖掘,從而找到數據信息里的潛在規則以指導教學管理和教學決策。
數據挖掘;關聯分析;在線考試
(一)數據挖掘
數據挖掘(DataM ining),又稱數據庫中的知識發現(Know ledgeDiscoveryinDatabase,KDD),是指從大型數據庫或數據倉庫中提取隱含的、未知的、非平凡的及有潛在應用價值的信息或模式,它是數據庫研究中的一個很有應用價值的新領域,融合了數據庫、人工智能、機器學習、統計學等多個領域的理論和技術。
(二)數據挖掘系統
一個完整的數據挖掘系統包括規則生成子系統和應用評估子系統兩個部分。規則生成子系統主要完成根據數據倉庫提供的歷史數據,統計并產生相關規律,并輸出相關結果;應用評估子系統可以理解為系統中的挖掘代理程序,根據生成子系統產生的規則按照一定的策略對數據進行分類預測,通過系統的任務計劃對數據產生評估指標。
(三)數據挖掘過程
數據挖掘過程包括對問題的理解和提出、數據收集、數據處理、數據變換、數據挖掘、模式評估、知識表示等過程,以上的過程不是一次完成的,其中某些步驟或者全過程可能要反復進行。
(四)數據挖掘的主要功能
概念/類描述、特征化和區分:對每個類的匯總、簡潔、精確的描述可以通過數據特征化、數據區分和數據比較來實現。數據特征化是指目標類數據的一般特征或特征的匯總,如一年的成績匯總;數據區分是將目標類對象的一般特征與一個或多個對比類對象的一般性比較,如A學校和B學校的比較。
關聯分析:是尋找數據庫中值的相關性,揭示屬性與屬性值在數據集中一起出現的條件。這種關聯規則可以是單維關聯規則或多維關聯規則。
分類與預測:利用某種數據挖掘算法的某種規則自動對海量數據進行分類,把握分析對象發展的規律,對未來的趨勢做出預見。
聚類分析:聚類是根據最大化類內的相似性、最小化類間的相似性原則對海量數據進行聚類或分組,從而產生屬性相近的各個類。
偏差的檢測:對分析對象的少數的、極端的特例的描述,揭示內在的原因。
演變分析:可以根據數據的特征對數據的發展變化作出相應的預測與分析。主要應用于對時間序列數據的分析、序列或周期模式匹配和基于類似性的數據分析。
(一)系統結構分析
資源庫管理與學習平臺中在線考試系統結構采用四層應用模式,第一層為應用層(管理與學習平臺),這一層主要由兩部分組成,考生通過瀏覽器進行在線考試,管理員通過工作平臺直接管理試題庫及系統環境,同時對考生考試數據及考生行為進行數據提取、分析、評價等;第二層為Web層(WebServer),Web服務器接受應用層的請求與業務邏輯層的接口進行信息交換,以響應用戶信息并提供用戶界面;第三層為業務邏輯層用來實現業務邏輯,包括一些具體的組件模塊。如:題庫管理組件模塊、用戶考試組件模塊、評卷組件模塊、成績管理組件模塊等;第四層為數據層,使用SQLServer2008數據庫系統來存儲待處理的各種數據,包括各種記錄用戶行為的數據以及Web層與業務邏輯層之間進行通訊和信息傳遞時所產生的數據等。
本文要在考試系統的應用層中添加具有數據挖掘功能的“成績分析系統",用以補充成績管理模塊的功能,使之能夠對考生答題記錄進行數據挖掘分析。
(二)系統數據分析
考試系統中的數據量非常大,其間必然存在大量的噪聲數據。究其產生原因,如在考試過程中某些考題因被考生漏答而造成數據的空缺;管理人員或教師在測試系統時會留下大量的測試記錄……這些噪聲數據的存在會對挖掘的結果產生很大的影響。數據記錄中還包括一些冗余的數據域,這些數據域在考試系統的正常運行中是不可缺少的,但是在進行數據挖掘中卻會影響挖掘的效率,并產生毫無意義的規則。另外還有很多不確定因素也會使數據庫中產生大量的噪聲數據。噪聲數據的存在會直接影響挖掘結果的有效性,盡可能的去除這些噪聲數據才能提高挖掘的效率并得到有效性更高的結果和規則。因此,在進行數據挖掘之前,有必要對數據源進行清洗和處理,最終得到干凈的、有效的、符合挖掘要求的數據。
(一)關聯規則挖掘算法應用
關聯分析的目的是挖掘隱藏在數據間的相互關系。對于物品與事務的關系:事務1中出現了物品A,事務2中出現了物品B,事務3中出現了物品A和B。在數據庫的發現知識中,關聯規則就是描述這種在一個事務中物品之間同時出現的規律的知識模式。更確切的說關聯規則通過量化的數字描述物品A的出現對物品B的出現有多大的影響。
本文主旨在于通過對考生的答題記錄信息進行數據挖掘,最終找到知識點間的關聯關系。在關聯規則的挖掘中,需要的數據是考生的具體答題正誤的記錄、所答題目內容以及題目所歸屬的知識點。根據挖掘的需要,應從龐大復雜的源數據庫中生成不同的數據子表作為關聯挖掘的數據源。本文選取了一份“光伏單片機控制技術”課程考試試卷,并將所有使用這份試卷的考生的答題記錄進行歸納整理,再利用數據挖掘中關聯規則算法進行分析、研究,找尋知識點間的潛在規則。
通過分析,最終得到了知識點之間潛在的關聯關系,如:“單片機振蕩頻率”知識點與“計算定時器初值”知識點之間、“鎖存器工作原理”知識點與“段選、位選控制”知識點之間,都存在著很強的關聯關系。在教學中,強調這些知識點之間的關聯關系,將有利于教學效果的提高。
(二)決策樹挖掘算法應用
決策樹是以實例為基礎的歸納學習算法。它是一種逼近離散值函數的方法,對噪聲數據有很好的健壯性并且能夠學習析取表達式。在這種方法中學習到的函數被表示為一棵決策樹。一棵決策樹的每個非葉節點均表示考察數據項目的測試或決策。根據測試結果,選擇某個分枝,為了分類一個特定數據項目,我們從根節點開始,一直向下判定,直到達到一個終端節點(葉子節點)為止。這樣,一個決策就形成了。
本文在分類模塊中以學生期末考試的通過狀態為分類屬性,以第二學年第一學期、第二學期期末成績為測試屬性進行分類,從而分析學生期末考試的通過狀態,為學校制定教學策略提供決策支持,同時也幫助廣大考生對照檢查自身情況,調整學習狀態提供理論指導。
通過對考生的答題記錄進行挖掘,最終找到了知識點之間存在關聯關系,建立了本校學生首次參加課程考核通過情況的決策樹,并得到了有效的預測考試通過情況的規則。最后,把挖掘的結果進行整理并導入到數據庫中,使教學的決策者和教師可以隨時察看,幫助教師提高教學質量,使我校的考試成績可以得到提高。
課題項目:
本文為天津市高等職業技術教育研究會2013年度課題《高職院校基礎數據建設與數據挖掘研究》(XIII418)。