劉建花
(晉中師范高等專科學校數理科學系,晉中 030600)
數據挖掘技術在數字化校園系統中的作用主要是通過分析高校中各種類型的大量數據為高校制定各項決策提供數據依據,以此來不斷提高學校教學、管理、服務的各項水平。
在高校的數字化教學中,學生可自主式學習,與老師、同學互動留言,提高學生對時間的利用率。智能化教學將每個學生的學習過程進行記錄,教師根據學生的學習情況進行合理的課堂設計,對學生針對性的教學和輔導。
在數字化校園系統中,學校將網站中的一些留言、發表的稿子以及一些評論的數據信息分析處理后,對教師的教學效果進行預測,對教學活動進行更好地管理和服務。
系統將用戶數據和資料進行管理和整合,用戶登錄平臺對身份識別驗證后獲取相應的使用權限,享受其對應的功能服務。
在數字化校園中,從上至下由四個方面進行建構:一是業務系統應用層。有校教務管理系統、科研管理系統、網絡教學和成績管理系統以及檔案管理系統等。二是平臺管理層。利用數據挖掘技術,將應用層的數據進行收集、篩選、備份、分析、整理,讓數據系統化。三是網絡綜合層。有校園網、移動網和物聯網,利用無線技術和IP技術,將網絡信息進行全面覆蓋,收集更多數據。四是感知層。通過GPS、RFID以及傳感器等設備對校園中的信息進行采集、處理和篩選,然后傳輸到信息平臺中。
借鑒其他學校數字化校園系統構建的經驗,將管理、科研、教學、安全、生活等方面結合,為教師和學生構建數字化的校園環境。
(1)校務和辦公自動化。整個數字化校園的重要的環節,所有業務都在系統上完成,包括教職工任務,領導審批,有效提高效率,真正實現辦公無紙。
(2)智能教學。教師的教學計劃、學生的考試、閱卷、成績的錄入等環節都在系統上進行。
(3)教研查詢。教師可以將課研成果,包括科研論文、教案、教學經驗的總結以及教學視頻等資源上傳到系統進行展示和交流,相互分享。在課題管理系統中,方便申報課題與中期檢查,教研人員節省了報告的時間。
(4)智能平安校園。利用物聯網技術,植物灌溉和養護、照明、門禁、監控以及報警實現智能化,既節省費用,也提高效率。
(5)智能校園生活。采用無限射頻識別技術,學生只需要一部手機,實現電子簽到、超市購物、費用繳納等功能。
數字化校園構建中用到的技術和數據挖掘算法:
(1)云計算:主要對虛擬化的資源進行分配,對數據進行整理和量化。
(2)物聯網技術:將數據信息、互聯網技術以及遠程操作等技術結合起來,實現智能化。
(3)移動互聯網技術:提供安全的網絡環境,實現對人員的動態管理,使得生活更加便捷。
(4)決策樹方法一般用于將數據分類,由構造樹和修剪樹兩個過程。先開始使用初始數據生成測試函數,依據所得到的值生成樹的分支,重復步驟,再各個分支上再生成下一層的分支和結點,這樣生成的樹稱之為決策樹,然后再對決策樹進行修剪,最后生成規則。該算法有ID3、IBLE等。
本校學生最終考試成績由平時成績和期末成績決定,平時成績占40%,期末成績占60%,考試形式有筆試、機試、論文、表演等,考試方式有考查和考試兩種。考完后由代課老師登錄成績管理系統提交成績生成最終考試成績。
在成績管理系統中,為了分析考試成績數據,第一項將成績數據進行預處理,第二項將連續成績數據轉換為離散的數據,第三項利用決策樹中ID3算法進行屬性歸納出成績規則,第四項教師和學生進行相應的分析評估。
數據預處理過程有對空值的處理、對無用信息進行消減等步驟。系統中采用忽略的方式解決因為缺考、作弊產生的空值。將開課單位、班級、學期、科目類型、代課老師等無關字段刪去,只保留學號、姓名、性別、科目、考核方式、平時成績、期末成績和最后的成績等字段。
數據的離散型處理分兩過程組成:一先將成績按是否大于等于60分來判斷成績是否合格劃分,二將上一步60分以上的成績執行下列步驟:一是將成績數據進行排序;二是去除重復數據;三是根據相應的比例劃分等級;四是根據確立好的等級標準離散化數據。
比如期末考試成績(67,87,69,79,77,88,79,86,79,60,70,71,76,98,89,…)將分數從高到低排序,并去除重復的值,(98,89,88,87,86,79,77,76,71,70,69,67,60,…),可將成績的25%,50%,25%劃分A、B、C三個等級,把產生的等級作為成績表中新的字段值。最后需在原成績表中的字段XH(學號)、XM(姓名)、KM(科目)、PC(平時成績)、QC(期末成績)、ZC(綜合成績)中增加字段PCDJ(平時成績等級)、QCDJ(期末成績等級)、YX(優秀否)、JG(及格否)。
利用ID3算法構造決策樹。該算法是遞歸算法的一種,其算法思想:(1)首先生成一個結點。(2)根據判斷是否屬于同一類的結果來確定是否是葉結點,如果是,該結點是葉結點。(3)如果否,依據信息增益的基于熵的度量啟發信息,重新選擇屬性,將數據樣本進行分類,成為該結點測試和判定屬性。(4)再根據測試屬性的每一個值,創建一個分支,以此劃分樣本數據,所有的屬性都進行離散化轉化。該算法符合以下三種情況遞歸結束:一是結點的數據屬于同一類;二是數據全部屬性都測試完,沒有可利用的屬性來劃分數據;三是分支沒有數據樣本了,遇到此情況下創建一個葉結點。
算法步驟:
輸入:由離散值屬性表示的樣本值samp,候選屬性集合att_list
(1)初始化一個結點M。
(2)如果結點中的所有樣本都屬于同一類別B,該結點屬于葉結點。
(3)返回決策樹tree,B為結點的類標記。
(4)判斷att_list是否為空。
(5)如果空,該決策樹為單結點樹,B記作類別個數最多的類別。
(6)如果非空,在att_list里選擇一個最大的信息增益的屬性特征m_att。
(7)m_att的信息增益和閾值相比,如果m_att 大,則決策樹為單結點樹,B作為實例數最大的類的類標記。
(8)如果m_att小,對m_att的取值mm,根據取值劃分樣本值子集sampi,將子集中實例數最大的類作為標記,創建子結點,由結點和其子樹構成決策樹,返回。
(9)對下個子結點,以sampi為新的樣本值數據集,以att_list-{m_att}為候選屬性遞歸重復以上步驟。
創建好決策樹后,使用后剪枝方法中代價復雜性剪枝對樹進行修剪。此算法需要計算樹中每個非葉結點刪去該結點后子樹所產生的期望錯誤率,低的期望錯誤率則修剪該子樹,否則保留該子樹。
決策樹剪枝完成后,將決策樹分析出的信息進行提取,生產成績系統的評估模型,也就是生成分類規則,產生學生的考核等級,可預測學生的成績是否及格或優秀,分析規則,分析影響學生成績的原因。
目前,數據挖掘技術處于不斷的探索和研究過程中,在完善數字化校園系統的過程中利用數據挖掘技術讓數據變得更加有用,使數字化校園系統功能更加完善。