徐雪珂 林童 王健
(江西財經大學軟件與物聯網工程學院,江西 南昌 330000)
[關鍵字] 異常點檢測;算法應用;教育信息化;數據挖掘
隨著人類科技的日新月異,越來越多的數據通過傳感器被記錄到各種電子設備中。但是如此規模浩瀚的數據使得人們無法通過有限的人力篩選出實際需要的有效數據。
數據挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程[1]。于是各種數據挖掘算法應運而生,從海量的數據中去蕪存菁,從而篩選出最優質的信息。這些信息大部分是符合某種規律的,但是也有少量信息,因為傳感器識別問題或記錄錯誤等種種原因與同類數據所符合的規律背道而馳,這些信息我們稱之為信息庫中的異常點。
異常點檢測算法是數據挖掘中一種基本的算法,主要用于在整體數據中搜索不符合同類規律的數據樣本,這些數據樣本有可能是整體數據中的“臟數據”,也有可能是一些小概率事件被傳感器真實記錄了下來。在現實生活中,這些樣本往往被人所忽視,但能給我們提供重要信息,成為我們在分析問題時的重要依據。
異常點檢測的研究早在20世紀80年代便始于統計學領域,異常點分析算法在金融、商業、醫療等很多行業都發揮了重要的作用。同樣的,在教育領域中,不同的感知器會在學習者學習的各個階段中獲取海量數據,此時從中挖掘出的異常數據能夠在教學的各個階段發揮出很好的作用。本文是將異常點分析算法在其他領域展現出的作用遷移至教育行業,針對目前教育領域的問題和發展,就異常點檢測算法的應用情況進行分析和探討。
當前學術界對異常點尚無統一定義,但最具代表性的是V.Barnette在統計學領域中給出的定義:一個異常點是這樣的數據點,基于某種度量而言,該數據點與數據集中的其他數據有著顯著的不同[2]。我們可以這樣理解,當一個數據集中的同類數據都符合某種或多種數據分布時,而某一個數據樣本并不符合此分布,我們就可以稱,這個數據樣本是整個數據集中的一個異常點。
異常點分類角度眾多,一般情況,可將其歸結為以下幾類:
2.2.1 應剔除的異常點
此類型異常點是由于用于記錄數據的傳感器或者信息錄入人員出錯所得到的異常情況。
例如,在所有學生的成績數據中出現了負值,這一異常可能是該同學的成績錄入出現錯誤而導致的,或者某一天某一同學出入圖書館上百次,可能是由于圖書館的信號檢測器出現了某種未知故障。此類數據應及時從數據庫中清除,以免造成更大面積的數據污染。
2.2.2 應特別處理的異常點
此類型的異常數據并不是任何執行錯誤所致,而是用于記錄數據的傳感器出現問題,抑或是固有的數據本身存在變化的結果。
例如,某班同學出勤數據出現集體異常,本應正常記錄的考勤數據出現集體曠課的記錄,可能是考勤記錄的儀器出現了物理性損壞,或者出入校園的信息出現大幅度變化。當然,也有可能不是信息采集設備出現問題,而是當前時間有重要會議或者重大活動。我們不能把這一類問題直接刪除,否則將會破壞數據的整體性和全局性,同樣也要有別于正常符合分布的數據,因為應特別處理的異常數據并未占據整體數據的主體地位,所以就此我們應當使用加一個低權重的方式使得這些異常對全局數據的影響降到最低。
2.2.3 應重視的異常點
此類型異常數據是需要決策者高度重視的數據。
例如,在某一個時間段,某學生的成績急劇降低,這種情況可能并非是錄入成績的同學出現紕漏,而是學生最近的心理狀態或生活狀態出現極大危機,此時就需要指派輔導員或者班主任就該生進行生活上的幫助或者心理疏導,以避免事態進一步惡化。此類數據也是我們在整體分析中最寶貴的數據資源。
此外,根據不同分類角度,異常點還可以分為其它多種類別,例如按照數據范圍分類,可以分為全局異常點和局部異常點;按照變量數量分類,可以將異常點分為單變量異常點和多變量異常點;盡管該分類不是很完備,但側面反映了數據集中異常點類型的多樣性。因此,有效地發現數據集中的異常點并不是一件容易的工作,需要采用有效的策略和算法[3]。
異常點檢測算法在教育中的應用首當其沖的就是貫穿于學生學習過程的診斷性評價、形成性評價和終結性評價,也就是常說的各項測試。
傳統的測試是一系列復雜的過程,即使在學校配備了專業的電子錄入設備和成績核算系統,考試成績的整理和核算對于老師也是相當繁重的工作。老師需要花費大量的時間去比對每一次考試中每一位同學的成績走向和趨勢,同時在耗費了大量人力的同時仍無法了解所有學生成績的走向趨勢,也難免出現紕漏。而將異常點檢測算法運用于考試測評中,完全可以使用計算機進行這一部分的重復工作。
當獲取到每一位同學每一次考試成績后,即可對整個成績體系進行建模,找到擬合學生成績的函數,此時便可使用異常點檢測算法檢測出與整體成績趨勢不符的學生,當連續幾次同整體成績趨勢偏差較大時(一般為成績持續明顯下降),即可對相關責任教師提出學業預警。這樣一來,教師只需要關注系統中有學業預警的學生,從生活和學習等方面尋找原因,有針對性地提升學生的學習水平,最終達到提升整體成績的目的。
目前在中小學中基本沒有相關的考試測評和打分系統,對于考試成績的整理和分析仍然停留在Excel人工操作的層面。在教育信息化高速普及的今天,軟硬件資源的嚴重不協調,教師普遍的信息技術素養的缺失,是教育部門進一步開展教育信息化工作的重點。
隨著眼動和面部捕捉等系統的不斷發展,越來越多的人體生物信息捕捉設備和捕捉系統如雨后春筍般出現在人們的視野中,能捕捉到的人體生物信息也就越來越多。于是大量科研項目開始展開對學習者生物信息(例如上課是否打瞌睡或者走神等)對教學效果影響的研究。
傳統的課堂上,教學管理這一部分的職責是由教師完成的。這也就意味著,教師除了本身教學的職能之外,又肩負了課堂秩序維持者和管理者的職能,這對于教師來說,需要耗費更多的注意力在課堂秩序上,也就無形中降低了課程的教學質量。在美國作家霍恩、斯泰克合著的《混合式學習》中,大量國外案例表明,將教學者和課堂秩序管理者和監督者的身份區分開將會有效地提升學習者的學習質量和學習效率,但是同樣的,也需要花費更多的人力物力,這對于當前的中國來說是非常不現實的。但是當前信息捕捉設備和機器學習算法的高速發展為當前國內教育開辟了一條新路,異常點檢測算法也會在其中發揮重要的作用。
從海量數據中搜索相關信息最簡單的方法就是通過對生物信息的預處理,從而得到學習者的一系列標簽,再使用異常點檢測算法對這些標簽進行檢測,分別檢測不同時間段內學習者的異常情況,將這些異常情況對應形成性評價的成績,結合整體成績趨勢和個人成績趨勢,使用相應數據挖掘算法得到每種不同的生物信息異常對成績影響的權重。
形成模型后,即可通過模型檢測學習者整體異常情況在教學過程中每個環節教學效果的反映,對教學者的整個教學過程進行評價,給出對教學活動的進一步改進意見。另一方面,模型同樣可以對學習者經常出現的負面生物信息進行捕捉,反饋給相關管理者,對學習者進行校正來達到優化學習過程的目的。這樣一來,沒有增加人力資源的同時給教學者提供了更多信息用來決策和參考,從某種意義上來說彌補了課堂秩序管理者的功能。
當前國內學校的信息化水平正在由低層次融合階段向中等層次融合階段過渡,學校之中雖然購置了大量設備,但是能獲取到的數據有限,能夠獲取到最多的信息就是日常生活中學生校園卡的使用情況。通過異常點檢測對此類數據進行分析再加以應用,最廣泛的就是在考勤和消費數據方面的應用。
目前國內眾多高校都擁有自己的智能教務管理系統和學生管理系統,看起來林林總總,但是仍然存在數據無法互通、功能單一化和數據利用不完全的問題。當前學校無法通過表面的信息和現有人力資源去排查每一位同學的心理動向,對于學校的很多安全隱患無法在第一時間有效察覺,目前有很多學者開始就學校現有數據挖掘出隱藏的信息方面做出研究。
在國內相關研究《基于智慧校園的智慧一卡通學生管理系統設計與構建》中提到,“學習者違紀情況的離群點檢測,旨在將學生近期違紀情況同歷史情況和班級總體情況進行綜合對比,當其違紀情況波動超出正常范圍時,系統就會在相關模塊給對應級別的管理員一個提示,將數據反饋給學院,使管理者可以在第一時間了解學生的思想動態,在一定程度上防止校園事故的發生[5]”,這是異常點檢測算法在學生安全穩定方面的重要應用。
在相關研究《基于校園一卡通數據的貧困學生消費異常數據檢測分析》中提到“針對候選貧困生樣本采用基于正態分布的一元離群點檢測算法進行異常點檢測,檢測所得異常結果用于學校學生工作人員在對貧困生最終認定時做輔助參考[6]”,這是異常點檢測算法在學生事務評定方面的重要應用。
“三通兩平臺”在全國各地如火如荼地開展,不同地區、不同學校所能夠共享的教學服務和教學管理資源也會越來越多。但正因為有如此大量的信息,采用哪一種方法最能符合學校的現實狀況,能夠為學校帶來最大的效益便成為了眾多學校決策者亟待解決的問題。
如果無法選擇一個最符合的方案,在別的地區實行得很好的教學策略和管理措施,在自己學校將會變成失敗的改革舉措。教育之下無小事,這樣的情況不僅會引來眾人詬病,同樣會將信任自己的學生和家長帶向未知的境地。在這種情況下,對教學資源的挖掘便成為了教育決策者最需要的服務。
此時,可以對平臺中所有資源使用相應算法進行量化處理,將處理的數據同當前學校情況的量化數據引入異常點檢測算法進行檢測,此時算法所充當的就是一種數據篩選和數據過濾的角色。采用算法的相關系統就能夠給教育決策者提供有科學和現實依據的參考意見,大大減輕了決策的困難度和復雜度。
當前階段,機器學習大熱,究其原因在于其算法可廣泛應用于工業和金融等諸多領域,通過更加精準的關聯度和準確度分析,為相關公司帶來巨額收益。這些算法同樣可以適用于教育領域。
當前在機器學習領域的主要研究方向有計算機視覺、自然語言處理、數據挖掘等,能夠涉及的門類更是紛繁復雜,例如語音識別、文本翻譯、視頻分析、圖像處理等。可想而知,這些新技術結合教育的每一個環節都能夠發揮出巨大的效用,筆者認為這將是教育技術在接下來的這些年中最重要也是最熱門的研究方向。而在這些算法中,異常點檢測算法都有著不可忽視的重要作用。例如,在數據預處理階段,異常點檢測算法是清洗垃圾數據和保證數據完整性最重要的防線。
以上研究表明,異常點檢測算法不只是可以在傳統領域發揮作用、展現價值,同樣可以在教育領域的方方面面發揮作用、提升效率。隨著教育信息化的不斷發展,“三通兩平臺”等項目的不斷推進,教育領域能夠使用的信息技術數據也越來越豐富,這也為異常點檢測算法在教育領域中的應用提供了有力的保障。因此,緊隨“互聯網+”的時代熱潮,我們應當在實際教育的過程中拓寬視野,更多地以算法的思想來解決教育中的實際問題,將信息技術與教育進行更深層次的融合。