羅曉媛,趙麗艷,劉 君,鄒 棟
(1. 黑河學院理學院,黑龍江 黑河 164300;2. 哈爾濱理工大學,黑龍江 哈爾濱 150000)
在實際的學習過程中,不同的學習者在學習水平和學習效果上存在著差異。一部分學習者對網絡學習表現出較高的熱情和參與度,能夠取得較好的學習效果;另一部分學習者缺乏參與深度學習的積極性,甚至偏離了學習的目標。這一分化現象十分突出,在一定程度上影響了網絡教學的整體質量和效果。近幾年來,在線教育數據呈現出爆炸式的增長,數據挖掘技術在教育領域的應用越來越受到重視,數據采集器能為學生提供建議,為教師提供反饋,預測學生的表現,發現不良行為,將學生分組,編制課程,計劃和進度,數據分析和可視化等。
當前已有較多學者開展了關于時序數據挖掘的研究,趙曉永, 王寧寧, 王磊研究了基于主動學習的離群點集成挖掘方法[1],該方法主要根據各種基學習器的對比分析, 從標注的數據集和各基學習器投票產生的數據集中抽樣, 得出最終的挖掘結果;張琳, 李小平, 來林靜,等人研究了基于游戲教學的分層數據挖掘方法[2],該方法提出了游戲教學的數據框架, 構建了分層數據挖掘模型,以對數據進行了挖掘。但是存在的離群點挖掘準確度低的問題。
人工神經網絡是基于一組被稱為人工神經元的連接單元或節點,不同的細胞層可對其輸入進行不同類型的轉換,已廣泛應用于計算機視覺、語音識別、社交網絡過濾領域中。為此設計一個神經網絡技術下多尺度時序數據離群點挖掘方法。
此次研究的神經網絡技術下多尺度時序數據離群點挖掘方法在教育應用中的流程如圖1所示。

圖1 神經網絡技術下多尺度時序數據離群點挖掘流程
如上圖所示為此次研究方法的離群點數據挖掘流程,首先確定分析對象[3],然后明確分析目的,主要對翻轉課堂教學活動進行評價。現實教育教學環境中,涉及的教育教學數據量大、種類復雜,并隨時間推移不斷地動態生成。在以教育因素為研究對象的異常檢測中,需要考慮異常的范圍和數量等重要因素,以下為具體處理過程。
在檢測對象確定之后,將被檢測對象的數據聚類,以去除相對相似的數據。對象屬于聚類的程度, 可以通過對象與聚類中心之間的相似度進行測量,與平均相似度進行比較,若較小,則表示數據點屬于離群狀態,收集該部分離群點,統一構成異常點集合,基于聚類算法的流程圖如圖2所示。

圖2 聚類流程
假設Aj是教學評價數據中的一個屬性[4],x、y分別是Aj的兩個取值,Ai代表數據集中的另一個屬性,m代表Ai范圍中的一個子集。~w是w的補集,Pi(w∣x)代表屬性Aj取值為x時,Ai取值屬于w集合的條件概率。將Aj屬性下兩個取值x、y相對于屬性Ai的距離表示為
δij(x,y)=Pi(w∣x)+Pi(~w∣y)
(1)
在此基礎上,對兩個屬性值的距離進行度量,通過其度量能夠為判斷數據對象之間相似度提供基礎依據。假設數據集的屬性個數為m,對于數據集中任意 屬性的兩個取值x、y之間的距離[5]表示為

(2)
在計算過程中,每個屬性在計算兩個對象之間的距離時,權重都是相等的。
基于上述計算獲得數據可達距離,在此基礎上對局部可達密度進行計算,計算公式如下所示

(3)
式(3)中,Nk(q)代表距離數據點q最近的數據點的集合,q代表離群點,lrd代表局部可達密度[6]。
通過上述計算能夠將評價數據區別與同一屬性下不同屬性的差異。依據上述聚類處理[7]過程,能夠確定比較對象,針對教育平臺數據集中所有對象進行比較,可以將不同的數據對象劃分到相應的子類中,從而確定檢測對象的鄰域,將鄰域范圍內的對象作為比較的對象,為時序數據離群點挖掘提供基礎。
在上述檢測對象鄰域確定完成的基礎上,對離群點挖掘,由于它的規模很小,范圍很廣,在分析時非常容易將異常值視為錯誤或無效數據,也會影響研究對象的總體準確度,引起誤解,增加分析難度。為此采用神經網絡技術對時序數據離群點挖掘[8]。神經元模型如圖3所示。

圖3 神經元模型
神經元模型如圖3所示[9],通過上圖可以發現神經元模型的組成主要包括輸入以及輸出值、權值以及輸出函數,不同組成部分之間的基本關系如下式所示
y=f(wx+θ)
(4)
式(4)中,y代表輸出值,f代表傳輸函數,θ代表偏置,w代表權值,x代表輸入值。
基于神經網絡的離群點挖掘流程如下所示:
第一步:初始化BP神經網絡,對各層的權值和偏差進行隨機初始化,輸入層的神經元個數由數據集中數據屬性個數決定。通過上述過程已經獲得檢測對象的鄰域范圍,假設鄰域范圍內數據集中有m個屬性,則將輸入層的神經元個數設置為m;
第二步,通過給定訓練集,獲取輸入以及輸出向量,分別設定為向量x和向量y;
第三步,明確節點數量[10],對節點數量進行隱藏以及輸出處理;
第四步,依據給定數據轉發輸出數據,獲取神經網絡實際輸出值。
第五步,對輸出值進行處理,該值可以對數據集中分布情況進行充分反映,根據神經網絡輸出值,異常數據可以通過熵值結果加以判定,熵值表示樣本在某種范疇內的不確定性。熵[11]越大,樣本的不確定度也就越高,樣本更可能出現異常。提出當熵值超過某一閾值時,樣本即為異常點。當閾值較小時,設置一個閾值為E,其范圍為0-1之間。
由此,給出評價函數E,其與得到的兩種類別樣例個數相關,即:
E=E(aPr,bPw)
(5)
式(5)中,a、b分別代表權值,P代表分類為正確的樣例,Pw代表分類為錯誤的樣例,E表示用某一閾值來做異常點判斷的有效性。
E值的大小與異常點碗蕨的效果好壞優密切關聯,該值越大,挖掘效果越好,反之,挖掘效果越差。
E值的大小與分類正確的樣例個數成反比,即分類錯誤的樣例個數與E值成正比。所以給出的評價函數E的公式如下:
E=-aPr+bPw
(6)
為提高挖掘準確性,采用下述公式減小E誤差,其表達式為:

(7)
式(7)中,η代表系數,該系數為神經網絡訓練過程中學習的速度,即學習率。
并假設fr(φ)代表數據集中分類正確的樣例的密度函數,fw(φ)為數據集中分類錯誤的樣例的密度函數,如圖4所示。

圖4 分類正確與分類錯誤數據的分布函數
這樣就有如下表示

(8)

(9)
從而得到
P(E)=-aPr+bPw
(10)
綜上所述,通過P(E)對異常點挖掘的效率進行判斷,該值的大小與挖掘效率呈現正比,該值越大,證明挖掘效率越高,反之,挖掘效果越差[12]。所以P(E)取極大值時,熵的取值最佳。
第六步,根據神經網絡的實際輸出與期望輸出,對網絡的輸出誤差進行計算,判斷網絡的停止條件。若符合,則停止訓練并退出神經網絡對離群點評價,若不符合,則返回步驟二。
第七步,離群點評價,對檢測出得離群點進行評價,弄清數據離群的原因。
異常值經過識別和驗證后,需要對異常值進行后處理,才能準確為教育決策服務。第一,從技術角度分析了離群值的成因;若因技術原因或人為輸入錯誤,則需剔除這類異常數據,以減少后期處理難度,提高數據的準確性。第二,主觀臆斷的影響消除技術誤差因素,采用適當的智能挖掘算法對異常點進行挖掘,建立分析模型,確定適當的異常范圍,以減少異常點的主觀性,降低異常點相關性帶來的誤差影響。第三,將異常現象的分析結果以直觀的形式呈現出來,以便能夠結合具體的教育教學情況,詳細分析異常現象產生的原因,有針對性地提出相應的措施和方案,使離群點檢測算法發揮更大的實用價值。
不斷迭代上述基于神經網絡的計算過程,直至所有的離群點挖掘完畢,才停止此次設計的算法,以此通過上述過程完成基于神經網絡技術下多尺度時序數據離群點挖掘。
此次實驗的硬件環境如下:Intel 處理器 2.40GHz,6GB 內存。所用的實驗數據來自于翻轉課堂教學數據庫。由于原始數據量較多,為節省實驗時間,隨機抽取一定的實驗數據,抽取規則如下所示:對樣本數量較少的類別,抽取全部樣本;對樣本數量大的類別,隨機抽取10%樣本;對樣本數量大的類別,抽取1%樣本。根據上述抽取規則,得到樣本數據集總數為7000條,共有7項數據。

表1 實驗環境
在上述實驗數據準備完成的基礎上,從準確性和效率兩個方面,分析此次設計的神經網絡技術下多尺度時序數據離群點挖掘方法的性能,并為了保證實驗嚴謹性,將文獻[1]中基于主動學習的離群點集成挖掘方法與文獻[2]中基于游戲教學的分層數據挖掘方法與此次研究的方法對比。
采用此次研究的挖掘方法與傳統兩種挖掘方法對實驗數據的離散群點數據發掘,對比兩種挖掘方法的挖掘準確性,對比結果如圖5所示。

圖5 挖掘準確性對比
由上述對比結果能夠看出,由此次提出的挖掘算法能夠準確檢測出離群點,較傳統兩種檢測算法檢測準確性高。
傳統的基于主動學習的離群點集成挖掘方法、基于游戲教學的分層數據挖掘方法與此次研究方法的挖掘效率對比結果如圖6所示。

圖6 挖掘效率對比
通過上圖能夠看出,三個方法中,執行時間最短的是此次研究的算法,基于主動學習的離群點集成挖掘方法執行時間最長,由此能夠證明此次研究的方法的有效性。
綜上所述,此次研究的神經網絡技術下多尺度時序數據離群點挖掘方法較傳統方法的挖掘準確性高,挖掘效率高。原因是,此次研究的挖掘方法能夠預先對評價數據進行聚類,有利用了神經網絡技術對候選離群項集進行了檢測,得到最后的離群點,從而提高了離群點挖掘算法的有效性。
針對高校教學平臺的需求,設計了基于神經網絡技術的離群點挖掘算法,對多尺度時間序列數據進行離群點挖掘,并進行了實驗驗證。利用該方法,可以對教學評價數據進行基于現實的挖掘,將已有的管理數據轉化為可利用的知識,從而使教師更好地開展教學活動。
接下來,將所提出的算法應用到某教學平臺的所有教學評估數據中,探討教學評估數據中的全局異常值、情景異常值和集體異常值,并結合其它數據對異常值進行解釋,從而為學校的教學工作提供參考。