楊 瓊, 況姍蕓
(1. 華東師范大學 教育科學學院, 上海 200062; 2. 瓊臺師范學院 信息技術系, 海口 571127; 3. 華南師范大學 教育信息技術學院, 廣州 510631)
遠程虛擬教育通信中異常數據挖掘技術*
楊 瓊1,2, 況姍蕓3
(1. 華東師范大學 教育科學學院, 上海 200062; 2. 瓊臺師范學院 信息技術系, 海口 571127; 3. 華南師范大學 教育信息技術學院, 廣州 510631)
針對現有挖掘方法應用到遠程虛擬教育通信異常數據挖掘時,其挖掘準確率及應用效率偏低的問題,提出一種基于空間聚類算法(FWSCA)與差分進化法的遠程虛擬教育中異常數據挖掘方法.采用信息增益法提取遠程虛擬教育通信數據特征,引入WTA規則對在線通信的數據特征進行聚類,在此基礎上,采用稀疏分數方法對數據進行區分,采用FWSCA與差分進化法相結合對運程虛擬教育通信異常數據進行挖掘.結果表明,采用該挖掘方法進行異常數據挖掘,挖掘精度相比傳統挖掘算法精度高、時間短,具有一定的優勢.
遠程虛擬教育; 通信; 異常數據; 挖掘; 數據特征; 聚類; 區分; 精度
隨著計算機網絡、多媒體和虛擬現實技術的不斷進步,網絡遠程教育作為一種現代化的教育手段得到了快速發展[1-2].如何實現安全的遠程網絡教學,使遠程虛擬教育被廣泛地使用到實踐性要求較高的學科中,成為該領域亟待解決的問題[3-4].而對遠程虛擬教育通信中異常數據進行挖掘是解決此問題最有效的方法,近年來也受到廣大學者的重點關注[5-8].
文獻[9]提出基于信息熵的異常數據挖掘方法,該方法通過定義信息熵的異常度來判斷通信數據間的異常情況,并根據異常等級進行挖掘,但是該方法對等級劃分計算較為繁瑣,實效性不強;文獻[10]提出一種基于機器學習的挖掘方法,依據機器學習的相關原理得到標準方程組,建立異常數據挖掘最優模型,經過計算數據的特征向量得到異常數據庫,最后根據計算得到的概率值對異常數據進行挖掘,但是該方法主要針對固定的結構模型,難以大規模推廣應用;文獻[11]提出了基于物聯網的異常數據挖掘方法,借助物聯網中的無線傳感器網絡技術實現對異常數據的挖掘,但是該方法需要大量訓練數據,且挖掘效率較低.針對上述問題,本文提出一種基于空間聚類算法(FWSCA)與差分進化法的遠程虛擬教育通信中異常數據挖掘方法.
1.1 數據特征提取

(1)
式中,lm為第m個樣本的屬性.在此基礎上,采用信息增益法對樣本矩陣進行分類,得到分類期望信息表達式為
I(s1,s2,…,sm)=-pilog2pi
(i=1,2,…,m)
(2)

(3)


(4)
式中:a、b為兩個數據對象;E為數據集中的連續屬性集;B為離散屬性集.在獲得教育通信數據的基礎上需要進行特征聚類分析,以提高數據特征的顯著性.
1.2 數據特征聚類
在提取遠程虛擬教育通信數據特征的基礎上,可引入WTA規則對特征進行聚類,為特征選擇提供基礎依據.
假設訓練集生成原始樹為T,某葉子結點實例個數為n(t),錯誤分類個數為e(t).由于訓練數據是用來生成決策樹的,而基于此訓練數據集的誤差率r(t)=e(t)/n(t)存在偏差,無法精確地選擇最優決策樹,因此將誤差率修改為
(5)
定義此時的適應值函數為

(6)
式中:α為權重因子;H為條件屬性集基數;Lv為通信數據基數;O為距離遞歸函數;D為傳遞距離;A(v)為位串所表示的條件屬性子集.本文將WTA規則聚類算法引入到通信數據中[12],得到中心遞歸方程為
vi(t)=vi(t-1)-ηD(vi(t-1),xnt)
(7)
式中:vi(t-1)為t-1時刻第i個聚類中心;xnt為t時刻第n個到達的數據樣本;η為遞歸因子;D(vi(t-1),xnt)為樣本xnt與中心vi(t-1)的距離.
設有N個樣本數據流,t時刻獲得Nt個新的遠程通訊樣本,新獲得的樣本權值∑qj(t)=1,j=1,2,…,Nt,則可以得到此時的加權聚類中心vi(t-1)及其被選中概率pi(t-1),i=1,2,…,C.vi(0)為初始化空集,采用FWSCA算法將Nt個數據樣本劃分為C個聚類中心,其相應聚類概率可表示為
(8)
式中,uij為樣本xj(1)屬于聚類中心vi(1)的模糊隸屬度,1≤i≤C,1≤j≤Nt.
2.1 通信異常數據區分


(9)
式中,μr為整個遠程通信數據樣本第r維特征均值.以此稀疏表示為基礎,使用L1范數最小化的優化方法確定獲取數據是否存在異常.
假設遠程通信數據集{xi},且xi∈Rd,令數據矩陣X=[x1,x2,…,xn]∈Rd×n中每一列為此數據集里的一個數據向量,然后獲取每個遠程通訊數據量xi對應的重構數據si,即求解遠程通信數據間L1范數最小化線性規劃問題,其表達式為

(10)
式中:X′為X不包括第i列xi的數據矩陣;si=[si1,…,sii-1,0,sii+1,…,sin]T為一個n維系數向量.由于計算si時,X′不包括在X里,所以si中第i個元素設置成0,sij(j≠i)為遠程通信數據集的第j個數據量xj重構后對xi的貢獻.獲得整體遠程通訊數據集在稀疏表示下重構的系數矩陣.
以得到的稀疏重構系數為基礎,對整體數據樣本的重構誤差進行累加,當一個特征及獲取的重構特征誤差較小時,則證明此特征在整體數據集上具備較好的稀疏表示水平,稀疏分數目標函數[13]可表示為

(11)

由式(11)可知,異常數據的確認與Fr有直接的關系,Fr越大,則此特征越重要,說明此數據為正常數據;反之,值越小,特征越不顯著,說明此數據為異常數據.
2.2 異常數據挖掘

(12)
式中,dij(xi,bj)為異常數據對象xi與異常中心數據bj的歐氏距離.在式(12)基礎上進行迭代計算,所有的異常數據簇勢的平均值為

(13)
式中:itr為FWSCA算法的迭代索引指數;c(itr)為第itr次迭代時的異常數據簇個數.第itr次迭代時,異常數據簇的閾值可表示為
MCT(itr)=δCavg(itr)
(14)

(15)

(16)
式中:rand(j)為[0,1]間均勻分布的隨機數;CR為異常數據挖掘概率.CR越大,異常數據挖掘越全面,得到的結果越準確;反之,CR越小,挖掘的異常數據越少,得到結果準確率越低.
為了驗證本文提出的異常數據挖掘方法的有效性,將其與信息熵法、機器學習法進行對比研究.實驗以遠程虛擬教育通信數據集為研究對象進行異常數據挖掘分析,該數據集包括1 610個樣本,7個異常數據簇,各異常數據簇里有230個樣本,異常數據樣本均是40個.不同的異常數據簇包括的子特征構造也不一樣,7個異常數據特征分布圖如圖1所示.對于各異常數據簇,若其在相關子空間中,則數據特征服從高斯分布;若在無關子空間中,則數據特征服從均勻分布.
在異常數據集范圍一定的情況下,以異常數據挖掘所需時間為考核量進行挖掘效率方面的對比分析,不同方法挖掘時間對比結果如圖2所示.由圖2可知,采用改進方法挖掘時,其異常數據挖掘時間相比信息熵法和機器學習法有了大幅降低,傳統機器學習方法遍歷所有數據集,不僅增加了硬件成本,同時也降低了挖掘效率,而改進方法利用WTA規則對數據集規劃聚類,之后通過機器對異常數據進行判斷,效率得到提高.

圖1 異常數據特征分布Fig.1 Characteristic distribution of abnormal data

圖2 異常數據挖掘時間對比Fig.2 Comparison in mining time of abnormal data
為了進一步驗證改進方法的有效性及可行性,分別對改進方法與信息熵法及機器學習法進行挖掘精度方面的對比.在異常數據集范圍一定的情況下,異常數據挖掘精度對比分析如圖3所示(圖3a利用3類異常數據簇,3b利用5類異常數據簇).

圖3 異常數據挖掘精度對比Fig.3 Comparison in mining precision of abnormal data
總體比較,相對于機器學習法和信息熵法,采用改進方法進行異常數據挖掘時,其挖掘出的異常數據與實際異常數據更加接近.其他兩種算法挖掘過于保守,能夠挖掘的異常數據較為有限,而本文所提出的方法在某些異常數據簇中的表現過于激進,挖掘精確度有待進一步提高,針對不同異常數據簇進行權重與閾值的調整將是下一步主要研究目標.
針對傳統異常數據挖掘方法存在挖掘精度低,效率差的問題,提出了基于FWSCA與差分進化法的遠程虛擬教育中異常數據挖掘方法,通過實驗分析得到如下結論:
1) 采用改進異常數據挖掘方法時,其數據挖掘時間相比信息熵法和機器學習法有了大幅降低,提高了數據挖掘效率.
2) 改進方法總體的挖掘精度要優于傳統方法,但在某些異常數據簇中表現過于激進,而傳統方法過于保守,需要在權重與閾值方面進一步調整.
[1]牛耕,吳亮.論計算機遠程教育與多媒體技術 [J].科技經濟市場,2015(4):87-88.
(NIU Geng,WU Liang.Theory of computer remote education and multimedia technology [J].Science & Technology Economy Market,2015(4):87-88.)
[2]黃興,孟威,董宏宇,等.電力信息網和通信數據網融合的探索 [J].電力信息與通信技術,2014,21(5):45-48.
(HUANG Xing,MENG Wei,DONG Hong-yu,et al.Exploration of electric power information network and communication of data fusion [J].Electric Power Information and Communication,2014,21(5):45-48.)
[3]鄭羽潔,李茜.基于大數據混沌特性的分區域異常數據挖掘 [J].河池學院學報,2015,21(5):68-73.
(ZHENG Yu-jie,LI Qian.Regional anomaly data mining based on chaotic characteristics of big data [J].Journal of Hechi University,2015,21(5):68-73.)
[4]龔健虎.基于雙曲游散牽引的飛行異常操作數據挖掘 [J].控制工程,2014,21(4):617-620.
(GONG Jian-hu.Flight abnormal operation data mining based on stray traction in hyperbolic [J].Control Engineering of China,2014,21(4):617-620.)
[5]楊庭庭,徐凱.人工智能用于異常數據挖掘研究綜述 [J].電子技術與軟件工程,2014(8):198-200.
(YANG Ting-ting,XU Kai.Artificial intelligence for abnormal data mining research [J].Electronic Technology & Software Engineering,2014(8):198-200.)
[6]王傳玉,劉震,王懷彬.一種基于OPTICS和IncLOF的異常數據挖掘算法 [J].天津理工大學學報,2015,31(6):14-18.
(WANG Chuan-yu,LIU Zhen,WANG Huai-bin.An outlier data mining algorithm based on OPTICS and IncLOF [J].Journal of Tianjin University of Techno-logy,2015,31(6):14-18.)
[7]郭黎利,張海龍,孫志國,等.一種高頻帶利用率的PCSS-OFDM通信技術 [J].沈陽工業大學學報,2015,37(5):542-547.
(GUO Li-li,ZHANG Hai-long,SUN Zhi-guo,et al.A PCSS-OFDM communication technology with high band efficiency [J].Journal of Shenyang University of Technology,2015,37(5):542-547.)
[8]王遠亮,葛建華.一種QoS網絡路由通信數據時延WRR算法優化研究 [J].計算機光盤軟件與應用,2014(15):287-288.
(WANG Yuan-liang,GE Jian-hua.QoS routing network communication data delay WRR algorithm optimization research [J].Computer CD Software and Applications,2014(15):287-288.)
[9]陳鵬,司健,于子桓,等.基于信息熵的網絡流異常監測和三維可視方法 [J].計算機工程與應用,2015,51(12):88-93.
(CHEN Peng,SI Jian,YU Zi-huan,et al.Flow abnormity supervision based on information entropy and 3D visualization [J].Computer Engineering and Applications,2015,51(12):88-93.)
[10]韓瑩,李姍姍,陳福明.基于機器學習的地震異常數據挖掘模型 [J].計算機仿真,2014,31(11):319-322.
(HAN Ying,LI Shan-shan,CHEN Fu-ming.The seismic anomaly data mining model based on machine learning [J].Computer Simulation,2014,31(11):319-322.)
[11]潘俊方,樊阿嬌,茹艷,等.基于物聯網的智慧交通大數據挖掘系統 [J].無線互聯科技,2016,12(5):25-26.
(PAN Jun-fang,FAN A-jiao,RU Yan,et al.Intelligent traffic big data mining system based on iot [J].Wireless Internet Technology,2016,12(5):25-26.)
[12]董本清,彭健鈞.復雜網絡數據流中的異常數據挖掘算法仿真 [J].計算機仿真,2016,33(1):434-437.
(DONG Ben-qing,PENG Jian-jun.Abnormal data mining algorithm in complex network data flow simulation [J].Computer Simulation,2016,33(1):434-437.)
[13]王莉君,何政偉,馮平興.基于ICA的異常數據挖掘算法研究 [J].電子科技大學學報,2015,44(2):211-214.
(WANG Li-jun,HE Zheng-wei,FENG Ping-xing.Study of outlier data mining algorithm based on ICA [J].Journal of University of Electronic Science and Technology of China,2015,44(2):211-214.)
(責任編輯:景 勇 英文審校:尹淑英)
Abnormal data mining technology in remote virtual education communication
YANG Qiong1,2, KUANG Shan-yun3
(1. College of Education and Science, East China Normal University, Shanghai 200062, China; 2. Department of Information Technology, Qiongtai Normal University, Haikou 571127, China; 3. School of Educational Information Technology, South China Normal University, Guangzhou 510631, China)
Aiming at the low accuracy and poor efficiency problems when the traditional mining methods are applied to the abnormal data mining in the remote virtual education communication, an abnormal data mining method based on FWSCA and differential evolution method in the remote virtual education was proposed. The data characteristics of remote virtual education communication were extracted with the information gain method. In addition, the data characteristics of online communication were clustered with the introduction of WTA rule. On this basis, the data were distinguished with the sparse score method, and the FWSCA in combination with the differential evolution method was adopted to conduct the abnormal data mining in the remote virtual education communication. The results show that when it is used for data mining, the proposed method exhibits higher mining precision and short mining time, and has certain advantages compared with the traditional mining algorithm.
remote virtual education; communication; abnormal data; mining; data characteristic; clustering; distinguish; precision
2016-08-31.
海南省高校教育教學改革研究項目(Hnjg2015-81).
楊 瓊(1974-),女,云南大理人,副教授,碩士,主要從事信息技術與多媒體應用等方面的研究.
10.7688/j.issn.1000-1646.2017.04.10
TP 391
A
1000-1646(2017)04-0412-05
*本文已于2017-03-28 17∶09在中國知網優先數字出版. 網絡出版地址: http:∥www.cnki.net/kcms/detail/21.1189.T.20170328.1709.036.html