999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

遠程虛擬教育通信中異常數據挖掘技術*

2017-07-19 12:16:05況姍蕓
沈陽工業大學學報 2017年4期
關鍵詞:數據挖掘特征方法

楊 瓊, 況姍蕓

(1. 華東師范大學 教育科學學院, 上海 200062; 2. 瓊臺師范學院 信息技術系, 海口 571127; 3. 華南師范大學 教育信息技術學院, 廣州 510631)

遠程虛擬教育通信中異常數據挖掘技術*

楊 瓊1,2, 況姍蕓3

(1. 華東師范大學 教育科學學院, 上海 200062; 2. 瓊臺師范學院 信息技術系, 海口 571127; 3. 華南師范大學 教育信息技術學院, 廣州 510631)

針對現有挖掘方法應用到遠程虛擬教育通信異常數據挖掘時,其挖掘準確率及應用效率偏低的問題,提出一種基于空間聚類算法(FWSCA)與差分進化法的遠程虛擬教育中異常數據挖掘方法.采用信息增益法提取遠程虛擬教育通信數據特征,引入WTA規則對在線通信的數據特征進行聚類,在此基礎上,采用稀疏分數方法對數據進行區分,采用FWSCA與差分進化法相結合對運程虛擬教育通信異常數據進行挖掘.結果表明,采用該挖掘方法進行異常數據挖掘,挖掘精度相比傳統挖掘算法精度高、時間短,具有一定的優勢.

遠程虛擬教育; 通信; 異常數據; 挖掘; 數據特征; 聚類; 區分; 精度

隨著計算機網絡、多媒體和虛擬現實技術的不斷進步,網絡遠程教育作為一種現代化的教育手段得到了快速發展[1-2].如何實現安全的遠程網絡教學,使遠程虛擬教育被廣泛地使用到實踐性要求較高的學科中,成為該領域亟待解決的問題[3-4].而對遠程虛擬教育通信中異常數據進行挖掘是解決此問題最有效的方法,近年來也受到廣大學者的重點關注[5-8].

文獻[9]提出基于信息熵的異常數據挖掘方法,該方法通過定義信息熵的異常度來判斷通信數據間的異常情況,并根據異常等級進行挖掘,但是該方法對等級劃分計算較為繁瑣,實效性不強;文獻[10]提出一種基于機器學習的挖掘方法,依據機器學習的相關原理得到標準方程組,建立異常數據挖掘最優模型,經過計算數據的特征向量得到異常數據庫,最后根據計算得到的概率值對異常數據進行挖掘,但是該方法主要針對固定的結構模型,難以大規模推廣應用;文獻[11]提出了基于物聯網的異常數據挖掘方法,借助物聯網中的無線傳感器網絡技術實現對異常數據的挖掘,但是該方法需要大量訓練數據,且挖掘效率較低.針對上述問題,本文提出一種基于空間聚類算法(FWSCA)與差分進化法的遠程虛擬教育通信中異常數據挖掘方法.

1 通信數據特征提取及聚類

1.1 數據特征提取

(1)

式中,lm為第m個樣本的屬性.在此基礎上,采用信息增益法對樣本矩陣進行分類,得到分類期望信息表達式為

I(s1,s2,…,sm)=-pilog2pi
(i=1,2,…,m)

(2)

(3)

(4)

式中:a、b為兩個數據對象;E為數據集中的連續屬性集;B為離散屬性集.在獲得教育通信數據的基礎上需要進行特征聚類分析,以提高數據特征的顯著性.

1.2 數據特征聚類

在提取遠程虛擬教育通信數據特征的基礎上,可引入WTA規則對特征進行聚類,為特征選擇提供基礎依據.

假設訓練集生成原始樹為T,某葉子結點實例個數為n(t),錯誤分類個數為e(t).由于訓練數據是用來生成決策樹的,而基于此訓練數據集的誤差率r(t)=e(t)/n(t)存在偏差,無法精確地選擇最優決策樹,因此將誤差率修改為

(5)

定義此時的適應值函數為

(6)

式中:α為權重因子;H為條件屬性集基數;Lv為通信數據基數;O為距離遞歸函數;D為傳遞距離;A(v)為位串所表示的條件屬性子集.本文將WTA規則聚類算法引入到通信數據中[12],得到中心遞歸方程為

vi(t)=vi(t-1)-ηD(vi(t-1),xnt)

(7)

式中:vi(t-1)為t-1時刻第i個聚類中心;xnt為t時刻第n個到達的數據樣本;η為遞歸因子;D(vi(t-1),xnt)為樣本xnt與中心vi(t-1)的距離.

設有N個樣本數據流,t時刻獲得Nt個新的遠程通訊樣本,新獲得的樣本權值∑qj(t)=1,j=1,2,…,Nt,則可以得到此時的加權聚類中心vi(t-1)及其被選中概率pi(t-1),i=1,2,…,C.vi(0)為初始化空集,采用FWSCA算法將Nt個數據樣本劃分為C個聚類中心,其相應聚類概率可表示為

(8)

式中,uij為樣本xj(1)屬于聚類中心vi(1)的模糊隸屬度,1≤i≤C,1≤j≤Nt.

2 通信異常數據挖掘方法

2.1 通信異常數據區分

(9)

式中,μr為整個遠程通信數據樣本第r維特征均值.以此稀疏表示為基礎,使用L1范數最小化的優化方法確定獲取數據是否存在異常.

假設遠程通信數據集{xi},且xi∈Rd,令數據矩陣X=[x1,x2,…,xn]∈Rd×n中每一列為此數據集里的一個數據向量,然后獲取每個遠程通訊數據量xi對應的重構數據si,即求解遠程通信數據間L1范數最小化線性規劃問題,其表達式為

(10)

式中:X′為X不包括第i列xi的數據矩陣;si=[si1,…,sii-1,0,sii+1,…,sin]T為一個n維系數向量.由于計算si時,X′不包括在X里,所以si中第i個元素設置成0,sij(j≠i)為遠程通信數據集的第j個數據量xj重構后對xi的貢獻.獲得整體遠程通訊數據集在稀疏表示下重構的系數矩陣.

以得到的稀疏重構系數為基礎,對整體數據樣本的重構誤差進行累加,當一個特征及獲取的重構特征誤差較小時,則證明此特征在整體數據集上具備較好的稀疏表示水平,稀疏分數目標函數[13]可表示為

(11)

由式(11)可知,異常數據的確認與Fr有直接的關系,Fr越大,則此特征越重要,說明此數據為正常數據;反之,值越小,特征越不顯著,說明此數據為異常數據.

2.2 異常數據挖掘

(12)

式中,dij(xi,bj)為異常數據對象xi與異常中心數據bj的歐氏距離.在式(12)基礎上進行迭代計算,所有的異常數據簇勢的平均值為

(13)

式中:itr為FWSCA算法的迭代索引指數;c(itr)為第itr次迭代時的異常數據簇個數.第itr次迭代時,異常數據簇的閾值可表示為

MCT(itr)=δCavg(itr)

(14)

(15)

(16)

式中:rand(j)為[0,1]間均勻分布的隨機數;CR為異常數據挖掘概率.CR越大,異常數據挖掘越全面,得到的結果越準確;反之,CR越小,挖掘的異常數據越少,得到結果準確率越低.

3 實驗仿真分析

為了驗證本文提出的異常數據挖掘方法的有效性,將其與信息熵法、機器學習法進行對比研究.實驗以遠程虛擬教育通信數據集為研究對象進行異常數據挖掘分析,該數據集包括1 610個樣本,7個異常數據簇,各異常數據簇里有230個樣本,異常數據樣本均是40個.不同的異常數據簇包括的子特征構造也不一樣,7個異常數據特征分布圖如圖1所示.對于各異常數據簇,若其在相關子空間中,則數據特征服從高斯分布;若在無關子空間中,則數據特征服從均勻分布.

在異常數據集范圍一定的情況下,以異常數據挖掘所需時間為考核量進行挖掘效率方面的對比分析,不同方法挖掘時間對比結果如圖2所示.由圖2可知,采用改進方法挖掘時,其異常數據挖掘時間相比信息熵法和機器學習法有了大幅降低,傳統機器學習方法遍歷所有數據集,不僅增加了硬件成本,同時也降低了挖掘效率,而改進方法利用WTA規則對數據集規劃聚類,之后通過機器對異常數據進行判斷,效率得到提高.

圖1 異常數據特征分布Fig.1 Characteristic distribution of abnormal data

圖2 異常數據挖掘時間對比Fig.2 Comparison in mining time of abnormal data

為了進一步驗證改進方法的有效性及可行性,分別對改進方法與信息熵法及機器學習法進行挖掘精度方面的對比.在異常數據集范圍一定的情況下,異常數據挖掘精度對比分析如圖3所示(圖3a利用3類異常數據簇,3b利用5類異常數據簇).

圖3 異常數據挖掘精度對比Fig.3 Comparison in mining precision of abnormal data

總體比較,相對于機器學習法和信息熵法,采用改進方法進行異常數據挖掘時,其挖掘出的異常數據與實際異常數據更加接近.其他兩種算法挖掘過于保守,能夠挖掘的異常數據較為有限,而本文所提出的方法在某些異常數據簇中的表現過于激進,挖掘精確度有待進一步提高,針對不同異常數據簇進行權重與閾值的調整將是下一步主要研究目標.

4 結 論

針對傳統異常數據挖掘方法存在挖掘精度低,效率差的問題,提出了基于FWSCA與差分進化法的遠程虛擬教育中異常數據挖掘方法,通過實驗分析得到如下結論:

1) 采用改進異常數據挖掘方法時,其數據挖掘時間相比信息熵法和機器學習法有了大幅降低,提高了數據挖掘效率.

2) 改進方法總體的挖掘精度要優于傳統方法,但在某些異常數據簇中表現過于激進,而傳統方法過于保守,需要在權重與閾值方面進一步調整.

[1]牛耕,吳亮.論計算機遠程教育與多媒體技術 [J].科技經濟市場,2015(4):87-88.

(NIU Geng,WU Liang.Theory of computer remote education and multimedia technology [J].Science & Technology Economy Market,2015(4):87-88.)

[2]黃興,孟威,董宏宇,等.電力信息網和通信數據網融合的探索 [J].電力信息與通信技術,2014,21(5):45-48.

(HUANG Xing,MENG Wei,DONG Hong-yu,et al.Exploration of electric power information network and communication of data fusion [J].Electric Power Information and Communication,2014,21(5):45-48.)

[3]鄭羽潔,李茜.基于大數據混沌特性的分區域異常數據挖掘 [J].河池學院學報,2015,21(5):68-73.

(ZHENG Yu-jie,LI Qian.Regional anomaly data mining based on chaotic characteristics of big data [J].Journal of Hechi University,2015,21(5):68-73.)

[4]龔健虎.基于雙曲游散牽引的飛行異常操作數據挖掘 [J].控制工程,2014,21(4):617-620.

(GONG Jian-hu.Flight abnormal operation data mining based on stray traction in hyperbolic [J].Control Engineering of China,2014,21(4):617-620.)

[5]楊庭庭,徐凱.人工智能用于異常數據挖掘研究綜述 [J].電子技術與軟件工程,2014(8):198-200.

(YANG Ting-ting,XU Kai.Artificial intelligence for abnormal data mining research [J].Electronic Technology & Software Engineering,2014(8):198-200.)

[6]王傳玉,劉震,王懷彬.一種基于OPTICS和IncLOF的異常數據挖掘算法 [J].天津理工大學學報,2015,31(6):14-18.

(WANG Chuan-yu,LIU Zhen,WANG Huai-bin.An outlier data mining algorithm based on OPTICS and IncLOF [J].Journal of Tianjin University of Techno-logy,2015,31(6):14-18.)

[7]郭黎利,張海龍,孫志國,等.一種高頻帶利用率的PCSS-OFDM通信技術 [J].沈陽工業大學學報,2015,37(5):542-547.

(GUO Li-li,ZHANG Hai-long,SUN Zhi-guo,et al.A PCSS-OFDM communication technology with high band efficiency [J].Journal of Shenyang University of Technology,2015,37(5):542-547.)

[8]王遠亮,葛建華.一種QoS網絡路由通信數據時延WRR算法優化研究 [J].計算機光盤軟件與應用,2014(15):287-288.

(WANG Yuan-liang,GE Jian-hua.QoS routing network communication data delay WRR algorithm optimization research [J].Computer CD Software and Applications,2014(15):287-288.)

[9]陳鵬,司健,于子桓,等.基于信息熵的網絡流異常監測和三維可視方法 [J].計算機工程與應用,2015,51(12):88-93.

(CHEN Peng,SI Jian,YU Zi-huan,et al.Flow abnormity supervision based on information entropy and 3D visualization [J].Computer Engineering and Applications,2015,51(12):88-93.)

[10]韓瑩,李姍姍,陳福明.基于機器學習的地震異常數據挖掘模型 [J].計算機仿真,2014,31(11):319-322.

(HAN Ying,LI Shan-shan,CHEN Fu-ming.The seismic anomaly data mining model based on machine learning [J].Computer Simulation,2014,31(11):319-322.)

[11]潘俊方,樊阿嬌,茹艷,等.基于物聯網的智慧交通大數據挖掘系統 [J].無線互聯科技,2016,12(5):25-26.

(PAN Jun-fang,FAN A-jiao,RU Yan,et al.Intelligent traffic big data mining system based on iot [J].Wireless Internet Technology,2016,12(5):25-26.)

[12]董本清,彭健鈞.復雜網絡數據流中的異常數據挖掘算法仿真 [J].計算機仿真,2016,33(1):434-437.

(DONG Ben-qing,PENG Jian-jun.Abnormal data mining algorithm in complex network data flow simulation [J].Computer Simulation,2016,33(1):434-437.)

[13]王莉君,何政偉,馮平興.基于ICA的異常數據挖掘算法研究 [J].電子科技大學學報,2015,44(2):211-214.

(WANG Li-jun,HE Zheng-wei,FENG Ping-xing.Study of outlier data mining algorithm based on ICA [J].Journal of University of Electronic Science and Technology of China,2015,44(2):211-214.)

(責任編輯:景 勇 英文審校:尹淑英)

Abnormal data mining technology in remote virtual education communication

YANG Qiong1,2, KUANG Shan-yun3

(1. College of Education and Science, East China Normal University, Shanghai 200062, China; 2. Department of Information Technology, Qiongtai Normal University, Haikou 571127, China; 3. School of Educational Information Technology, South China Normal University, Guangzhou 510631, China)

Aiming at the low accuracy and poor efficiency problems when the traditional mining methods are applied to the abnormal data mining in the remote virtual education communication, an abnormal data mining method based on FWSCA and differential evolution method in the remote virtual education was proposed. The data characteristics of remote virtual education communication were extracted with the information gain method. In addition, the data characteristics of online communication were clustered with the introduction of WTA rule. On this basis, the data were distinguished with the sparse score method, and the FWSCA in combination with the differential evolution method was adopted to conduct the abnormal data mining in the remote virtual education communication. The results show that when it is used for data mining, the proposed method exhibits higher mining precision and short mining time, and has certain advantages compared with the traditional mining algorithm.

remote virtual education; communication; abnormal data; mining; data characteristic; clustering; distinguish; precision

2016-08-31.

海南省高校教育教學改革研究項目(Hnjg2015-81).

楊 瓊(1974-),女,云南大理人,副教授,碩士,主要從事信息技術與多媒體應用等方面的研究.

10.7688/j.issn.1000-1646.2017.04.10

TP 391

A

1000-1646(2017)04-0412-05

*本文已于2017-03-28 17∶09在中國知網優先數字出版. 網絡出版地址: http:∥www.cnki.net/kcms/detail/21.1189.T.20170328.1709.036.html

猜你喜歡
數據挖掘特征方法
探討人工智能與數據挖掘發展趨勢
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
一種基于Hadoop的大數據挖掘云服務及應用
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 中文字幕中文字字幕码一二区| 亚洲IV视频免费在线光看| 久久国产精品嫖妓| 精品欧美视频| 国产成人高清亚洲一区久久| 久久99国产精品成人欧美| 在线免费无码视频| 免费毛片a| 小蝌蚪亚洲精品国产| 在线观看国产精品第一区免费| 青青国产视频| 国产精品亚欧美一区二区| 影音先锋亚洲无码| 国产成人亚洲无码淙合青草| 亚洲第一视频免费在线| 人妻熟妇日韩AV在线播放| 成人福利在线看| 国产成人精品一区二区| 国产精品hd在线播放| aaa国产一级毛片| 2018日日摸夜夜添狠狠躁| 国产精品理论片| 亚洲色成人www在线观看| 亚洲精品国产综合99| 欧美一级黄色影院| 国产成人狂喷潮在线观看2345| 超碰色了色| 国产99免费视频| 色偷偷综合网| 在线另类稀缺国产呦| 欧美性色综合网| 亚洲人成网7777777国产| 沈阳少妇高潮在线| 精品国产一区91在线| 日韩东京热无码人妻| 免费国产一级 片内射老| 亚瑟天堂久久一区二区影院| 91亚洲免费| 亚洲免费黄色网| 本亚洲精品网站| 国产白浆在线| 国产极品美女在线播放| 成人永久免费A∨一级在线播放| 凹凸精品免费精品视频| 国产主播一区二区三区| 乱人伦中文视频在线观看免费| 亚洲视频无码| 国内精品视频在线| 97久久免费视频| AV在线麻免费观看网站| 99久久国产综合精品2023| 久久久国产精品免费视频| 青青草原国产av福利网站| 色窝窝免费一区二区三区 | 全部免费毛片免费播放 | 国产日本一区二区三区| 美女无遮挡免费视频网站| 91久久偷偷做嫩草影院精品| 国产精品偷伦在线观看| 99久久国产自偷自偷免费一区| 精品欧美一区二区三区久久久| 91成人在线免费观看| 欧美日韩第三页| 精品一区二区三区视频免费观看| 久久毛片网| 日韩精品一区二区三区免费在线观看| 精品偷拍一区二区| 欧美啪啪视频免码| 97成人在线视频| 高清视频一区| 91精品专区| 国产精品任我爽爆在线播放6080| 亚洲男女在线| 亚洲熟女偷拍| 91黄视频在线观看| 毛片最新网址| 免费国产高清精品一区在线| 麻豆AV网站免费进入| 久久精品电影| 自拍偷拍欧美日韩| 在线视频一区二区三区不卡| 亚洲精品黄|