馬 寧,廖慧惠
(1.安徽廣播電視大學,安徽 合肥 230022;2.安徽工業經濟職業技術學院,安徽 合肥 230051)
云計算環境下頻繁出現異常數據挖掘方法研究
馬 寧1,廖慧惠2
(1.安徽廣播電視大學,安徽 合肥 230022;2.安徽工業經濟職業技術學院,安徽 合肥 230051)
近年來,隨著時代的發展以及科學技術的進步,使得人類逐漸步入到網絡信息時代.在這樣的背景之下,計算機日益發展并在社會生產、生活過程中獲得了廣泛的運用.事實上,在云計算的環境之下,各類的商業數據資料往往以分布式的形式進行儲存,而常規的數據挖掘模式無法對各類數據進行分布式挖掘.在這種情況下,如何促進這一問題的解決成為了相關部門亟待解決的問題.本文基于此,分析探討云計算環境下頻繁出現異常數據挖掘方法.
云計算;網絡環境;頻繁出現;異常數據;挖掘方法
目前,傳統挖掘算法無法對云計算的環境下出現異常數據進行有效的識別以及量化,故而導致異常數據挖掘誤差大等問題的出現.基于這一現狀,相關的部門加強了對于混沌算法的改進,并逐步融合了偏最小二乘法,實現了異常數據的清洗以及無量綱化處理,實現了對于諸類問題的有效解決.本文基于此,分析探討如何實現對于云計算環境下頻繁出現異常數據的挖掘.
目前,技術人員在對云計算環境下頻繁出現異常數據進行挖掘、處理操作的過程中,往往需要加強對于源數據集合的確定,并在此基礎之上加強對于頻繁出現異常數據分布、概率模型的構建.隨后再借助不一致性的檢驗方法對頻繁出現異常數據數目進行確定,最后對異常數據進行有效的挖掘.關于該挖掘過程的具體流程,筆者進行了相關描述,具體內容如下.
1.1 構建異常數據的概率模型
在進行云計算環境下頻繁出現異常數據的挖掘過程中,需要技術人員首先進行異常數據的概率模型的構建.在實際的操作過程中,為了確保模型的科學性,需要假設數據空間的每一維都會被分成Ψ個等深度區域.關于概率模型的計算方式,具體內容如下:

在上述的計算方式中,Ψ0指的是數據傳送方向性系數;β指代的則是數據的穩態權向量;f0則是數據頻移特征.
1.2 挖掘頻繁出現異常數據
在進行云計算環境下頻繁出現異常數據的挖掘作業過程中,技術人員需要構建起后頻繁出現異常數據挖掘的計算方程式,并用S(D)表示.關于頻繁出現異常數據的挖掘公式,筆者總結如下:

在上述的公式中,N*指的是異常數據的抽樣概率分布參數;而fk指代的則是異常數據歸一化的時間向量.
通過分析可以得知:借助上述的公式進行云計算環境下頻繁出現異常數據的挖掘,雖然能夠促進這一作業的有效開展,但是還是存在著挖掘不準確、誤差大的問題.基于此,需要相關的技術人員加強對于混沌算法的改進,優化挖掘方法.
前文提到,傳統的數據挖掘方法在操作的過程中無法對頻繁出現的異常數據進行具體的量化,故而導致數據挖掘工作在開展的過程中存在著較大的誤差.為了有效地避免這一問題的出現,需要相關的技術人員加強對于云計算環境下頻繁出現異常數據挖掘的優化.目前,技術人員最為常用的優化方式就是改進混沌算法.對此,筆者進行了相關的總結,具體內容如下.
2.1 異常數據回歸方程的組建
在這一環節中,需要技術人員加強云計算環境下的數據源與偏最小二乘法的融合.其后在此基礎之上,加強對于數據的清洗以及無量綱化處理.一般而言,通過這一措施的采取,能夠獲得標準性較高的數據矩陣以及維向量.事實上,這兩個數值分別表示頻繁出現的異常數據預測變量以及決定因素.最后需要以此為基礎實現對于主成份的分析提取,并帶動云計算環境下數據源的線性回歸方程的構建.關于異常數據回歸方程的組建具體流程,需要技術人員將數據源與偏最小二乘法進行有效的融合,并進行原始數據的清洗以及無量綱化處理.
2.2 計算標準化數據矩陣以及維向量
在進行標準化數據矩陣以及維向量的計算過程中,需要按照下述的公式進行相關的操作.

通過上述的分析,相關人員能夠得到云計算環境下數據源的回歸方程,并在此基礎之上引進混沌算法,實現對于數據源時間中相鄰兩個點間斜率的計算,此后再將這一計算結果與混沌算法預測的斜率進行比較,實現對于云計算環境下頻繁出現異常數據的挖掘.
在這一過程中,首先需要計算出數據源時間序列相鄰兩點之間的斜率,并將計算所得的數值與預測值進行對比.其實際的操作流程就是在數據源的D維空間中進行搜索,并對各數據的時間序列進行確定,各時間序列分別用:Xi1、Xi2、Xik表示.在進行斜率計算的過程中,需要技術人員按照下述的方程式進行相關的操作:
此外,筆者還對混沌算法的預測斜率的計算方式進行了總結,具體內容如下:
在此之后,技術人員需要加強對于頻繁出現異常數據最小均方差的計算,事實上,通過這一分析能夠實現對于頻繁出現的異常數據的確定,并為挖掘作業提供最終的依據.最后,技術人員需要利用如下的方程式,對云計算環境下頻繁出現的異常數據進行計算.

在上述的方程式中,如果F*[a...b,c]≤0,則說明b指的是云計算環境下頻繁出現異常數據,若F*[a...b,c]≥0,則說明b不是頻繁出現異常數據.
通過對于上述的流程進行分析可以得知:在進行云計算環境下頻繁出現異常數據的挖掘作業的過程中,相關的技術人員借助混沌算法對挖掘算法以及流程進行改進,往往能夠促進挖掘作業的誤差率的降低以及精確度的提升,促進該工作的有效開展.
為了進一步驗證基于改進混沌算法的云計算環境下頻繁出現異常數據挖掘作業的效率的提高,筆者對此進行了相關的實驗驗證.在操作的過程中主要借助挖掘仿真平臺進行相關作業.據悉,該平臺的各項參數為:INtelcore i5處理器,主頻2.8GHZ,4G內存,windowsXP專業版32位sp2操作系統.在實際的操作過程中,實驗所用的數據均來自于互聯網采用,在數據運用的過程中,主要采用隨意抽取的方式進行相關操作.最后利用改進算法和傳統算法對這些數據中頻繁出現的異常數據進行挖掘.
在仿真證明操作的過程中,筆者主要借助傳統的數據挖掘方法以及基于混沌算法數據挖掘方法的對比試驗進行相關的操作.在對比試驗的過程中,主要對算法挖掘的精確度、誤差率以及可靠度進行對比.
通過對于兩種數據挖掘技術的數據分析可以得知:借助傳統的挖掘方法進行數據挖掘操作的過程中,其挖掘的精確度、誤差率以及可靠度分別為:74%、0.5%以及73%;但是隨著基于混沌算法的異常數據挖掘的精確度、誤差率以及可靠度分別為:96%、0.1%以及97%.總體而言,這種技術的改進以及發展,促進了異常數據挖掘工作的精確度以及可靠度得到了不同程度的提升,而誤差率則大大減小.基于此,可以得知這種方法在運行的過程中要遠遠優于傳統算法.
本文基于此,主要分析了云計算環境下頻繁出現異常數據的挖掘流程:首先構建異常數據的概率模型以及挖掘頻繁出現異常數據.其后,對優化云計算環境下頻繁出現異常數據挖掘的措施(異常數據回歸方程的組建、計算標準化數據矩陣以及維向量)展開了論述.最后對云計算環境下頻繁出現異常數據優化挖掘的實現以及仿真證明進行了論述.筆者認為,隨著相關措施的落實到位,以及相關技術的不斷發展,云計算環境下頻繁出現異常數據挖掘方法必將獲得長足的發展,并以此為基礎促進相關作業的有序進行,帶動了相關效益的取得.
〔1〕饒翔,王懷民,陳振邦,周揚帆,蔡華,周琦,孫廷韜.云計算系統中基于伴隨狀態追蹤的故障檢測機制[J].計算機學報, 2012(5):856-870.
〔2〕李德仁,姚遠,邵振峰.智慧城市中的大數據[J].武漢大學學報(信息科學版),2014(6):631-640.
〔3〕任磊,杜一,馬帥,張小龍,戴國忠.大數據可視分析綜述[J].軟件學報,2014(9):1909-1936.
〔4〕李潔,許鑫,陳宇,張丁文.模擬DDoS攻擊場景下的云取證模型的研究[J].信息網絡安全,2015(6):67-72.
〔5〕洪斌,鄧波,彭甫陽,包陽,馮學偉.基于PCA降維的云資源狀態監控數據壓縮技術[J].計算機科學,2016(8):19-25.
〔6〕迪莉婭.基于云計算的電子政務大數據管理研究[J].圖書館理論與實踐,2013(12):49-52.
〔7〕黃守明,張紅莉.基于云計算模式下的Apriori算法研究[J].銅陵學院學報,2013(3):106-108+116.
〔8〕嚴駿.基于云計算的海量數據挖掘研究[J].信息與電腦(理論版),2013(4)4:110-111.
TP311
A
1673-260X(2017)02-0031-02
2016-12-10
安徽省高校優秀青年人才支持計劃重點項目支持(gxyqZD2016454)