999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數學建模中的高維數據挖掘技術優化研究

2017-12-14 07:29:29
計算機測量與控制 2017年9期
關鍵詞:數據挖掘特征方法

(晉中職業技術學院,山西 晉中 030600)

數學建模中的高維數據挖掘技術優化研究

閆婷婷

(晉中職業技術學院,山西晉中030600)

高維數據挖掘由于特征空間占用開銷較大,挖掘的復雜度較高,挖掘精度不高,為了提高對高維數據挖掘的準確性能,提出一種基于相空間重構和K-L變換特征壓縮的高維數據挖掘數學建模方法;采用集成學習技術,對高維數據信息流進行相空間重構處理,考慮類間的數據不平衡性,求得高維數據的關聯維特征參量,根據數據的鏈距離進行稀疏性融合,計算高維數據流模型的最大Lyapunove指數譜,根據譜分析方法實現數據聚類,對聚類后的數據采用K-L特征壓縮方法進行降維處理,降低數據挖掘的內存及計算開銷;仿真結果表明,采用該方法進行高維數據挖掘,數據挖掘的準確概率較高,占用內存消耗較少,計算開銷較小。

數學建模;高維數據;挖掘;特征壓縮;數據聚類

0 引言

大數據信息處理是網絡技術發展需要面對的關鍵性問題,數據信息處理包括數據挖掘、數據聚類、數據融合和數據存儲,其中,數據挖掘是實現數據庫訪問和網絡信息傳輸的基礎,通過數據挖掘,提取數據信息流的有用特征,滿足用戶在數據檢索中的個性化需求。在網絡的云存儲空間中,為了降低存儲開銷,數據多以高維狀態形式存儲,對高維數據的有效挖掘,為了網絡技術發展和信息傳輸提供高效、個性化、高增值率的應用服務,研究高維數據挖掘方法在計算機信息處理領域具有基礎性的應用價值[1]。

數據挖掘在于從海量數據中挖掘出有效的信息特征參量,因此數據挖掘的過程也是對大數據信息流的特征提取過程,傳統方法中,對數據挖掘方法的研究主要歸為以下幾類:基于統計信息處理方法[2]、基于信息融合聚類分析方法、基于信息檢索挖掘方法、基于數據集的分布規律差異性分析方法、基于網格分布式計算方法等[3]。上述方法通過提取數據集符合某種統計規律的特征信息,結合相關的數據檢索和幾何學分析方法,利用數據對特征空間分布維度的敏感性,實現數據挖掘,從而針對性地研究數據的分布規律,提高挖掘的精度和效率,取得了一定的研究成果。其中,文獻[4]中提出一種基于Kullback-Leiber距離遷移仿射聚類的云高維數據并行計算方法,對數據信息流進行互信息特征提取,基于數據并行調度的塊匹配方法實現數據挖掘,具有較好的挖掘準確度,但是該方法在處理高維數據挖掘時沒有進行降維處理,導致計算復雜度較高,實時性不好;文獻[5]中提出一種基于聚類劃分的高效用模式并行挖掘算法,對高維數據信息流進行互信息特征提取,通過融合異構特征的子空間遷移學習算法進行聚類分析,實現高維數據的并行挖掘,提高了計算速度,該方法存在的問題是抗干擾能力不強,在面對批量數據處理時容易出現測量誤差。針對上述問題,本文提出一種基于相空間重構和K-L變換特征壓縮的高維數據挖掘數學建模方法。首先采用集成學習技術對高維數據信息流進行相空間重構處理,然后提取高維數據的關聯維特征參量,根據數據的鏈距離進行稀疏性融合,計算高維數據流模型的最大Lyapunove指數譜,對聚類后的數據采用K-L特征壓縮方法進行降維處理,最后通過仿真實驗進行了性能測試分析,得出有效性結論。

1 高維數據信息流相空間重構及特征提取

1.1 數據信息流的相空間重構

為了實現對高維數據挖掘的數學建模,針對高維數據的特征維度高的特性,需要采用非線性時間序列分析方法進行高維特征空重構,首先采用集成學習技術對高維數據信息流進行相空間重構處理,在高維空間構成系統的相空間,相空間的一個點代表數據分布的一組特征向量,一個子集A稱為吸引子,存在A的一個鄰域在數據的分布初始條件存在微小差別下,使高維相空間中的數據聚類中心軌道收縮成吸引子,一旦出現數據異常,數據之間的高度隨機性將會出現局部收斂,這成為高維數據特征分布的偽隨機特性和分形性,高維數據在相空間中具有分形特性,體現在如下幾個方面[6]:

1)高維數據的分形結構之間本身具有確定性和獨立性,點的分布式零落散亂,數據特征的分形集存在任意小比例的細節,會導致數據的特征分布具有很強的不規則性,出現類間不平衡;

2)數據在最優類分布模式下,以總體分類精度為學習目標進行信息融合和數據聚類,最優類代表樣例存在特征差異性,導致在采用傳統的線性時間序列分析方法出現額外的學習代價;

3)從算法處理效率和數據處理精度方面考慮,根據數據的分形特性,將高維數據映射到高維相空間中進行非線性處理,能降低計算開銷,在高維相空間中,可以通過分形維數去測量數據特征分布的不平滑、不規則性,結合關聯維分析和Lyapunove指數譜提取,實現數據挖掘。

由此可見,通過對高維數據信息流相空間重構,構造一個輔助的相空間,從時間序列出發創建一個多維狀態空間,結合統計特征分析方法求得數據屬性狀態及幾何不變量,這些幾何不變量包括不動點的特征值等,以此為信息素進行數據挖掘和聚類處理,根據上述分析原理,進行高維數據挖掘數學建模的第一步就是進行相空間重構,根據Takens. F和R. Mane的延遲嵌入定理[7-8],進行高維數據相空間重構建模,首先給出高維數據的信息流模型為:

(1)

式中,wnk是吸引子的分維數,v(t)為加性高斯白噪聲,由非線性差分方程描述高維數據挖掘數學模型在時刻n或t的狀態向量,數據的幾何特征分布表示為相空間S里的一個點。構建多元數量值函數,在時滯約束向量下得到相空間愛特征分布半正定最小特征解滿足:

(2)

(3)

0≤[yT(t)∑TT∑y(t)-fT(y(t))Tf(y(t))]+

[-yT(t)U∑1y(t)+2yT(t)U∑2f(y(t))-fT(y(t))Uf(y(t))]+

[-yT(t-σ)V∑1y(t-σ)+2yT(t-σt)V∑2f(y(t-σ))-

-fT(y(t-σ))Vf(y(t-σ))]

(4)

(5)

根據上述對高維數據的非線性時間序列分析和相空間重構結果,進行特征提取和數據挖掘數學建模。

1.2 數據屬性特征提取

在上述進行了高維數據相空間重構的基礎上,考慮類間的數據不平衡性,求得反映高維數據屬性類別的關聯維特征參量[9],根據對數據傳輸可靠性的要求,利用簡單的狀態空間模型進行數據特征分布的相互關聯或相似程度建模,得到數據采樣點特征量J1(Wi)可以寫為:

tr(WiTH1Wi)

(6)

式中,

(7)

其中:H1表示高維數據分布隨機過程的相互關聯,tr(.)表示數據特征分布子帶信息分布軌跡,Airp為數據采樣的時間跨度。根據連續均勻遍歷,考慮類間的數據不平衡性[10],求得高維數據的關聯維特征參量為:

tr(WiTH2Wi)

(8)

式中,

(9)

其中:xir表示主成分特征分量,xirq為模糊核,Birq為稀疏性分布狀態值,W為數據的鏈距離,根據數據的鏈距離進行稀疏性融合處理,結合特征壓縮方法降低數據挖掘的負載。

2 數據挖掘優化數學建模

2.1 最大Lyapunove指數譜計算

在對高維數據信息流相空間重構及特征提取的基礎上,進行數據挖掘數學模型優化設計,本文提出一種基于相空間重構和K-L變換特征壓縮的高維數據挖掘數學建模方法。根據數據的鏈距離進行稀疏性融合,考慮數據的離群因子,得到數據的稀疏性表達式為:

(10)

其中,ux和uy為數據對象的二維幾何矩,C1表示輸出數據序列的不變矩。采用Radon尺度變換在高維相空間中計算最大Lyapunove指數為:

(11)

式中,r1表示數據序列尺度信息分解維數,r2表示先驗點簇,σ1表示邊緣相關性約束向量,N1為仿射不變矩。

利用數據集的相似k距離鄰居序列的尺度不變性,根據譜分析方法實現數據聚類,得到聚類目標函數為:

(12)

其中:J(w,e)為數據對象的分塊約束向量,ai為相空間所有對象的一個排列,φ(xi)為噪聲敏感系數。

2.2 數據挖掘的K-L特征壓縮

采用最大Lyapunove指數譜特征矩陣的奇異值分解方法,設A∈Rn×m,得到挖掘的數據信息特征的K-L變換式為:

(13)

其中:誤差項e滿足相似k距離鄰居分布,對高維數據的最大Lyapunove指數平進行奇異值分解[11],通過特征壓縮,將K-L變換式改寫矩陣形式為:

Y=Xβ+e

(14)

(15)

最后采用自適應學習方法進行誤差修正,實現數據優化挖掘的并行處理[12-13],進行高維數據挖掘的并行計算。

2.3 數據挖掘實現步驟

綜上分析,得到高維數據挖掘的優化實現步驟描述為:

1)設置挖掘的初始迭代次數為I=0,參數初始化;

2)對全部物理機路徑上的數據點進行初始化,進行相空間重構;

3)分配虛擬機,利用集成學習方法進行測試樣本訓練;

4)完成所有虛擬機的分配后,遍歷每個數據點,利用公式(13)計算數據點的鏈距離,執行局部信息更新;

5)利用公式(15)進行K-L特征壓縮和數據降維處理,在最優分配方案下進行數據聚類,執行全局信息素的更新。

6)假設當前挖掘次數Ilt;Imax,則I=I+1,并跳轉到過程(2),反之跳轉到步驟(7);

7)結束挖掘,輸出最優分配方案,得到最優挖掘結果。

3 仿真實驗分析

為了測試本文方法在實現高維數據挖掘中的表現性能,進行仿真實驗和性能分析,實驗硬件配置環境為:操作系統Windows7,Intel(R) Core(TM)2 Duo CPU E7400 2.80 GHz,4 GB RAM,硬盤:500 G,軟件為Matlab 7。實驗所用的高維數據樣本為兩個大數據集,其中,CSLOGS數據集表示測試數據集,數據規模為2 000 GB, TEST set 數據集為訓練數據集,數據規模為1 000 Mbit,子塊分區大小為5.24 Mbit,相空間重構的嵌入維數m=4,時間延遲τ=11,數據采樣的頻率為12 KHz,采樣間隔為1.25 s,數據的干擾信噪比-10~0 dB,根據上述仿真環境和參量設定,進行數據挖掘仿真分析,首先進行原始數據采樣,得到采樣結果如圖1所示。

圖1 高維數據信息流時域波形

以圖1所給出的高維數據采樣樣本為測試對象,提取最大Lyapunove指數譜,進行數據聚類和特征壓縮處理,得到譜特征提取結果如圖2所示。

圖2 最大Lyapunove指數譜特征提取結果

分析圖2結果得知,采用本文方法進行高維數據挖掘,能從受到較大污染的數據序列樣本中挖掘到有用的信息特征,挖掘的抗干擾能力較強。圖3和圖4給出了采用本文方法和傳統方法進行數據挖掘的準確性和運行開銷對比結果,分析得知,采用本文方法進行高維數據挖掘的準確度較高,因為進行了特征壓縮,所以運行開銷較小,綜合表現性能較優。

4 結束語

本文研究的高維數據的優化挖掘問題,提出一種基于相空

圖3 挖掘準確性對比

圖4 運行時間對比

間重構和K-L變換特征壓縮的高維數據挖掘數學建模方法,首先采用非線性時間序列分析方法進行高維特征空重構,求得反映高維數據屬性類別的關聯維特征參量,然后利用簡單的狀態空間模型進行數據特征分布的相互關聯或相似程度建模,求得最大Lyapunove指數譜特征,通過K-L特征壓縮器進行高維數據壓縮,采用自適應學習方法進行誤差修正,實現數據優化挖掘的并行處理。研究得知,本文方法進行數據挖掘的精度較高,抗干擾性較強,運行時間較短,總體性能占優。

[1] Mernik M, Liu S H, Karaboga M D, et al. On clarifying misconceptions when comparing variants of the Artificial Bee Colony Algorithm by offering a new implementation[J]. Information Sciences, 2015, 29 (10): 115-127.

[2] Hsieh T J. A bacterial gene recombination algorithm for solving constrained optimization problems[J]. Applied Mathematics and Computation, 2014, 23 (15): 187-204.

[3] Long M, Wang J, Ding G, et al. Adaptation regularization: A general framework for transfer learning[J]. IEEE Transactions on Knowledge and Data Engineering, 2014, 26(5): 1076-1089.

[4] 畢安琪,王士同. 基于Kullback-Leiber距離的遷移仿射聚類算法[J]. 電子與信息學報, 2016, 38(8): 2076-2084.

[5] 邢淑凝, 劉方愛, 趙曉暉. 基于聚類劃分的高效用模式并行挖掘算法[J]. 計算機應用, 2016, 36(8): 2202-2206.

[6] 鄧志剛, 曾國蓀, 譚云蘭, 等. 云存儲內容分發網絡中的能耗優化方法[J]. 計算機應用, 2016, 36(6): 1515-1519.

[7] 陸興華,李國恒,余文權. 基于模糊C均值聚類的科研管理數據庫調度算法[J]. 計算機與數字工程, 2016,44(6): 1011-1015.

[8] 畢安琪, 董愛美, 王士同. 基于概率和代表點的數據流動態聚類算法[J]. 計算機研究與發展, 2016, 13(5): 1029-1042.

[9] 趙國榮,韓 旭,杜聞捷,等. 具有傳感器增益退化的不確定系統融合估計器[J]. 控制與決策, 2016, 31(8): 1413-1418.

[10] 張 濤,唐振民,呂建勇. 一種基于低秩表示的子空間聚類改進算法[J]. 電子與信息學報, 2016, 38(11): 2811-2818.

[11] Patel V M, Nguyen H V, Vidal R. Latent space sparse and low-rank subspace clustering[J]. IEEE Journal of Selected Topics in Signal Processing, 2015, 9(4): 691-701.

[12] 唐 杰,徐 波,宮中樑,等.一種基于CUDA的三維點云快速光順算法[J].系統仿真學報,2012,24(8):1633-1638.

[13] 周 煜,張萬冰,杜發榮,等.散亂點云數據的曲率精簡算法[J].北京理工大學學報,2010,30(7):785-790.

ResearchonOptimizationofHighDimensionalDataMininginMathematicalModeling

Yan Tingting

(Jinzhong Vocationalamp;Technical College,Jinzhong 030600,China)

High dimensional data mining due to the characteristics of the space occupied large overhead mining, high complexity, mining precision is not good, in order to improve the accuracy of performance on high dimensional data mining, this paper brings forward a mining method of mathematical modeling of phase space reconstruction and K-L transform features of high dimensional data based on compression. The ensemble learning technique to reconstruct the phase space of high dimensional data flow, considering the inter class data imbalance, the correlation dimension of the characteristic parameters of high dimensional data, according to the chain distance data sparsity fusion, maximum Lyapunove computation of high dimensional data stream model refers to the number of spectra, the spectral analysis method of data after clustering, clustering of data using K-L feature dimension compression method, reduce the memory and computation overhead of data mining. The simulation results show that the method has high accuracy, less memory consumption and less computation cost.

mathematical modeling; high dimensional data; mining; feature compression; data clustering

2017-03-06;

2017-03-24。

閆婷婷(1983-),女,山西晉中人,研究生,講師,主要從事數學與應用數學方向的研究。

1671-4598(2017)09-0158-03

10.16526/j.cnki.11-4762/tp.2017.09.041

TP391

A

猜你喜歡
數據挖掘特征方法
探討人工智能與數據挖掘發展趨勢
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
一種基于Hadoop的大數據挖掘云服務及應用
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 亚洲无线国产观看| 国产在线精彩视频二区| 狼友av永久网站免费观看| 全部无卡免费的毛片在线看| аv天堂最新中文在线| 国产自在线拍| 亚洲码在线中文在线观看| 亚洲无码电影| 国产爽妇精品| 日本a级免费| 亚洲人成成无码网WWW| 色有码无码视频| 人妻中文久热无码丝袜| 欧美成人精品高清在线下载| 国产97视频在线| 久久这里只有精品66| 欧美黄网在线| 国产成人在线无码免费视频| 国产乱子伦精品视频| 欧美高清国产| 国产大片喷水在线在线视频| 国产欧美日韩在线一区| 强奷白丝美女在线观看| 亚洲手机在线| 亚洲九九视频| 国产成人91精品免费网址在线| 日韩欧美国产区| 无码中文字幕精品推荐| 成·人免费午夜无码视频在线观看| 香蕉久久国产超碰青草| 日韩黄色在线| 国产日本一区二区三区| 91在线激情在线观看| 国产精品视屏| 国产精品成人久久| 五月婷婷激情四射| 亚洲天堂精品在线| 欧美日韩第三页| 欧美成人精品一级在线观看| 亚洲无码电影| 日本尹人综合香蕉在线观看 | 婷婷在线网站| 71pao成人国产永久免费视频| 国产成人1024精品| 国产丝袜啪啪| 伊人久综合| 8090午夜无码专区| 四虎AV麻豆| 最新加勒比隔壁人妻| 中文字幕日韩视频欧美一区| 亚洲日本精品一区二区| 国产网友愉拍精品视频| 成人小视频在线观看免费| 99视频免费观看| 国产成本人片免费a∨短片| 四虎永久免费地址| 亚洲最大福利视频网| 一级爱做片免费观看久久| 一区二区偷拍美女撒尿视频| 亚洲天堂成人在线观看| 欧美日韩一区二区三区在线视频| jizz在线免费播放| 第一区免费在线观看| 毛片免费高清免费| 青青青伊人色综合久久| 欧美色图第一页| 青青草综合网| 欧美亚洲香蕉| 欧美日韩国产在线播放| 久久毛片网| 日韩欧美一区在线观看| 22sihu国产精品视频影视资讯| 91成人免费观看在线观看| 波多野结衣一区二区三视频| 国产精品13页| 激情影院内射美女| 国产精品一区在线麻豆| 精品福利网| 成人国产精品2021| 一级毛片网| 99精品国产电影| 色噜噜综合网|