王寧濤
摘 要: 為了提高高校體育信息的管理分析能力,針對當前高校體育數據庫建立和信息檢索的實時性和系統性不好的問題,提出基于云計算的海量高校體育數據建模與分析方法,構建高校海量體育數據的分布式數據庫模型。在云計算環境下進行數據庫訪問模型設計,采用K均值數據聚類方法進行體育數據的可靠性挖掘,實現高校體育數據的優化信息調度和檢索分析。仿真結果表明,采用該模型進行高校海量體育數據分析的實時性較好,數據挖掘的精度較高。
關鍵詞: 云計算; 海量數據; 數據挖掘; K均值
中圖分類號: TN911.1?34; TP391 文獻標識碼: A 文章編號: 1004?373X(2017)07?0105?04
Mass college sports data modeling and analysis based on cloud computing
WANG Ningtao
(Zhongzhou University, Zhengzhou 450044, China)
Abstract: In order to improve the management and analysis capabilities of the college sports information, and aiming at the poor real?time performance and systematicness of the current college sports database establishment and information retrieval, a massive college sports data modeling and analysis method based on cloud computing is proposed. The distributed database model of the college mass sports data was constructed. The database access model was designed under cloud computing environment. The K?means data clustering method is used to mine the sports data reliably to realize the optimization information scheduling and retrieval analysis of the college sports data. The simulation results show that the model has high real?time performance to analyze the college massive sports data, and high data mining accuracy.
Keywords: cloud computing; massive data; data mining; K?means
0 引 言
隨著海量大數據信息處理技術的發展,采用云計算進行大數據信息分析能提高數據處理的并行能力和計算速度,結合云存儲數據庫進行數據存儲和訪問,提高海量數據存儲的容量[1?2]。高校的體育數據信息管理是通過對體育數據信息的特征分析,結合大數據信息處理,挖掘高校海量體育數據信息的規律性特征,掌握學生體育訓練的成績和分布,結合專家系統和經驗判斷,進行體育訓練水平的研究和判斷[3]。
為制定合理的體育訓練和管理制度提供數據基礎,本文針對當前體育數據處理的并行度不高,系統性不強的問題,提出一種基于云計算的高校體育數據建模分析方法,通過構建數據庫管理模型,結合數據庫訪問和數據挖掘技術,實現體育數據管理建模。
1 海量高校體育數據的數據庫
1.1 數據存儲結構的散布點集合
海量高校體育數據是一組非線性時間序列,采用非線性時間序列分析方法進行云計算分析,假設體育數據在云計算環境下的存儲結構模型為[G(0)=(V,E,LV,LE,μ,η),][η:E→LE]是兩個分布式的云計算特征映射,體育數據管理的概念節點[G1=Mα1,Mβ1,Y1,][G2=Mα2,Mβ2,Y2,]令[A=][a1,a2,…,an]為海量高校體育數據特征矢量的模糊聚類中心[4?5],在給定的云計算特征分布結構下進行數據庫結構模型構建,本文假設云計算存儲數據庫是可分類的,引入一個物理數據層管理因子[β?0,0.5],進行數據庫的概念格分區,通過網格訪問模式進行高校體育數據的訪問和調度,提高數據的處理能力,在限定初始特征信息下進行海量高校體育數據的存儲結構分析,利用指向性數據聚類方法分析計算高校體育數據分布的散布點集合[S],表示如下:
[S=U,A,V,f] (1)
令[x(n)]為海量高校體育數據的時頻采樣信息特征,待挖掘的體育數據的輸入模型為:
[g(t)=1πΔ2texp-t22Δ2t] (2)
通過對體育數據存儲結構的散布點集合進行計算,得到散布點分布集合為:
[u(t)=Aexp(j2πf0t)+U] (3)
式中:[U]為體育數據采樣幅值論域;[A]為體育數據存儲結構的特征分布非空集合。
1.2 數據云計算存儲數據庫的調度
在給定的海量高校體育數據分布的權重指數下,數據庫特征分類權重[ai]的屬性值為[p,]在有效的數據庫訪問請求下,構建云計算存儲數據庫的數據存儲信道模型,描述為:
[x(t)=Rean(t)e-j2πfcτn(t)sl(t-τn(t))e-j2πfct] (4)
其中,云計算存儲數據庫中海量高校體育數據初始調度網格賦值表示為:
[U×A→V] (5)
為了實現體育數據管理數據庫信息模型構建,采用自適應信道加權方法進行云存儲數據庫的網格分布區域擬合,得到數據庫分布的網格結構為:
[c(τ,t)=nan(t)e-j2πfcτn(t)δ(t-τn(t))] (6)
式中:[an(t)]是第[n]條數據存儲通道上的時間?頻率聯合特征分析;[τn(t)]為第[n]條數據存儲路徑擴展時延;[fc]為云計算存儲數據庫中的數據屬性權重。
設定模糊算子映射到綜合評價矩陣,進行初始化網格調度,得到云計算存儲數據庫數據存儲節點的傳遞路徑的映射關系為:
[h(t)=i=1Paip(t-τi)] (7)
式中:[ai]和[τi]分別是云計算存儲數據庫中海量高校體育數據的傳播損失和傳遞時延。
海量體育數據特征分布的狀態空間重構為:
[y(t)=kx(kt), k>0] (8)
[Wy(t,v)=Wx(kt,vk)] (9)
式中:[k]表示數據信息采樣頻率;[v]表示云計算存儲數據庫的存儲帶寬;[Wx]為時間窗口函數。
給出體育數據的云計算存儲數據庫的數據信息的靜態量化信息模型為:
[maxF(X)=(F1(X),F2(X),…,Fn(X)) s.t. gj(X)≤0 ,j=1,2,…,p hk(X)=0,k=1,2,…,p] (10)
式中[gj(X)]為混合模型參量。
在體育數據云存儲散點狀態下,海量體育數據特征分類訓練集的屬性為:
[Vi(t+1)=wVi(t)+c1×rand(?)×(Pi-Xi(t))+ c2×rand(?)×(Pg-Xi(t))] (11)
結合時間序列分析方法得到海量高校體育數據存儲模型的調度概念格為:
[y(t)=x(t-t0)?Wy(t,v)=Wx(t-t0,v)y(t)=x(t)ej2πv0t?Wy(t,v)=Wx(t,v-v0)] (12)
2 海量高校體育數據挖掘
2.1 數據挖掘的關聯特征匹配
設海量高校體育數據最流樣本[S=X1,X2,…,Xk,…]分布于數據庫網絡空間概念格[T1,T2,…,TK,…]中,基于屬性集合進行數據特征分類,得到云計算環境下體育數據庫[i]層級的返回屬性狀態[x0(tk)],輸入體育數據的訪問執行序列,即:
[uj(s;t0)=0, s∈[t0,t1]] (13)
假定數據結構模型為某種幾何空間[S,]通過計算體育管理數據庫中的特征點[Xi]到另一個點[Xj]之間的距離,進行數據挖掘的信息分布評估,得到節點時間的距離為:
[dist(Xi,Xj)=k=1d(xik-xjk)2] (14)
在云計算環境下的海量體育數據庫散布點中,通過特征映射構建海量高校體育數據流挖掘的路徑訪問圖模型,如圖1所示。
在圖1所示的訪問模型中,每個時間片都可以用來處理體育數據挖掘的請求任務,通過區間概念格的信息點重組,對采集數據集合[S]通過關聯特征匹配,得到數據挖掘的關聯信息分布關系為:
[xk=f{xk-1,uk-1,wk-1}] (15)
式中:[wk]為預測權重;[uk]為讀取該批數據流中的一個數據點的特征值。
在云計算分布幾何空間[S]中,數據挖掘的關聯特征匹配式為:
[indP=x,y∈U2ax=ay,?a∈P] (16)
式中:云計算存儲數據庫散布點的關聯特征匹配關系是一種一一映射等價關系;[indP]等價于各種條件的集合。
2.2 數據的K均值聚類挖掘
在進行海量高校體育數據挖掘的關聯特征匹配的基礎上,采用K均值聚類方法進行數據挖掘,實現高校體育數據的優化信息調度和檢索分析[6]。設定海量體育數據訪問的時間控制閾值[Tsim∈(0,1]],設任意兩個聚類屬性簇頭節點[Mi]與[Mj]的中心距離為[Clustdist(Mi,Mj)],利用K?Means算法聚類得到體育數據的云計算存儲數據庫的數據關系[A={A1,A2,…,Am}],其中,體育數據的二叉分類屬性滿足[(i≠j,1≤i≤q,1≤j≤q)],確定體育數據流挖掘的約束向量,通過訪問路徑控制,得到整個搜索空間的特征相似度表示為:
[B2=4πEx-∞+∞(v-vm)2X(v)2dv] (17)
通過設計K均值聚類的傳輸算子[hi(t)],進行海量高校體育數據的路徑訪問控制,定義該距離為兩簇合并的距離mergedistance[7],得到海量高校體育數據在云計算存儲數據庫的平均互信息特征集為:
[D″i,jtn+1=D′i,jtn+1+fnD′i,jtn2] (18)
查詢獲得的信任值,在K均值聚類下進行特征空間壓縮,執行數據挖掘的平滑處理,得到平滑算子為:
[dfssi,j=dfsi,j?hσf] (19)
設每個數據聚類中心矢量[Xi]都是[d]維的,記作[Xi=(xi1,xi2,…,xid),]其中任一訓練樣本[Xk=][xk1,xk2,…,xkm,…,xkM,]通過對云計算存儲數據庫的初始查詢,得到模型為:
[x′j(k)=11+e-u′i(k), j=1,2,3] (20)
建立數據庫整體邏輯映射的查詢條件機制,進行數據流相鄰時間段模式匹配,在屬性值和用戶檢索機制中設定查詢條件,令[x(n)]為有限數據長度的數據信息特征,通過K均值聚類,得到體育數據庫的訪問互信息量為[Rx,c′i(τ)=E[x*(t)c′i(t+τ)]=Ej=1nc*j(t)c′i(t+τ)=E[c*1(t)c′i(t+τ)]+…+E[c*i(t)c′i(t+τ)]+…+ E[c*n(t)c′i(t+τ)]=Rci,c′i(τ)+j=1,j≠inRcj,c′i(τ)=Rci,c′i(τ)]
式中:[i=1,2,…,n,]進行索引指令控制。
通過權向量編碼,在K均值聚類下[8],高校體育數據挖掘輸出的屬性集合冪級指數信息為:
[rt+1i=r0i1-exp(-λt)] (22)
在K均值聚類分析中,采用時間?頻率聯合特征分析進行云計算存儲數據庫中的海量高校體育數據的時域分析,判斷進化代數,通過權向量編碼得到海量高校體育數據的頻域特征狀態空間重組計算式為:
[X0i=(x0i1,…,x0in,…,x0id), i=1,2,…,p] (23)
通過上述處理,采用K均值數據聚類方法進行體育數據的可靠性挖掘, 實現了基于云計算的海量高校體育數據建模分析。
3 仿真測試與結果分析
在Matlab和C++仿真平臺上進行海量高校體育數據建模分析仿真實驗,數據序列的原始樣本數據源于某高校體育部提供的學生體育成績的相關數據信息,體育數據的統計時間為2012年9月20日—2016年6月30日,構建體育數據的分布時間序列,時間序列樣本長度為1 024,進行體育信息管理的云計算數據庫構建,數據庫特征空間的維度設置為4,體育數據庫訪問的迭代次數為100,首先進行體育數據信息流模型構建,采用非線性時間序列分析方法得到體育數據在兩組統計通道上的時域采樣結果,如圖2所示。
以上述高校體育數據的測試樣本集在云計算環境下進行數據庫訪問模型設計,采用K均值數據聚類方法進行體育數據的挖掘,圖3描述的是不同方法進行體育數據挖掘訪問的時間開銷對比,圖4給出了挖掘的精度對比,分析仿真結果得知,采用本文方法進行海量高校體育數據庫建模和數據挖掘分析,時間開銷較小,說明進行數據分析的實時性較高,數據挖掘精度較高,數據訪問檢索的精度和可靠性較優。
4 結 語
本文研究高校體育數據庫模型的構建和數據挖掘問題,為提高高校體育信息的管理分析能力,提出一種基于云計算的海量高校體育數據建模與分析方法,構建高校海量體育數據的分布式數據庫模型,在云計算環境下進行數據庫訪問模型設計,采用K均值數據聚類方法進行體育數據的可靠性挖掘,實現高校體育數據的優化信息調度和檢索分析。仿真結果表明,采用該模型進行高校海聯體育數據分析的實時性較好,數據挖掘的精度較高,可靠性較好,具有一定的應用前景。
參考文獻
[1] 嚴海芳,蔣卉,張文權.用MCEM加速算法估計多序列無根樹最優分支長度[J].湘潭大學自然科學學報,2014,36(2):13?16.
[2] 劉穎,蘇俊峰,朱明強.基于迭代容積粒子濾波的蒙特卡洛定位算法[J].信息與控制,2013,42(5):632?637.
[3] 徐金龍,趙榮彩,韓林.分段約束的超字并行向量發掘路徑優化算法[J].計算機應用,2015,35(4):950?955.
[4] 周亞蘭.基于FPGA的多通道數據解碼技術研究[J].物聯網技術,2015,5(3):32?34.
[5] 杜麗萍,李曉戈,周元哲,等.互信息改進方法在術語抽取中的應用[J].計算機應用,2015,35(4):996?1000.
[6] YAMAMOTO K, CARUSONE A C. A 1?1?1?1 MASH delta?sigma modulator with dynamic comparator?based OTAs [C]// Proceedings of 2011 IEEE Custom Integrated Circuits. [S.l.]: IEEE, 2011: 1866?1883.
[7] CZIBULA G, MARIAN Z, CZIBULA I G. Detecting software design defects using relational association rule mining [J]. Know?ledge and information systems, 2015, 42(3): 545?577.
[8] HILLS J, BAGNALL A, IGLESIA B, et al. BruteSuppression: a size reduction method for Apriori rule sets [J]. Journal of intelligent information systems, 2013, 40(3): 431?454.