薛 蓓,周延懷,王曉蘭
(南京師范大學 泰州學院,江蘇 泰州 225300)
基于云平臺的大數據資源挖掘技術研究
薛 蓓,周延懷,王曉蘭
(南京師范大學 泰州學院,江蘇 泰州 225300)
針對云平臺下大數據資源挖掘過程準確率低、耗時長等問題,對大數據資源挖掘技術進行改進研究;利用MST聚類法對云平臺數據集進行預處理,根據數據間的關聯性來增強檢測結果,并提高數據索引效率,將數據間的鄰接矩陣作為邊的權值,生成全圖的MST,獲取評價數據資源挖掘準確度的標準,并得到k個最小生成子樹,其中的一個子樹就是數據集最優聚類結果;實驗結果表明,所提方法有效提高了大數據挖掘準確性,使得數據資源得到了更高效的利用。
云平臺;數據資源;挖掘;技術改進
當今世界的科學技術發展迅速,已然成為了各國發展的經濟支撐,科技創新的地位也越來越重要[1]。科技創新服務平臺是經濟社會中新的形式,可以根據資源整合來提升科技資源利用率,并加強“產學研”聯合和發揮科技中介作用,促進科技成果轉換,是國家科技創新結構中的重要構成部分[2]。依據當前的形式而言,對科技創新服務平臺建設的力度加大,是適應科技迅速發展的必然趨勢,同時也是推動科技社會迅猛前進的主要動力[3]。
目前人類正處于瞬息萬變的環境中,經濟發展與科技創新均發生了重大且深遠的變革[4]。科學技術作為第一生產力,每個國家或者地區科技綜合競爭力強弱,主要表現于科技資源整合水平、科技利用率和科技創新等方面[5]。每個國家或者地區總體的科技創新服務平臺是國家重要的組成部分,科技創新服務平臺的構建作為國家科技比較基礎的條件平臺,依據本地區或本國的實際情況構建科技創新服務平臺,該問題是實現國家科技進步的關鍵,也是落實中央制度的具體行動[6]。
綜上所述,對科技創新服務平臺中的數據利用云平臺進行存儲,并實現數據資源的高效利用,需要對云平臺數據的大數據資源進行挖掘[7]。
在對云平臺的大數據資源挖掘技術進行研究之前,首先對大數據資源挖掘技術原理進行分析。大數據資源挖掘技術原理主要包括新科技創新服務平臺結構體系和大數據資源挖掘依據兩部分。新科技創新服務平臺結構體系是對數據資源進行挖掘的平臺環境,對平臺環境加以介紹,在充分掌握平臺結構體系之后,能夠更加準確地制定出數據資源挖掘技術的改進方案。大數據資源挖掘依據為數據資源挖掘技術的改進方案提供依據,并給出了數據挖掘技術實現的流程。
科技創新服務平臺結構如圖1所示,其中主要分為:用戶層,網絡層,資源層,運輸層和數據層[8]。用戶層為平臺的使用者,其中包含獲取有關科技服務與資源的客戶,還包含提供科技服務和資源,進而受益的供應商;網絡層是平臺的窗口,是其他層的線上媒介,展示供需信息的時,提供線上的交易平臺;資源層將運營層當作中介,為用戶層供給科技資源與服務,其中包括有形資產、無形資產持有者、專業技術服務執行者;運營層是平臺核心,根據線下運營者,線下的服務執行者以及線上網站建設的維護者組成;數據層將云平臺當作載體,實現后臺數據資源的挖掘分析,跟蹤并完善客戶的需求,進而完成數據的推送和資源配置[9]。

圖1 科技創新服務平臺結構體系
根據科技創新服務平臺結構體系中數據層中的大數據挖掘和分析需求,利用圖2中的數據挖掘原理實現數據資源的挖掘。

圖2 大數據資源挖掘原理
由圖2可知,首先對大數據資源進行獲取,將獲取的大數據資源分為兩部分,一部分進行數據預處理備用,另一部分通過數據處理函數等的綜合計算,對數據進行充分分析,再將分析好的數據進行分類,最終實現數據資源的挖掘。
要使云平臺中的數據利用率達到最大,通過圖2的大數據資源萃取原理,利用MST聚類法實現云平臺的大數據資源高效挖掘。通過MST聚類法的大數據聚類分析以高維大數據作為背景,于圖論的基礎上,對數據集進行預處理,根據量化各數據對象間的關聯性組建鄰接矩陣,將數據點當作頂點,各個數據間的鄰接矩陣作為邊的權值,組建一個全圖,并生成此全圖的MST,依據實際的問題以及數據分布的狀態,按照邊權值由大到小分割MST的邊,獲得k個最小的生成樹子樹,其中的一個子樹就是數據集中最優的聚類結果。詳細過程如下:
所謂的鄰接矩陣就是根據數據組表示數據點間關聯的數據矩陣[10],假設圖G代表賦權網絡圖,則能夠將其定義為:
(1)
式中,wij代表邊的權值,圖3和圖4展現了從圖生成為鄰接矩陣全過程:

圖3 無權全圖所生成的鄰接矩陣

圖4 賦權全圖所生成的鄰接矩陣
根據圖3和圖4可得知,網絡圖鄰接矩陣是對稱矩陣,其中矩陣中的第i行第j列個元素就是賦權圖內的頂點vi和頂點vj關聯距離wij。根據該矩陣可增強數據關聯性檢測效果,促使數據分類形狀多樣化。
在這里把數據對象點間距離的關聯性當作權值對兩點間相關性賦權,組建出數據對象點間的鄰接矩陣,獲得鄰接矩陣表示的全圖,根據生成最小樹法獲得此權值全圖中的一個MST,并按MST邊賦值大小分割最小樹邊,獲得若干最小樹子樹,各子樹就是一個最優Cluster(簇),詳細過程如下。
將數據集點進行初始化:
初始化就是將指標變量量綱相異或者數量級差別比較大的數據對象標準化,并統一數據對象類型以及單位,使該數據對象可以進行比較與計算。

則所有獲得的生成樹權值與W最小的就是MST,也就是滿足:
(2)

圖5 賦權全圖MST
由大至小切割MST賦值邊,獲得MST若干子樹,也就是將MST中最大的賦權邊em切割移除,em滿足下列條件:em=max{W(vp,vq)}=max{d(vp,vq)}。

圖6 切割最小的生成樹中最大兩條邊之后獲得三個子樹
經過切割,所獲得的各子樹邊就是全局最優的一個類簇,假設在切割k條最大的邊之后,會獲得k+1個類的最優類簇,照比傳統的數據挖掘方法,得到的聚類結果更加準確。
為了驗證基于云平臺的大數據資源挖掘技術的有效性和可行性,實驗針對改進技術的數據關聯性、聚類召回率、聚類時所出現的形狀、數據索引效率及挖掘精度五項指標進行測試。首先給出實驗數據的由來及實驗平臺環境,通過實驗模擬制定實驗方案,執行實驗操作,對實驗結果進行分析。
并對分析所得結果進行總結,具體實驗描述如下:
實驗中,采用加利福尼亞的機器學習數據集,將兩種不同的數據集劃分為四組不同數量的數據集,并分別與本地的云平臺進行連接,本地的實驗環境是Google App Engine SDK、AMD雙核1.6、2 G內存。將Average-Linkage聚類法、K-Means聚類法以及SOM聚類法應用MATLAB軟件完成實驗模擬,將MST聚類法利用LINGO軟件實現模擬分析。
進行實驗模擬時,將類簇劃分為3個,可獲得下列聚類效果如圖7所示。

圖7 不同技術聚類效果對比
觀察圖7可知,圖7(a)~圖7(d)分別是采用Average-Linkage聚類法、K-Means聚類法、SOM聚類法及MST聚類法對數據進行聚類的效果圖,前三種聚類法的聚類效果較為相似,最后一種聚類法的聚類效果比較特殊。Average-Linkage聚類法的聚類精度較低,在3個數據集中,存在數據混雜的現象,且聚類數據量少。K-Means聚類法的聚類精度相對較高一些,由圖7(b)可以看出,3個數據集中沒有混雜數據,但是聚類的數據量依然較少。觀察圖7(c)可知,SOM聚類法的聚類精度較前兩種方法高,聚類的數據量也明顯增多。采用MST聚類法進行數據的聚類,由圖7(d)可看出,它能夠將3種數據集按照不同類別進行無縫聚類,不僅聚類精度高,聚類數據量大,且聚類密度高,有效節省了聚類空間。對比4種不同聚類方法的數據聚類效果,MST聚類效果遠遠優于其他3種聚類方法,改進的云平臺大數據資源挖掘技術正是應用這個方法對數據進行聚類,充分說明改進技術聚類效果更好,驗證了改進技術的有效性。
將實驗數據導至網格中,網格分為橫縱坐標,縱坐標代表數據量,橫坐標代表時間,觀察改進技術數據關聯性檢測效果。
根據圖7分析圖8,由圖7已經得知不同聚類方法的數據聚類效果是不同的。據經驗Average-Linkage聚類法并不需要先確定k值,不過數據挖掘程序一旦運行,就無法更正了,這也就影響了數據聚類的正確性;K-Means聚類法的參數k值為隨機給定的,由此致使聚類結果不一致,導致數據聚類的效果不理想;SOM聚類法具有比較高的聚類準確度,不過查閱資料可知,該聚類法是基于歐式距離且處于反復的循環過程,這使得數據的維度越高,其數據聚類的收縮速度就越慢,嚴重耗時;改進技術的數據關聯性檢測效果與聚類效果直接相關,由圖8可知,改進技術的數據關聯性檢測效果隨著時間變化越來越顯著,當實驗時間為40 s時,數據庫資源達到最高值為78萬個,檢測出改進技術的數據關聯性較高。產生這種情況主要是因為改進技術通過量化各數據對象間的關聯性組建鄰接矩陣,以此增強了數據關聯性檢測效果,并依據實際的問題以及數據分布的狀態,按照邊權值由大到小分割MST的邊,將其作為評價數據資源挖掘準確度的標準,提高了數據聚類正確性,進而提高改進技術數據關聯性,實驗結果表明,改進技術的數據關聯性高。

圖8 改進技術數據關聯性檢測效果

根據上述召回率公式,利用軟件完成聚類程序之前,在程序的最前面和程序的最后面,分別添加一時間函數,獲得的時間差就是該聚類法執行聚類時的時間效率,聚類期間所出現的形狀表達的就是數據挖掘方法所展現出的聚類樣式是否多變。表1、表2和表3分別代表數據聚類錯誤的召回率、聚類時所出現的形狀以及經過挖掘之后的數據索引效率。并以此為依據檢驗改進技術的整體效果。

表1 不同技術召回率對比
分析表1可知,應用Average-Linkage聚類法的數據挖掘技術,其數據聚類錯誤召回率為75.9%;應用K-Means聚類法的數據挖掘技術,其數據聚類錯誤召回率為84.5%;應用SOM聚類法的數據挖掘技術,其數據聚類錯誤召回率為91.2%;改進技術采用MST聚類法,其數據聚類錯誤召回率為99.8%。對比4種引入不同聚類方法的數據挖掘技術的實驗結果,明顯看出改進技術的數據聚類錯誤召回率最高,近乎接近了100%,改進技術建立了數據對象間的關聯性量化后產生的鄰接矩陣,并對數據的均值、標準差、極差等項進行了計算,由此提高了數據聚類的召回率,實驗結果驗證了改進技術的有效性。

表2 不同技術聚類時所出現的形狀
分析表2可知,應用Average-Linkage聚類法的數據挖掘技術,其聚類時所出現的形狀為球形;應用K-Means聚類法的數據挖掘技術,其聚類時所出現的形狀為凸形;應用SOM聚類法的數據挖掘技術,其聚類時所出現的形狀為球形或凸形;改進技術采用MST聚類法,其聚類時所出現的形狀為任何形狀。對比4種引入不同聚類方法的數據挖掘技術,其聚類時所出現的形狀,明顯看出改進技術聚類時出現的形狀沒有局限性,可對任意形狀進行聚類,聚類范圍廣,提高了改進技術的數據聚類精度,改進技術對所生成的鄰接矩陣進行了賦權,在增強數據關聯性檢測效果的同時,也使改進技術聚類時所出現的形狀變得多樣化,充分說明改進技術更優良。

表3 不同技術挖掘后的數據索引效率
在索引字數量為2個的情況下,對4種引入不同聚類方法的數據挖掘技術的索引效率進行測試,分析表3可知,應用Average-Linkage聚類法的數據挖掘技術,其索引時間為0.5 s;應用K-Means聚類法的數據挖掘技術,其索引時間為0.4 s;應用SOM聚類法的數據挖掘技術,其索引時間為0.6 s;改進技術采用MST聚類法,其索引時間為0.1 s。對比4種引入不同聚類方法的數據挖掘技術的實驗結果,明顯看出改進技術的數據索引效率最高,近乎是其他三種數據挖掘技術索引效率的五分之一,索引效率大幅度提升,這是因為改進技術依據實際問題及數據分布狀態,按照邊權值由大到小分割MST的邊,從而實現挖掘后的數據索引效率的提升,實驗結果驗證了改進技術的實用性。
為了驗證改進技術能夠高精度地對大數據資源進行挖掘,以傳統技術作為對照組,實驗共進行6次,記錄每次試驗的不同技術數據資源挖掘情況,并計算其精度。挖掘精度對比實驗,實驗結果如下:
觀察圖9可知,經過6次對比實驗,采用文獻[7]技術對數據進行挖掘,其數據挖掘精度隨實驗次數的增大逐漸減小,但減小的幅度并不大,曲線基本保持平穩狀態,其平均數據挖掘精度為35%,精度較低。采用文獻[8]技術對數據進行挖掘,其數據挖掘精度隨實驗次數的增大基本保持不變,曲線十分平穩,平均數據挖掘精度為18%。采用改進技術對數據進行挖掘,其數據挖掘精度初始值就已達到80%,且曲線十分穩定,只有在第4次實驗時,出現了挖掘精度最低值為75%,在第6次實驗時,出現了最大挖掘精度為85%。對比文獻[7]技術、文獻[8]技術及改進技術可以明顯看出,改進技術的數據資源挖掘精度遠遠高于文獻[7]技術、文獻[8]技術的數據資源挖掘精度,且通過每一次實驗結果的對比,可以看出改進技術不僅挖掘精度較高,且均能穩定在80%左右,充分說明改進技術的穩定性更好,實用性更強。

圖9 不同技術數據資源挖掘精度對比
綜合以上實驗結果可知,改進的云平臺大數據資源挖掘技術通過引進MST聚類方法,其數據關聯性好,數據聚類錯誤召回率高,聚類時出現形狀多樣化,數據索引效率高,且挖掘精度高,具有一定的有效性和實用性。
根據互聯網+的科技創新服務平臺,通過O2O模式把科技服務當作一種商品,并充當科研機構以及企業間的中介與橋梁,能夠有效地滿足企業創新服務需求,同時也激發了企業創新的活力,大大提升了平臺的效能,不過在市場推動機制還未完全建立時,存在平臺發展后勁亟待加強等問題,要保障平臺穩定發展,就需要對其中的云平臺中大數據資源進行挖掘。
提出一種MST數據聚類挖掘法,根據圖論理論,利用數據間的關聯性分析建立鄰接矩陣,采用各個數據間鄰接矩陣邊的權值建立全圖,并產生全圖的MST,按邊權值大小對MST進行切割,直到獲得最優簇。并通過實驗證明,該方法具有可行性。
目前大眾對大數據的連接以及運用只是停留在初期,云平臺大數據越來越呈現出迅猛增長的趨勢,由此該文未來會在更加高頻以及高維復雜的數據挖掘上作進一步地研究和分析。
[1] 吳曉英, 明均仁. 基于數據挖掘的大數據管理模型研究[J]. 情報科學, 2015, 32(11):131-134.
[2] 歐陽秋梅, 吳 超. 從大數據和小數據中挖掘安全規律的方法比較[J]. 中國安全科學學報, 2016, 26(7):1-6.
[3] 郜凱英, 楊宜勇. 中國互聯網+社會保障信息系統構建——基于大數據挖掘視角[J]. 經濟與管理研究, 2016, 37(5):83-89.
[4] 馬昱欣, 曹震東, 陳 為. 可視化驅動的交互式數據挖掘方法綜述[J]. 計算機輔助設計與圖形學學報, 2016, 28(1):1-8.
[5] 申 琢, 譚章祿. 基于數據挖掘的煤礦大數據可視化管理平臺研究[J]. 中國煤炭, 2016, 42(12):86-89.
[6] 張繼榮, 王向陽. 基于XML數據挖掘的Apriori算法的研究與改進[J]. 計算機測量與控制, 2016, 24(6):178-180.
[7] 董本清, 彭健鈞. 復雜網絡數據流中的異常數據挖掘算法仿真[J]. 計算機仿真, 2016, 33(1):434-437.
[8] 王 琰. 一種多層安全相關屬性標定偏好數據挖掘模型[J]. 科技通報, 2015, 31(12):176-178.
[9] 任高舉, 白亞男. 多媒體智能教學系統中特定數據挖掘方法研究[J]. 電子設計工程, 2016, 24(11):4-7.
[10] 梁鳳蘭. 基于數據挖掘的農產品質量特性波動溯源方法[J]. 科學技術與工程, 2017, 17(3):268-272.
Research on Large Data Resource Mining Technology Based on Cloud Platform
Xue Bei,Zhou Yanhuai,Wang Xiaolan
(Taizhou College, Nanjing Normal University,Taizhou 225300,China)
In order to solve the problem of low precision and long time consuming in mining large data resources under the cloud platform, the mining technology of large data resources is improved. Preprocessing of the cloud platform data sets using MST clustering method to enhance the detection results according to the relevance between data and data, improve the efficiency of the index, the adjacency matrix data as edge weights, generating graph MST, obtain evaluation data mining accuracy standard, and get k a minimum spanning tree. The results of the optimal clustering a sub tree, which is the data set. Experimental results show that the proposed method effectively improves the accuracy of large data mining, and makes data resources more efficient.
cloud platform; data resources; excavate; technical improvement
2017-10-14;
2017-10-24。
2015年泰州市軟科學研究計劃項目(RKX201529)。
薛 蓓(1985-),女,江蘇泰興人,碩士,助理研究員,主要從事計算機技術,教育管理方向的研究。
周延懷(1954-),男,江蘇鎮江人,大學,教授,主要從事物理學方向的研究。
1671-4598(2017)12-0275-04
10.16526/j.cnki.11-4762/tp.2017.12.071
TP311
A