摘 要: 為了信息產業更好地融入人們的生活和工作,甚至是社會發展中,如何挖掘數據成為了熱點問題。元數據是一種關于數據的數據,挖掘元數據有助于數據應用與存儲,因此,找到一種高效、智能的數據挖掘方法十分重要。本文介紹了元數據及其集成技術,在此基礎之上,引入分布式垂直頻繁模式,并介紹了其在挖掘元數據過程中的使用方法,為從事相關行業的工作人員提供一個新的工作思路。
關鍵詞: 元數據;數據集成;布式垂直頻繁模式;數據挖掘
一、元數據及其集成技術
元數據是關于數據的數據,元數據是對數據的各種描述,描述的內容主要包括數據出處、數據精度、數據質量、數據處理過程以及數據更新與信息維護等相關內容[1]。最初引入元數據的概念,一是為了更加高效、便捷的對數據庫進行操作,提高數據庫更新與維護的效率與成果優化;二是元數據的引入可以輔助計算機產業為其他產業提供專業技能,將計算機技術更好地融入其他產業。
元數據應用非常廣泛,各行各業都有關于元數據的相關研究,因此,元數據在不同行業具有一定的差異性,這也是元數據的根本特點之一。元數據的另外一個特點就是元數據本身必須要對數據負責,最大可能達到全方面地準確描述數據。目前,在信息產業和計算機技術中,利用元數據可以提高數據訪問與檢索效率,也可以實現數據的深度挖掘,對數據進行加工和處理[2]。
目前,元數據的集成技術在數據挖掘領域和機器學習領域已經成為了一個研究亮點,在機器學習方面更是成為了四大重要研究方向之一,由此可見,元數據的集成技術具有重要意義。與元數據本身相比,元數據的集成可以進一步提高元數據的價值,然而,元數據的集成也會發生數據較大的問題,對存儲數據的空間需求量加大,因此,找到將最佳組合的元數據進行集成的科學方法,在元數據研究領域具有重要意義。
二、分布式垂直頻繁模式
當今社會信息技術高度發達,數據集成與挖掘為信息技術的發展提供了有力的數據支撐,是信息技術應用在各行各業的技術支持。元數據集成需要多種不同類型的數據相互作用,相輔相成,數據挖掘正是為數據集成提供基礎數據的學科,分布式垂直頻繁模式是數據挖掘中廣泛使用的方法之一。
分布式在元數據挖掘中的含義是將整體數據分成多個不同的獨立的個體,分布式垂直頻繁模式,就是在海量數據中,將數據依據不同分類形式分成若干個不同的個體或子集,然后將具有最大重要性的數據個體或子集挖掘出來,最終形成頻繁項集輸出[3]。
頻繁項集在數據庫學科中的定義為,設Kn(n=1,2,……)為n個項,K={K1,K2,…,Kn}是項的集合,D為事務數據庫。設有項集S在事物數據庫中的支持數表示的是在事務數據庫中包含項集S的事務項數目,記為Scount,S在事物數據庫中的支持度是指S在事務數據庫中出現頻率,記為S.sup。假使S的支持度大于或等于給定的最小支持度閾值Minsup,則項集S為事務數據庫中的頻繁項集,在后續元數據集成的分布式垂直頻繁模式挖掘中將被挖掘。。
分布式垂直頻繁模式挖掘的主要對象是頻繁項集,分布式垂直頻繁模式通過在海量數據中進行搜索,將其中一個數據挖掘出來后,一起將另外與之頻繁出現的數據挖掘出來,最終合成頻繁項集篩選出來作為結果進行分析,目前,分布式垂直頻繁模式比較主流的算法主要有兩種,分別是Apriori算法和FPGrowth[4]。
Apriori算法是先在數據中構建數據候選集,在這些數據候選集中進行挖掘,這種算法需要將步驟重復進行多次,歷遍全部數據,因此用時較長,當數據量較大時,Apriori算法效率較低,不適合使用。FPGrowth算法的第一步是構建FP-tree,然后使用遞歸算法對FP-tree中的數據進行挖掘,這個算法只有兩個步驟,效率非常高,并且數據所需存儲空間較少,應用廣泛。
分布式垂直頻繁模式嚴禁將具有重要影響性的數據排除在頻繁項集之外,同時要求在頻繁項集中可以重建頻繁項集,也應保證頻繁項集間具有獨立性與異同性。
三、元數據集成的分布式垂直頻繁模式挖掘方法
在計算機領域,計算機設備和技術的發展速度可以用“摩爾定律”來表示,為了更好地實現良性發展,與計算機協同發展,元數據集成也正符合“摩爾定律”發展速度進行進步。
在計算機行業中,大數據和云計算是兩個新興的產業和學科,具有廣闊的發展前景,元數據是這兩個學科的基礎,隨著信息化行業對于數據量的要求逐漸增長,傳統的數據挖掘方法已經不能滿足使用者對于元數據的要求,分布式垂直頻繁模式挖掘方法可以滿足現代數據挖掘工作的要求。數據挖掘是從海量的、較少完整性的、含有噪聲的、較為模糊的、具有隨機性的數據集里面找到高效的、具有實用性的、可以表示的數據信息,數據挖掘是一個交叉學科,挖掘技術包含多個學科的專業技能。分布式垂直頻繁模式挖掘方法具有高可靠、可在線和彈性伸縮的特點,同時可以提供不同數據之間的內在關系和應用價值,能夠為數據挖掘從業人員在決策時提供方便、快捷、迅速和高質量的數據[5]。
對于數據來說,數據挖掘是具有嚴格工作流程的工作,主要包括數據清理、數據轉換、數據挖掘開展、數據挖掘質量評估以及挖掘結果知識表示這八個主要的過程。基于分布式垂直頻繁模式挖掘方法的元數據挖掘過程還需要收集數據信息,將不同類型、不同出處和不同特色的數據集中管理,通過制定規則,將數據集進行表示,清理無用或相關性較低的數據,將數據轉換為所需格式或將數據格式進行統一,再根據數據中的信息采用分布式垂直頻繁模式挖掘方法進行數據挖掘,根據要求對挖掘出的元數據進行質量評估,最后將元數據表示出來,應用到其他領域。
以上是數據挖掘的基本過程,在元數據集成的分布式垂直頻繁模式挖掘方法中還有很多研究人員不斷提出新的挖掘算法。在Apriori算法的基礎之上,采用歸納手段對數據進行掃描,這種方法通常只需要進行一次掃描,然就可以實現在海量數據中準確找到頻繁項目,進而挑去出具有價值的數據進行分析形成元數據。也有基于FP-Tree算法進行改進的數據挖掘算法,通過不同時相的數據采集最終形成頻繁項集。另一種算法是在參照FP-grow算法中將數據進行分段處理的思想,逐步挖掘數據中的頻繁項集,這種算法可以讓用戶在線獲取所需頻繁項集,同時這種算法挖掘的頻繁項集質量很高。
由于我們身處環境的不同以及先天基因等多種因素,每個人具有不同的個性,因此對于需求而言具有個性化的特點。元數據集成的分布式垂直頻繁模式挖掘方法,可以針對不同的個性進行數據挖掘,發揮數據長處,達到用戶滿意度。改革開放以來,人民生活條件得到了極大改善,對于生活質量的要求明顯提高,私人訂制行業受到越來越多人的喜愛,通過分布式垂直頻繁模式挖掘方法,更新和維護客戶的元數據,可以大大降低商家成本,同時更好地為客戶服務。從事私人訂制的工作人員會根據客戶的要求或平時興趣愛好,事先對客戶需求進行預估,通過數據挖掘,有助于提高員工預測結果與客戶需求的符合程度。
四、總結
隨著生活質量的不斷提高以及社會的不斷發展,人類產生的數據量越來越大,數據的管理與應用具有很大商業價值和社會價值。在大數據時代下,元數據集成的分布式垂直頻繁模式可以更好地適應大數據行業需求,提高元數據集成的有效性。
參考文獻
[1]尹潔娜.基于元數據集成的分布式垂直頻繁模式挖掘方法研究[D].遼寧大學,2014.
[2]姜冰.基于MapReduce的分布式閉頻繁模式發現方法研究[D].哈爾濱工業大學,2011.
[3]張力飛,朱驍峰,何炎祥.利用網格服務的分布式頻繁模式挖掘算法[J].計算機工程與應用,2004,40(7):179-181.
[4]葉飛躍.基于自適應哈希鏈的分布式頻繁模式挖掘算法[J].系統工程與電子技術,2005,27(3):560-564.
[5]馬可,李玲娟,孫杜靖.分布式并行化數據流頻繁模式挖掘算法[J].計算機技術與發展,2016(7):75-79.
作者簡介:徐延強,男,蘭州工業學院講師,研究方向:數據存儲與管理,元數據。