王照付+李麟
摘要:隨著當前大數據時代的到來,在海量數據庫的數據處理和數據分析過程中,應用有效的數據挖掘技術能夠大大提升數據處理的速度,同時也能夠提升數據處理的準確性。本文我們基于此主要來探究在大型數據庫的處理過程中數據挖掘技術的相關應用,我們從大型數據庫的數據挖掘概念入手,分析大型數據挖掘系統的概況以及當前比較經典的兩類多數據挖掘技術。
關鍵詞:大數據庫;數據挖掘;多數據
中圖分類號:TP311.13 文獻標識碼:A 文章編號:1007-9416(2017)01-0108-02
目前,數據挖掘技術融合了多項學科內容,不僅包含數據庫技術,而且也包含有人工智能以及統計學的相關內容,數據挖掘技術在當前大數據庫的數據處理方面貢獻了非常大的力量,數據挖掘系統在數據庫的數據處理過程中作為一個獨立模塊而存在,有效的協調了不同模塊之間的工作,下面我們首先來看一下大數據時代之下的數據挖掘信息概括。
1 大數據時代下的數據挖掘相關內容概述
1.1 數據挖掘技術的基本概念
數據挖掘技術主要就是指在數據庫的信息處理過程中,通過特定的方式和特定的手段來進行數據信息的搜索。換句話說數據挖掘技術是基于當前大數據時代而存在的,在海量數據信息處理的過程中,數據挖掘技術能夠大大提升數據處理的效率。數據挖掘技術需要從當前海量數據庫中不同形式,不同結構不同內容的數據通過特定方式搜尋出來,其中包含了大量不同領域的學科,通過數據挖掘技術我們能夠做出歸納性的分析和總結,對于企業來說,數據挖掘技術能夠有效的對市場進行預測和評估,同時也能夠有效的根據客戶的信息預測其未來的動向等。需要注意的是數據挖掘技術在實際的應用當中最重要的一門學科技術就是人工智能。
1.2 數據挖掘的特點以及應用
數據挖掘技術主要有以下幾個特點:
(1)數據挖掘的模型是非常復雜的,數據挖掘技術主要重視的就是數據庫中信息的建模過程,通過對相關數據關系進行有效的建模,把數學問題通過模型來表示出來從而有效地解決復雜的數據關系。(2)數據挖掘技術是基于當前大數據庫而存在的,因此在處理數據信息上其基本的數據量是非常大的,數據挖掘主要就是從海量數據庫中提出相關信息,海量數據庫中的信息數據的格式結構以及內容都是具有一定差異的。總的來說,數據挖掘技術在具體實施的過程中需要有效的注意這幾個方面的問題,從而保證數據挖掘的有效性和時效性。(3)數據挖掘技術跟隨用戶的實際需求出發,如果用戶無法給出具體的要求,那么數據挖掘就會將用戶所提出的有關信息進行提取,將用戶所感興趣的所有數據信息都進行反映,也就是說數據挖掘的規則性并不是唯一的,而是隨著用戶要求的準確性而發生變化的。(4)數據挖掘最關鍵的一個特點是其不同的算法最優化是不同的,評判數據挖掘技術優劣的一個關鍵主要就是判斷數據挖掘技術的有效性而不是最優性。
1.3 數據挖掘任務探究
數據挖掘可以有以下幾種不同的分類:
第一分類分析,即數據挖掘通過將一個特定的任務進行分類,通過用戶所提出的具體要求,將某些特征數據信息反映到特定的類別上。分類分析的過程主要是建立一棵樹,通過枝葉來向下進行逐級劃分,將滿足數據要求的類別進行下設,最終建立一棵樹與規范要求的樹。第二就是關聯規則,在關聯規則中比較經典的方式有Apriori算法、Sampling算法等,關聯規則主要是根據用戶的這一信息數據來推算出其他方面的信息數據,比如說用戶在數字化圖書館借閱書籍的過程中,關聯規則可以根據用戶在借閱書籍的種類以及根據用戶的年齡、學歷等信息來推算出用戶的實際工作階層,工作內容等,通過這種方式,企業可以有效發現潛在的市場等。第三是聚類分析,聚類分析主要是指在數據信息處理的過程中,將屬于同一類別的數據信息存儲到一個特定的數據庫當中,聚類分析與數據信息的自身結構形式有關,它會根據系統所給定的相關性能指標來直接確定數據信息的類別,當前聚類分析比較經典的算法有分解法、動態聚類法等。
2 大型數據庫的數據挖掘系統
前面我們對當前大數據庫時代下的挖掘技術的相關概念以及分類進行了簡單的分析和概述,下面我們主要來看一下挖掘技術中關聯規則、聚類以及分類三種不同算法的相關內容。
2.1 關聯規則挖掘
關聯規則挖掘前面我們已經簡單的說明了其主要就是指針對數據信息的一個特定特征來推算出其他的數據信息,通過這種推算方式來發現數據信息中具有價值的內容。當前來看,關聯規則挖掘中最為基本的算法就是Apriori算法,Apriori算法能夠有效的根據用戶信息的數據特征來推算出其他的數據特征,Apriori算法的基本運轉原理是通過將海量數據庫進行搜索之后,將數據庫中的頻繁集項進行搜索,然后根據所生成的頻繁集項來建立一定的關聯規則,最終實現有效的關聯算法。在這一個具體的算法過程中,Apriori算法具有兩個非常顯著的問題,首先它在進行數據特征挖掘的過程中,會重復的搜索同一海量數據庫,也就是說它每進行以此頻繁集項的確定,就需要搜索一次數據庫,而這種頻繁搜素數據庫的方式大大增加了搜索所花費的時間,對于數據信息巨大的數據庫來說,這種方式是存在一定局限性的。其次,Apriori算法在所得出的頻繁項集中,項集的數量規模是非常大的,對于Apriori算法的效率來說也造成了一定的影響,而當前人們基于Apriori算法對其進行了一定的改造,使其在運算效率和運算準確性上得到了有效的提升。
首先就是散列項集計數,通過人工智能的相關學科知識,對Apriori算法進行改造,使其能夠辨識頻繁項集,即如果數據庫中一個具體的項集的哈希桶計數如果低于支持度,那么其不可能稱為頻繁項集。其次事物壓縮,前面所排除在外的數據信息是不可能成為頻繁項集的數據信息,也就是說這些數據信息在后續的篩選過程中可以不進行計算,不加以考慮。第三,劃分,如果數據庫中存在潛在的頻繁項集,那么我們不能在前面兩個階段就將其排除在外,因為潛在的頻繁項集在數據庫中的一個劃分中應當作為頻繁項集存在。我們通過這幾個階段的優化,將Apriori算法的運算效率和運算準確度大大提升,使其能夠在數據庫的搜索過程中不再出現重復搜索數據庫這一現象的出現,解決了Apriori算法的一個局限性。
2.2 聚類
聚類算法在實際的數據挖掘應用當中分為兩個不同的部分,分割和分層,對于分割聚類算法來說,它主要是將所需要進行處理的數據信息進行分割,然后計算出所分割出來的程序之間的距離,根據所計算出來的距離來進行比較,然后選取其中距離最短的兩個數據信息進行結合,將所結合的數據信息當做一個新的樣本而存在,然后這個新的樣本重新與其他的數據信息進行比較,將所計算的實際距離再次進行比對,仍然將最小距離的兩個數據整合,通過這一過程不斷的循環,最終就能夠形成一個有效的分類距離對稱表。最終所形成的就只剩下兩個類別的數據信息,我們通過這種方式實現了數據信息的分類過程。
對于分層來說,其相比于分割聚類算法又進行了一定技術上的優化,既不需要進行數據信息的分割,當前比較經典的分層聚類算法是Birch算法,這一算法的優化原理主要就是能夠在分類的過程中首先將一簇信息通過三元組來表述出來,為后續的分類奠定良好的基礎,這種算法所得出來的樹主要由具備兩個參數分支因子B和類直徑T高度平衡樹組成。
2.3 分類
最后對于大型數據庫的數據挖掘應用來說,其在分類上也有顯著的作用,分類主要是根據數據信息的一個隱層信息數據來得出數據的顯層信息,通過映射關系來得出二者之間的關聯,然后通過RBF網絡來把通過這種方式所分類出來的數據信息進行呈現。
3 多數據挖掘技術概述
前面我們對當前大數據時代之下的數據挖掘的三個主要算法進行了簡單的概述,就目前來看,關聯規則、分類和聚類這三種算法是比較經典在數據處理上應用比較廣泛的。下面我們具體來看一下庫存管理數據挖掘以及空間數據挖掘這兩項技術。
3.1 庫存管理數據挖掘
當前制造業發展極為迅速,在制造業的庫存管理中應用數據挖掘技術能夠有效的提升庫存管理的效率,企業在應用庫存管理數據挖掘能夠有效的提供庫存量以及訂貨量的相關數據,提升企業的經濟效益,在庫存管理的過程中,應用庫存管理系統能夠有效的提升庫存管理數據的有效性,應用了智能化的庫存數據挖掘能夠有效地解決傳統交易記錄繁多,記錄信息繁雜的問題,同時解決屬性關系復雜的問題,不同的數據信息的層次信息是不同的,應用一定的數據挖掘則能夠大大提升對不同層次數據的分類以及特征提取[1]。
就當前發展來看,庫存數據挖掘系統主要就是對庫存異常信息的檢測、庫存商品庫齡的計算以及對庫存預測這三項主要功能,通過這三項功能來實現有效的庫存管理,提升制造業企業的經濟效益等[2]。
3.2 空間數據挖掘
空間數據挖掘技術,這一項技術主要就是隨著當前衛星通訊設備的發展,為了能夠獲得時效性的用戶空間數據信息,而建立的空間數據挖掘模型,在當前的發展來看,在一些水電資源管理、交通運輸業中應用空間數據挖掘技術是非常常見的,空間數據挖掘系統主要包括空間數據分析階段、空間數據查詢功能,空間數據挖掘依賴于可視化地圖而存在,通過可視化地圖來實現對對象空間信息數據的準確記錄,并且將相關的數據信息應用到救援事業、交通事業等[3]。
4 結語
綜合上文所述,本文我們主要從當前基于大型數據庫的數據挖掘應用相關問題進行分析和探究,通過對數據挖掘的基本概況以及數據挖掘的基本分類來探討分析了關聯規則、聚類以及分類三種不同形式的數據挖掘。就目前的發展來看,在關聯規則中,Apriori算法是比較基礎典型的,在聚類算法中,Birch算法則能夠在數據庫的信息掃描過程中,降低掃描的時間,提升掃描的效率,從而有效的保障當前基于大型數據的數據挖掘的效率[4]。
最后,我們又討論了當前在實際的企業發展和社會應用當中,庫存數據挖掘和空間數據挖掘這兩項技術的概述,總的來說,當前大數據時代的到來,數據挖掘技術一定會得到非常良好的發展前景,在未來的發展中也一定能夠發揮其可行性和有效性。
參考文獻
[1]王元卓,靳小龍,程學旗,等.網絡大數據:現狀與展望[J].計算機學報,2013(6):1125-1138.
[2]王元卓,賈巖濤,劉大偉,等.基于開放網絡知識的信息檢索與數據挖掘[J].計算機研究與發展,2015(2):456-474.
[3]張引,陳敏,廖小飛,等.大數據應用的現狀與展望[J].計算機研究與發展,2013(z2):216-233.
[4]余偉,李石君,楊莎,等.Web大數據環境下的不一致跨源數據發現[J].計算機研究與發展,2015(2):295-308.