張云峰,宋 艷
(1.北華航天工業學院,河北 廊坊 065000;2.北奔重型汽車集團有限公司,內蒙古 包頭 014032)
數據庫的挖掘在廣義上是數據挖掘過程中從存儲在數據庫中的大量數據中挖掘出有用的信息。從這個角度看,數據庫挖掘系統包括以下幾個部分。
(1)數據庫:數據庫可以恢復信息,它可以整理數據庫中的數據;
(2)數據倉庫服務器:根據用戶的數據挖掘需求,提取相關數據的數據倉庫服務器;
(3)知識庫:它是一種領域知識用來評估結果的有趣程度模式或指導研究。這種知識庫的概念是有層次的,包括了解用戶的認可;
(4)數據挖掘引擎:這是數據挖掘的重要組成部分,它是由一組功能模塊的組合,用來進行描述,分類,轉換和偏差分析等;
(5)數據評價模塊:它通常是由有趣度去衡量,并且能夠與數據挖掘模塊進行交互,使得搜索專注于有趣程度的模型;
(6)圖形用戶界面:用戶和數據挖掘系統在這個模塊之間的通信,這使得系統與用戶進行交互,并且為數據搜索,提供信息,幫助搜索聚焦,和探索性數據挖掘。
1.2.1 清洗泛化
數據挖掘系統可以把現有的數據提高到一個更高的水平。利用GDBR廣義積分算法,通過空間和時間上的復雜性的相關性,然后采用N-gram方法可以有效地搜索和準確的重復記錄系統中的相似信息,然后進行排序和測試。智能化操作,如規范的插入,刪除,交換和置換可以處理常見的拼寫錯誤,數據清洗。但也有一些偏差,采用精度檢測正常消除基本算法,本系統提高了基本消除算法,利用統計原理,結合合理的直接和逆重復矩陣,能夠提高拼寫錯誤的檢測和正確的修改。
1.2.2 數據挖掘的功能
根據相關的關聯規則和序列規則,系統的分類以及數據聚集的數據挖掘方法,實現了數據挖掘系統的預期的應用目標。通過搜索與集成的頻繁項目集之間的數據實現Apriori算法。頻繁項集產生關聯規則的基本思想是:通過記錄I的頻繁項,并記錄下I所有非空子集內容。如果值的支持(I)/支持(a)大于最小置信度,規則= >(1-a)將直接輸出。如果I中的非空子集不符合條件,相關規則將不輸出。換句話說,關聯規則不是由a形成的,但時間序列規則往往與系統中的項目集的時間相關聯。該系統中的時間序列規則是由AprionAII決定的。在廣泛的意義上說,關聯規則包含強烈規則,例外規則和隨機規則。規則的少量數據服從的例外規則的代表。雖然數量少,其有趣性高。它是未知的信息在這個階段的和不可預知的信息規則。該系統中的最小可信度的關聯規則設置了例外。因此,系統可以形成分類關聯規則(CAR)和分類關聯規則(ECAR)和虛假的規則(SCAR)。
這些定義數據和分類數據,代表可以形成的數據類別,并根據分類標準中屬于未知類別的數據來形成分類。在這個系統中,應用區間分類器可以提高正確率和分類精度水平、降低過深樹擴展的決策樹分類器。
聚類算法結合高密度集群采用CURE算法進行標記的許多不同的簇代表點。所以能夠形成一定的集群分布式架構。然后有效地識別特殊的形態,使數據處理更高效和提高處理能力。利用數據挖掘之前,系統會自動劃分空間分布,使信息對象形成了許多數據單元。然后,根據本單位的特點,計算機集群分布。另一個獨特的聚類算法是基于密度的聚類算法。通過改進Dbscan算法,數據部門可以實現由小部門集群,實現和算法的加速速度通過選擇代表擴大種子點的相鄰對象,和整個數據庫集群實現樣本數據的聚類。它使系統的聚類算法更有效。
該系統集成了各種模塊密切相關,形成數據結構層次,包括多個獨特的輸出操作功能,具有多數據源、多參數的特點。因此,每個挖掘操作模塊之間的可以是相互獨立的,這可以產生更多的功能和更穩定的系統。作為一個集成系統,有一個協調統一的模塊進行模塊之間的關聯,從而提高并實現數據的傳遞、標準化系統的操作和數據源的挖掘結果。
在數據挖掘系統的基礎上考慮一個龐大的數據庫,本系統的數據挖掘的范圍必須要擴大,因此實現挖掘對象不應該僅存在于數據庫中,也應該在文件中。因此,根據文件系統提供的信息處理方法。呈現更容易挖掘結果,實現遠程決策支持分析,該系統還具有自動恢復的功能挖掘結果,擴大應用范圍。因為它是操作電腦的人,該系統配備了良好的操作界面,這能夠很方便用戶的操作和幫助決策者做決策分析并做出準確的決定。
根據本系統的上述結構,以下模塊設置是實現數據挖掘系統的相關功能。
(1)挖掘模塊可以實現挖掘工作功能,采集不同數據庫中的數據。每個挖掘模塊是獨立的。數據庫管理模塊可以控制單個模塊。存儲模塊的數據源,通過挖掘讀入相應的數據挖掘基礎,為其他模塊提供的基礎數據。
(2)在預處理模塊的主要功能是過濾,定義和格式的數據源,進一步提高整個系統的可操作性和實用性。主要的子模塊進行數據映射操作,映射的列映射和類型映射。數據映射到地圖源表成為身份類型,并形成相應的對照表。不同的數據映射并形成一個統一的模塊。列映射到數據源中提取有用的柱,有利于減少數據量,加快了計算速度。類型映射是將不同的數據源的類型強制性轉換成統一數據庫中的數據類型,有利于挖掘。
(3)存儲模塊操作整個數據庫中的數據。然而,首先必須導入外部文件,然后存儲和控制。采用ODBC技術底層界面。利用內存索引和緩沖功能,加快系統的計算能力。
整個系統的核心模塊是挖掘管理模塊。各種信息用戶實現從數據庫的挖掘應存放在挖掘基地。挖掘基地直接設置在系統數據庫中,便于傳輸和管理。挖掘庫管理包括所有類型的數據挖掘過程,數據準備和數據存儲。數據挖掘操作在整個挖掘過程中依賴一個其他數據挖掘和生成的一個新挖掘的運行結果。此外,新的結果可能是另一個挖掘過程中的數據源。
本文探討了基于大數據的數據挖掘系統的構建。首先,介紹了數據挖掘技術,包括數據挖掘的內容和實質,數據庫挖掘過程和挖掘系統的組成,以及數據挖掘系統的功能。然后,論述了構建數據挖掘系統的方法,包括總體框架結構設置,模塊設置界面設置。越來越多的相關數據集成系統進行發布和得到認可,企業應當根據自己的特點和需求構建數據挖掘系統,來為他們自己提供更好的服務和完善的應用及經濟效益。
[1]王元卓等,網絡大數據:現狀與展望[J].計算機學報,2013,36(06).
[2]李國杰,程學旗. 大數據研究:未來科技及經濟社會發展的重大戰略領域--大數據的研究現狀與科學思考[J].中國科學院院刊,2012(06):647-657.
[3]程學旗等.網絡大數據計算技術與應用綜述[J].科研信息化技術與應用,2013(06).