葉符明
摘要:近年來,隨著互聯網技術的發展,各行各業之間的信息存檔都上傳成為數據庫的數據,這樣相比較傳統的紙質檔案更加容易被查找以及保存,但是隨著行業的發展,上傳的數據越來越多,導致企業在查找時無法及時的查詢到自己需要的信息,介于這樣的情況,人們開始研究智能型的大型數據庫的數據挖掘方法,本文根據數據挖掘的含義特征進行分析,探究大型數據庫中數據挖掘的算法以及在實際中的運用方向。
關鍵詞:大型;數據庫;數據挖掘;應用
中圖分類號:TP311.13 文獻標識碼:A 文章編號:1007-9416(2018)09-0089-02
在最近的十幾年中,世界經歷了網絡數據信息滾雪球般的增長,各行各業的數據儲存量都達到一個相當大的地步,在這樣的情況下,當人們需要進行數據分析時,將面臨巨大的工作量,并且因為數據的龐大,人們極易在數據分析期間出現過錯,導致數據分析的結果出現偏差,影響人們的判斷決策。在這樣的情況下,人們迫切的需要數據庫挖掘技術,并且要求數據庫的挖掘具有智能性與自動性,能夠幫助人們快速、準確的在龐大的數據中查詢到自身需要的數據,并且進行分析,為人們的判斷決策提供可靠的依據。
1 數據挖掘技術概述
1.1 數據挖掘的含義
數據挖掘主要是在信息收集完成之后,通過一系列的指令對需要的數據進行查詢的過程。數據挖掘技術的產生是由于大數據時代的到來,人們所儲存和交換的數據越來越多,導致數據查詢難度增大,人們研究應用數據挖掘技術,希望通過數據挖掘技術在龐大的數據庫中及時準確的查找到需要的數據,提高人們的工作效率,并通過數據的分析為人們的決策提供數據依據。
1.2 數據挖掘的技術特點
數據挖掘技術具有四個明顯的特點,其都是受數據庫中數據的特征所影響,要想數據挖掘技術準確的對數據進行查找分析,數據挖掘技術就必須符合數據庫中數據的特點。這四個特點分別是:差異性;復雜性;算法之間的差異性以及準確性。
差異性的特征是因為在數據庫中數據來源多種多樣,數據信息之間的差異性也是十分的明顯,數據挖掘技術要確保在海量的數據信息中準確的找到需要的數據信息,就必須具有搜索的差異性,根據不同的信息查找需求,分析出需要查找信息的特征,在進行相關的查找,節省查找信息的時間;數據挖掘技術的復雜性主要是體現在數據挖掘技術涉及的領域繁多,在進行數據挖掘技術的建模時需要建立一個復雜又龐大的計算模型;數據挖掘技術的算法差異性,在數據挖掘技術中,評判數據算法的優劣并沒有統一的標準,而是根據實際需要進行查找的信息進行判斷哪種算法最合適進行查找,使得數據挖掘技術的搜索算法具有較大的差異性;準確性主要表現在數據挖掘技術的使用時需要根據用戶的實際需求進行數據挖掘,若用戶沒有表示明確的查找要求時,數據挖掘技術會根據用戶的興趣以及用戶輸入的信息進行相關信息的查找,并且搜索的結果會根據用戶的喜愛以及需求進行相應的改變。
2 大型數據庫的數據挖掘的算法
2.1 關聯規則挖掘
關聯規則挖掘技術就是根據用戶的一項數據來進行用戶其他數據推測的方式。如下圖所示,當顧客在商場購買了一件襯衫的時候,關聯規則可以根據以往用戶的消費信息進行分析,預測出顧客可能購買領帶的行為以及行為發生的概率。
Apriori是關聯算法中常見的算法。假設一家商店當中經營四種商品,商店中各種商品之間進行組合的可能性,再根據客戶購買行為以及商品之間的差異性,得到一個集合,表示商品組合可能性較低的情況,通過Apriori進行計算之后構建的組合機,此集合則是表示客戶在購買中經常使用的組合集合,如此店主在進行商品的推廣時就可以根據數據的分析結果,為顧客推薦常用的商品組合,滿足顧客的潛在需求,提高自身的經濟效益。
Apriori在運算中能夠通過智能技術,對數據進行“頻繁集”的計算,在計算過程中可以對數據進行相應的分析挑選,使其在最短的時間內算出用戶需要的關聯信息,滿足用戶的搜素需求,并且在Apriori的運算中對于無法一下識別出來的信息都算作頻繁集,確保了信息分析的準確性,為用戶的決策提供可靠的依據。
2.2 聚類算法
聚類算法的施行主要是在相同類型的數據信息中進行查找,其主要的算法類型又可以分為“分割聚類法”與“分層聚類法”。分割算法的的主要作用是對需要的數據信息進行分割劃分,將相關的信息聚攏在一起成為一個新的數據信息庫,其主要計算方式是首先對需要進行分割的數據信息進行劃分,劃分之后根據信息程序之間的距離進行判斷,然后將距離較近的信息劃分在一起形成一個新的數據信息群,再對新的數據信息群進行劃分,尋找劃分之后信息程序之間的距離,將距離近的信息聚攏,如此反復,知道最終的到的信息群中只剩2個具體的數據信息,此時這兩個數據信息之間會形成一個標準的距離對稱表。
在分層聚類的算法中,又包含著兩種具體的分層計算模式,一是凝聚型的分層聚類,這類型的分層凝聚法,在計算時是將數據進行凝聚,首先在計算時將每一個數據信息都看作一個“類”,再根據用戶給出的度量信息,例如3個“類”之間的距離,以此為準將之間的“類”集合成一個龐大的“類”如此反復,直到所有數據信息對象都在一個類當中,或者是類的集合滿足了用戶給出的要求,簡單的說就是根據用戶的需要將相關的數據信息集合在一個類中,形成相關的數據信息群,方便用戶在進行數據信息搜索時,減少搜索的時間以及搜索范圍。二是分裂的分層聚類計算方法,其計算的方式與凝聚的分層聚類計算方式完全相反,其首先將相對的數據信息集合放置在一個類當中,在根據用戶的需要對數據信息劃分較小的類,反復操作,直到每一個數據信息即代表一個類,或是達到用戶的劃分需求,簡單形容即是分裂的分層聚類算法將龐大的相關數據信息劃分成細小的數據信息,使用戶在搜索數據信息時提高搜索結果的準確性。
3 大數據挖掘技術的主要運用方向
3.1 空間數據的挖掘技術
空間數據主要是通過衛星通訊設備進行收集,空間數據主要用來體現“空間實體”的具體位置或是“空間實體”的體積、外形,空間數據可以用來與現實世界的事物的發展相關聯,可以將人們生活的現實世界中的信息進行表達。因為空間數據的特殊性,空間數據的挖掘技術的使用也具有特殊性,主要應用在交通輸送以及災難救援當中,或是對空間數據與非空間數據的潛在關系進行分析,找出現實事物中的客觀規律,幫助人們預測或是判斷現實世界的運動發展。
3.2 庫存管理數據的挖掘
隨著我國工業化程度的加深,我國制造行業的水平也在不斷的提升,當下許多的制造企業對自身的產品進行出口貿易,這使得企業的產品生產量的增加,企業的庫存產品規模也不斷的擴大,庫存管理的難度加大。庫存管理數據的挖掘技術,就是為了滿足企業日益增加的庫存管理數據,使企業在龐大的數據中及時快速的對數據信息進行分類,或是將相關的管理數據項結合形成新的數據信息群,提高企業的管理效率,增加企業對庫存管理信息分析的準確性,幫助企業管理者對庫存商品做出正確的處理。
4 結語
根據上文的分析探究,根據用戶的需要的信息不同,數據挖掘技術的使用情況也就不同,不同的計算方法之間有不同的優點,但面對越來越龐大的數據庫,數據挖掘技術的算法要不斷的進行更新拓展,使其滿足用戶數據挖掘分析的需求,使挖掘過程更加的快捷,挖掘出的數據信息結果更加的準確。
參考文獻
[1]徐延強.基于大數據庫的數據挖掘應用研究[J].中國新通信,2018,20(08):121.
[2]陳霄.基于大型數據庫的數據挖掘應用研究[J].電腦編程技巧與維護,2017,(14):42-44.