□ 井 力
隨著互聯網的普及,人們逐漸進入了信息化時代,人們每天都會接觸到各種各樣大量的信息。與此同時,企業、科研機構、政府部門等都有了更多的機會接觸到大量的信息,將這些信息存儲在數據庫中,使得數據庫的規模、廣度和深度都在不斷擴大,從而形成了海量的,不同形式的數據資料。那么問題來了,如何從這些海量數據中提取出有價值的信息從而避免“數據豐富但信息貧乏”的現象?數據挖掘技術就是解決這一問題而迅速發展起來的數據處理技術。而且這一技術已經應用于許多領域,給這些領域產生了重大影響。
數據挖掘這一概念源于著名的“尿布和啤酒”現象:沃爾瑪通過大量的數據發現了一個現象,下班的男人去超市給孩子買尿布的時候喜歡順手買幾瓶啤酒,于是沃爾瑪就把尿布和啤酒擺在一起捆綁銷售,結果大大提高了銷量。這個實例中沃爾瑪基于大量的數據分析,發現了關于銷售的有價值的信息,結果大大提高了銷售量,這就是著名的數據挖掘的實例。
數據挖掘(Date Mining,DM)就是從龐大的數據庫中挖掘出人們感興趣的知識和信息。這些知識和信息有:概念、規則、規律和模式等,并且這些知識和信息是隱含的、事先未知的潛在有用信息。數據挖掘所做的事情就是從龐大的數據庫中挖掘出有價值的隱藏的信息,將這些信息加以評估和總結,然后將評估和總結的結果提供給有關部門在決策時進行參考。
數據挖掘不是對數據庫中的數據進行簡單的檢索和查詢,而是面對海量的信息進行統計、分類以及進一步分析從而得出有價值的信息。數據挖掘領域是一門綜合性的領域,它綜合了數據庫、人工智能以及應用了統計學的相關方法。
(一)數據挖掘的過程。
1.數據輸入。數據挖掘系統首先要進行數據輸入,一方面挖掘系統可以利用數據庫中的查詢語言(SQL語言)從數據庫中抽取數據。另一方面信息分析員可以完成數據的輸入,信息分析員可以更加細致地輸入數據的結構、層次以及相應的規則,而這種方式則更為有效具體。
2.數據選擇。此過程根據相應的指導規則從輸入的數據中更精確地選擇模式識別和關系識別算法所需要的數據結構、數據類型。
3.模式識別和關系識別。挖掘系統選擇相應的模式識別和關系識別算法,加上系統已經選擇的數據,從而發現這些元數據間的模式和關系,從而抽取有價值的信息。
4.發現描述。此過程將模式識別和關系識別過程中識別的元數據之間的模式和關系進行分析以及可視化描述,然后將關注性的發現結果保存以備使用,最后將發現結果轉換成可行性的建議以供決策層參考。
(二)數據挖掘的技術。數據挖掘的關鍵技術就是選擇相應的算法進行模式識別和關系識別。
1.決策樹方法。決策樹方法是利用樹來逼近離散的目標函數的方法。樹由根節點和葉子節點組成,每一個葉子節點是實例的一個屬性的測試,而它的后繼節點對應該屬性的一個可能的值。分類一個實例的時候從根節點開始對這個實例進行指定節點的屬性測試,然后將測試出來的值和后繼節點進行對比進而選擇后繼節點,這樣不斷地一層一層地精確分類。這種方法主要針對數據的分類,常用的算法有:Classification and Regression Trees(CART),AC2,CN2 和 ID3。
2.神經網絡。神經網絡方法是模擬人的大腦的神經網絡的結構以及部分工作機制所建立起來的一種非線性的預測模型。這種方法模擬人的大腦功能,使其具有分布存儲、聯想記憶、大規模并行處理、自我學習、自我組織和自我適應的功能,因此其可以通過自己學習來識別相對應的模式。與傳統的分析方法相比,這種方法的好處是分析的時候不用進行模式設定,它可以自動識別模式,但缺點是這一分析的過程是無法展示出來的,每個階段所做的操作也無法明顯地展示出來。因此,資料具有高度非線性化,變量有相當程度交互效應特點的資料一般會用這種方法處理。
3.遺傳算法。遺傳算法模擬生物進化的過程,它的基本觀點是生物進化論的觀點“適者生存”。遺傳算法的基本操作有三個,分別是選擇,交叉重組和突變。選擇是從舊的種群中選擇生命力很強的個體,淘汰生命力差的個體從而形成新的種群的過程;交叉重組是將兩種不同個體的染色體上的基因部分進行交換從而形成新的物種的過程;變異是某些個體的基因發生突變從而產生新的物種的過程。而數據挖掘的過程就是模仿生物進化的過程反復進行選擇,交叉重組和突變這三種操作最后找到最優解。
4.關聯發現。數據關聯是指數據中的兩個或多個變量的取值之間存在著某種規律性的特征,關聯發現所做的就是發現這種規律性的特征,挖掘出數據之間有趣的關聯或者相關關系。最經典的關聯發現的算法是Apriori,該算法的過程如下:首先該算法挖掘出所有的頻繁項集,然后從頻繁項集中產生關聯規則。利用這種算法挖掘出的關聯規則量往往非常巨大,只有經過有效的評價和篩選,才能真正找到有意義的關聯規則。
5.聚類分析。聚類方法探討的是樣本間的內部關系,它根據所選的樣本間的關聯標準將其劃分為幾個組,使得同組內的樣本具有很高的相似度,不同組的樣本則相異。常用的聚類分析算法有K均值和DBSCAN算法。
6.統計方法。在數據挖掘中許多判別和回歸分析方法都是以數據統計為基礎的,傳統的統計分析可用于分類挖掘和聚類挖掘,如今最具影響力的統計軟件有 SAS,SPSS和BMDP。回歸分析用來找到關于輸入變量和輸出變量關系的一個最佳模型,回歸分析有線性回歸,對數回歸,方差分析,這些都是數據挖掘應用中有力的工具。
(一)數據挖掘在金融領域的應用。金融業務需要收集、存儲、處理大量的數據,這些數據很難通過人工進行處理,而且與其他行業相比,金融行業的數據較為完整,數據的質量較高,因此數據挖掘已經較為成熟地應用于金融領域。在客戶關系管理、風險識別與管理、市場趨勢預測、識別金融欺詐等經濟犯罪方面,數據挖掘起了非常重要的作用,并且取得了很好的社會效益和經濟效益。
(二)數據挖掘在電子商務領域的應用。電子商務是指商家的業務活動是以數字化的電子方式進行商務數據的交換和開展的。電子商務產生的海量數據具有不確定性、無結構或者半結構性、動態性等特點,利用人工分析這些數據是遠遠不夠的。數據挖掘技術應用于這一領域,更好地挖掘出這些數據背后隱藏的模式、趨勢和規律性的知識,企業可以根據挖掘出來的這些信息優化決策,更好地識別客戶需求和市場趨勢,獲得更大的競爭優勢。
(三)數據挖掘在電子政務領域的應用。電子政務就是政府部門利用現代網絡技術,在Internet上優化重組政府的組織結構和工作流程。近年來隨著電子政務相關技術的成熟,電子政務也產生了十分龐大的信息量,利用數據挖掘技術,高效準確地提取了數據,提高了決策的科學性和規范性,進一步提高了政府的辦公效率。
數據挖掘雖然出現的時間不長,但其廣闊的研究前景已經吸引了眾多的研究人員,成為國際研究的一個熱點。如今數據挖掘技術很好地應用于金融、電子商務、電子政務等領域,但是還遠遠沒有普及。并且數據挖掘技術也存在一些問題,例如挖掘算法的可行性和有效性還值得我們進一步研究和探討。但是隨著挖掘技術應用的經驗積累,硬件的發展,數據挖掘技術將更進一步發展,也會更好地應用于更多的領域,促進社會的發展。
[1]王桂芹,黃道.數據挖掘技術綜述[J].電腦應用技術,2007,69
[2]賀清碧,胡久永.數據挖掘技術綜述[J].西南民族大學學報(自然科學版),2003,1
[3]楊玉珠.數據挖掘技術綜述與應用[J].河南科技,2014,10