【摘要】 電信各運營支撐系統所積累的海量歷史數據是企業的一筆寶貴財富,誰能正確地挖掘與分析隱含在數據中的知識,誰就能更好地向用戶提供產品與服務,從而在競爭中脫穎而出。
【關鍵詞】 數據庫 數據挖掘 DT
一、引言
隨著信息技術的迅速發展,數據庫的規模不斷擴大,從而產生了大量的數據。為了給決策者提供一個統一的全局視角,在許多領域建立了數據倉庫,但大量的數據往往使人們無法辨別隱藏在其中的能對決策提供支持的信息,而傳統的查詢、報表工具無法滿足挖掘這些信息的需求。因此,需要一種新的數據分析技術處理大量數據,并從中抽取有價值的潛在知識,數據挖掘(Data Mining)技術由此應運而生。
二、數據挖掘的概念
數據挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。
三、數據挖掘的常用方法
數據挖掘方法可以粗分為:統計方法、機器學習方法、神經網絡方法和數據庫方法。統計方法可細分為:回歸分析、判別分析等。機器學習可細分為:遺傳算法等。神經網絡方法可細分為:前向神經網絡、自組織神經網絡等。數據庫方法主要是多維數據分析方法等。
(1)神經網絡方法。它是數據挖掘中應用最廣泛的技術。神經網絡的數據挖掘方法是通過模仿人的神經系統來反復訓練學習數據集,從待分析的數據集中發現用于預測和分類的模式。神經元網絡對于復雜情況仍能得到精確的預測結果,而且本身擁有自組織自適應性、并行處理、分布存儲和高度容錯等特性非常迅速解決數據挖掘的問題,近年來很受人們關注;但神經網絡不適合處理高維變量,其最大的缺點是不透明性,因為其無法解釋結果是如何產生的,及其在推理過程中所用的規則。神經元網絡適合于結果比可理解性更重要的分類和預測的復雜情況,可用于聚類、分類和序列模式。
(2)遺傳算法。遺傳算法是一種基于生物自然選擇與遺傳機理的隨機搜索算法,是一種仿生全局優化方法。遺傳算法具有隱含并行性、易于和其他模型結合等性質使得它在數據挖掘中被加以應用。遺傳算法可以體現在與神經網絡、粗集等技術的結合上。遺傳算法可處理許多數據類型,同時可并行處理各種數據,尤其用于優化神經元網絡,然后從網絡提取規則,解決其技術難題。但是遺傳算法比較復雜,需要參數很多,計算量很大。
(3)決策樹方法。決策樹是一種常用于預測模型的算法,其中樹的非終端節點表示屬性,葉節點表示所屬的不同類別。根據訓練數據集中數據的不同取值建立樹的分支,形成決策樹。它將大量數據進行有目的的分類,從中找到有價值、潛在的信息。決策樹一般產生直觀、易理解的規則,描述簡單,分類速度快,適于對記錄分類或結果的預測,特別適合大規模的數據處理。
(4)關聯分析法。關聯是通過搜索系統中的所有事物,并從中找到出現條件概率較高的模式。關聯實際上就是數據對象之間相關性的確定,用關聯找出所有能將一組數據項和另一組數據項相聯系的規則,這種規則的建立并不是確定的關系,而是一個具有一定置信度的可能值,即事件發生的概率。關聯分析法直觀、易理解,但對于關聯度不高或相關性復雜的情況不太有效。
(5)粗集方法。粗集理論是一種研究不精確、不確定知識的數學工具。粗集方法不需要給出額外信息;簡化輸入信息的表達空間;算法簡單,容易操作。但粗集是數學基礎的集合論,難以直接處理連續的屬性。
(6)統計分析方法。在數據字段之間存在兩種關系:函數關系和相關關系,對它們的分析可采用統計學方法,也就是利用統計學原理對數據庫中信息進行分析。可進行常用統計、回歸分析、相關分析、差異分析等。此外還有模糊集方法、覆蓋正例排斥反例法、序列模式分析及可視化技術等,在此不再贅述。
四、結束語
數據挖掘技術及其應用是目前國際上的一個研究熱點,并在各行各業中得到了很好的應用,尤其對市場營銷方面做出了巨大貢獻,體現了其優越性和發展潛力。
參 考 文 獻
[1] 韓家煒,堪博 著,范明,孟小峰 譯. 數據挖掘概念與技術(第2版)[M] .北京:機械工業出版社. 2007
[2] 陳龍,張春紅,云亮等 編著. 電信運營支撐系統(第2版). 北京:人民郵電出版社. 2007