王萍
摘 要:隨著社會信息化不斷進步發展,大量的信息充斥在我們的社會中,這就要求我們能從中及時發現有用的知識,做出正確的分析,從而提高決策的正確性。就是在這樣的背景下深入地分析數據挖掘的基本概念、挖掘流程及挖掘技術,討論數據挖掘的一些具體應用。
關鍵詞:數據挖掘;應用;研究
一 、數據挖掘
隨著數據庫技術的廣泛使用,以及計算技術和計算機性能與網絡的迅速發展,人們面臨著一個困難的問題,即如何從海量的數據中提取出有價值的信息。查詢功能遠不能滿足人們的需要,數據挖掘應運而生。有人將數據挖掘定義為一個從數據及數據庫中抽取隱含的,先前未知的并有潛在價值的信息的過程。但有人認為數據挖掘,即數據庫中的知識發現,是從大數據集中快速高效地發現令人感興趣的規則,數據挖掘是數據庫研究的新領域,所挖掘的知識能夠用于信息、管理、查詢處理、決策支持和過程控制等等。
數據挖掘(DataMining)是通過分析每個數據,從大量數據中尋找其規律的技術,主要有數據準備、規律尋找和規律表示三個步驟。隨著計算機網絡的發展和普遍使用,數據挖掘成為迫切需要研究的重要
課題。
數據挖掘涉及多個學科方向,主要包括:數據庫、統計學和人工智能等。數據挖掘可按數據庫類型、挖掘對象、挖掘任務、挖掘方法與技術以及應用等幾方面進行分類。按數據庫類型分類:關系數據挖掘、模糊數據挖掘、歷史數據挖掘、空間數據挖掘等多種不同數據庫的數據挖掘類型。按數據挖掘對象分類:文本數據挖掘、多媒體數據挖掘、Web數據挖掘。按數據挖掘的任務有:關聯分析、時序模式、聚類、分類、偏差檢測、預測等。按數據挖掘方法和技術分類:歸納學習類、仿生物技術類、公式發現類、統計分析類、模糊數學類、可視化技術類。
二、數據挖掘的主要任務
(一)數據總結
數據總結目的是對數據進行濃縮,給出它的總體綜合描述。通過對數據的總結,數據挖掘能夠將數據庫中的有關數據從較低的個體層次抽象總結到較高的總體層次上,從而實現對原始基本數據的總體把握。
(二)分類
分類的主要功能是學會一個分類函數或分類模型(也常常稱作分類器),該模型能夠根據數據的屬性將數據分派到不同的組中。即:分析數據的各種屬性,并找出數據的屬性模型,確定哪些數據屬于哪些組。這樣我們就可以利用該模型來分析已有數據,并預測新數據將屬于哪一個組。
(三)關聯分析
數據庫中的數據一般都存在著關聯關系,也就是說,兩個或多個變量的取值之間存在某種規律性。這種關聯關系有簡單關聯和時序關聯兩種。關聯分析的目的是找出數據庫中隱藏的關聯網,描述一組數據項目的密切度或關系。有時并不知道數據庫中數據的關聯是否存在精確的關聯函數,,即使知道也是不確定的,因此關聯分析生成的規則帶有置信度,置信度級別度量了關聯規則的強度。
(四)聚類
當要分析的數據缺乏描述信息,或者是無法組織成任何分類模式時,可以采用聚類分析。聚類分析是按照某種相近程度度量方法,將用戶數據分成一系列有意義的子集合。每一個集合中的數據性質相近,不同集合之間的數據性質相差較大。
統計方法中的聚類分析是實現聚類的一種手段,它主要研究基于幾何距離的聚類。人工智能中的聚類是基于概念描述的。概念描述就是對某類對象的內涵進行描述,并概括這類對象的有關特征。概念描述分為特征性描述和區別性描述,前者描述某類對象的共同特征,后者描述不同類對象之間的區別。
三、數據挖據的應用
數據挖掘技術源于商業的直接需求,因此它在各種商業領域都存在廣泛的使用價值。現在已經應用數據挖掘技術的領域都是信息量大、環境復雜、需要知識幫助進行管理和決策的領域。下面介紹一些目前比較活躍的應用方向:
(一)在金融數據分析中的應用
多數銀行和金融機構都提供了豐富多樣的儲蓄,信用,投資,保險等服務。他們產生的金融數據通常比較完整、可靠,這對系統化的數據分析和數據挖掘相當有利。在具體的應用中,采用多維數據分析來分析這些數據的一般特性,觀察金融市場的變化趨勢;通過特征選擇和屬性相關性計算,識別關鍵因素,進行貸款償付預測和客戶信用分析;利用分類和聚集的方法對用戶群體進行識別和目標市場分析;使用數據可視化、鏈接分析、分類、聚類分析、孤立點分析、序列模式分析等工具偵破洗黑錢和其他金融犯罪行為。
(二)在電力業的應用
在電力行業中,數據挖掘技術主要用于指導設備更新、業績評估、指導電力企業的建設規劃、指導電力的生產和購買、指導電力的調度等。數據挖掘在電力企業的其它方面也有巨大的用處,比如說指導項目管理、安全管理、資源管理、投資組合管理、活動分析、銷售預測、收入預測、需求預測、理賠分析等。
(三)在零售業中的應用
零售業是數據挖掘的主要應用領域,這是因為零售業積累了大量的銷售數據,如顧客購買史記錄、貨物進出、消費與服務記錄以及流行的電子商務等等都為數據挖掘提供了豐富的數據資源。零售數據挖掘有助于劃分顧客群體,使用交互式詢問技術、分類技術和預測技術,更精確地挑選潛在的顧客;識別顧客購買行為,發現顧客購買模式和趨勢,進行關聯分析,以便更好地進行貨架擺設;改進服務質量,獲得更好的顧客忠誠度和滿意程度;提高貨品的銷量比率,設計更好的貨品運輸與分銷策略,減少商業成本;尋找描述性的模式,以便更好地進行市場分析等等。
(四)在醫學上的應用
近年來,生物醫學研究有了迅猛地發展,從新藥的開發到癌癥治療的突破,到通過大規模序列模式和基因功能的發現,進行人類基因的識別與研究。在人類基因研究領域具有挑戰性的問題是從中找出導致各種疾病的特定基因序列模式。由于數據挖掘中已經有許多有意義的序列模式分析和相似檢索技術,因此數據挖掘成為DNA分析中的強有力工具。基因序列的相關分析,遺傳研究中的路徑分析等。近期DNA分析的研究成果已經促成了對許多疾病和殘疾基因成因的發現,以及對疾病診斷、預防和治療的新藥物、新方法的發現。
(五)在高校和科研單位以及其他領域的應用
主要是用于海量信息數據的抽取,提供給教研和科研人員有價值的數據。比如在數字圖書館方面可以引入數據挖掘技術。同時還可以應用的電子商務等等眾多領域。
參考文獻
[1]鄒先霞、王淑禮、魏長華.數據倉庫與數據挖掘技術淺談[J].高等函授學報(自然科學版),2000,(03).
[2]樊志平.基于數據挖掘技術的企業信息化建設[J].商場現代化,2008,(06).
[3]孟小峰.數據挖掘:概念與技術[M].北京:機械工業出版社,2001.