【摘要】:由于數(shù)據(jù)挖掘在各行業(yè)中的廣泛應用,因而該技術(shù)引起了人們的普遍關(guān)注,介紹了數(shù)據(jù)挖掘的分類方法和目前采用較普遍的一些數(shù)據(jù)挖掘方法,分析、總結(jié)了數(shù)據(jù)挖掘技術(shù)在商業(yè)、Web挖掘、科學研究等幾個主要領(lǐng)域的應用情況,綜合論述了數(shù)據(jù)挖掘未來的發(fā)展趨勢。
【關(guān)鍵詞】:數(shù)據(jù)挖掘;Web挖掘;應用
1.數(shù)據(jù)挖掘技術(shù)概述
1.1數(shù)據(jù)挖掘的定義
隨著信息技術(shù)的高速發(fā)展,數(shù)據(jù)庫應用的規(guī)模、范圍和深度空前發(fā)展,人們迫切需要一種自動地和智能地將待處理的數(shù)據(jù)轉(zhuǎn)化為有用的信息和知識的方法,從而達到為決策服務的目的。在這種情況下,數(shù)據(jù)挖掘技術(shù)應運而生。數(shù)據(jù)挖掘是一個從大量有噪聲、不完整數(shù)據(jù)中提取出有意義模式知識的過程。所提取、挖掘的數(shù)據(jù)對象可以是數(shù)據(jù)庫或數(shù)據(jù)倉庫內(nèi)容,也可以是其它數(shù)據(jù)源內(nèi)容。數(shù)據(jù)挖掘是一個新興的多學科交叉領(lǐng)域,這其中主要涉及:數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)倉庫、統(tǒng)計學、機器學習、數(shù)據(jù)可視化、信息檢索和高性能計算等。數(shù)據(jù)挖掘是一個包含多處理步驟的知識發(fā)現(xiàn)過程,這其中主要包括:數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)挖掘、模式評估和知識表達輸出。
1.2數(shù)據(jù)挖掘的現(xiàn)狀
KDD(Knowledge Discovery in Database)是指從數(shù)據(jù)庫中獲取正確、新穎、有潛在應用價值和最終可理解模式的非平凡過程,此概念首次出現(xiàn)在1989年8月舉行的第11屆國際聯(lián)合人工智能學術(shù)會議上。迄今為止,由美國人工智能協(xié)會主辦的KDD國際研討會已經(jīng)召開了7次。數(shù)據(jù)挖掘界于1995年召開了第一屆知識發(fā)現(xiàn)與數(shù)據(jù)挖掘國際學術(shù)會議,于1998年建立起一個新的學術(shù)組織ACM-SIGKDD(Special Interested Group on Knowledge Dis-covery in Databases),并于1999年組織了第五屆知識發(fā)現(xiàn)與數(shù)據(jù)挖掘國際學術(shù)會議。數(shù)據(jù)挖掘研究還發(fā)表在書籍、會議以及有關(guān)數(shù)據(jù)庫、統(tǒng)計學、機器學習和數(shù)據(jù)可視化的雜志上,這些都促成了數(shù)據(jù)挖掘技術(shù)的研究與發(fā)展。
1.3數(shù)據(jù)挖掘具有以下特點:
(1)處理的是存貯在數(shù)據(jù)庫、數(shù)據(jù)倉庫和數(shù)據(jù)市場中的經(jīng)過預處理的結(jié)構(gòu)化、數(shù)值型數(shù)據(jù)。(2)以定性和定量的邏輯和數(shù)學運算為技術(shù)基礎,利用算法揭示尚未發(fā)現(xiàn)的數(shù)值型信息之間的關(guān)系。(3)在揭示用戶行為和建立模型過程中重要作用。
2.數(shù)據(jù)挖掘的分類
數(shù)據(jù)挖掘可按數(shù)據(jù)庫類型、挖掘?qū)ο蟆⑼诰蛉蝿铡⑼诰蚍椒ㄅc技術(shù)以及應用等幾個方面進行分類。數(shù)據(jù)挖掘最開始是從關(guān)系數(shù)據(jù)庫中挖掘知識發(fā)展起來的,隨著數(shù)據(jù)庫類型的不斷增加,現(xiàn)有:關(guān)系數(shù)據(jù)挖掘、模糊數(shù)據(jù)挖掘、歷史數(shù)據(jù)挖掘、空間數(shù)據(jù)挖掘等多種不同數(shù)據(jù)庫的數(shù)據(jù)挖掘類型按數(shù)據(jù)挖掘的對象分,除了數(shù)據(jù)庫數(shù)據(jù)挖掘外,還有文本數(shù)據(jù)挖掘、多媒體數(shù)據(jù)挖掘,Web數(shù)據(jù)挖掘。按挖掘任務分類有:關(guān)聯(lián)規(guī)則挖掘、序列模式挖掘、聚類數(shù)據(jù)挖掘、分類數(shù)據(jù)挖掘、偏差數(shù)據(jù)挖掘和預測數(shù)據(jù)挖掘等類型。各類數(shù)據(jù)挖掘任務不同,采用的方法和技術(shù)也守會不同。
3.數(shù)據(jù)挖掘的功能
數(shù)據(jù)挖掘功能用于指定數(shù)據(jù)挖掘任務中要找的模式類型。數(shù)據(jù)挖掘任務一般分為描述式和預測式兩類,描述性挖掘任務用來刻劃數(shù)據(jù)庫中數(shù)據(jù)的一般特性,而預測性挖掘任務則是根據(jù)當前數(shù)據(jù)進行推斷,以預測新數(shù)據(jù)。
3.1自動預測趨勢和行為
數(shù)據(jù)挖掘自動在大型數(shù)據(jù)庫中尋找預測性信息,以往需要進行大量手工分析的問題如今可以迅速直接由數(shù)據(jù)本身得出結(jié)淪一個典型的例子是市場預測問題,數(shù)據(jù)挖掘使用過有關(guān)促銷的數(shù)據(jù)來尋找未來投資中同報最大的用戶,其它可預測的問題包括預報破產(chǎn)以及認定對指定事件最可能作出反應的群體。
3.2關(guān)聯(lián)分析
關(guān)聯(lián)規(guī)則挖掘是由Rakesh Apwal等人首先提出的。關(guān)聯(lián)分為簡單關(guān)聯(lián)、時序關(guān)聯(lián)和因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱含的關(guān)聯(lián)規(guī)則,這些規(guī)則展示屬性值頻繁地在給定數(shù)據(jù)集中一起出現(xiàn)的條件。
3.3聚類分析
聚類分析實際上就是根據(jù)最大化同類間的相似性、最小化不同類之間的相似性的原則,通過一定的訓練算法將數(shù)據(jù)集中的數(shù)據(jù)按相似性聚集到不同的團簇或分到不同組的過程。使用各種聚類算法進行分析的聚類結(jié)果可以建立宏觀的概念,以發(fā)現(xiàn)數(shù)據(jù)的分布模式及可能的數(shù)據(jù)屬性之間的相互關(guān)系:也可用于進一步的關(guān)聯(lián)分析或是孤立點挖掘。
4.數(shù)據(jù)挖掘的應用
數(shù)據(jù)挖掘研究具有廣泛的應用前景,因為數(shù)據(jù)挖掘產(chǎn)生的知識可以用于決策支持、信息管理、科學研究等許多領(lǐng)域數(shù)據(jù)挖掘技術(shù)與各個行業(yè)的有機結(jié)合體現(xiàn)了其蓬勃的生命力,而這種趨勢正在以前所未有的速度繼續(xù)向前發(fā)展。
4.1在金融領(lǐng)域中的應用
通過特征選擇和屬性相關(guān)性計算,識別關(guān)鍵因素,進行貸款償付預測和客戶信用分析,使銀行優(yōu)化調(diào)整貸款發(fā)放政策;利用分類和聚集的方法進行用戶群體識別和目標市場分析;把與偵破工作有關(guān)的多個數(shù)據(jù)庫的信息集成起來,使用數(shù)據(jù)可視化、分類、聚類分析等工具偵破洗錢和其他金融犯罪行為。
4.2在科學研究領(lǐng)域中的應用
在信息量極為龐大的天文、氣象、生物技術(shù)、社會學等領(lǐng)域中,所獲得的大量實驗和觀察數(shù)據(jù)靠傳統(tǒng)的數(shù)據(jù)分析工具難以應付,因此對功能強大的智能化自動分析工具要求迫切,這種需求推動了DM技術(shù)在科學研究領(lǐng)域的應用發(fā)展。目前己獲得了一些重要的研究成果,如Jet Propulsion實驗室利用決策樹方法對上百萬天體數(shù)據(jù)進行分析,幫助天文學家發(fā)現(xiàn)了16個新的星體,效果要比人工更快、更準確。
4.3在醫(yī)學上的應用
利用數(shù)據(jù)挖掘技術(shù)在DNA數(shù)據(jù)的分析研究中可以進行DNA序列間的相似搜索和比較、同時出現(xiàn)的基因序列的相關(guān)分析、致病基因的發(fā)現(xiàn)和遺傳數(shù)據(jù)分析等。
5.結(jié)語
數(shù)據(jù)挖掘技術(shù)是一個年輕且充滿希望的研究領(lǐng)域,商業(yè)利益的強大驅(qū)動力將會不停地促進它的發(fā)展。每年都有新的數(shù)據(jù)挖掘方法問世,每年都有新的數(shù)據(jù)挖掘方法和模型問世,人們對它的研究正日益廣泛和深入。隨著數(shù)據(jù)挖掘的進一步發(fā)展,它必然會帶給用戶更大的利益。
參考文獻:
[1]畢雪華,吳淼,吳晶. 淺析數(shù)據(jù)挖掘技術(shù)在中醫(yī)藥領(lǐng)域內(nèi)的應用[J]. 電腦知識與技術(shù),2012,8(10):2175-2176. [2017-09-22].
[2]趙芳,馬玉磊. 淺析數(shù)據(jù)挖掘技術(shù)的發(fā)展及應用[J]. 黑龍江科技信息,2010,(09):64. [2017-09-22].
[3]吳春瓊. 淺析數(shù)據(jù)挖掘技術(shù)及其在電子商務中的應用[J]. 黑龍江科技信息,2009,(30):90. [2017-09-22].
[4]張曉丹. 數(shù)據(jù)挖掘技術(shù)淺析[J]. 中國西部科技,2009,8(17):23-24. [2017-09-22].
[5]趙紅艷,劉弘. 淺析數(shù)據(jù)挖掘技術(shù)及應用[J]. 信息技術(shù)與信息化,2007,(02):47-48+51. [2017-09-22].