侯玉香 劉華云
摘要:數據挖掘(Data Mining,簡稱DM),簡單地講就是從大量數據中挖掘或抽取出知識。該文簡單介紹數據挖掘的概念﹑區別﹑常用技術﹑方法及發展趨勢。
關鍵詞:數據挖掘;數據;聚類;決策樹
近十幾年來,隨著科學技術飛速的發展,人們利用信息技術生產和搜集數據的能力大幅度提高,無數個數據庫被用于商業管理、科學研究、政府辦公和工程開發等。為了充分利用現有信息資源,從海量數據中找出隱藏的知識,數據挖掘技術應運而生并顯示強大的生命力。
1 數據挖掘與傳統分析方法的區別
數據挖掘,又稱為數據庫中知識發現(Knowledge Discovery from Database,簡稱KDD),它是一個從大量數據中抽取挖掘出來未知的、有價值的模式和有規律等知識的復雜過程。
數據挖掘與傳統分析方法區別如下:
1)本質區別為數據挖掘是在沒有明確的假設的前提下,挖掘信息并發現知識。
數據挖掘所得到的信息應該具備先前未知﹑有效性﹑可實用三個特征。
2)數據挖掘的數據源與傳統分析方法相比有了顯著的改變,數據是海量的,數據是有噪聲,數據可能是非結構化的。
3)先前未知的信息指該信息是預先未曾預料到的,數據挖掘是發現那些不能靠直覺發現的信息或知識,甚至是違背直覺的信息或知識,挖掘出信息越是出乎意料的,就可能越有價值.
2 數據挖掘中的常用技術
數據挖掘是指從數據庫的大量數據中揭示出隱含的﹑先前未知的﹑并有潛在價值的信息的非平凡過程。它是一種決策支持過程,主要基于人工智能、模式識別、機器學習、數據庫、統計學、可視化技術等,高度自動化地分析企業的數據,并做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調整市場策略并減少風險,做出正確的決策。
常見的數據挖掘技術包括如下:
1)統計分析方法:利用統計學和概率論的原理對關系中各屬性進行統計分析,從而找出它們之間的關系和規律。它是最基本的數據挖掘技術之一。
2)決策樹方法:以樹型結構表示分類或決策集合,產生規則和發展規律,尋找數據庫中具有最大信息量的字段,建立決策樹的一種人工智能和識別技術,主要用于分類挖掘。
3)神經網絡方法:由大量的簡單經元,通過極其豐富和完美的連接構成自適應非線性動態系統,具有分布存儲﹑大規模并行處理﹑聯想記憶﹑自學習﹑自組織﹑自適應等功能。
4)遺傳算法:模擬生物進行過程,以達到優化的目的。由交叉﹑繁殖﹑變異三個基本算子組成,可起產生優良后代的作用。經過若干代的遺傳,將得到滿足要求的后代。
5)聚類分析:根據事物的特征,對其分類或聚類。即所謂物以類聚,以期發現規律和典型模式。聚類分析技術是數據挖掘的最重要的技術之一。
6)粗集方法:在數據庫中視行為對象列為元素,定義等價關系R為不同對象在某個或幾個屬性上取值相同,滿足R的對象組成的集合稱為其等價類。
7)可視化技術:采用比較直觀的圖形圖表方式將信息模式﹑數據關聯或趨勢呈現給決策者,廣大擴展了數據和挖掘結果的表達和理解力。
8)最近鄰技術:通過K個與之最相近的歷史記錄的組合來辨別新記錄。最近鄰技術可用作聚類﹑偏差分析等挖掘任務。
3 數據挖掘的方法
數據挖掘的實現方法有兩種:直接數據挖掘和間接數據挖掘。
1)直接數據挖掘
給出所有已知的因素和輸入變量,便于數據挖掘引擎數據模型的規則,找出各個屬性之間最合理的關系。直接數據挖掘以預測未知值或目標變量為基礎,即直接數據挖掘是基于已知的輸入變量值預測未知數據的最大可能的取值。
2)間接數據挖掘
間接數據挖掘不用于預測,不受目標值的限制和約束,它只對數據進行整理,發掘整個數據集合的結構和數據組織形式,進行理解和應用。
例如,通過整理圖書的借閱歷史,可以發現喜歡讀某類圖書的讀者有哪些共同的特點。
例如,可能會發現喜歡讀金庸小說的讀者主要是年輕的男孩子。
采用聚類是對歷史數據進行數據挖掘中常用的一種算法。可以先提取聚類,再利用決策樹算法,對感興趣的數據集合進行直接數據挖掘。
4 數據挖掘的發展趨勢
數據挖掘的任務和數據挖掘方法的多樣化對數據挖掘提出了許多挑戰性的研究問題,在將來會形成更大的高潮。數據挖掘發展趨勢包括新應用領域的探索方面所作的進一步努力﹑可伸縮和交互方法(包括基于約束的挖掘)的改進﹑數據挖掘與數據倉庫和數據庫系統的集成﹑可視化方法和處理復雜數據類型的新方法﹑數據挖掘語言的標準化。
數據挖掘的發展趨勢主要如下:
1)數據倉庫日益普及:盡管數據挖掘并不一定要有數據倉庫的支持,但它仍然經常被看成數據倉庫的后期產品,因那些努力建立數據倉庫的人有最豐富的數據資源可供挖掘。
2)Internet 數據挖掘:許多供應商將數據挖掘技術應用于電子商務,以提高Internet 站點和客戶的關聯行。如IBM公司發布Web為中心的數據挖掘解決方案SurAid。
3)數據挖掘供應商更注重縱向市場:數據挖掘涉及到對數據內在本質的理解,因些供應商們更注重縱向市場。比如DataMind 公司的重點是電信業的跳槽。電信業競爭的不規范和白熱化已使保持客戶成為一個備受關注的熱點問題。
4)EIS工具供應商也在集成數據挖掘功能:將數據挖掘工具﹐查詢及EIS工具集成起來將導致一個基于發現的過程。由此發現過程最終用戶能獲得最有用的東西,進而根據這些新的信息對有關問題進行更明確的闡述。
5 結束語
數據挖掘是一個多學科的交叉領域。不再是數據庫的研究者和開發者關注的問題,它已經成為統計學﹑機器學習等諸多領域的研究者和開發者的熱點課題之一。就連“數據挖掘”術語本身也已經成為這些領域的流行詞匯。數據挖掘學科交叉融合引起的良性互動無疑會進一步促進該學科的發展與繁榮。
參考文獻
[1]陳志泊.數據倉庫與數據挖掘[M] .北京:清華大學出版社,2009
[2]胡可云,田鳳占,黃厚寬.數據挖掘理論與應用[M].北京:清華大學出版社,2008
[3]劉世平.數據挖掘技術及應用[M].北京:高等教育出版社,2010