摘要: 數據挖掘(Data Mining)是一個利用各種分析工具在海量數據中發現模型和數據之間關系的過程,這些模型和關系可以被企業用來分析風險、進行預測?,F代商業活動中,企業通過數據挖掘技術可以對商業信息進行微觀、宏觀的統計、分析、綜合和推理,從而來指導自身的高級商務活動。
關鍵詞:數據挖掘;商業信息;統計
在當前的商業活動中,通過自動、有效的數據分析技術,為企業提供帶來商業利潤的決策信息成為商業活動的必然要求。Internet是一個巨大的信息資源儲備庫,商務活動中企業渴望有效的訪問、分析和使用這些信息的需求,為數據挖掘提供了廣泛的應用空間。數據挖掘就是按企業的既定業務目標,對大量的企業數據進行深層次分析以揭示隱藏的、未知的規律性并將其模型化,從而支持商業決策活動。
一、數據挖掘技術
1.數據挖掘技術的概念
數據挖掘(Data Mining),也叫數據開采等,從一個新的角度將數據庫技術、KDD技術、統計學等領域結合起來,是按照既定的業務目標從海量數據中,從更深層發掘存在于數據內部的有效的、新穎的、具有潛在效用的信息和知識處理過程。
2.數據挖掘技術的特點
?。?)數據挖掘的數據量是巨大的,因此如何高效率地存取數據,如何根據一定應用領域找出數據關系即提高算法的效率,以及是使用全部數據還是部分數據,都成為數據挖掘過程中必須考慮的問題。
(2)數據挖掘面臨的數據常常是為其他目的而收集的數據,這就為數據挖掘帶來了一定的困難,即一些很重要的數據可能被疏漏或丟失。因此未知性和不完全性始終貫穿數據挖掘的全過程。
(3)數據挖掘常常要求算法主動地提示一些數據的內在關系。
3.數據挖掘的常用技術
?。?)遺傳算法:遺傳算法是一種基于生物自然選擇與遺傳機理的隨機搜索算法,是一種仿生全局優化方法。遺傳算法具有的隱含并行性、易于和其它模型結合等性質使得它在數據挖掘中被加以應用。遺傳算法的應用還體現在與神經網絡、粗集等技術的結合上。
(2)決策樹方法:決策樹是一種常用于預測模型的算法,它通過將大量數據有目的分類,從中找到一些有價值的,潛在的信息。它的主要優點是描述簡單,分類速度快,特別適合大規模的數據處理。建立決策樹的過程,即樹的生長過程是不斷的把數據進行切分的過程,每次切分對應一個問題,也對應著一個節點。對每個切分都要求分成的組之間的“差異”最大。各種決策樹算法之間的主要區別就是對這個“差異”衡量方式的區別。對具體衡量方式算法的討論超出了本文的范圍,在此我們只需要把切分看成是把一組數據分成幾份,份與份之間盡量不同,而同一份內的數據盡量相同,這個切分的過程也可稱為數據的“純化”。
(3)神經網絡方法:神經網絡本身具備良好的魯棒性、自組織自適應性、并行處理、分布存儲和高度容錯等特性因此近年來越來越受到人們的關注。在結構上,可以把一個神經網絡劃分為輸入層、輸出層和隱含層。輸入層的每個節點對應一個個的預測變量。輸出層的節點對應目標變量,可有多個。在輸入層和輸出層之間是隱含層,隱含層的層數和每層節點的個數決定了神經網絡的復雜度。
?。?)覆蓋正例排斥反例方法:它是利用覆蓋所有正例、排斥所有反例的思想來尋找規則。首先在正例集合中任選一個種子,到反例集合中逐個比較。與字段取值構成的選擇子相容則舍去,相反則保留。
二、數據挖掘技術在商業信息中的應用
數據挖掘技術從一開始就是面向應用的。目前,在很多領域,尤其是在銀行等商業領域。數據挖掘所能解決的典型商業問題包括:數據庫營銷、客戶群體劃分、交叉銷售等市場分析行為,以及客戶流失性分析等。
1.商業信息的特點與商業信息對于數據挖掘技術的需求
商業信息不僅僅表現在信息量大還表現在它的多變性,比如:供求關系的變動、商品價格的變化、暢銷商品與滯銷商品的變換、商品的更新換代周期越來越短等等,他們都隨著時間的推移瞬息萬變。另一方面商業信息又表現出非完整的、零散的性質性,他與商品生產的分散性和商品信息傳播的多渠道等密切相關。比如:企業只注重商品信息的及時發布而缺乏商品信息的累積性與研究。
據挖掘技術作為解決“數據爆炸”時代出現的最有效手段之一,受到了企業界的極大關注。如何最大限度地利用企業各個部門多年來在數據庫系統上積累下來的大量數據進行整合及二次開發,如何才能不被信息的汪洋大海所淹沒,從中及時發現有用的知識,提高信息的有效利用率,成為企業追求的一大目標。
2.數據挖掘技術在商業活動中的應用分析
(1)數據挖掘技術在商業活動中的應用的現狀
在國內,數據挖掘技術的重要性也被越來越多的企業管理者所認識,而在電信、金融、零售、流通等行業,已經成為信息化建設的重點。數據挖掘技術可以利用各種信息系統進行的高質量和有價值的信息收集、分析