[摘要] 本文介紹了數據挖掘的概念、對象、任務,重點探討了其應用領域的廣泛性及效益性。
[關鍵詞] 數據挖掘 數據倉庫 知識發現
隨著計算機網絡與數據庫技術的迅速發展和廣泛應用,各單位擁有的數據量與日俱增,而傳統的數據庫管理系統(DBMS)僅能提供數據的存取和查詢,如何從信息海洋中提取有價值的知識,從而為企業的業務決策和戰略發展服務,進一步提高信息的利用率,這就引發了一門新興的自動信息提取技術——數據挖掘和知識發現(Data Mining and Knowledge Discovery in Databases),并逐漸形成了一個熱門研究方向。
基于數據庫的知識發現(KDD)一詞最早是在1989年8月于美國底特律市召開的第一屆KDD國際學術會議上正式形成的。1995年,在加拿大召開了第一屆知識發現和數據挖掘國際會議。2002年,麻省理工學院的《科技評論》雜志提出未來5年對人類產生重大影響的10大新興技術,“數據挖掘”位居第三。
一、數據挖掘與知識發現
數據挖掘(Data Mining),又稱為數據采掘、數據開采等。數據挖掘是從大量的數據中抽取出潛在的、不為人知的有用信息、模式和趨勢。數據挖掘是一種決策支持過程,它主要基于人工智能、機器學習、統計學等技術,高度自動化地分析企業原有的數據,作出歸納性的推理,從中挖掘出潛在的模式,預測客戶的行為,幫助企業的決策者調整市場策略,減少風險,做出正確的決策。其中需要強調的幾點是:得到的必須是有用的信息;得到的必須是清晰、明確的信息;要有一個很快的、可行的算法。
數據挖掘不同的術語和定義:data mining, knowledge discovery, pattern discovery, data dredging, knowledge, data archeology。
一般認為數據采掘是數據庫中知識發現(Knowledge Discovery in Database,簡稱KDD)的一個環節,是采用具體的數據采掘算法從數據中自動高效地提取有用模式的過程,而KDD是包含數據采掘、數據準備等環節的循環往復過程。在KDD研究領域一致認可的描述性定義是Fayyad等人給出的,定義如下:KDD是從數據集中識別出有效的、新穎的、潛在有用的、以及最終可理解的模式的非平凡過程。知識發現由以下步驟組成:⑴數據清理:消除噪聲或不一致數據。⑵數據集成:把多種數據源組合在一起。⑶數據選擇:從數據庫中檢索與分析任務相關的數據。⑷數據變換:數據變換或統一成適合挖掘的形式,如通過匯總或聚集操作。⑸數據挖掘:使用智能方法提取數據模式。⑹模式評估:根據某種興趣度度量,識別表示知識的真正有趣的模式。⑺知識表示:使用可視化和知識表示技術,向用戶提供挖掘知識。
對這兩個術語更嚴格的區分是在KDD96國際會議上:Fayyad,Piatetsky-Shapiro和Smyth指出:知識發現是從數據庫中發現知識的全部過程,而數據挖掘則是此全部過程的一個特定、關鍵步驟。事實上,在現今文獻的大多數場合,這兩個術語仍然不加區分地使用著。
同時需要指出的是,這里所說的知識發現,不是要求發現放之四海而皆準的真理,也不是要去發現嶄新的自然科學定理和純數學公式,更不是什么機器定理證明。所有發現的知識都是相對的,是有特定前提和約束條件、面向特定領域的,同時還要能夠易于被用戶理解,最好能用自然語言表達發現結果。因此DMKD的研究成果很講求實際。
二、數據挖掘的對象及任務
1.數據源
根據信息存儲格式,用于挖掘的對象有關系數據庫、面向對象數據庫、數據倉庫、文本數據源、多媒體數據庫、以及環球網Web.目前,用于數據挖掘的數據源主要是關系數據庫、數據倉庫、和環球網Web.
2.主要任務
(1)數據總結
數據總結的目的是對數據進行濃縮,給出它的緊湊描述。數據挖掘主要關心從數據泛化的角度來討論數據總結。數據泛化是一種把數據庫中的有關數據從低層次抽象到高層次上的過程。
(2)分類
分類的目的是建立一個分類函數或分類模型(也稱作分類器),該模型能把數據庫的數據項映射到給定類別中的某一個。例:信用卡申請者,分類為低、中、高風險。
(3)聚類
聚類是把一組個體按照相似性歸類,即“物以類聚”。它的目的是使屬于同一類別的個體之間的距離盡可能地小,而不同類別的個體間的距離盡可能地大。例:①一些特定癥狀的聚集可能預示了一個特定的疾病。②租VCD類型不相似的客戶聚集,可能暗示成員屬于不同的亞文化群。
聚集通常作為數據挖掘的第一步。例如,“哪一種類的促銷對客戶響應最好?”,對于這一類問題,首先對整個客戶做聚集,將客戶分組在各自的聚集里,然后對每個不同的聚集,回答問題,可能效果更好。
(4)關聯規則
決定哪些事情將一起發生。是形式如下的一種規則,“在購買面包和黃油的顧客中,有90%的人同時也買了牛奶”(面包+黃油+牛奶)。關聯規則發現的思路還可以用于序列模式發現。用戶在購買物品時,除了具有上述關聯規律,還有時間或序列上的規律。例:①超市中客戶在購買A的同時,經常會購買B,即A=>B(關聯規則)。②客戶在購買A后,隔一段時間,會購買B(序列分析)。采用關聯模型比較典型的例子是“啤酒和尿布”的故事。
三、數據挖掘的應用及效益
應用是數據挖掘的目標。數據挖掘技術不僅是面向特定數據庫的簡單檢索查詢調用,而且要對這些數據進行微觀、中觀乃至宏觀的統計、分析、綜合和推理,以指導實際問題的求解,企圖發現事件間的相互關聯,甚至利用已有的數據對未來的活動進行預測。其應用范圍涉及社會的所有領域,在商業上的應用尤其受到重視。各個領域在KDD應用上既有相同之處,又有各自不同的獨特地方。
1.典型應用領域
(1)科學應用
在生物界,開發了HMMS兩個智能發現系統,已經用于基因發現和構造核糖核酸模型。天文學上非常有名的系統是加州理工學院噴氣推進實驗室與天文科學家合作開發的用于幫助天文學家發現遙遠的類星體的一個工具SKICAT。利用SKICAT,天文學家已發現了16個新的極其遙遠的類星體。SKICAT使用了決策樹方法構造分類器,結果使得能分辨的星體較以前的方法在亮度上要低一個數量級之多,而且新的方法比以往方法的效率要高40倍以上。
(2)市場銷售
數據采掘在銷售業上的應用可分為兩類:數據庫銷售(database marketing)和籃子數據分析(basket analysis)。前者的任務是通過交互式查詢、數據分割和模型預測等方法來選擇潛在的顧客以便向它們推銷產品,而不是象以前那樣盲目地選擇顧客推銷;后者的任務是分析市場銷售數據(如POS數據庫)以識別顧客的購買行為模式,從而幫助確定商店貨架的布局排放以促銷某些商品。
(3)金融投資
典型的金融分析領域有投資評估和股票交易市場預測,分析方法一般采用模型預測法(如神經網絡或統計回歸技術)。這方面的系統有Fidelity Stock Selector,LBS Capital Management。前者的任務是使用神經網絡模型選擇投資,后者則使用了專家系統、神經網絡和基因算法技術輔助管理多達6億美元的有價證券。
貸款償還預測和客戶信用政策分析。將數據挖掘技術中的特征選擇和屬性相關性計算應用到貸款償付預測和客戶信用政策,有助于識別重要因素,剔除非相關因素,使銀行優化調整貸款發放政策。
(4)欺詐甄別
銀行或商業上經常發生詐騙行為,如惡性透支等。這方面應用非常成功的系統有:FALCON系統和FAIS系統。FALCON是HNC公司的開發的信用卡欺詐估測系統,它已被相當數量的零售銀行用于探測可疑的信用卡交易;獵鷹的數據格式只有幾種,因為流行的信用卡公司只有幾家(如VISA,MASTER等),因此它的應用面很大。FAIS是一個用于識別與洗錢有關的金融交易的系統,它使用的是一般的政府數據表單。
(5)產品制造
在產品的生產制造過程中常常伴隨有大量的數據,如產品的各種加工條件或控制參數,這些數據反映了每個生產環節的狀態,通過數據挖掘對這些數據的分析,得到產品質量與這些參數之間的關系,可以對改進產品質量提出針對性很強的建議,而且有可能提出新的更高效節約的控制模式,從而為制造廠家帶來極大的回報。
(6)Internet的應用
Internet的迅猛發展,尤其是Web的全球普及,使得Web上信息量無比豐富,Web上的數據信息不同于數據庫,數據庫有規范的結構,Web上的信息則不然,主要是文檔。因此Web上的開采發現需要用到不同于常規數據庫開采的很多技術。Web信息發現也稱信息搜索或查詢,資源發現本質上是網上搜索,關鍵在于自動生成Web文檔的索引。目前,這方面的研究主要有兩個方面:研制新的更好的索引系統、利用已有索引系統或搜索引擎開發高層次的搜索或發現系統。相比之下,后者的研究更為活躍。從技術上看,自動文檔分類或歸類方法將對這方面的研究有很大作用。
(7)學校教育
學院分析學生歷史信息,決定哪些人愿意報考何專業,發送手冊給他們。分析教師的學歷、年齡、職稱等與授課效果的關聯規則,制定教學方案,促進教學質量的提高。
總之,DM可廣泛應用于銀行金融、零售與批發、制造、保險、公共設施、政府、教育、科研、遠程通訊、軟件開發、運輸、生物信息或基因等各個企事業單位及國防科研上。
2.數據挖掘帶來的效益
截止到目前,數據挖掘工程在很多領域取得了成果。這些成果使得各類機構和組織能更好地理解它們的組織結構、業務處理過程和顧客,從而得到很高的投資收益。在某些情況下,僅僅一小部分數據挖掘所得到的知識就能回報最初的投資。世界著名的GartnerGroup咨詢顧問公司預計:不久將來先進的大企業將會設置“統一數據分析專家”的職位。
例如:①美國著名國家籃球隊NBA的教練,利用某公司提供的數據挖掘技術,臨場決定替換隊員,從而贏得比賽,在數據庫界被傳為佳話。
②全球數據倉庫與CRM解決方案領導廠商NCR公司(紐約股票代號NCR)Teradata的數據挖掘實驗室基于20多年豐富的行業經驗,協助包括銀行、電信、航空、證券和保險在內的各行業企業善用商業數據挖掘,構筑競爭優勢。據了解,全球前50大銀行中,有一半以上采用NCR的Teradata企業級數據倉庫解決方案,尤其是全球獲利的前15大銀行中就有8家是NCR的用戶。
四、結束語
綜上所述,數據挖掘雖然是一門新興的技術,但有著鮮明的服務性、大眾性、利益驅動性,顯示了它強大的生命力。根據最近Gartner的HPC研究表明,“隨著數據捕獲、傳輸和存儲技術的快速發展,大型系統用戶將更多地需要采用新技術來挖掘市場以外的價值,采用更為廣闊的并行處理系統來創建新的商業增長點。” 數據挖掘將助你在海量數據面前迅速找到閃亮的知識,找到隱藏的商機,從而立于不敗之地。相信在不遠的將來數據挖掘會迅速普及。
參考文獻:
[1][加]Jiawei Han. Micheline Kamber 著:數據挖掘:概念與技術[M].范明,孟小峰等譯.北京:機械工業出版社,2007.3
[2]陳安陳寧:等著.數據挖掘技術及應用[M].科學出版社,2006.3
[3]羅克吳杰:巨型數據庫中的數據采掘。計算機工程與應用,2001 37(20) 88~91
[4]數據挖掘討論組:http://www.Dmgroup.org.cn