梁金蘭 崔志鵬
摘 要: 數據挖掘是近年來新興的一門計算機邊緣學科,在我國也逐漸引起了越來越多人的關注,并且隨著數據挖掘技術的不斷改進和數據挖掘工具的不斷完善,數據挖掘必將在各行各業中得到廣泛的應用。
關鍵詞:數據挖掘;應用現狀;應用前景
1 數據挖掘
1.1 數據挖掘概念
數據挖掘(英語:Data mining),又譯為資料探勘、數據采礦。它是數據庫知識發現(英語:Knowledge-Discovery in Databases,簡稱:KDD)中的一個步驟。數據挖掘一般是指從大量的數據中自動搜索隱藏于其中的有著特殊關系性(屬于Association rule learning)的信息的過程。數據挖掘通常與計算機科學有關,并通過統計、在線分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。
1.2 數據挖掘的發展背景
近幾年,隨著IT技術的發展,尤其數據庫技術的發展,數據挖掘工作與理論研究工作成為必要的現實,也越來越引起學術界和企業的關注。究其原因,有以下三個方面:
①“激增的市場交易使得各企業所需儲存與處理的資料量越來越龐大,企業的焦點已從以往的資料整理與收集,轉變成如何有效且快速地從資料庫中取得有用的信息,以滿足消費者的需要,擴大市場”(張堯庭、謝邦昌、朱世武《數據挖掘入門及應用——從統計技術看數據挖掘》)。
②數據挖掘是一種結合多種專業技術的應用,它所運用的方法和技術包括 : 計算機技術,統計分析方法,各類算法,協作代理和分布式目標管理技術等,因此,數據挖掘方法和技術的拓展、開發和應用是數據挖掘研究的主要領域。
③數據挖掘功能的拓展和深化也是學術界關注的重要方面。顯然,數據挖掘工作將成為近時期企業關注和學術研究的熱門領域。
2 數據挖掘的應用及其前景
數據挖掘所包含的功能領域應當相當廣泛,其具體內容尚處于進一步的探討中。當然,數據挖掘的功能分類有所不同,比較普遍的分類把它分為五項:分類、估計與預測、聚類、關聯和序列發現、描述等。實現數據挖掘的上述功能(任務)的方法(算法)包括諸如回歸分析、時間序列、判別分析、因子分析和聚類分析等一些統計分析方法,也有粗集、模糊邏輯、人工神經網絡、決策樹理論以及規則歸納法為基礎的方法。對于統計分析方法,數據挖掘的應用主要體現在高級多元統計方法的應用,當然這些方法有的已經比較成熟,但數據挖掘的應用是對這些方法的拓展和深化。粗集、模糊邏輯、人工神經網絡、決策樹理論以及規則歸納法等方法在數據挖掘中主要體現在工具開發和應用研究。這些方法(算法)在數據挖掘工作中的理論研究是學術界對數據挖掘的主要研究領域。
數據挖掘的應用領域隨著IT技術的發展和市場交易量的擴大也愈來愈廣泛。目前,數據挖掘的研究領域已遍及的行業包括金融業、電信業、網絡相關行業、零售商、制造業、醫療保健及制藥業等。比如,在財務金融方面,預測市場動向,防范犯罪詐欺和顧客吸引等;在電信行業針對用戶資費進行資費改革,以提高經營效益等;在企業直銷行銷方面用于識別客戶和客戶行為分析;在體育方面識別運動員的特長和缺點;在天文上進行星體分類等。盡管數據挖掘的應用領域相當廣泛,就我國當前的應用來看,尚處于萌芽階段,企業大規模地運用數據挖掘技術尚不普遍,個別企業或部門僅零星地運用數據挖掘技術。數據挖掘的工具已大量出現,一類是基于統計分析的軟件,如: SAS、SPSS 等;另一類是應用與新技術如模糊邏輯、人工神經網絡、決策樹理論的工具如: CBR Express、Esteen、Kate-CBR、FuzzyTECH for business、Aria、Neural network Browser等軟件, 但這些軟件并不是包羅萬象地應用于任何數據挖掘技術的軟件,而是有所側重。實際上,數據挖掘工具與實際應用的問題緊密聯系,實踐中要根據實際運用去開發適用于實際需要的數據挖掘工具。我們國家數據挖掘的軟件運用和開發也未全面展開,尤其模糊邏輯、人工神經網絡、決策樹中對數據挖掘工具的開發不足。因此,開拓數據挖掘工具的應用和實踐是未來數據挖掘工作中亟待解決的問題。
3 數據挖掘的局限性
當然,數據挖掘不是萬能的,而只是一個工具。它不會坐在你的數據庫上一直監視著數據庫,然后當它發現有意義的模型時給你發一封電子郵件。它仍然需要了解你的業務,理解你的數據,弄清分析方法。數據挖掘只是幫助商業人士更深入、更容易的分析數據,它無法告訴你某個模型對你的企業的實際價值。而且數據挖掘中得到的模型必須要在現實生活中進行驗證。
數據挖掘中得到的預言模型并不會告訴你一個人為什么會做一件事、采取某個行動,它只會告訴你他會這樣做,為什么則需要人去考慮。比如,數據挖掘可能會告訴你,如果這個人是男的、年收入在5萬到6萬之間,那么他可能會買你的商品和服務。你可能會利用這條規則,集中向這類人推銷你的商品而從中獲益,但是數據挖掘工具不會告訴你他們為什么會買你的東西,也不能保證所有符合這條規則的人都會買。
為了保證數據挖掘結果的價值,用戶必須了解自己的數據,這一點至關重要。輸入數據庫中的異常數據、不相關的字段或互相沖突的字段(比如年齡和生日不一致)、數據的編碼方式等都會對數據挖掘輸出結果的質量產生影響。雖然一些算法自身會對上面提到的這些問題做一些考慮,但讓算法自己做所有這些決定是不明智的。
數據挖掘不會在缺乏指導的情況下自動地發現模型。用戶不能這樣對數據挖掘工具說,“幫我提高直接郵件推銷的響應率”,用戶應該讓數據挖掘工具找:(1)對用戶的推銷回應的人,(2)回應又做了大量訂單的人的特征。在數據挖掘中尋找這兩種模型是很不相同的。
雖然數據挖掘工具使用戶不必再掌握艱深的統計分析技術,但用戶仍然需要知道所選用的數據挖掘工具是如何工作的,它所采用的算法的原理是什么。選用的技術和優化方法會對模型的準確度和生成速度產生很大影響。
數據挖掘永遠不會替代有經驗的商業分析師或者管理人員所起的作用,它只是提供一個強大的工具。每個成熟的、了解市場的公司都已經具有一些重要的、能產生高回報的模型,這些模型可能是管理人員花了很長時間,作了很多調查,甚至是經過很多失誤之后得來的。數據挖掘工具要做的就是使這些模型得到的更容易,更方便,而且有根據。
4 結語
數據挖掘技術是一新興的研究領域,商業利益的驅動將會促使其不停地發展,每年都有新的數據挖掘方法和模型問世,人們對它的研究正日益廣泛和深入,其商業價值也日益突顯。盡管對數據挖掘的研究仍面臨著諸多問題和挑戰,還存在很多問題值我們去探索研究,但我們有理由相信在不久將來數據挖掘發揮的作用和價值會越來越大。
參考文獻
[1]吉根林,帥克,孫志揮.數據挖掘技術及其應用[J].南京師范大學學報(自然科學版),2000,23(2):25-27.
[2]Han Jiawei,Micheline Kanmber.數據挖掘:概念與技術[M].范明,孟小峰,譯,北京:機械工業出版社,2001.149-175.
[3]Mehmed Kantardzic.數據挖掘:概念、模型、方法和算法[M].閃四清,等譯,北京:清華大學出版社,2003.144-169.
[4]湯宇松.數據挖掘系統設計[J].系統工程理論與實踐,2000,(9):57-63.
作者簡介
梁金蘭,女,漢族,河南周口人,鄭州大學環境工程2012級本科生。
崔志鵬,男,漢族,河南安陽人,鄭州大學環境工程2012級本科生。