錢賀斌
四川師范大學成都學院, 四川 成都 611745
隨著互聯網與信息技術的發展,數據已經滲透到當今每一個行業和業務職能領域,數據的爆炸性增長預示著“大數據”時代已經降臨,龐大的數據資源使得各個領域開始了量化進程,無論學術界、商界還是政府,都將開始這種進程。數據挖掘正是這一進程進步發展的重要力量。
數據挖掘,顧名思義就是從大量的數據中挖掘出有用的信息,即從大量的、不完全的、有噪聲的、隨機的、模糊的數據中,提取隱含其中的、規律性的、人們事先未知的、但又是潛在的有用信息和知識的過程。數據挖掘是一個在海量數據中利用各種分析工具發現模型與數據間關系的過程,它可以幫助決策者尋找數據間潛在的某種關聯,發現被隱藏的、被忽略的因素,因而被認為是在這個數據爆炸時代解決信息貧乏問題的一種有效方法。
數據挖掘作為一門交叉學科,融合了數據庫、人工智能、統計學、機器學習等多領域的理論與技術。數據庫、人工智能與數理統計為數據挖掘的研究提供了三大技術支持[1]。
數據挖掘的最終結果是從大量數據中發現可用的知識,這一過程一般包括數據準備、數據挖掘、結果表達與解釋三個階段,如圖1所示。
數據準備是數據挖掘中的關鍵一環,它直接影響到數據挖掘的效率、精準度以及所得模式的有效性。該階段可分為數據集成、數據選擇、數據預處理三個子階段。數據集成是把多個不同的數據源合并處理成一個共同的數據源,清洗臟數據、處理數據中的遺漏、解決語義模糊性等。數據選擇就是決定并選出需要分析的數據,即目標數據,縮小處理范圍,提高數據挖掘質量。數據預處理通常包括消除重復數據、消除噪聲、遺漏數據處理、數據類型轉換等,目的是把數據處理成適合于數據挖掘的形式,并在數據選擇的基礎上對挖掘數據做進一步的約簡,減少內存資源和處理時間,使挖掘更有效。
數據挖掘是根據數據特點和結果知識表達方式選定某一適合的數據挖掘算法(分類、聚類、回歸、關聯等算法),把數據中潛在的有用的模式搜索出來。它是整個挖掘過程中最為關鍵的一步,也是技術難點。
結果表示是把所有最終經挖掘發現的知識直觀地通過可視化技術展示給用戶,以幫助用戶理解和解釋數據挖掘的結果。若結果不能滿足挖掘任務的需要,則需要重新進行以上的挖掘過程。

圖1 數據挖掘過程圖
在理解數據挖掘過程的這三個步驟時,應注意以下幾點:第一,數據挖掘只是整個挖掘過程中的關鍵一步;第二,不但所選用的數據挖掘方法可以影響挖掘質量的好壞,所挖掘數據的數量和質量同樣會決定挖掘結果的成敗。如果在挖掘過程中選取了不適當的甚至是錯誤的數據,或者是對數據進行了錯誤的處理,挖掘結果都不會成功;第三,整個挖掘過程是一個不斷反饋、循環往復的過程。例如,在挖掘過程中用戶發現由于目標數據或者是挖掘方法的原因而產生了不理想的挖掘結果,此時都需要重復以前的挖掘過程,甚至重新開始;第四,在數據挖掘的每個階段,可視化技術都起著重要作用。在數據預處理階段,為了更好地選取目標數據,用戶需要對所選數據有一個初步的了解,此時可以用直方圖、散點圖等統計可視化技術來顯示相關數據;在數據挖掘階段,用戶可根據具體研究領域的不同選擇相關的可視化工具;在結果表示階段,可視化技術的選擇應該考慮到可以使發現的知識易于表達和理解[2]。
數據挖掘功能一般可以分為預測和描述兩類[3]。預測性挖掘是對目標數據進行推算處理,進而達到預測的目的。描述性挖掘則是用來刻畫目標數據集合的普通特性。概括起來,數據挖掘功能主要包含以下幾個方面:分類、聚類、偏差檢測、概念分析、概念描述、信息摘要、關聯分析、時序演變分析和元數據挖掘。
數據挖掘功能一般是與目標數據類型相關聯的。一些功能可以用在多種不同的數據類型上,而一些功能只能用在某一特定的數據類型上。因此在確定數據挖掘任務時,必須綜合考慮目標數據類型、數據挖掘功能和用戶的興趣。
由于數據挖掘可以從大量數據中發現原來未知的信息和知識,在當下的大數
據時代,它給龐大的數據資源賦予了新的含義,它們不再是難以處理的垃圾,而是不可或缺的資源。以下主要從三個方面介紹數據挖掘在一些領域中的應用。
(1)在DNA分析中的應用
將基因的編碼序列和非編碼序列進行區分是進行基因研究的基礎,兩種序列的區分不但需要大量的實驗,而且需要繁重的計算,所以在區分準確度和分類方法上如果能夠有所提高,那么對于基因研究的貢獻無疑是巨大的。將編碼序列和非編碼序列進行區分實質是一個分類問題,分類問題在數據挖掘中已經有了很多研究,可以使用比較成熟的分類算法對兩種序列進行區分。
某些疾病不只與單個的基因有關,而是某幾種基因組合起來共同作用的結果。此時可以利用數據挖掘中關聯分析的方法確定在目標樣本中同時出現的基因種類。由此人們可以發現各基因組以及基因之間的關系。
(2)在金融業中的應用
由于業務需要,金融業需要收集整理大量數據,這些數據通常比較可靠、完整和高質量,跟蹤分析這些數據可以發現隱含其中的數據模式及特征,并由此得到某個客戶或組織的金融和商業興趣,進而察覺到金融市場的變化趨勢。數據挖掘在金融領域中的應用主要包括數據清理、金融市場分析與預測,賬戶分類、銀行擔保和信用評估等。
(3)在市場業中的應用
數據挖掘技術應用在市場業主要體現在對消費者行為分析和對市場定位上。它基于市場營銷學的市場細分原理,假定“消費者過去的行為是其今后消費傾向的最好說明”。通過收集處理有關消費者消費行為的大量信息,掌握特定消費個體或群體的消費傾向、消費需求和消費習慣,從而確定相應個體或群體下一步的消費行為,并以此為基礎,對所識別出來的消費人群進行針對性極強的特定營銷,這與傳統的不針對特定消費人群的大規模營銷手段相比,為企業大大節約了營銷成本,獲得了更好的營銷效果,也增加了企業利潤。
數據挖掘的研究如日中天,目前,國內外很多公司、大學和研究機構都非常
看好數據挖掘的發展前景,并且在這個方面開展了深入研究。今后研究的熱點可能有:數據挖掘與數據倉庫相結合的研究,數據挖掘與數據倉庫一體化的研究;對各種非結構化數據,如:多媒體數據、圖形圖像數據和文本數據的挖掘;研究Internet上的數據挖掘方法;研究專門用于知識發現的數據挖掘語言。
數據挖掘滿足了大數據時代用戶對信息的需求,隨著大量的基于數據挖掘的面向用戶的決策支持產品的不斷問世,數據終將與能源、物質一樣成為人類不可或缺的重要資源,也只有到那時,信息時代才會真正到來。
[1]朱玉全,楊鶴標,孫蕾 數據挖掘技術[M].南京:東南大學出版社,2006.11
[2]朱明.數據挖掘(第二版)[M].合肥:中國科學技術大學出版社,2008.11
[3]王光宏,蔣平.數據挖掘綜述[J].同濟大學學報,2004(2):246-252