何俊
(西華大學,四川 成都 610039)
數據挖掘技術的發展趨勢
何俊
(西華大學,四川 成都 610039)
數據挖掘一般是指從大量的數據中通過算法搜索隱藏于其中信息的過程。數據挖掘通常與計算機科學有關,并通過統計、在線分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現。
數據挖掘;發展
數據挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。這個定義包括好幾層含義:數據源必須是真實的、大量的、含噪聲的;發現的是用戶感興趣的知識;發現的知識要可接受、可理解、可運用;并不要求發現放之四海皆準的知識,僅支持特定的發現問題。
與數據挖掘相近的同義詞有數據融合、人工智能、商務智能、模式識別、機器學習、知識發現、數據分析和決策支持等。
——何為知識?從廣義上理解,數據、信息也是知識的表現形式,但是人們更把概念、規則、模式、規律和約束等看作知識。人們把數據看作是形成知識的源泉,好像從礦石中采礦或淘金一樣。原始數據可以是結構化的,如關系數據庫中的數據;也可以是半結構化的,如文本、圖形和圖像數據;甚至是分布在網絡上的異構型數據。發現知識的方法可以是數學的,也可以是非數學的;可以是演繹的,也可以是歸納的。發現的知識可以被用于信息管理,查詢優化,決策支持和過程控制等,還可以用于數據自身的維護。因此,數據挖掘是一門交叉學科,它把人們對數據的應用從低層次的簡單查詢,提升到從數據中挖掘知識,提供決策支持。在這種需求牽引下,匯聚了不同領域的研究者,尤其是數據庫技術、人工智能技術、數理統計、可視化技術、并行計算等方面的學者和工程技術人員,投身到數據挖掘這一新興的研究領域,形成新的技術熱點。
數據挖掘綜合了各個學科技術,有很多的功能,當前主要功能如下:
(1)分類:按照分析對象的屬性、特征,建立不同的組類來描述事物。例如:銀行部門根據以前的數據將客戶分成了不同的類別,現在就可以根據這些來區分新申請貸款的客戶,以采取相應的貸款方案。
(2)聚類:識別出分析對內在的規則,按照這些規則把對象分成若干類。例如:將申請人分為高度風險申請者,中度風險申請者,低度風險申請者。
(3)關聯規則和序列模式的發現:關聯是某種事物發生時其他事物會發生的這樣一種聯系。例如:每天購買尿布的人也有可能購買啤酒,比重有多大,可以通過關聯的支持度和可信度來描述。與關聯不同,序列是一種縱向的聯系。例如:今天銀行調整利率,明天股市的變化。
(4)預測:把握分析對象發展的規律,對未來的趨勢做出預見。例如:對未來經濟發展的判斷。
(5)偏差的檢測:對分析對象的少數的、極端的特例的描述,揭示內在的原因
需要注意的是:數據挖掘的各項功能不是獨立存在的,在數據挖掘中互相聯系,發揮作用。
數據挖掘的應用非常廣泛,只要該產業有分析價值與需求的數據庫,皆可利用數據挖掘工具進行有目的的發掘分析。常見的應用案例多發生在零售業、制造業、財務金融保險、通訊及醫療服務:
(1)商場從顧客購買商品中發現一定的關聯規則,提供打折、購物券等促銷手段,提高銷售額。
(2)保險公司通過數據挖掘建立預測模型,辨別出可能的欺詐行為,避免道德風險,減少成本,提高利潤。
(3)在制造業中,半導體的生產和測試中都產生大量的數據,就必須對這些數據進行分析,找出存在的問題,提高質量。
(4)電子商務的作用越來越大,可以用數據挖掘對網站進行分析,識別用戶的行為模式,保留客戶,提供個性化服務,優化網站設計。
當前,DMKD研究正方興未艾,預計在21世紀還會形成更大的高潮,研究焦點可能會集中到以下幾個方面:
(1)形式化描述的語言,即研究專門用于知識發現的數據挖掘語言DMQL,類似SQL語言一樣走向形式化和標準化。
(2)可視化的數據挖掘過程,尋求數據挖掘過程中的可視化方法,使知識發現的過程易于被用戶理解和操縱,可使數據挖掘過程成為用戶業務流程的一部分,也便于在知識發現的過程中進行人機交互;包括數據用戶化呈現與交互操縱兩部分。
(3)Web網絡中數據挖掘的應用,特別是在Internet上建立數據挖掘服務器,與數據庫服務器配合,實現數據挖掘,從而建立強大的數據挖掘引擎與數據挖掘服務市場。
(4)融合各種異構數據的挖掘技術,加強對各種非結構化數據的開采(Data Mining for Audio&Video),如對文本數據、圖形數據、視頻圖像數據、聲音數據乃至綜合多媒體數據的開采。
(5)處理的數據將會涉及到更多的數據類型,這些數據類型或者比較復雜,或者是結構比較獨特。為了處理這些復雜的數據,就需要一些新的和更好的分析和建立模型的方法,同時還會涉及到為處理這些復雜或獨特數據所做的費時和復雜數據準備的一些工具和軟件。
不管怎樣,需求牽引與市場推動是永恒的,只有從數據中有效地提取信息,從信息中及時地發現知識,才能為人類的思維決策和戰略發展服務。也只有到那時,數據才能夠真正成為與物質、能源相媲美的資源,信息時代才會真正到來。
[1] 劉瑩.基于數據挖掘的商品銷售預測分析[J].科技通報,2014,(07).
[2] 徐進華.基于灰色系統理論的數據挖掘及其模型研究[D].北京交通大學,2009.
[3] 俞馳.基于網絡數據挖掘的客戶獲取系統研究[D].西安電子科技大學,2009.
[4] 馮軍.數據挖掘在自動外呼系統中的應用[D].北京郵電大學,2009.
何俊(1995—),男,漢族,四川西充人,本科,西華大學,軟件工程專業。
TP18
A
1671-1602(2016)24-0021-01