馬琳 董智鶴 夏嵩 賈孺

摘要:數據挖掘,是利用機器對樣本數據進行分析和發掘形成知識的過程。本文結合作者的實踐,淺述了數據挖掘技術在各領域的應用情況,詳細闡述了幾種主要的數據挖掘技術,并對此進行了分類比較,給今后廣大研究者提供一定的借鑒意義。
關鍵詞:數據挖掘;應用;網絡
中圖分類號:TP311.13 文獻標識碼:A 文章編號:1007-9416(2019)10-0230-02
0 引言
數據挖掘(Data Mining),又被稱為知識發現、資料探勘、數據采礦等,是利用機器對樣本數據進行分析和發掘形成知識的過程[1]。該技術是自動從大量的數據樣本中尋找數據間隱藏的特殊關系。數據挖掘技術是統計學、人工智能技術和數據庫技術等理論的結晶,為尋找數據間的隱藏關系提供了很好的技術支持[2]。自上世紀80年代末,數據挖掘的技術思想在底特律召開的第十一屆國際人工智能會議第一次展開專題討論,當時會議的主題是數據庫的知識發現。隨后每年舉辦一次關于知識發現的專題討論,直至1995年在蒙特利爾召開了第一屆數據挖掘國際會議[3]。在此之后,每年召開的有關于數據挖掘的國際會議越來越多,期刊的數量也在不斷增加。
1 數據挖掘的應用現狀
數據挖掘廣泛應用于市場銷售、金融、互聯網、醫療、交通等各個領域。
在市場銷售領域,可以完成消費群體分析、市場定位、銷售情況趨勢預測、倉庫進出庫分析、優化市場策略、判別用戶購買行為、優化促銷活動等。諸多分析人員也在此領域做出了研究。王旺[4]利用SAS軟件,對便利店購買交易數據進行關聯性分析,提出在商品布局、促銷推廣等方面的優化應用;黃玉佳將生命周期理論與Bass模型相結合,進行消費者購買模式偏好計算,為企業創造利潤的方向提供了借鑒;耿曉中設計了超市管理系統,并基于該系統實現FP-growth算法,找出了消費者購買行為模式。
在金融領域,通過對金融交易活動的監督,發現交易規則,或通過對客戶收入水平、償還收入比、受教育程度等主導因素分析,可以完成對客戶信用等級評價,以預測客戶貸款還款能力,降低銀行放貸風險。許江峰對P2P網絡金融平臺數據進行關聯分析和logistic回歸,在解決國內P2P網絡金融平臺面臨的借貸雙方信息不對等、借款業務操作無參考等問題方面進行了探索研究。
在互聯網領域,通過對網頁Links信息的挖掘,以實現對網絡信息的分類、聚類、瀏覽和檢索,通過對用戶的檢索記錄分析,有效的進行提問擴展,提高引擎的檢索效率。曾珂對新浪微博用戶數據進行聚類分析,研究了微博用戶興趣、偏好、習慣,對于日后微博功能開發、產品研發等具有一定的應用價值。
2 數據挖掘分類
數據挖掘的方法和所涉及到的學科領域、分類分支有很多,其中,按照數據挖掘的任務劃分,常用于數據預警預測的主要有分類、聚類、關聯規則、時間序列等。
分類挖掘算法的核心是制定某種規則模型,機器按照規則模型將大量的有效樣本數據進行區分;在分類過程中,可以將樣本數據分成兩類或多類。進行分類挖掘運算,需要建立一個可以描述數據類集或者概念集的一個模型。這個建立的模型是依據屬性描述的數據元組屬性構成的,每個元組作為數據訓練集中的訓練樣本,根據類的不同劃分不同標號,標號確定樣本的屬性,這些數據元組形成訓練數據集合。常用分類規則、數學公式或者判定的樹形結構來確定學習模型;然后使用該模型分類,通過評估判斷預測模型的準確性,如果預測模型準確程度可以接受,就用該模型對未知的數據隊形完成分類;如果準確度不能達到要求,就需要重新做第一步的工作,重新構建分類預測模型。
聚類挖掘算法是數據挖掘技術中另一個非常重要的技術手段和方法,它是將樣本數據按照特定的屬性聚集在一起,根據樣本與模型的相似度進行匹配,也就是把一個體按照相似性劃分成若干個類別,以實現對數據樣本的聚集歸類,可以理解為人們常說的“物以類聚”。在經過歸類后,得到一組一組數據對象的集合。這些集合內的元素彼此之間有較強的相似性,集合之間的元素之間有較大的差異性。在應用過程中常把一個集合中的全部元素作為一個整體看待。常見的聚類挖掘算法流程如圖1所示。
關聯規則挖掘算法是用來尋找數據樣本中潛在的對用戶有用的聯系。在大量的數據樣本中,找到所有的高頻項,再在這些項中找到相互聯系的規則,即A事件的發生將觸發與之關聯的B事件發生,挖掘策略主要是尋找最小支持度閾值的頻繁項和頻繁項中的高置信度。關聯規則首次提出是為了解決商家關于庫存量、進貨量的安排等問題。Agrawal等提出的Apriori算法,通過挖掘顧客交易數據中商品關聯關系,得到了客戶購物的一般購物模式結果。
時間序列挖掘算法是一種應用廣泛的分析方法,已在股指預測、生產過程監測、電氣系統監測、銷售額預測等領域發揮了重要作用。它是對在不同時間下取得的樣本數據進行挖掘,用于分析樣本數據之間的變化趨勢,這些數據是要按照一定的時間間隔排列的。從數據的時間特性入手,獲取數據知識,其主要手段是要對時間特性進行分析,找尋事物演變的過程。換言之,即為從眾多時間序列樣本中挖掘隱藏的、與時間關系聯系緊密的規則,并對時間數據的發展趨勢進行預測。時間序列挖掘主要用于對數據進行可視化描述;分析給定時間序列的產生原理,尋找兩個或兩個以上變量間的關系;根據現有數據通過模型進行擬合,預測未來時間的數據;通過改變時間序列模型的輸入變量,得到符合目標的輸出變量,這可以幫助決策者及時調整變量,進行有效控制。
聚類和關聯規則本質上屬于描述型模型,主要是需要通過對數據之間隱含的模式或者關系進行挖掘識別,從而發現所需要的知識。這類方法要求的數據類型較多,獲取程度上也較復雜。分類和時間序列分析屬于預測型模型,是以時間為關鍵屬性開展的,分析歷史或當前的數據,從而推導出未來的趨勢。這類模型對數據的時間連續性要求較強,同時由于使用的數據類型相對單一,在數據的獲取上較容易實現。
3 結語
通過對數據挖掘相關知識的總結梳理和分類,對數據挖掘應用的領域有了深刻的認識,為今后相關的研究奠定了一定的理論基礎,給同仁在此方面的研究提供借鑒參考價值。
參考文獻
[1] 劉健.基于數據挖掘的軟件系統優化與重構的研究[D].河北工業大學,2013.
[2] 武書彥,李咚.數據挖掘的探索性研究[J].制造業自動化,2011,33(2):98-100.
[3] 張瑩.基于SVR的案例挖掘的應用研究[D].合肥工業大學,2011.
[4] 王旺.數據挖掘在零售行業的應用[D].云南大學,2016.