朱芷瑩 余思賢
摘 要:當今世界正處于從IT時代向DT時代邁進的過渡階段,大數據時代。數據挖掘技術是一種數據處理技術,其前景非常理想,本文以數據挖掘的定義為出發(fā)點,細致的介紹了各種數據挖掘的技術方法,總結其特點,并給出相應的應用領域。
關鍵詞:DT時代;數據挖掘;應用領域
大數據的概念最先出現于網絡上,它用于描述一個現象:互聯網公司日常運營所產生和積累的客戶數據量呈現爆炸式增長,導致現有數據管理軟件無法駕馭,其難點在于,數據的獲取、存儲、處理和分析。這種數據量,不是用日常衡量單位G或T來衡量,而是P(220G)、E(230G)或Z(240G)或者更大的數量級來度量。所以被稱為大數據[1]。大數據的主要來源有4個方面,分別為傳感器、網站點擊流、移動設備和射頻識別。其特點是數據源異構復雜和種類繁多、數據量體量大、實時處理困難。
數據挖掘技術作為一種數據處理技術,能有效從大量數據中獲取有效信息,能較好針對大數據特點,處理大數據。因此,其在大數據時代背景下,有遠大的前景和充足的應用空間。
1.數據挖掘
數據挖掘作為一門新興的交叉學科[2],其廣義上的定義為,從數據集里面獲取隱晦的有用的信息和知識的過程。其操作的核心理念:基于對數據集的深刻認識,高度抽象并概括數據本質,將數據隱藏的信息變得易于讀取。這些數據集往往具有大規(guī)模性、不完全性、參雜噪聲、模糊性和隨機性的特點,涵蓋了大數據的特點。所以,數據挖掘技術能很好地應對大數據。
數據挖掘一般有五個步驟,分別是數據選擇、數據預處理、模式發(fā)現、模式評估和知識表達。
1.1數據選擇
由于原始數據集具有規(guī)模大、參雜噪聲的特點,所以必須根據想要獲取信息的特點,選擇相應的數據集來進行數據挖掘操作。這樣可以極大的減少運算量,提升挖掘效率。
1.2數據預處理
原始數據中各類數據的單位、量級通常不同,為保證能快速挖掘出有用信息,必須進行數據預處理操作。預處理的方法有數據清理、數據集成和變換、數據歸約、數據離散化等。需要根據數據的特點和挖掘目標選擇相應的方法。
1.3模式發(fā)現
這是數據挖掘過程的關鍵環(huán)節(jié),是從預處理后的數據中進行知識發(fā)現的過程。
1.4模式評估
這是評價環(huán)節(jié),對發(fā)現的知識進行評估,得到對應的知識模式。
1.5知識表示
這是數據挖掘的結果展示環(huán)節(jié)。將挖掘出的知識模式通過直觀感性的方式展示出來,把機器可讀的數據變成人類可讀的圖文。
2.數據挖掘的技術方法
數據挖掘的技術方法按模型建立方式的不同,可簡單歸為兩類。一類是統(tǒng)計類,有聚類分析和關聯分析等;一類是機器學習類,有監(jiān)督性學習和無監(jiān)督性學習。每種方法都有其的功能特點和相應的應用領域,以下介紹數據挖掘中常用的幾種技術方法。
2.1關聯分析
關聯分析作為一種有效的數據挖掘技術,其主要用于發(fā)現數據之間的關聯性。其基本思路可用“W->B”表示。其中W指屬性集,B指屬性個體。操作規(guī)則簡單來說,就是在數據集中,W具有真值,則B具有真值的可能性和趨勢。最典型的關聯分析為貨籃分析。其屬性值有兩個,分別是支持度和置信度。這樣W屬性集就由“支持度-置信度”構成。比如,在生產過程中,事件A發(fā)生了,分析事件B發(fā)生的可能性。這個對于故障檢測和維修很有應用價值。關聯分析能從關系數據中,獲取感興趣的知識模式,在眾多行業(yè)中都有應用價值。
2.2 決策樹
決策樹主要是根據數據的屬性值來對數據進行分類,其主要的規(guī)則是“If-then”。它的主要優(yōu)點就是直觀性,可以顯示出得出結果的決策過程。這點,它優(yōu)于神經網絡。但是,在面對復雜的數據時,決策樹會產生很多的分支,這不便于管理。此外,在面對數據缺值問題時,它沒有較好的處理方法。目前,決策樹涵蓋的算法有ID3、CART、CHAID、SPRINT和SLIQ。
2.3 遺傳算法
遺傳算法用到了生物學中的一個概念--遺傳。物種的繁衍講究適者生存原則,同樣,遺傳算法也有著類似原則。其通過模擬自然界物種的進化機制,逐漸產生最合適的規(guī)則,并組建新群體,而后產生規(guī)則的子體。因此,可利用遺傳算法獲得最佳模型,優(yōu)化數據模型。遺傳算法是一種弱方法,對信息缺少問題不敏感,效率高,運用也較為靈活,可用于評估數據挖掘算法中的其他算法。
該算法在處理數據分類問題上,極其合適。利用時間類比和空間類比的手段,將大量的種類豐富的信息數據系統(tǒng)化,從而發(fā)現數據間的內在關聯,獲得合適的模型。在模型建立時,可以與神經網絡算法相結合,提高模型的可理解性。
2.4貝葉斯網絡
貝葉斯網絡作為建立在數據統(tǒng)計基礎上一種方法,其理論依據就是后驗概率的貝葉斯定理。其思路是將不確定事件用網絡關聯起來,從而預測相關事件的發(fā)生概率。其網絡變量沒有明確要求,可以可見,也可以隱藏于樣本中。其功能有聚類、分類、預測和因果分析。對比其他算法,貝葉斯網絡的優(yōu)勢在于可理解性好、預測效果好。不過,對于低概率事件的處理問題,它效果較差。
2.5 粗糙集方法
粗糙集方法作為一種數學工具,對于數據挖掘,意義重大。在面對含糊性的問題時,該方法可以找出不準確數據或噪聲數據的內在結構聯系。此外,還可以進行特征歸約和相關性分析的操作。粗糙集主要優(yōu)點在于,不依賴數據的初始或附加信息。這樣,在應對不完整的信息分類時,可以采用它。應用粗糙集方法,可以極大提高數據挖掘的效率。
2.6 神經網絡
神經網絡屬于最常見的數據挖掘技術。其基本思路是,通過模擬人腦的重復學習方式,對訓練樣本進行學習和訓練,最終得到區(qū)分各種樣本的特征和模式。為保證精準擬合各種樣本數據,應盡量挑選具有代表性的訓練樣本集。它的最大特點在于,可理解性差,即無法知道通過何種規(guī)則得到這樣的結果。優(yōu)點在于,能處理復雜問題、對噪聲數據不敏感以及能對新數據進行分類。
2.7 統(tǒng)計分析
統(tǒng)計分析是基于統(tǒng)計學和概率論的一種數據挖掘方法。它是基于數學模型的一種方法,具有易于理解,精準計算結果的特點。統(tǒng)計分析主要包含回歸分析、因子分析和判別分析三種,實際應用空間較大。
3.數據挖掘技術的應用
數據挖掘技術應用的領域很廣泛,下面簡單的介紹四種應用領域。
3.1市場銷售領域[3]
數據挖掘技術最早開始應用的領域和應用最多的領域就是市場銷售,旨在分析消費者的消費習慣和特點,增加銷售量。同時,也常用發(fā)現潛在客戶,增加行業(yè)效益。常用的數據挖掘技術有關聯分析、決策樹和粗糙集方法[1]。需要注意的一點,在對客戶數據進行挖掘的同時,注意保護好客戶信息不泄露,保護客戶的個人隱私。
3.2科研領域
分析各種實驗數據,是科研的必要步驟。數據挖掘技術作為一種數據處理技術,經常會被用于分析各種實驗數據,尋找相關規(guī)律。在科研領域,數據挖掘就是一個工具,各種技術方法都會根據需要而被使用。
3.3制造領域
生產產品的過程中,也會生產出各種數據。這些數據,反映著生產技術、產品、運輸等方面的信息。通過使用數據挖掘技術,能找出影響產品質量和生產效率的因素。消除這些因素,就可提高生產效率和產品質量。在制造領域,常用的數據挖掘方法有關聯分析、決策樹、貝葉斯網絡、粗糙集、神經網絡和統(tǒng)計分析。
3.4金融領域
金融行業(yè)的數據較為完整、齊全,且金融業(yè)的利潤大。因此,數據挖掘技術在這個行業(yè)里,得到較為成熟的應用。其主要通過數據挖掘來分析市場波動,建立對應的預測模型,給投資分析提供便利。常用的數據挖掘技術有遺傳算法、粗糙集方法、神經網絡和統(tǒng)計分析。
總結
在大數據時代背景下,數據挖掘技術作為能較好處理大數據的工具,其前途不可限量。
參考文獻:
[1]唐雅璇, 李麗娟, 吳芬琳. 大數據時代的數據挖掘技術與應用[J]. 電子技術與軟件工程, 2017(21):159-159.
作者簡介:
朱芷瑩(1998—),女,漢族,四川成都人,本科在讀,西安財經大學信息管理與信息系統(tǒng)專業(yè)大三學生
余思賢(1999—),女,漢族,江西上饒人,本科在讀,西安財經大學信息管理與信息系統(tǒng)專業(yè)大三學生