趙義軍+商夢嬌
【摘要】本文主要講述了數據挖掘的內涵以及作為機器學習,數據倉庫,統計學,智能決策等多個學科的交叉學科的特點。
【關鍵詞】數據挖掘 機器學習 數據倉庫 統計學 智能決策
20世紀90年代后期,信息技術、計算機以及網絡技術迅猛發展,人類社會從此邁進了一個嶄新的數字時代。但是,精彩紛呈的數據也帶來了利用這些數據的煩惱,怎樣才能充分利用這些數據,怎樣才能從中得到最有價值的信息,是我們共同的目標和心愿,而數據挖掘技術的出現,則在很大程度上解決了這些問題,使大數據時代迎來了一個春天。
一、數據挖掘的內涵
大多數人認為,數據挖掘(data mining)的概念最早是由1995年Fayyad在知識發現會議上所提出來的,他認為數據挖掘是一個自動或半自動化地從大量數據中發現有效的、有意義的、潛在有用的、易于理解的數據模型的復雜過程[1]。在實際問題的解決過程中,人們慢慢總結出數據挖掘的真正內涵,那就是,數據挖掘是一項以發現數據中有價值的模式和規律為基本目標的獨立的數據組織和協作的建模歷程。數據挖掘是為發現大規模數據中所隱藏的有意義的模式和規律而進行的探索、實驗和分析。數據挖掘是一門需要結合各行各業領域知識的交叉學科。
二、數據挖掘的特點
數據挖掘作為一種新型門類,自然有它自己獨特的特點,但是它并不專屬于某一個學科門類,而是多種學科的交叉,相關的學科包括機器學習,數據倉庫,統計學,智能決策等多個學科,接下來文章將要講述數據挖掘作為一種交叉學科在各個學科中的應用中所表現出來的特點。
(一)數據挖掘與機器學習
當數據挖掘在機器學習相結合時所體現出來的主要特點是強調數據的特點和分布,有嚴格的原則和方法。這個特點主要是在機器學習在大數據庫上的應用上來體現的。
根據Tom Michael于1997年提出的定義,機器學習是面向任務解決的基于經驗提煉模型實現最優解設計的計算機程序。從這個定義我們可看出所謂的機器學習的算法旨在存在經驗觀測的領域中提出解決工具來為缺乏理論模型作出指導。然而早期的機器學習并非是把原始的經驗觀測輸入,而輸入的是經驗中的規則,進而學習算法就是基于規則分析的基礎上形成的。但是隨之而來的問題也出現了,隨著經驗觀測的量越來越大,要求學習算法不僅要分析規則,更要去理解有意義的規則,甚至還要去考慮經驗觀測的存儲格式問題,例如銷售業中各個銷售分店的位置定位問題,圖像庫中與指定圖片匹配的跟蹤問題,遺傳病在一個家庭中蔓延的基因等等,這些問題通常需要涉及大范圍而且多個角度的數據采集,由于諸類原因,伴隨產生了很多棘手的問題,比如信噪比較低,模式結構不明等問題,這就需要人們從大量數據中通過建立模型認識數據內在結構和規律的解決思慮和算法設計也納入到機器學習的研究范圍中,這時數據挖掘便開始發揮它的作用。機器學習的結果是產生新的處理數據的算法,機器學習在大數據庫上的應用就是數據挖掘。任務、訓練數據和實施性能是構成機器學習的三個基本要素,而機器學習的結果就是產生新的智能處理數據的算法,顯然,這就是數據挖掘與機器學習之間的內在聯系。
一個機器學習的算法由5個方面構成:
①任務:算法的目標,簡要的如分類,類聚等;
②模型或模式的結構:線性回歸模型,高斯混合模型,圖模型等;
③得分函數:評價模型或算法優良性的函數,比如敏感度,BIC等;
④達到最優結果的途徑設計:達到方法最優的參數估計計算算法,最速下降,MCMC等;
⑤數據管理技術:數據的保存、索引和提取、展現數據的方式,特別是數據量較大的時候存儲的設計等[2]。
由此可以看出,數據分析和機器學習之間既有聯系又有區別,機器學習產生的算法稱為“直升機型”程序,因為其核心是任務和任務完成的質量。這種算法的優點是其算法具有很高的效率,可以突出問題的重點,缺點是對數據特點的靈活性考慮不周,使算法很容易受到外界因素的干擾,其自主調節性能也就很弱。數據分析在機器學習中的應用則很大程度上解決了諸類問題,因為數據分析強調數據的特點和分布,并且有嚴格的原則和方法,強調建模過程和統計設計,這時數據分析的優勢和特點也就顯現出來。
(二)數據挖掘與數據倉庫
當我們進行數據挖掘技術時要先把數據從數據倉庫中拿出來,放到一個專門的數據庫或者數據集市中進行數據挖掘,我把數據挖掘這個特點總結為間接性。
那為什么不能在數據倉庫上直接挖掘,非要先把數據放到另一個數據挖掘庫或者數據集市中去挖掘呢?到底能不能直接在數據倉庫上直接挖掘呢?答案是肯定的。首先來說,數據挖掘是可以直接在數據倉庫上進行的,除此之外,如果直接在數據倉庫上挖掘的話,還有一定的好處,數據的不一致問題得到解決,因為數據挖掘是首先要進行數據清理工作,不但要對數據挖掘的數據進行清理,而且還要對數據倉庫中的數據進行清理,因此可能會導致數據的不一致問題出現,如果是在數據倉庫中直接挖掘的話,則避免了這一問題的出現,如果數據在導入數據倉庫時已經進行過清理工作,那么將數據導入數據倉庫后就沒有必要在進行一遍清理工作,而是在數據倉庫中直接進行數據挖掘,這樣一來就避免數據不一致的現象,也省去了很多了時間,但是我們忽略了一個問題,那就是,沒考慮到數據倉庫的計算資源量的問題,當一個數據倉庫的計算資源和充足的情況下,完全可以直接在數據倉庫上進行數據挖掘,但是,如果數據倉庫的計算資源不充足,那數據挖掘工作則無法完成,這時就需要另外建立一個數據挖掘挖掘庫或者是數據集,這類問題則迎刃而解了。
(三)數據挖掘與統計學
隨著社會的進步,人們對生活和工作提出了越來越高的要求。很多時候需要人們去建立模型來解決較為棘手的問題,并且還要做出相對準確的預測,數據挖掘和統計學這兩門學科都是致力于模型發現和預測,在模型發現和預測方面,數據挖掘較統計學而言的顯著特點就是數據驅動。
與數據驅動相對的是經驗驅動,所謂經驗驅動強調先有設計然后通過數據來驗證設計的合理性,統計學在應用的過程中顯然是經驗驅動,在經濟以及社會問題的研究中,統計模型常常以經驗驗證和理論證據的角色起作用,而數據挖掘則不然,大數據分析需要的是建模過程,更強調的是數據驅動的分析。經驗驅動還是數據驅動可以作為數據挖掘和統計學這兩個學科的基本區別。除此之外這兩門學科還有其他的不同點,在處理問題的類型方面,傳統的統計學善于處理結構化的問題,而數據挖掘則善于處理非結構或者半結構化的問題,傳統統計學所使用的主要方法論是估計與假設檢驗,而數據挖掘所使用的主要方法論是探索、推斷與評價,下面來看看分析的目標和數據來源方面,傳統的統計學是預先定義目標變量,設計抽樣方案來收集數據,而數據挖掘則是探索目標,與目標分析結合觀測數據,接下來看兩者收集的數據特征,傳統統計學收集來的數據集較小,具有同質性,靜態,主觀性強等特點,而通過數據挖掘收集來的數據來源廣泛,數據量大,具有異質性和動態的特點,傳統統計學的分析類型確定,變量個數小,信噪比較強,而數據挖掘的分析類型不確定,通過探索性分析來確定,變量個數很小,信噪比較弱。
現代統計學已經將數據挖掘作為其中的核心內容,高維變量建模問題、多模式建模問題、復雜網絡建模、非參數建模等技術發展很快,為數據挖掘源源不斷輸入新的血液。
(四)數據挖掘與智能決策
數據挖掘是以解決問題為導向的數據綜合利用技術,而智能決策作為企業輔助決策的動能與數據挖掘相結合會促進企業的有效發展,此時我把數據挖掘所體現出來的特點稱為可預測性。
在這個經濟全球化的趨勢下,各行各業擁有者越來越多的機遇,同時也面臨著越來越多的挑戰。正在成長期的企業需要正確把握效率與發展的平衡,這就需要肩負重任的企業家有洞察新問題的能力和謀求新發展的戰略思考。于是在各大企業做決策時將會面臨著各種問題和困難,于是對他們提出了更高的要求,這時數據挖掘就起到了很大很重要的決定,它可以幫助人們做出盡可能正確的決定,給企業創造更大的利潤。數據挖掘與智能決策時如何相結合的呢?當企業要做出重要決策時,并不總是直接從原始的運營數據中找出有用的信息,而是從原始數據中按照一定的順序,經過加工、整理和分析即數據挖掘之后,從中提煉出更加清晰和有層次的信息,而這些信息往往是啟發企業延伸思考和最終形成明智穩妥的密鑰。
常見的數據挖掘與智能決策相結合的案例如下:
第一,2015年,長虹啟動用戶標簽管理系統,深入洞察用戶行為、偏好以及產品訴求等各方面特征。用戶標簽系統與400客服中心對接后,售后人員可提前了解用戶購買產品偏好等各方面信息,延保服務銷量增加了80%。
第二,德國寶馬汽車公司以大數據為基礎建設,并大量借助與第三方供應商。2016年4月寶馬又與微軟合作,希望借助微軟Azure云計算平臺以及微軟數據庫和機器學習功能,為寶馬用戶提供路況、導航等應用,從而提高用戶體驗。
第三,當顧客向BELL公司投訴電話使用中的問題時,該公司決定派怎樣的技術人員去解決這個問題,1991年主體解決方案是專家系統。1999年則利用數據挖掘創建匹配規則,學習得到的規則每年為BELL公司節約1000多萬美元,因為專家系統難以有效維護,而學習得到的系統卻通過實例訓練得到,因此降低了維護成本。
綜上所述,不管是在自然領域還是在社會領域,信息網絡技術已經為我們締造了一個巨大而神秘的大數據世界,這就需要用我們的智慧來迎接這個大數據時代向我們發起的挑戰,進而激發了我們人類對自然對社會的更深層的探索,并且產生了由衷的敬畏之情,需要我們用寬廣的胸襟接受自然的考驗,這就是我們為什么要進行大數據分析的原因。
參考文獻
[1]Usama M.Fayyad,Ramasamy Uthurusamy(Eds.):Proceedings of the First International Conferenceon Knowledge[J].Discovery and Data Mining(KDD-95),Montreal,Cnnada,August 20-21,1995.
[2]王星.大數據分析:方法與應用[M].北京:清華大學出版社,2013.
作者簡介:商夢嬌(1992-),女,漢族,山東德州人,山東科技大學在校研究生,研究方向:計算理論與數據處理。