999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數據挖掘作為交叉學科的特點

2017-04-20 14:32:34趙義軍商夢嬌
時代金融 2017年9期
關鍵詞:機器學習數據挖掘

趙義軍+商夢嬌

【摘要】本文主要講述了數據挖掘的內涵以及作為機器學習,數據倉庫,統計學,智能決策等多個學科的交叉學科的特點。

【關鍵詞】數據挖掘 機器學習 數據倉庫 統計學 智能決策

20世紀90年代后期,信息技術、計算機以及網絡技術迅猛發展,人類社會從此邁進了一個嶄新的數字時代。但是,精彩紛呈的數據也帶來了利用這些數據的煩惱,怎樣才能充分利用這些數據,怎樣才能從中得到最有價值的信息,是我們共同的目標和心愿,而數據挖掘技術的出現,則在很大程度上解決了這些問題,使大數據時代迎來了一個春天。

一、數據挖掘的內涵

大多數人認為,數據挖掘(data mining)的概念最早是由1995年Fayyad在知識發現會議上所提出來的,他認為數據挖掘是一個自動或半自動化地從大量數據中發現有效的、有意義的、潛在有用的、易于理解的數據模型的復雜過程[1]。在實際問題的解決過程中,人們慢慢總結出數據挖掘的真正內涵,那就是,數據挖掘是一項以發現數據中有價值的模式和規律為基本目標的獨立的數據組織和協作的建模歷程。數據挖掘是為發現大規模數據中所隱藏的有意義的模式和規律而進行的探索、實驗和分析。數據挖掘是一門需要結合各行各業領域知識的交叉學科。

二、數據挖掘的特點

數據挖掘作為一種新型門類,自然有它自己獨特的特點,但是它并不專屬于某一個學科門類,而是多種學科的交叉,相關的學科包括機器學習,數據倉庫,統計學,智能決策等多個學科,接下來文章將要講述數據挖掘作為一種交叉學科在各個學科中的應用中所表現出來的特點。

(一)數據挖掘與機器學習

當數據挖掘在機器學習相結合時所體現出來的主要特點是強調數據的特點和分布,有嚴格的原則和方法。這個特點主要是在機器學習在大數據庫上的應用上來體現的。

根據Tom Michael于1997年提出的定義,機器學習是面向任務解決的基于經驗提煉模型實現最優解設計的計算機程序。從這個定義我們可看出所謂的機器學習的算法旨在存在經驗觀測的領域中提出解決工具來為缺乏理論模型作出指導。然而早期的機器學習并非是把原始的經驗觀測輸入,而輸入的是經驗中的規則,進而學習算法就是基于規則分析的基礎上形成的。但是隨之而來的問題也出現了,隨著經驗觀測的量越來越大,要求學習算法不僅要分析規則,更要去理解有意義的規則,甚至還要去考慮經驗觀測的存儲格式問題,例如銷售業中各個銷售分店的位置定位問題,圖像庫中與指定圖片匹配的跟蹤問題,遺傳病在一個家庭中蔓延的基因等等,這些問題通常需要涉及大范圍而且多個角度的數據采集,由于諸類原因,伴隨產生了很多棘手的問題,比如信噪比較低,模式結構不明等問題,這就需要人們從大量數據中通過建立模型認識數據內在結構和規律的解決思慮和算法設計也納入到機器學習的研究范圍中,這時數據挖掘便開始發揮它的作用。機器學習的結果是產生新的處理數據的算法,機器學習在大數據庫上的應用就是數據挖掘。任務、訓練數據和實施性能是構成機器學習的三個基本要素,而機器學習的結果就是產生新的智能處理數據的算法,顯然,這就是數據挖掘與機器學習之間的內在聯系。

一個機器學習的算法由5個方面構成:

①任務:算法的目標,簡要的如分類,類聚等;

②模型或模式的結構:線性回歸模型,高斯混合模型,圖模型等;

③得分函數:評價模型或算法優良性的函數,比如敏感度,BIC等;

④達到最優結果的途徑設計:達到方法最優的參數估計計算算法,最速下降,MCMC等;

⑤數據管理技術:數據的保存、索引和提取、展現數據的方式,特別是數據量較大的時候存儲的設計等[2]。

由此可以看出,數據分析和機器學習之間既有聯系又有區別,機器學習產生的算法稱為“直升機型”程序,因為其核心是任務和任務完成的質量。這種算法的優點是其算法具有很高的效率,可以突出問題的重點,缺點是對數據特點的靈活性考慮不周,使算法很容易受到外界因素的干擾,其自主調節性能也就很弱。數據分析在機器學習中的應用則很大程度上解決了諸類問題,因為數據分析強調數據的特點和分布,并且有嚴格的原則和方法,強調建模過程和統計設計,這時數據分析的優勢和特點也就顯現出來。

(二)數據挖掘與數據倉庫

當我們進行數據挖掘技術時要先把數據從數據倉庫中拿出來,放到一個專門的數據庫或者數據集市中進行數據挖掘,我把數據挖掘這個特點總結為間接性。

那為什么不能在數據倉庫上直接挖掘,非要先把數據放到另一個數據挖掘庫或者數據集市中去挖掘呢?到底能不能直接在數據倉庫上直接挖掘呢?答案是肯定的。首先來說,數據挖掘是可以直接在數據倉庫上進行的,除此之外,如果直接在數據倉庫上挖掘的話,還有一定的好處,數據的不一致問題得到解決,因為數據挖掘是首先要進行數據清理工作,不但要對數據挖掘的數據進行清理,而且還要對數據倉庫中的數據進行清理,因此可能會導致數據的不一致問題出現,如果是在數據倉庫中直接挖掘的話,則避免了這一問題的出現,如果數據在導入數據倉庫時已經進行過清理工作,那么將數據導入數據倉庫后就沒有必要在進行一遍清理工作,而是在數據倉庫中直接進行數據挖掘,這樣一來就避免數據不一致的現象,也省去了很多了時間,但是我們忽略了一個問題,那就是,沒考慮到數據倉庫的計算資源量的問題,當一個數據倉庫的計算資源和充足的情況下,完全可以直接在數據倉庫上進行數據挖掘,但是,如果數據倉庫的計算資源不充足,那數據挖掘工作則無法完成,這時就需要另外建立一個數據挖掘挖掘庫或者是數據集,這類問題則迎刃而解了。

(三)數據挖掘與統計學

隨著社會的進步,人們對生活和工作提出了越來越高的要求。很多時候需要人們去建立模型來解決較為棘手的問題,并且還要做出相對準確的預測,數據挖掘和統計學這兩門學科都是致力于模型發現和預測,在模型發現和預測方面,數據挖掘較統計學而言的顯著特點就是數據驅動。

與數據驅動相對的是經驗驅動,所謂經驗驅動強調先有設計然后通過數據來驗證設計的合理性,統計學在應用的過程中顯然是經驗驅動,在經濟以及社會問題的研究中,統計模型常常以經驗驗證和理論證據的角色起作用,而數據挖掘則不然,大數據分析需要的是建模過程,更強調的是數據驅動的分析。經驗驅動還是數據驅動可以作為數據挖掘和統計學這兩個學科的基本區別。除此之外這兩門學科還有其他的不同點,在處理問題的類型方面,傳統的統計學善于處理結構化的問題,而數據挖掘則善于處理非結構或者半結構化的問題,傳統統計學所使用的主要方法論是估計與假設檢驗,而數據挖掘所使用的主要方法論是探索、推斷與評價,下面來看看分析的目標和數據來源方面,傳統的統計學是預先定義目標變量,設計抽樣方案來收集數據,而數據挖掘則是探索目標,與目標分析結合觀測數據,接下來看兩者收集的數據特征,傳統統計學收集來的數據集較小,具有同質性,靜態,主觀性強等特點,而通過數據挖掘收集來的數據來源廣泛,數據量大,具有異質性和動態的特點,傳統統計學的分析類型確定,變量個數小,信噪比較強,而數據挖掘的分析類型不確定,通過探索性分析來確定,變量個數很小,信噪比較弱。

現代統計學已經將數據挖掘作為其中的核心內容,高維變量建模問題、多模式建模問題、復雜網絡建模、非參數建模等技術發展很快,為數據挖掘源源不斷輸入新的血液。

(四)數據挖掘與智能決策

數據挖掘是以解決問題為導向的數據綜合利用技術,而智能決策作為企業輔助決策的動能與數據挖掘相結合會促進企業的有效發展,此時我把數據挖掘所體現出來的特點稱為可預測性。

在這個經濟全球化的趨勢下,各行各業擁有者越來越多的機遇,同時也面臨著越來越多的挑戰。正在成長期的企業需要正確把握效率與發展的平衡,這就需要肩負重任的企業家有洞察新問題的能力和謀求新發展的戰略思考。于是在各大企業做決策時將會面臨著各種問題和困難,于是對他們提出了更高的要求,這時數據挖掘就起到了很大很重要的決定,它可以幫助人們做出盡可能正確的決定,給企業創造更大的利潤。數據挖掘與智能決策時如何相結合的呢?當企業要做出重要決策時,并不總是直接從原始的運營數據中找出有用的信息,而是從原始數據中按照一定的順序,經過加工、整理和分析即數據挖掘之后,從中提煉出更加清晰和有層次的信息,而這些信息往往是啟發企業延伸思考和最終形成明智穩妥的密鑰。

常見的數據挖掘與智能決策相結合的案例如下:

第一,2015年,長虹啟動用戶標簽管理系統,深入洞察用戶行為、偏好以及產品訴求等各方面特征。用戶標簽系統與400客服中心對接后,售后人員可提前了解用戶購買產品偏好等各方面信息,延保服務銷量增加了80%。

第二,德國寶馬汽車公司以大數據為基礎建設,并大量借助與第三方供應商。2016年4月寶馬又與微軟合作,希望借助微軟Azure云計算平臺以及微軟數據庫和機器學習功能,為寶馬用戶提供路況、導航等應用,從而提高用戶體驗。

第三,當顧客向BELL公司投訴電話使用中的問題時,該公司決定派怎樣的技術人員去解決這個問題,1991年主體解決方案是專家系統。1999年則利用數據挖掘創建匹配規則,學習得到的規則每年為BELL公司節約1000多萬美元,因為專家系統難以有效維護,而學習得到的系統卻通過實例訓練得到,因此降低了維護成本。

綜上所述,不管是在自然領域還是在社會領域,信息網絡技術已經為我們締造了一個巨大而神秘的大數據世界,這就需要用我們的智慧來迎接這個大數據時代向我們發起的挑戰,進而激發了我們人類對自然對社會的更深層的探索,并且產生了由衷的敬畏之情,需要我們用寬廣的胸襟接受自然的考驗,這就是我們為什么要進行大數據分析的原因。

參考文獻

[1]Usama M.Fayyad,Ramasamy Uthurusamy(Eds.):Proceedings of the First International Conferenceon Knowledge[J].Discovery and Data Mining(KDD-95),Montreal,Cnnada,August 20-21,1995.

[2]王星.大數據分析:方法與應用[M].北京:清華大學出版社,2013.

作者簡介:商夢嬌(1992-),女,漢族,山東德州人,山東科技大學在校研究生,研究方向:計算理論與數據處理。

猜你喜歡
機器學習數據挖掘
探討人工智能與數據挖掘發展趨勢
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
基于詞典與機器學習的中文微博情感分析
數據挖掘技術在中醫診療數據分析中的應用
基于網絡搜索數據的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
基于支持向量機的金融數據分析研究
機器學習理論在高中自主學習中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
主站蜘蛛池模板: 女人天堂av免费| 久久久久无码精品国产免费| 欧美三级自拍| 波多野结衣无码中文字幕在线观看一区二区 | 97在线碰| 国产成人福利在线视老湿机| 久草网视频在线| 日本a级免费| 亚洲av成人无码网站在线观看| 毛片在线播放网址| 国产亚洲高清视频| 日韩小视频在线观看| 国模粉嫩小泬视频在线观看| 在线免费观看a视频| 尤物国产在线| 国产麻豆aⅴ精品无码| 亚洲综合一区国产精品| 中文国产成人精品久久| 国产毛片基地| 麻豆精品在线播放| 91久久性奴调教国产免费| 国产资源免费观看| 另类专区亚洲| 萌白酱国产一区二区| 无码国内精品人妻少妇蜜桃视频| 国产亚洲现在一区二区中文| 国产精品太粉嫩高中在线观看| 亚洲色无码专线精品观看| 国产屁屁影院| 亚洲国产av无码综合原创国产| 国产午夜福利亚洲第一| 国产自在自线午夜精品视频| 制服丝袜 91视频| 男女性午夜福利网站| 国产一在线| 熟妇丰满人妻| 亚洲AV无码乱码在线观看裸奔| 亚洲AV成人一区国产精品| 97视频免费在线观看| 免费一级毛片在线播放傲雪网| 伊人久久大香线蕉影院| 亚洲一本大道在线| 免费一级成人毛片| 国产精品太粉嫩高中在线观看| 在线播放国产一区| jijzzizz老师出水喷水喷出| 免费在线a视频| 国产中文一区二区苍井空| 国产成人无码综合亚洲日韩不卡| 亚洲精品福利视频| 国产国拍精品视频免费看| 精品夜恋影院亚洲欧洲| 国产欧美日韩另类| 一级爆乳无码av| 播五月综合| 4虎影视国产在线观看精品| 六月婷婷激情综合| 国内毛片视频| 欧美在线综合视频| 中文字幕无线码一区| 啪啪永久免费av| 久久久久青草大香线综合精品 | 国产jizz| 99人体免费视频| 欧美另类精品一区二区三区| 国产成人久久777777| 中文字幕亚洲综久久2021| 试看120秒男女啪啪免费| 黑人巨大精品欧美一区二区区| 精品欧美日韩国产日漫一区不卡| 国产一区二区三区夜色| 日韩a级毛片| 青草午夜精品视频在线观看| 97视频在线精品国自产拍| 欧美在线免费| 国产十八禁在线观看免费| 色噜噜中文网| aa级毛片毛片免费观看久| 亚洲欧美在线精品一区二区| 久久综合色88| 新SSS无码手机在线观看| 午夜啪啪福利|