張紹成,孫時光,曲 洋,董 宇
(1.遼寧大學 信息化中心,遼寧 沈陽 110036; 2.遼寧大學 創(chuàng)新創(chuàng)業(yè)學院,遼寧 沈陽 110036)
大數(shù)據(jù)環(huán)境下機器學習在數(shù)據(jù)挖掘中的應用研究
張紹成1,孫時光2*,曲 洋1,董 宇1
(1.遼寧大學 信息化中心,遼寧 沈陽 110036; 2.遼寧大學 創(chuàng)新創(chuàng)業(yè)學院,遼寧 沈陽 110036)
隨著Web2.0時代的到來,數(shù)據(jù)量呈幾何級態(tài)勢增長.這些海量的數(shù)據(jù)不僅結(jié)構多樣,而且體現(xiàn)出動態(tài)性極強的特點.以往應用于小規(guī)模數(shù)據(jù)集上的機器學習算法已經(jīng)不再適用.大數(shù)據(jù)概念引起了學術界和產(chǎn)業(yè)界的高度關注.對當前大數(shù)據(jù)環(huán)境下引入機器學習的意義進行了分析,論述了機器學習系統(tǒng)的構成及任務,并對其發(fā)展趨勢與前景進行了展望.
大數(shù)據(jù);機器學習;數(shù)據(jù)挖掘;大數(shù)據(jù)處理
大數(shù)據(jù)呈現(xiàn)出4V特點,即價值密度低、 數(shù)據(jù)容量大、 數(shù)據(jù)種類多以及數(shù)據(jù)處理速度較快等.經(jīng)典的數(shù)據(jù)挖掘算法是機器學習算法在數(shù)據(jù)集合上的優(yōu)化.從提取、檢索、儲存、分享、分析和處理等角度來看,傳統(tǒng)經(jīng)典的機器學習方法已經(jīng)無法勝任在海量的異構數(shù)據(jù)體系中進行數(shù)據(jù)挖掘.研究大數(shù)據(jù)環(huán)境下的機器學習算法,利用機器來挖掘復雜、高維、動態(tài)的數(shù)據(jù)中有價值的知識具有重要的意義[1].
由于數(shù)據(jù)挖掘是一個復雜的迭代過程.通過在數(shù)據(jù)集上不斷地循環(huán)處理,最終得到有意義的知識或模式.這就要求我們充分利用計算機計算和存儲上的優(yōu)勢[2].
機器學習是人工智能的一個重要研究領域,目標是使計算機具有自我學習能力,從而使計算機的處理數(shù)據(jù)的性能得到不斷的改進和提高. Tom Mitchell給出了一個能被廣泛接受的經(jīng)典定義——機器學習這門學科所關注的問題是:計算機程序如何隨著經(jīng)驗積累自動提高性能.
機器學習算法應用在歷史數(shù)據(jù)集上,通過訓練來使計算機獲得智能.機器學習系統(tǒng)一般由環(huán)境、學習元、知識庫和執(zhí)行元四個部分組成,如圖1所示.

圖1 機器學習系統(tǒng)結(jié)構圖
學習元從數(shù)據(jù)集,也就是從環(huán)境中獲取經(jīng)驗數(shù)據(jù),通過對環(huán)境中的數(shù)據(jù)進行處理來更新知識庫.這將使系統(tǒng)的執(zhí)行元的性能得到改進.執(zhí)行元根據(jù)知識庫中的內(nèi)容,對系統(tǒng)的執(zhí)行效果進行檢驗,并擴展或修改知識庫中的知識或模式,使其中的內(nèi)容不斷地改進和完善.經(jīng)過調(diào)整后,知識庫中的內(nèi)容可以作為下次迭代學習的指導.這樣的學習過程一般要循環(huán)進行多次.知識庫隨著學習的進行,不斷地充實,計算機將越來越智能,執(zhí)行任務的性能將會越來越高效.
整個機器學習系統(tǒng)的核心是知識庫.知識庫中的知識要豐富且容易被計算機理解,同時還要兼顧方便擴展和便于修改等多方面要求.
另外,機器學習系統(tǒng)首先要有一定的知識儲備,這樣才可以指導系統(tǒng)對外部數(shù)據(jù)進行處理,對一些假設進行檢驗.
通過應用機器學習,數(shù)據(jù)挖掘?qū)?shù)據(jù)的處理方法可以分為:分類、回歸分析、關聯(lián)規(guī)則及聚類等,而且每種挖掘方法都可以通過不同的機器學習技術來實現(xiàn).
2.1 分類 (Classification)
利用訓練數(shù)據(jù)集進行學習,從而獲得一個分類模型.然后,分類模型可自動地將不具有類別標簽的數(shù)據(jù)分成多個類別,從而完成分類.已有的機器學習分類算法包括KNN分類算法,樸素貝葉斯分類算法、決策樹、人工神經(jīng)網(wǎng)絡ANN以及支持向量SVM等.典型的分類過程如圖2所示.
2.2 回歸分析(Regression analysis)
通過分析數(shù)據(jù)并應用統(tǒng)計學方法,可以得到變量與變量之間的關系表達式.利用這些內(nèi)在規(guī)律,對未來趨勢進行估計和預測.可通過回歸樹、人工神經(jīng)網(wǎng)絡ANN、線性回歸、logic回歸等構建回歸模型.
2.3 關聯(lián)規(guī)則(Association rules)
事務型數(shù)據(jù)彼此之間存在著關聯(lián)規(guī)則,通過挖掘事務型數(shù)據(jù)之間的關系,可獲得頻繁項目集.以此為依據(jù),預測某些事務同時發(fā)生的概率.Apriori是挖掘關聯(lián)規(guī)則的經(jīng)典算法.
2.4 聚類(Clustering)
通過使用挖掘算法,將多個不具有類別標號的數(shù)據(jù)對象聚集在多個不同的簇當中,使得簇內(nèi)的數(shù)據(jù)對象彼此之間具有很高的相似性,簇間的數(shù)據(jù)對象彼此之間具有很大的相異性.k-means是經(jīng)典的聚類算法.此外,人工神經(jīng)網(wǎng)絡ANN和支持向量SVM也可實現(xiàn)聚類.

圖2 機器學習中分類任務流程圖
由于傳統(tǒng)的機器學習算法大多是基于內(nèi)存的,而TB甚至PB級的海量數(shù)據(jù)又無法裝載進計算機內(nèi)存,因此,現(xiàn)有的諸多算法不能處理大數(shù)據(jù).如何使機器學習算法適應大數(shù)據(jù)挖掘的要求,已經(jīng)成為產(chǎn)業(yè)界與學術界研究的主要方向[3].
在大數(shù)據(jù)環(huán)境下,機器學習算法的設計與實現(xiàn)涉及很多方面,包括分布式運算、數(shù)據(jù)流技術、云技術等.機器學習算法通過與這些技術相結(jié)合,高效地處理數(shù)以億計的數(shù)據(jù)對象,并快速地訓練出模型,從而獲取有價值的知識.機器學習技術已經(jīng)在推薦系統(tǒng)、智能語音識別、搜索引擎等企業(yè)級的數(shù)據(jù)挖掘中得到廣泛應用.大數(shù)據(jù)發(fā)展和研究、關鍵技術、評定指標對機器學習的方法研究工作提出了新的挑戰(zhàn)和要求[4].
目前,大數(shù)據(jù)技術已在金融、電信、醫(yī)療等眾多行業(yè)和領域中得到廣泛應用.如何從高維、稀疏、異構、動態(tài)的大數(shù)據(jù)中獲取模式,迫切需要深層次的機器學習理論與技術做指導.因此,可以預見未來的機器學習研究將在以下幾方面展開[5-6].1)超高維數(shù)據(jù)抽樣與特征提取.2)借助Hadoop、Spark等分布式運算平臺,設計和實現(xiàn)分布式機器學習算法.3)對機器學習算法的泛化能力、執(zhí)行效率及可理解性等方面的研究.
[1] Jiawei Han,Micheline Kamber.數(shù)據(jù)挖掘概念與技術[M].北京:機械工業(yè)出版社,2012.
[2] 李運.機器學習算法在數(shù)據(jù)挖掘中的應用[D].北京:北京郵電大學, 2014.
[3] 梁曉音.機器學習在數(shù)據(jù)挖掘中的應用[J].計算機與信息技術,2008(11): 38-39,42.
[4] 王曉.大數(shù)據(jù)環(huán)境下機器學習算法趨勢研究[J].哈爾濱師范大學學報:自然科學版, 2013(4): 48-50.
[5] 何清.大數(shù)據(jù)下的機器學習算法綜述[J].模式識別與人工智能,2014(4): 327-336.
[6] Fabrizio Sebastiani.Machine learning in automated text categorization[J].ACM Computing Surveys,2002,34(1):1-47.
(責任編輯 鄭綏乾)
Research and Application of Machine Learning in Data Mining Based on Big Data
ZHANG Shao-cheng1,SUN Shi-guang2*,QU Yang1,DONG Yu1
(1.InformatizationCenter,LiaoningUniversity,Shenyang110036,China; 2.CollegeofInnovationandEntrepreneurship,LiaoningUniversity,Shenyang110036,China)
With the advent of the Web2.0 era,the amount of data increased geometrically.These massive amounts of data are not only structurally diverse,but also show a strong dynamic characteristics.In the past,machine learning algorithms applied to small-scale data sets are no longer applicable.The concept of big data has aroused great interests in academia and industry.In this paper,the significance of introducing machine learning into big data environment is analyzed,as well as its composition and main tasks.Development trend and prospect of machine learning are also discussed.
big data;machine learning;data mining;big data processing
2016-12-30
張紹成(1967-),男,碩士, 遼寧大學信息化中心高級實驗師,研究方向:機器學習.
*通訊作者:孫時光(1979-),男,碩士,遼寧大學創(chuàng)新創(chuàng)業(yè)學院實驗師,研究方向:數(shù)據(jù)挖掘.
TP 181
A
1000-5846(2017)01-0015-03