999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數(shù)據(jù)環(huán)境下的機(jī)器學(xué)習(xí)研究

2018-04-17 09:11:30寶雞市石油中學(xué)李尚晉
電子世界 2018年1期
關(guān)鍵詞:模型

寶雞市石油中學(xué) 李尚晉

當(dāng)今時(shí)代,數(shù)據(jù)的產(chǎn)生和傳輸速度急劇增長(zhǎng),數(shù)據(jù)往往體現(xiàn)出了規(guī)模巨大、不夠精確、數(shù)據(jù)混雜、動(dòng)態(tài)多變等性質(zhì),傳統(tǒng)的機(jī)器學(xué)習(xí)已經(jīng)很難滿足時(shí)代的需要[4]。大數(shù)據(jù)所帶來的問題不僅僅是數(shù)據(jù)量龐大而使計(jì)算變得困難,更大的困難是數(shù)據(jù)是在不同服務(wù)器上得到的。這些在不同服務(wù)器上的數(shù)據(jù),它們之間或許存在某種聯(lián)系,但是我們不可能把它們集中起來進(jìn)行處理和利用。傳統(tǒng)機(jī)器學(xué)習(xí)的理論、算法,它要求數(shù)據(jù)必須是獨(dú)立且同分布的,而當(dāng)條件不能被滿足,學(xué)習(xí)模型以及學(xué)習(xí)算法就不能發(fā)揮其作用。

1.大數(shù)據(jù)環(huán)境下的機(jī)器學(xué)習(xí)

大數(shù)據(jù)環(huán)境下的機(jī)器學(xué)習(xí)賦予計(jì)算機(jī)從各式各樣的龐大數(shù)據(jù)(結(jié)構(gòu)化、非結(jié)構(gòu)化等類型數(shù)據(jù))中較快地獲得有價(jià)值的信息和知識(shí)的能力[3]。傳統(tǒng)機(jī)器學(xué)習(xí)著重用預(yù)先設(shè)定好的統(tǒng)計(jì)方法來對(duì)數(shù)據(jù)分析,以發(fā)現(xiàn)數(shù)據(jù)的價(jià)值;與傳統(tǒng)機(jī)器學(xué)習(xí)相比,大數(shù)據(jù)環(huán)境下機(jī)器學(xué)習(xí)的最終目的是要從多源異構(gòu)、動(dòng)態(tài)多變的數(shù)據(jù)中找出其隱藏在背后的某些規(guī)律,使數(shù)據(jù)能發(fā)揮最大程度的價(jià)值。從結(jié)構(gòu)繁多的數(shù)據(jù)中找出某種聯(lián)系,必須結(jié)合大數(shù)據(jù)技術(shù)和機(jī)器學(xué)習(xí)算法,由計(jì)算機(jī)去挖掘數(shù)據(jù)的價(jià)值。

大數(shù)據(jù)時(shí)代中,傳統(tǒng)機(jī)器學(xué)習(xí)的新挑戰(zhàn)就是如何處理海量數(shù)據(jù)。傳統(tǒng)機(jī)器學(xué)習(xí)所面臨的問題主要包括幾個(gè)方面:

(1)理解并模擬人類的學(xué)習(xí)過程。

(2)對(duì)計(jì)算機(jī)系統(tǒng)和用戶間的語言差異的研究。

(3)針對(duì)不完全信息進(jìn)行推理的要求。

目前,處理大規(guī)模數(shù)據(jù)的需求是普遍存在的,但是由于現(xiàn)有的很多機(jī)器學(xué)習(xí)算法并不能滿足這些條件,或存在各種各樣的缺陷和問題,所以現(xiàn)有的許多算法不可以很好地處理海量數(shù)據(jù)。如何研究出新的機(jī)器學(xué)習(xí)算法,以適應(yīng)大數(shù)據(jù)處理的需求,是大數(shù)據(jù)時(shí)代下的機(jī)器學(xué)習(xí)的重要研究方向之一[1]。

在機(jī)器學(xué)習(xí)的發(fā)展歷程之中,有兩大研究的方向。一是研究人類學(xué)習(xí)機(jī)制,注重模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為;二是研究怎樣有效利用信息,從龐大的數(shù)據(jù)中獲取有效的、有價(jià)值的知識(shí)[4]。在大數(shù)據(jù)時(shí)代,數(shù)據(jù)產(chǎn)生速度越來越快,數(shù)據(jù)的體量出現(xiàn)了前所未有的增長(zhǎng),且需要 分析的新數(shù)據(jù)種類也在不停涌現(xiàn)。大數(shù)據(jù)時(shí)代對(duì)機(jī)器學(xué)習(xí)算法提出了更高的要求,要求機(jī)器學(xué)習(xí)算法具備處理海量數(shù)據(jù)的能力,要求算法可以處理高維度的數(shù)據(jù),要求算法和訓(xùn)練出的模型具備盡可能低的復(fù)雜性,以提高模型的訓(xùn)練速度和實(shí)際應(yīng)用中模型的預(yù)測(cè)速度,減少計(jì)算時(shí)間的浪費(fèi)。

2.主要評(píng)價(jià)指標(biāo)

由于需要處理的數(shù)據(jù)量大且動(dòng)態(tài)多變,要發(fā)現(xiàn)其中的價(jià)值,傳統(tǒng)的算法已經(jīng)很難滿足,這就需要新的算法來實(shí)現(xiàn)。評(píng)價(jià)機(jī)器學(xué)習(xí)算法優(yōu)劣的指標(biāo)主要有一下幾個(gè)方面。

(1)速度

在機(jī)器學(xué)習(xí)算法中,和速度有關(guān)的指標(biāo)有訓(xùn)練速度和預(yù)測(cè)速度。訓(xùn)練速度是指算法收斂的速度,即訓(xùn)練算法得出最優(yōu)模型的速度。預(yù)測(cè)速度是指使用最優(yōu)模型預(yù)測(cè)輸入信息對(duì)應(yīng)的結(jié)果的速度。如何開發(fā)出在訓(xùn)練速度和預(yù)測(cè)速度兩個(gè)方面表現(xiàn)都比較優(yōu)秀的機(jī)器學(xué)習(xí)算法,是一個(gè)重要的研究方向。

(2)泛化能力

機(jī)器學(xué)習(xí)的基本目標(biāo)是將訓(xùn)練數(shù)據(jù)中的實(shí)例泛化推廣。一般情況下,要求機(jī)器學(xué)習(xí)算法有較強(qiáng)的泛化能力,即對(duì)新輸入的數(shù)據(jù)做出合理響應(yīng)的能力。這一響應(yīng)能力代表著機(jī)器學(xué)習(xí)算法的性能。

(3)數(shù)據(jù)利用能力

隨著人們收集數(shù)據(jù)的能力變得越來越強(qiáng),收集的數(shù)據(jù)類型也變得越來越多,不但有標(biāo)識(shí)的數(shù)據(jù),還有許多未標(biāo)識(shí)的數(shù)據(jù)以及一些不一致、不完整的數(shù)據(jù)。如果一味地丟棄這些數(shù)據(jù),只使用已標(biāo)識(shí)、較完整的數(shù)據(jù),就會(huì)造成資源的浪費(fèi)。而且相比之下,學(xué)習(xí)到的模型的泛化能力也比較低。所以,利用種類繁多、格式多樣的數(shù)據(jù)的能力,是評(píng)判機(jī)器學(xué)習(xí)算法的重要指標(biāo)。

(4)代價(jià)敏感

代價(jià)敏感是指機(jī)器學(xué)習(xí)算法對(duì)于實(shí)際應(yīng)用中的錯(cuò)誤預(yù)測(cè)所導(dǎo)致的損失是否敏感。在機(jī)器學(xué)習(xí)算法訓(xùn)練模型的過程中,內(nèi)部調(diào)節(jié)參數(shù)以使損失函數(shù)盡可能快地收斂。一個(gè)好的機(jī)器學(xué)習(xí)算法,其損失函數(shù)不僅僅考慮模型的錯(cuò)誤,而且要關(guān)注在實(shí)際應(yīng)用中模型的錯(cuò)誤所導(dǎo)致產(chǎn)生的代價(jià)。

(5)可解釋性

許多功能強(qiáng)大的機(jī)器學(xué)習(xí)算法可以說都是“黑盒子”,例如:神經(jīng)網(wǎng)絡(luò)算法。對(duì)于這類“黑盒子”算法,絕大部分用戶只能夠看到模型輸出的結(jié)果,卻不知產(chǎn)生這些結(jié)果的原因。而隨著數(shù)據(jù)量的不斷增加,問題復(fù)雜度的提高,模型的可解釋性往往也越來越差。在得到合理預(yù)測(cè)結(jié)果的同時(shí),增強(qiáng)模型的可解釋性尤為必要。

3.關(guān)鍵技術(shù)

當(dāng)前,機(jī)器學(xué)習(xí)領(lǐng)域比較常用的關(guān)鍵技術(shù)有半監(jiān)督學(xué)習(xí)、集成學(xué)習(xí)、遷移學(xué)習(xí)等,下面將逐一做出介紹。

(1)半監(jiān)督學(xué)習(xí)

在現(xiàn)實(shí)生活中的數(shù)據(jù)分析中,數(shù)據(jù)往往以未標(biāo)識(shí)的形式呈現(xiàn)。這些數(shù)據(jù)需要人們使用特殊的設(shè)備,進(jìn)行用時(shí)很長(zhǎng)的實(shí)驗(yàn),標(biāo)記實(shí)驗(yàn)結(jié)果后才能得到部分已標(biāo)識(shí)數(shù)據(jù)。但是人工標(biāo)注耗時(shí)耗力,人們往往只能標(biāo)記一小部分?jǐn)?shù)據(jù),由此產(chǎn)生了極少的已標(biāo)識(shí)數(shù)據(jù)和過剩的未標(biāo)識(shí)數(shù)據(jù)。因此,人們嘗試將大量的未標(biāo)識(shí)數(shù)據(jù)和有限的已標(biāo)識(shí)數(shù)據(jù)一起用來訓(xùn)練模型,期望能通過這種處理方式對(duì)機(jī)器學(xué)習(xí)性能有所改進(jìn),由此產(chǎn)生了半監(jiān)督學(xué)習(xí)。半監(jiān)督學(xué)習(xí)避免了大量的數(shù)據(jù)和資源被浪費(fèi),同時(shí)可以解決監(jiān)督學(xué)習(xí)泛化能力不強(qiáng)和無監(jiān)督學(xué)習(xí)不精確的問題[4]。

(2)集成學(xué)習(xí)

海量數(shù)據(jù)的處理過程中,單一的學(xué)習(xí)算法訓(xùn)練出的模型往往預(yù)測(cè)性能較差,分類不精準(zhǔn)。我們將預(yù)測(cè)正確率僅僅比隨機(jī)猜測(cè)略高的模型稱為弱分類器,將辨別正確率高的模型稱為強(qiáng)分類器。集成學(xué)習(xí)的核心思想在于“集眾家之長(zhǎng)”。集成學(xué)習(xí)中,首先訓(xùn)練多個(gè)弱分類器,然后通過一定的策略(加權(quán)法、投票法等)將這些弱分類器組合起來形成一個(gè)預(yù)測(cè)較為精準(zhǔn)的強(qiáng)分類器[6]。

(3)遷移學(xué)習(xí)

隨著機(jī)器學(xué)習(xí)理論的發(fā)展,很多新的學(xué)習(xí)算法被提出。可是,在一些情況下,我們想要解決某個(gè)問題,常常被一些現(xiàn)實(shí)條件所限制,例如:數(shù)據(jù)量小、標(biāo)識(shí)數(shù)據(jù)過少等。遷移學(xué)習(xí)的方法良好地解決了這一問題。遷移學(xué)習(xí)旨在利用目標(biāo)任務(wù)(待解決任務(wù))和源任務(wù)(已經(jīng)分析過的應(yīng)用場(chǎng)景)之間的相似性,將源任務(wù)中學(xué)習(xí)到的知識(shí)遷移到目標(biāo)任務(wù)中,以此來增強(qiáng)算法處理目標(biāo)任務(wù)的效果[2]。

4.總結(jié)

大數(shù)據(jù)環(huán)境下,數(shù)據(jù)往往只有少部分被標(biāo)識(shí),數(shù)據(jù)形式呈現(xiàn)為大量無標(biāo)識(shí)數(shù)據(jù)和小部分有標(biāo)識(shí)數(shù)據(jù)的組合。半監(jiān)督學(xué)習(xí)高效利用了這些數(shù)據(jù),使學(xué)習(xí)性能有所提高;而隨著數(shù)據(jù)量增加,集成學(xué)習(xí)通過組合多個(gè)學(xué)習(xí)器的方式,提升了機(jī)器學(xué)習(xí)算法的泛化能力;遷移學(xué)習(xí),利用已有的學(xué)習(xí)成果,不斷積累并且衍生到未知的領(lǐng)域[5]。除此之外,大數(shù)據(jù)時(shí)代的機(jī)器學(xué)習(xí)還必須解決可擴(kuò)展性的問題,這需要考慮采用并行化的方法。

[1]張紹成,孫時(shí)光,曲洋,董宇.大數(shù)據(jù)環(huán)境下機(jī)器學(xué)習(xí)在數(shù)據(jù)挖掘中的應(yīng)用研究[J].遼寧大學(xué)學(xué)報(bào)(自然科學(xué)版),2017,44(01):15-17.

[2]莊福振,羅平,何清,史忠植.遷移學(xué)習(xí)研究進(jìn)展[J].軟件學(xué)報(bào),2015,26(01):26-39.

[3]何清,李寧,羅文娟,史忠植.大數(shù)據(jù)下的機(jī)器學(xué)習(xí)算法綜述[J].模式識(shí)別與人工智能,2014,27(04):327-336.

[4]陳康,向勇,喻超.大數(shù)據(jù)時(shí)代機(jī)器學(xué)習(xí)的新趨勢(shì)[J].電信科學(xué),2012,28(12):88-95.

[5]許至杰.遷移學(xué)習(xí)理論與算法研究[D].華東師范大學(xué),2012.

[6]王麗麗.集成學(xué)習(xí)算法研究[D].廣西大學(xué),2006.

猜你喜歡
模型
一半模型
一種去中心化的域名服務(wù)本地化模型
適用于BDS-3 PPP的隨機(jī)模型
提煉模型 突破難點(diǎn)
函數(shù)模型及應(yīng)用
p150Glued在帕金森病模型中的表達(dá)及分布
函數(shù)模型及應(yīng)用
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 亚洲精品国产自在现线最新| 国产白浆视频| 国产欧美精品专区一区二区| 91色综合综合热五月激情| 精品色综合| 1级黄色毛片| 日韩无码黄色| 农村乱人伦一区二区| 国内精品视频在线| 亚洲第一色网站| 任我操在线视频| 婷婷色中文网| 欧美国产日韩另类| 欧美 国产 人人视频| 综合亚洲网| 午夜国产精品视频黄| 国产91无毒不卡在线观看| 日韩麻豆小视频| 91色老久久精品偷偷蜜臀| 国产精品成人免费视频99| 色网站免费在线观看| 国产一区二区人大臿蕉香蕉| 亚洲天堂区| 日韩在线欧美在线| 国产精品视频999| 亚洲一区色| 无码高潮喷水专区久久| 日韩精品一区二区三区中文无码| 久久99国产乱子伦精品免| 97久久精品人人| swag国产精品| 国产高潮流白浆视频| 国产精品尤物铁牛tv| 久久先锋资源| 999精品在线视频| 国产va视频| 午夜福利在线观看入口| 久久人人妻人人爽人人卡片av| 国产精品极品美女自在线网站| 久热这里只有精品6| 黄色不卡视频| 99ri精品视频在线观看播放| 久久久精品国产SM调教网站| 四虎在线观看视频高清无码| 天天综合天天综合| 亚洲视频在线观看免费视频| 日韩成人在线网站| 精品国产乱码久久久久久一区二区| 视频国产精品丝袜第一页| 人妻丰满熟妇啪啪| 亚洲国产精品一区二区第一页免| 精品视频在线观看你懂的一区| 日本精品影院| 国产在线一区视频| 成色7777精品在线| 欧美精品在线免费| 亚洲精品在线影院| 国产精女同一区二区三区久| 欧美激情一区二区三区成人| 久久精品人人做人人| 一本二本三本不卡无码| 国产va在线观看| 亚洲成人在线免费观看| 手机精品视频在线观看免费| 国产第一页亚洲| 国产综合精品一区二区| 久久香蕉国产线看观看式| 亚洲欧美国产视频| 久久精品这里只有精99品| 好紧好深好大乳无码中文字幕| 91毛片网| 中文字幕乱妇无码AV在线| 亚洲综合亚洲国产尤物| 日本伊人色综合网| 国产视频大全| 国产97公开成人免费视频| 国产精品尹人在线观看| 伊人久综合| 国产在线观看一区二区三区| 国产第八页| 国产无码在线调教| 亚洲精品视频免费|