999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數(shù)據(jù)背景下數(shù)據(jù)挖掘技術(shù)的算法

2019-11-30 00:12:10赫然黃今慧
電子技術(shù)與軟件工程 2019年20期
關(guān)鍵詞:數(shù)據(jù)挖掘信息發(fā)展

文/赫然 黃今慧

在大數(shù)據(jù)背景下,許多傳統(tǒng)科學(xué)技術(shù)的發(fā)展達(dá)到了新的高度,同時(shí)也衍生出一些新興技術(shù),這些推動(dòng)著互聯(lián)網(wǎng)行業(yè)的前行。新技術(shù)的發(fā)展也伴隨著新問題的產(chǎn)生,現(xiàn)有的數(shù)據(jù)處理技術(shù)難以滿足大數(shù)據(jù)發(fā)展的需要,在數(shù)據(jù)保護(hù)等方面依舊存在著一定的風(fēng)險(xiǎn)。因此,進(jìn)一步完善大數(shù)據(jù)技術(shù)是當(dāng)下需要攻克的難題。本文主要進(jìn)行了大數(shù)據(jù)的簡(jiǎn)單引入,介紹數(shù)據(jù)挖掘技術(shù)及其應(yīng)用,分析了當(dāng)下的發(fā)展進(jìn)度和面臨的困難。

1 大數(shù)據(jù)的相關(guān)引入

1.1 大數(shù)據(jù)的概念

大數(shù)據(jù)主要指?jìng)鹘y(tǒng)數(shù)據(jù)處理軟件無(wú)法處理的數(shù)據(jù)集,大數(shù)據(jù)有海量、多樣、高速和易變四大特點(diǎn),通過(guò)大數(shù)據(jù)的使用,可以催生出新的信息處理形式,實(shí)現(xiàn)信息挖掘的有效性。大數(shù)據(jù)技術(shù)存在的意義不僅在于收集海量的信息,更在于專業(yè)化的處理和分析,將信息轉(zhuǎn)化為數(shù)據(jù),從數(shù)據(jù)中提取有價(jià)值的知識(shí)。大數(shù)據(jù)分析與云計(jì)算關(guān)系密切,數(shù)據(jù)分析必須依托于云計(jì)算的分布式處理、分布式數(shù)據(jù)庫(kù)等。

1.2 大數(shù)據(jù)的特點(diǎn)

伴隨著越來(lái)越多的學(xué)者投入到對(duì)大數(shù)據(jù)的研究當(dāng)中,其特點(diǎn)也逐漸明晰,都廣泛的提及了這四個(gè)特點(diǎn)。

(1)海量的數(shù)據(jù)規(guī)模,信息的數(shù)據(jù)體量明顯區(qū)別于以往的GB、TB等計(jì)量單位,在大數(shù)據(jù)領(lǐng)域主要指可以突破IZP的數(shù)量級(jí)。

(2)快速的數(shù)據(jù)流轉(zhuǎn),大數(shù)據(jù)作用的領(lǐng)域時(shí)刻處在數(shù)據(jù)更新的環(huán)境下,高效快速的分析數(shù)據(jù)是保證信息處理有效的前提。

(3)多樣的數(shù)據(jù)類型,廣泛的數(shù)據(jù)來(lái)源催生出更加多樣的數(shù)據(jù)結(jié)構(gòu)。

(4)價(jià)值低密度,也是大數(shù)據(jù)的核心特征,相較于傳統(tǒng)數(shù)據(jù),大數(shù)據(jù)更加多變、模糊,給數(shù)據(jù)分析帶來(lái)困擾,從而難以從中高密度的取得有價(jià)值的信息。

1.3 大數(shù)據(jù)的結(jié)構(gòu)

大數(shù)據(jù)主要分為結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化三種數(shù)據(jù)結(jié)構(gòu)。結(jié)構(gòu)化一般指類似于數(shù)據(jù)庫(kù)的數(shù)據(jù)管理模式。半結(jié)構(gòu)化具有一定的結(jié)構(gòu)性,但相比結(jié)構(gòu)化來(lái)說(shuō)更加靈活多變。目前非結(jié)構(gòu)化數(shù)據(jù)占據(jù)所有數(shù)據(jù)的70%-80%,原因在于互聯(lián)網(wǎng)上的信息內(nèi)容多種多樣,暫時(shí)無(wú)法找到有序的存儲(chǔ)歸類方法。

1.4 大數(shù)據(jù)技術(shù)

大數(shù)據(jù)技術(shù)是指如何從各種類型的數(shù)據(jù)中,獲得有利用價(jià)值的信息,其中大數(shù)據(jù)技術(shù)包括數(shù)據(jù)收集、數(shù)據(jù)存取、數(shù)據(jù)架構(gòu)、數(shù)據(jù)處理、統(tǒng)計(jì)分析、數(shù)據(jù)挖掘、數(shù)據(jù)預(yù)測(cè)和結(jié)果呈現(xiàn)。在大數(shù)據(jù)的生命周期中,數(shù)據(jù)收集處于第一階段,主要來(lái)源有管理信息系統(tǒng)、Web信息系統(tǒng)等。根據(jù)數(shù)據(jù)結(jié)構(gòu)類型不同,大數(shù)據(jù)的存取采用三種不同的形式,這樣有利于其他技術(shù)的應(yīng)用。數(shù)據(jù)架構(gòu)源于谷歌提出的一種基于軟件的可靠文件存儲(chǔ)體系GFS(Google文件系統(tǒng)),相應(yīng)推出的還有MapReduce計(jì)算模型,二者共同解決了當(dāng)時(shí)的文件存儲(chǔ)和運(yùn)算問題。而后隨著需求的不斷增多,有學(xué)者基于谷歌的研究,開發(fā)出可以滿足更多需求的Hadoop。

2 數(shù)據(jù)挖掘技術(shù)

2.1 數(shù)據(jù)挖掘技術(shù)以及云計(jì)算

如今全球每年都有數(shù)十億人使用著計(jì)算機(jī)等電子設(shè)備,并產(chǎn)生了龐大的數(shù)據(jù),各行各業(yè)都已經(jīng)被數(shù)據(jù)所滲透,在大數(shù)據(jù)時(shí)代,數(shù)據(jù)挖掘已成為不可或缺的技術(shù)。數(shù)據(jù)挖掘通過(guò)統(tǒng)計(jì)、在線分析、情報(bào)檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)和模式識(shí)別等諸多方法來(lái)實(shí)現(xiàn)從海量數(shù)據(jù)中搜索隱藏于其中的信息這一過(guò)程。

云計(jì)算是分布計(jì)算的其中一種,通常是指:通過(guò)網(wǎng)絡(luò)搜集共享計(jì)算資源,并以最低的管理代價(jià)和最精準(zhǔn)的計(jì)算方式獲取結(jié)果的新型IT運(yùn)算模式。也就是說(shuō)云計(jì)算技術(shù)將龐大的數(shù)據(jù)計(jì)算處理程序拆分為一個(gè)個(gè)小程序,再通過(guò)多個(gè)服務(wù)器分別計(jì)算、處理和分析,最后將結(jié)果匯總并返回給用戶。這項(xiàng)技術(shù)可以在短時(shí)間內(nèi)迅速完成海量的數(shù)據(jù)處理,從而為日益更新的互聯(lián)網(wǎng)服務(wù)。

2.2 數(shù)據(jù)挖掘的發(fā)展現(xiàn)狀

從最早的數(shù)據(jù)庫(kù)技術(shù),到如今逐漸發(fā)展成熟的大數(shù)據(jù)技術(shù),其目的都是實(shí)現(xiàn)數(shù)據(jù)的高效管理和有效利用。數(shù)據(jù)在我們身邊無(wú)處不在,數(shù)據(jù)的收集已經(jīng)不再是困擾我們的難題,如何將隱藏在數(shù)據(jù)背后的信息高效率的挖掘出來(lái),才是我們需要探索的道路。如今數(shù)據(jù)挖掘技術(shù)已發(fā)展為:數(shù)據(jù)源提供數(shù)據(jù),再將預(yù)處理的數(shù)據(jù)整合成適用的模式,由模式分析出這些數(shù)據(jù)中有用的知識(shí)。

2.3 數(shù)據(jù)挖掘中的經(jīng)典算法

2.3.1 C4.5算法

C4.5算法是在決策樹算法的基礎(chǔ)之上改進(jìn)的,根據(jù)對(duì)目標(biāo)變量產(chǎn)生的效果的不同而構(gòu)建的分類規(guī)則,其原理是根據(jù)每次選擇一個(gè)特征或分裂點(diǎn)作為當(dāng)前節(jié)點(diǎn)的分類條件。C4.5算法繼承了決策樹算法的優(yōu)點(diǎn):過(guò)程可見、操作簡(jiǎn)便、準(zhǔn)確率高,可同時(shí)也有難以基于組合的形式發(fā)現(xiàn)規(guī)律。

2.3.2 K-Means算法即K均值聚類算法

K均值聚類算法顧名思義是一種聚類算法,將n個(gè)對(duì)象根據(jù)屬性分為k個(gè)分割,計(jì)算出每個(gè)對(duì)象與各個(gè)種子聚類間的距離,然后將每類對(duì)象分配給最近的聚類中心,這樣每個(gè)聚類中心再不斷重復(fù)以上操作以達(dá)到某個(gè)終止條件。這種算法的優(yōu)點(diǎn)是容易實(shí)現(xiàn),但在大規(guī)模數(shù)據(jù)的運(yùn)用上效率較低,一般適用于數(shù)值型數(shù)據(jù)。

3 最新數(shù)據(jù)挖掘技術(shù)及其應(yīng)用

在新時(shí)代大數(shù)據(jù)的發(fā)展中,信息數(shù)據(jù)在我們的生活中無(wú)處不在,衣、食、住、行中都有大數(shù)據(jù)技術(shù)作為支撐,從“暗處”給用戶提供幫助。隨著大數(shù)據(jù)的出現(xiàn)到發(fā)展為現(xiàn)階段互聯(lián)網(wǎng)不可缺少的一部分,我們生活中大多數(shù)傳統(tǒng)的統(tǒng)計(jì)、計(jì)算、分析方法已無(wú)形中被大數(shù)據(jù)取代。

3.1 數(shù)據(jù)挖掘技術(shù)在金融領(lǐng)域的應(yīng)用

在信息化發(fā)展如此迅速的時(shí)代,金融信息數(shù)據(jù)化已成為必然趨勢(shì),各種互聯(lián)網(wǎng)金融企業(yè)如雨后春筍般出現(xiàn),給傳統(tǒng)金融帶來(lái)了不小的沖擊。線上支付、P2P模式的網(wǎng)貸,甚至于股票期貨,都已完成從傳統(tǒng)數(shù)據(jù)模式向大數(shù)據(jù)技術(shù)的更新。大數(shù)據(jù)時(shí)代給金融行業(yè)帶來(lái)了全新的一面,可以為客戶分類、風(fēng)險(xiǎn)評(píng)估等提供更高層次的參考價(jià)值。利用有效地?cái)?shù)據(jù)分析把控客戶類別和客戶需求,從而提高經(jīng)濟(jì)效益和服務(wù)質(zhì)量,為金融行業(yè)的發(fā)展提供更廣闊的平臺(tái)。

3.2 數(shù)據(jù)挖掘技術(shù)在教育領(lǐng)域的應(yīng)用

教育數(shù)據(jù)挖掘(Education Data Mining)應(yīng)用了多個(gè)大數(shù)據(jù)技術(shù),綜合運(yùn)用了數(shù)理統(tǒng)計(jì)、人工智能與機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘等。對(duì)教育原始數(shù)據(jù)進(jìn)行分析、構(gòu)建數(shù)據(jù)模型,從而有效地預(yù)測(cè)學(xué)習(xí)者的學(xué)習(xí)趨勢(shì)。也為互聯(lián)網(wǎng)教育提供發(fā)展的基礎(chǔ),實(shí)現(xiàn)線上教育系統(tǒng)的普及和有效應(yīng)用,增加新型的學(xué)習(xí)方式。同時(shí)教育信息數(shù)據(jù)化也可以進(jìn)行全面的、精準(zhǔn)的學(xué)習(xí)分析,提供有理論數(shù)據(jù)支撐的分析結(jié)果,有利于學(xué)生的自主學(xué)習(xí)和問題分析。

4 大數(shù)據(jù)的發(fā)展趨勢(shì)

大數(shù)據(jù)時(shí)代的來(lái)臨給我們帶來(lái)了全新的發(fā)展模式,同時(shí)也催生出許多新興行業(yè),如云計(jì)算、人工智能等。大數(shù)據(jù)技術(shù)如今已被應(yīng)用到商業(yè)、工業(yè)等領(lǐng)域,更是諸多新領(lǐng)域的基礎(chǔ),其中機(jī)器學(xué)習(xí)是人工智能的一個(gè)分支,研究方向是使計(jì)算機(jī)在沒有明確代碼的條件下自主學(xué)習(xí),它所運(yùn)用的原理就是大數(shù)據(jù)技術(shù)。在科學(xué)領(lǐng)域,大數(shù)據(jù)也是必不可少的計(jì)算方式,它擁有多種不同的算法,可適應(yīng)性的解決一系列科學(xué)研究中的計(jì)算難題。

在信息技術(shù)發(fā)展如此迅速的今天,大數(shù)據(jù)技術(shù)依然面臨著許多挑戰(zhàn),龐大的數(shù)據(jù)資源,它的儲(chǔ)存和保護(hù)是長(zhǎng)久以來(lái)人們需要克服的難題。近幾年數(shù)據(jù)泄露的消息比比皆是,大小企業(yè)都無(wú)法免受影響,而唯一措施就是從源頭阻止信息的泄露。盜取數(shù)據(jù)的方法在日益更新,保護(hù)數(shù)據(jù)就更難上加難,所以完善企業(yè)自身的安全防范能力,提前做好屏障保護(hù),是大數(shù)據(jù)應(yīng)用上的重要環(huán)節(jié)。

5 結(jié)束語(yǔ)

總而言之,在信息技術(shù)發(fā)展如此迅速的時(shí)代,大數(shù)據(jù)的廣泛應(yīng)用已成為大勢(shì)所趨,從最早運(yùn)用大數(shù)據(jù)進(jìn)行簡(jiǎn)單的分析,作為一種論據(jù)為科學(xué)研究提供數(shù)據(jù)支撐,到如今大數(shù)據(jù)成為互聯(lián)網(wǎng)技術(shù)的基石,操縱龐大的數(shù)據(jù)資源。可以說(shuō),大數(shù)據(jù)技術(shù)已走在當(dāng)今科技發(fā)展的前沿。但科學(xué)技術(shù)的發(fā)展依舊伴隨著許多待解決的問題,在技術(shù)創(chuàng)新與實(shí)時(shí)出現(xiàn)的問題中尋求可持續(xù)發(fā)展的平衡,使得計(jì)算機(jī)技術(shù)可以更好的服務(wù)人們的生活,是我們需要努力的目標(biāo)。

猜你喜歡
數(shù)據(jù)挖掘信息發(fā)展
邁上十四五發(fā)展“新跑道”,打好可持續(xù)發(fā)展的“未來(lái)牌”
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
砥礪奮進(jìn) 共享發(fā)展
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
改性瀝青的應(yīng)用與發(fā)展
北方交通(2016年12期)2017-01-15 13:52:53
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
展會(huì)信息
“會(huì)”與“展”引導(dǎo)再制造發(fā)展
汽車零部件(2014年9期)2014-09-18 09:19:14
基于GPGPU的離散數(shù)據(jù)挖掘研究
主站蜘蛛池模板: 无码日韩视频| 国产亚洲欧美在线专区| 国产成人麻豆精品| 国产成人午夜福利免费无码r| 欧美视频免费一区二区三区| 亚洲国产理论片在线播放| 国产 在线视频无码| 亚洲不卡av中文在线| 在线播放国产一区| 综合五月天网| 久久性妇女精品免费| 无码内射在线| 国产成人一区免费观看| 成人午夜福利视频| 亚洲欧美日韩另类在线一| 动漫精品啪啪一区二区三区| 美女高潮全身流白浆福利区| 999精品色在线观看| 97国产在线视频| 亚洲日韩每日更新| 久久综合丝袜日本网| 波多野结衣视频一区二区| 国产91小视频在线观看 | 最新国产你懂的在线网址| 国产91高跟丝袜| jizz国产在线| 国产成人艳妇AA视频在线| 亚洲欧美成aⅴ人在线观看 | 亚洲不卡无码av中文字幕| 一本大道香蕉高清久久| 青草视频网站在线观看| 久久久久亚洲av成人网人人软件| 精品综合久久久久久97超人| 女人爽到高潮免费视频大全| 一级毛片a女人刺激视频免费| 一本大道无码高清| 亚洲综合色吧| 国产精品久久久久婷婷五月| 一级毛片免费观看久| 婷婷六月激情综合一区| 欧美日韩国产在线播放| 国产丝袜啪啪| 精品一区二区三区视频免费观看| 亚洲第一成网站| 国产另类乱子伦精品免费女| 精品91在线| 欧美中文一区| 大学生久久香蕉国产线观看| 久久久久国产精品嫩草影院| 亚洲自拍另类| 亚洲综合九九| 综合色88| 色综合久久综合网| 91精品情国产情侣高潮对白蜜| 国产一区二区三区精品久久呦| 亚洲欧洲综合| a网站在线观看| 欧美日韩中文国产| 一区二区日韩国产精久久| 青青青视频免费一区二区| 国产aaaaa一级毛片| 国产成人AV综合久久| 一级毛片高清| 性色一区| 成人午夜亚洲影视在线观看| 国产综合无码一区二区色蜜蜜| 91小视频在线| 亚洲成人精品| 高清不卡毛片| 毛片久久网站小视频| 精品人妻AV区| 国产黄色免费看| 欧美精品综合视频一区二区| 欧美一区二区丝袜高跟鞋| 亚洲一区二区视频在线观看| 精品国产网| 热久久综合这里只有精品电影| 国产成人亚洲综合A∨在线播放| 99这里只有精品免费视频| 国产二级毛片| 国产成人亚洲综合A∨在线播放| 欧美国产精品不卡在线观看|