999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數(shù)據(jù)中的數(shù)據(jù)預(yù)處理技術(shù)分析

2019-03-25 08:23:56王梓吉
中國(guó)科技縱橫 2019年2期
關(guān)鍵詞:大數(shù)據(jù)

王梓吉

摘 要:信息技術(shù)的快速發(fā)展,為數(shù)據(jù)的采集和分析提供了有力的技術(shù)基礎(chǔ),作為數(shù)學(xué)與計(jì)算機(jī)學(xué)科的交叉方向,大數(shù)據(jù)技術(shù)的發(fā)展和應(yīng)用價(jià)值已經(jīng)得到人們的認(rèn)可。本文結(jié)合大數(shù)據(jù)技術(shù)的數(shù)據(jù)預(yù)處理需求,從數(shù)學(xué)角度闡述了數(shù)據(jù)預(yù)處理的方法,從分析結(jié)果可知,選取科學(xué)合理的數(shù)學(xué)處理算法可以為數(shù)據(jù)價(jià)值挖掘提供高質(zhì)量的數(shù)據(jù)源,這也是今后數(shù)據(jù)學(xué)科所要解決的關(guān)鍵科學(xué)問(wèn)題。

關(guān)鍵詞:大數(shù)據(jù);預(yù)處理;抽象數(shù)據(jù);歸一化處理

中圖分類號(hào):TP311.13 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1671-2064(2019)02-0028-02

隨著大數(shù)據(jù)技術(shù)的發(fā)展與應(yīng)用,對(duì)數(shù)據(jù)處理的需求越來(lái)越多,其應(yīng)用價(jià)值也十分明顯,大數(shù)據(jù)處理技術(shù)是應(yīng)用數(shù)學(xué)與計(jì)算機(jī)技術(shù)的一個(gè)交叉領(lǐng)域,其主要目的是將大量數(shù)據(jù)進(jìn)行深度分析,進(jìn)而實(shí)現(xiàn)對(duì)其潛在的價(jià)值挖掘[1]。但是在數(shù)據(jù)采集過(guò)程中,由于設(shè)備精度、環(huán)境影響以及人為失誤等造成一些數(shù)據(jù)屬性缺失、記錄錯(cuò)誤、噪音污染等,所得到的質(zhì)量不高的數(shù)據(jù),被行業(yè)稱為“臟數(shù)據(jù)”。如果不對(duì)這些數(shù)據(jù)進(jìn)行提前處理,會(huì)導(dǎo)致后續(xù)的數(shù)據(jù)挖掘與分析不夠精確,以至于影響數(shù)據(jù)分析結(jié)果的應(yīng)用[1-2]。

因此,對(duì)數(shù)據(jù)預(yù)處理是大數(shù)據(jù)技術(shù)應(yīng)用的關(guān)鍵環(huán)節(jié)。本文正是基于實(shí)際存在的“臟數(shù)據(jù)”問(wèn)題,從數(shù)學(xué)應(yīng)用的嚴(yán)謹(jǐn)性出發(fā),深入地闡述數(shù)據(jù)預(yù)處理方法,為得到科學(xué)合理的數(shù)據(jù)分析結(jié)果奠定技術(shù)基礎(chǔ)。

1 大數(shù)據(jù)技術(shù)

1.1 概念

在《大數(shù)據(jù)時(shí)代》中所提到的大數(shù)據(jù)技術(shù),是指不用傳統(tǒng)的隨機(jī)理論進(jìn)行數(shù)據(jù)分析,而采用對(duì)所有數(shù)據(jù)進(jìn)行統(tǒng)一的分析處理的方法,這給數(shù)據(jù)處理帶來(lái)了挑戰(zhàn),主要集中在數(shù)據(jù)量很大,要求采用處理速度快的一些數(shù)學(xué)處理方法[1]。

信息技術(shù)是大數(shù)據(jù)時(shí)代的基礎(chǔ),該技術(shù)的發(fā)展與應(yīng)用已經(jīng)使得眾多領(lǐng)域發(fā)生一些技術(shù)革命。由于實(shí)際生產(chǎn)生活中,產(chǎn)生并積累了大量的數(shù)據(jù),而數(shù)據(jù)又潛在地表征了過(guò)程的特性,可見(jiàn),一旦通過(guò)科學(xué)合理的數(shù)據(jù)處理方法,其內(nèi)在價(jià)值將會(huì)得到挖掘,進(jìn)而用于優(yōu)化、控制與決策,深層次地發(fā)揮數(shù)據(jù)的價(jià)值。大數(shù)據(jù)由于其樣本量大、精準(zhǔn)度高、科學(xué)性優(yōu)異,同時(shí),大數(shù)據(jù)處理技術(shù)具有高速度、多樣化、高價(jià)值和真實(shí)性等特點(diǎn),已經(jīng)為人們所接受,并逐步得到應(yīng)用。

1.2 大數(shù)據(jù)技術(shù)的處理流程

按照現(xiàn)有通常的大數(shù)據(jù)處理技術(shù),一般的數(shù)據(jù)處理流程如圖1所示[1-3]。

從圖1中可知,第一步是數(shù)據(jù)的采集與收集,這是數(shù)據(jù)大數(shù)據(jù)的源端,主要依賴于信息技術(shù),如傳感器網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)數(shù)據(jù)的采集。第二步是數(shù)據(jù)的預(yù)處理,由于現(xiàn)實(shí)采集的數(shù)據(jù)存在諸如缺陷、不規(guī)則、抽象性等問(wèn)題,必須經(jīng)過(guò)預(yù)處理后才能進(jìn)行計(jì)算分析,這也是本文的重點(diǎn)研究?jī)?nèi)容。第三步是對(duì)得到的規(guī)則的數(shù)據(jù)矩陣進(jìn)行存儲(chǔ)。第四步是數(shù)據(jù)的分析,借助特定模型進(jìn)行數(shù)據(jù)價(jià)值分析。第五步是對(duì)結(jié)果進(jìn)行展示,也是數(shù)據(jù)價(jià)值表現(xiàn)的關(guān)鍵步驟。

從整個(gè)大數(shù)據(jù)的處理流程來(lái)看,數(shù)據(jù)預(yù)處理技術(shù)的水平?jīng)Q定了數(shù)據(jù)的真實(shí)性、完整性,對(duì)后續(xù)的數(shù)據(jù)分析起到十分關(guān)鍵的作用,在預(yù)處理環(huán)節(jié)用到很多的數(shù)學(xué)方法,本文接著重點(diǎn)闡述大數(shù)據(jù)預(yù)處理環(huán)節(jié)的相關(guān)數(shù)學(xué)變換與數(shù)學(xué)分析方法。

2 數(shù)據(jù)預(yù)處理技術(shù)分析[3]

2.1 需求分析

在大數(shù)據(jù)背景下,數(shù)據(jù)的收集過(guò)程中會(huì)產(chǎn)生諸多問(wèn)題,例如測(cè)量收集設(shè)備精度不足、數(shù)據(jù)傳輸過(guò)程受到環(huán)境干擾、數(shù)據(jù)內(nèi)有環(huán)境噪音、手工輸入的誤操作等多種情況。將會(huì)形成引言中所提到的“臟數(shù)據(jù)”。這些原始數(shù)據(jù),將存在如下系列問(wèn)題。

(1)雜亂。數(shù)據(jù)僅存放于數(shù)據(jù)集中,缺乏統(tǒng)一性的量化標(biāo)準(zhǔn)與轉(zhuǎn)化標(biāo)準(zhǔn),不利于數(shù)據(jù)的量化可視化分析。例如學(xué)校內(nèi)有關(guān)學(xué)生對(duì)老師喜愛(ài)程度的調(diào)查中,“喜愛(ài)”、“一般”等名詞便無(wú)法用于數(shù)據(jù)分析與處理。這類數(shù)據(jù)通常將通過(guò)歸一化處理進(jìn)行量化與分類整理。(2)重復(fù)。數(shù)據(jù)間擁有多個(gè)相同的物理描述與性質(zhì),特別的,對(duì)于要分析的數(shù)據(jù)方向存在重疊,將構(gòu)成數(shù)據(jù)的重復(fù)與冗余數(shù)據(jù)的堆積。這將不利于樣本的分析。例如在數(shù)據(jù)輸入時(shí),對(duì)同一實(shí)體輸入了多次便會(huì)導(dǎo)致數(shù)據(jù)重復(fù)。(3)模糊。在實(shí)驗(yàn)?zāi)P突驅(qū)嶋H系統(tǒng)的設(shè)計(jì)中不可避免的存在一些漏洞與缺陷,導(dǎo)致實(shí)體屬性不清晰或錯(cuò)亂。(4)缺失。數(shù)據(jù)傳輸或記錄過(guò)程中出現(xiàn)錯(cuò)誤,導(dǎo)致數(shù)據(jù)缺失。

由于數(shù)據(jù)集的復(fù)雜性,數(shù)據(jù)的正確性及有效性將極大地影響挖掘?qū)W習(xí)的準(zhǔn)確性和有效性。所以對(duì)數(shù)據(jù)進(jìn)行預(yù)處理就成為了分析前的重要工作。數(shù)據(jù)的預(yù)處理方法多種多樣,例如數(shù)據(jù)清洗、數(shù)據(jù)選樣、數(shù)據(jù)變換等。

2.2 數(shù)據(jù)清洗

現(xiàn)實(shí)中采集到的數(shù)據(jù)由于存在各種問(wèn)題,一般都是不能直接用于價(jià)值分析的,這些不確定數(shù)據(jù)將嚴(yán)重影響大數(shù)據(jù)數(shù)據(jù)分析的準(zhǔn)確性,嚴(yán)重時(shí)更會(huì)使分析結(jié)果失去實(shí)際意義,因此需要按照特定目的進(jìn)行預(yù)處理。而數(shù)據(jù)清洗主要是針對(duì)那些不符合規(guī)則數(shù)據(jù)進(jìn)行處理,如重復(fù)數(shù)據(jù)項(xiàng)、噪聲數(shù)據(jù)項(xiàng)和缺失數(shù)據(jù)項(xiàng)等,對(duì)應(yīng)的處理方法如圖2所示。

重復(fù)數(shù)據(jù)會(huì)導(dǎo)致數(shù)據(jù)挖掘模式變化,因此必須給予剔除,但是如何有效檢測(cè)重復(fù)數(shù)據(jù)需要良好的數(shù)據(jù)分析算法,如采用基于排序-合并原理的基本緊鄰排序算法SNM是經(jīng)常使用的一種高效檢測(cè)算法。噪聲數(shù)據(jù)是指那些異常數(shù)據(jù)不在合理范圍的數(shù)據(jù),常借助周圍數(shù)據(jù)進(jìn)行平滑處理,如進(jìn)行平均值處理等類似分箱方法進(jìn)行有效預(yù)處理。

在實(shí)際的生產(chǎn)生活中,不可避免的會(huì)在數(shù)據(jù)中產(chǎn)生大量的空缺值,這是現(xiàn)實(shí)世界所產(chǎn)生的數(shù)據(jù)集的特點(diǎn),因此只能通過(guò)特定算法來(lái)盡量彌補(bǔ)誤差。常見(jiàn)的缺失值預(yù)處理方法有:

(1)直接刪除空白的數(shù)據(jù)項(xiàng)。這種方法的優(yōu)勢(shì)顯而易見(jiàn),效率高技術(shù)含量低。但是對(duì)于樣本容量并不足夠大的數(shù)據(jù)集,就會(huì)造成極大的偏差。樣本標(biāo)準(zhǔn)差σ=其中。顯然對(duì)于N不夠大的樣本,刪除空白數(shù)據(jù)項(xiàng)會(huì)使μ和σ產(chǎn)生較大的誤差。(2)利用填充技術(shù)填充缺失值。由于直接刪除空缺值將有較大可能對(duì)數(shù)據(jù)造成不可逆的損傷,所以將運(yùn)用填充算法補(bǔ)全數(shù)據(jù),這樣不易產(chǎn)生偏差。

1)統(tǒng)計(jì)方法:根據(jù)標(biāo)準(zhǔn)的正態(tài)分布我們可以知道,可以采用數(shù)據(jù)的算術(shù)平均值代替空缺值,這是最簡(jiǎn)單也是最常用的方法。2)分類方法:面對(duì)龐大的數(shù)據(jù)集,可以先將其分類再對(duì)較小的進(jìn)行分析研究。具體方法有“貝葉斯網(wǎng)絡(luò)法”、“神經(jīng)網(wǎng)絡(luò)法”、“K-NN法”和“粗集理論法”等。分類方法對(duì)樣本訓(xùn)練都有較好的包容性,但是容易產(chǎn)生過(guò)度學(xué)習(xí)的現(xiàn)象,需要多設(shè)置測(cè)試樣本運(yùn)用更多的算法檢測(cè)挖掘,在此不作過(guò)多介紹。3)關(guān)聯(lián)方法:先使用迭代的方法找出所有滿足頻繁的、精確的可能規(guī)則的集合。之后利用啟發(fā)式構(gòu)造分類。4)聚類方法:聚類方法已經(jīng)成為數(shù)據(jù)挖掘的重要技術(shù)之一,成為了知識(shí)挖掘的核心方法。聚類的思想是將相同的實(shí)例聚到一個(gè)集合里,將不相似的聚到另外的集合中。

對(duì)于所有聚類對(duì)象,有E=,d(a,b)=。其中E表示所有對(duì)象的平方誤差的和,mi是Ci的平均值,d是兩個(gè)屬性間的距離。當(dāng)然也可以通過(guò)這些公式和另外一些復(fù)雜的算法得出聚類間的相似度,在此不作過(guò)多論述。

2.3 數(shù)據(jù)選樣

數(shù)據(jù)選樣分為簡(jiǎn)單隨機(jī)選樣和分層選樣兩種,是數(shù)學(xué)中典型的概率統(tǒng)計(jì)問(wèn)題。其中簡(jiǎn)單隨機(jī)選樣包括無(wú)放回選樣與有放回選樣,簡(jiǎn)單隨機(jī)選樣的算法容易實(shí)現(xiàn),利用中學(xué)中的排列組合與概率知識(shí)配合編程知識(shí)就可以進(jìn)行操作,門檻較低,應(yīng)用廣泛。分層選樣得到的數(shù)據(jù)子集對(duì)于數(shù)據(jù)挖掘更優(yōu)。

2.4 數(shù)據(jù)變換

數(shù)據(jù)變換的目的是將數(shù)據(jù)轉(zhuǎn)換成特定挖掘需要的格式,通常需要結(jié)合實(shí)際的數(shù)據(jù)挖掘算法進(jìn)行特定的數(shù)據(jù)變換,一般可以分為簡(jiǎn)單的函數(shù)變換和統(tǒng)一的規(guī)范化兩種變換方式。

數(shù)據(jù)變換側(cè)重于在變換過(guò)程中,將數(shù)據(jù)由原本的不規(guī)范難以表達(dá)難以計(jì)算的,化為規(guī)范化可分析化的,盡量消除數(shù)據(jù)收集儲(chǔ)存過(guò)程中造成的本身缺陷。數(shù)據(jù)變換中較為基礎(chǔ)的是簡(jiǎn)單的函數(shù)變換,將數(shù)據(jù)通過(guò)一定的數(shù)學(xué)排列,從而采用曲線擬合的方法,利用y=xk,y=lognx,y=ex,y=,y=,y=sinx等函數(shù)擬合,利用函數(shù)來(lái)預(yù)測(cè)數(shù)據(jù)的變化趨勢(shì)與變化范圍。較為復(fù)雜的也可以采用不同的復(fù)雜算法,如z-score規(guī)范化算法,使得數(shù)據(jù)變換更加準(zhǔn)確科學(xué)。

除此之外有時(shí)還需要對(duì)數(shù)據(jù)進(jìn)行集成處理,將不同的數(shù)據(jù)源所構(gòu)成的數(shù)據(jù)集合相互整合去除冗余數(shù)據(jù),將上述兩個(gè)或多個(gè)數(shù)據(jù)集整合成同一個(gè)數(shù)據(jù)集后,再運(yùn)用數(shù)據(jù)清洗技術(shù),對(duì)其中的空缺值不準(zhǔn)確值進(jìn)行處理,從而獲得的數(shù)據(jù)集更具有科學(xué)性,精準(zhǔn)性。

3 結(jié)語(yǔ)

數(shù)據(jù)預(yù)處理是大數(shù)據(jù)處理的關(guān)鍵環(huán)節(jié),通過(guò)文章對(duì)大數(shù)據(jù)處理技術(shù)及其預(yù)處理階段的一些典型常見(jiàn)技術(shù)進(jìn)行分析與總結(jié),可以知道,目前大部分都是基于幾類典型問(wèn)題進(jìn)行特定的數(shù)學(xué)處理。但實(shí)際上由于實(shí)際收集數(shù)據(jù)受外部環(huán)境影響大,造成數(shù)據(jù)隨機(jī)性變化、數(shù)據(jù)質(zhì)量很難保證,同時(shí)又由于各個(gè)行業(yè)對(duì)數(shù)據(jù)的要求不同,需要結(jié)合特定應(yīng)用需要采取科學(xué)合理的數(shù)據(jù)預(yù)處理方法,才能為數(shù)據(jù)處理提供高質(zhì)量的數(shù)據(jù)源,因此在應(yīng)用過(guò)程中需要結(jié)合實(shí)際領(lǐng)域進(jìn)行選取數(shù)學(xué)方法進(jìn)行靈活應(yīng)用。

參考文獻(xiàn)

[1] 林子雨.大數(shù)據(jù)技術(shù)基礎(chǔ)[M].清華大學(xué)出版社,2013.

[2] 劉智慧,張泉靈.大數(shù)據(jù)技術(shù)研究綜述[J].浙江大學(xué)學(xué)報(bào):工學(xué)版,2014,48(6):957-972.

[3] 孔欽,葉長(zhǎng)青,孫赟.大數(shù)據(jù)下數(shù)據(jù)預(yù)處理方法研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2018(5):1-4.

猜你喜歡
大數(shù)據(jù)
基于在線教育的大數(shù)據(jù)研究
“互聯(lián)網(wǎng)+”農(nóng)產(chǎn)品物流業(yè)的大數(shù)據(jù)策略研究
基于大數(shù)據(jù)的小微電商授信評(píng)估研究
大數(shù)據(jù)時(shí)代新聞的新變化探究
商(2016年27期)2016-10-17 06:26:00
淺談大數(shù)據(jù)在出版業(yè)的應(yīng)用
今傳媒(2016年9期)2016-10-15 23:35:12
“互聯(lián)網(wǎng)+”對(duì)傳統(tǒng)圖書出版的影響和推動(dòng)作用
今傳媒(2016年9期)2016-10-15 22:09:11
大數(shù)據(jù)環(huán)境下基于移動(dòng)客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
科技視界(2016年20期)2016-09-29 10:53:22
數(shù)據(jù)+輿情:南方報(bào)業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
主站蜘蛛池模板: 99精品国产自在现线观看| 成人91在线| 欧美日韩精品一区二区在线线 | 51国产偷自视频区视频手机观看| 久爱午夜精品免费视频| 日韩精品免费一线在线观看| 国产精品欧美亚洲韩国日本不卡| 呦系列视频一区二区三区| 喷潮白浆直流在线播放| 国产精品一区二区在线播放| 一本大道无码高清| 99爱视频精品免视看| 99成人在线观看| 国产美女一级毛片| 久久综合色播五月男人的天堂| 在线观看热码亚洲av每日更新| 国产小视频免费| 伊人无码视屏| 日本久久久久久免费网络| 99在线观看免费视频| 欧美日韩va| 中文字幕乱码二三区免费| 在线永久免费观看的毛片| 国产成人艳妇AA视频在线| 国产三级a| 毛片在线区| 国产清纯在线一区二区WWW| 亚洲中文字幕在线观看| 亚洲h视频在线| 亚洲欧美另类日本| a亚洲视频| 天天综合色天天综合网| 国产精品成人久久| 久久精品91麻豆| 永久免费精品视频| 97国产成人无码精品久久久| 人妻中文字幕无码久久一区| 丁香六月激情综合| 精品国产一二三区| 最新国产高清在线| 成人午夜视频免费看欧美| 亚洲69视频| 精品五夜婷香蕉国产线看观看| 国产永久免费视频m3u8| 精品在线免费播放| 国产精品尤物铁牛tv| 国产精品播放| 中文字幕永久在线看| 亚洲精品麻豆| 精品少妇人妻一区二区| 日韩a在线观看免费观看| 亚洲无码高清免费视频亚洲| 国产丝袜一区二区三区视频免下载| 人妻精品久久无码区| 啦啦啦网站在线观看a毛片| 人妻无码一区二区视频| 欧美三级视频在线播放| 欧美色伊人| 美女国内精品自产拍在线播放| 天堂在线视频精品| 国产精品第三页在线看| 国产毛片一区| 六月婷婷综合| 亚洲AⅤ无码日韩AV无码网站| 亚洲女同欧美在线| 亚洲中文字幕在线观看| 自拍偷拍欧美日韩| 亚洲欧美另类中文字幕| 亚洲中文字幕无码爆乳| 亚洲成aⅴ人在线观看| 这里只有精品在线播放| 国产精品永久不卡免费视频| 亚洲日本韩在线观看| 99精品在线看| 中文字幕在线日韩91| 日韩一区二区在线电影| 亚洲色图在线观看| 美女无遮挡拍拍拍免费视频| 国产成年无码AⅤ片在线| 国产成人精品一区二区| 成人国产精品网站在线看| 日韩毛片免费视频|