999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數(shù)據(jù)的數(shù)據(jù)清洗技術(shù)及運(yùn)用

2019-07-12 08:28:42盧星
電子技術(shù)與軟件工程 2019年9期
關(guān)鍵詞:數(shù)據(jù)庫(kù)檢測(cè)質(zhì)量

文/盧星

1 數(shù)據(jù)清洗技術(shù)概述

數(shù)據(jù)清洗技術(shù)是為了提高數(shù)據(jù)質(zhì)量而剔除數(shù)據(jù)中錯(cuò)誤記錄的一種技術(shù)手段,在實(shí)際應(yīng)用中通常與數(shù)據(jù)挖掘技術(shù)、數(shù)據(jù)倉(cāng)庫(kù)技術(shù)、數(shù)據(jù)整合技術(shù)結(jié)合應(yīng)用。數(shù)據(jù)清洗技術(shù)的基本原理為:在分析數(shù)據(jù)源特點(diǎn)的基礎(chǔ)上,找出數(shù)據(jù)質(zhì)量問題原因,確定清洗要求,建立起清洗模型,應(yīng)用清洗算法、清洗策略和清洗方案對(duì)應(yīng)到數(shù)據(jù)識(shí)別與處理中,最終清洗出滿足質(zhì)量要求的數(shù)據(jù)。具體如1所示。數(shù)據(jù)清洗是數(shù)據(jù)分析、數(shù)據(jù)挖掘的前提,也是數(shù)據(jù)預(yù)處理的關(guān)鍵環(huán)節(jié),可保證數(shù)據(jù)質(zhì)量和數(shù)據(jù)分析的準(zhǔn)確性。在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)清洗技術(shù)已經(jīng)被廣泛應(yīng)用于大健康、銀行、移動(dòng)通信、交通等領(lǐng)域,在一定程度上保證了數(shù)據(jù)質(zhì)量,為大數(shù)據(jù)決策提供了可靠依據(jù)。

2 大數(shù)據(jù)的數(shù)據(jù)清洗技術(shù)及應(yīng)用

2.1 基于函數(shù)依賴的數(shù)據(jù)清洗技術(shù)

基于函數(shù)依賴的數(shù)據(jù)清洗技術(shù),可解決數(shù)據(jù)異常、重復(fù)、錯(cuò)誤、缺失等問題,能夠在數(shù)據(jù)預(yù)處理環(huán)節(jié)對(duì)臟數(shù)據(jù)進(jìn)行清洗,從數(shù)據(jù)源處減少噪聲數(shù)據(jù),提高數(shù)據(jù)清洗效率。該數(shù)據(jù)清洗技術(shù)可廣泛應(yīng)用于移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)分析等領(lǐng)域,具體應(yīng)用步驟如下:

2.1.1 建立數(shù)據(jù)庫(kù)

根據(jù)清洗特征建立數(shù)據(jù)庫(kù),在數(shù)據(jù)庫(kù)中存儲(chǔ)有質(zhì)量問題的待清洗數(shù)據(jù),對(duì)數(shù)據(jù)庫(kù)進(jìn)行優(yōu)化,生成原始數(shù)據(jù)庫(kù)。

2.1.2 數(shù)據(jù)篩選

對(duì)原始數(shù)據(jù)庫(kù)中噪聲數(shù)據(jù)進(jìn)行分析,利用語義關(guān)聯(lián)挖掘隱藏在字段間的關(guān)系,即字段間的函數(shù)依賴關(guān)系,進(jìn)而確定數(shù)據(jù)的待清洗屬性。

2.1.3 數(shù)據(jù)查找

根據(jù)字段間的函數(shù)依賴關(guān)系找出原始數(shù)據(jù)庫(kù)中存在差異的數(shù)據(jù),建立其高階張量屬性集。

2.1.4 數(shù)據(jù)清洗

在原始數(shù)據(jù)庫(kù)中找出可信度較低的字段,利用字段間的函數(shù)依賴關(guān)系清洗字段和數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行修復(fù)。

2.1.5 數(shù)據(jù)獲取

在數(shù)據(jù)庫(kù)中更新清洗后的數(shù)據(jù),生成目標(biāo)數(shù)據(jù)庫(kù)集,并對(duì)清洗過程進(jìn)行記錄,生成清洗日志。清洗日志主要包括原始數(shù)據(jù)、清洗時(shí)間、清洗操作、清洗后數(shù)據(jù)等信息,為日后數(shù)據(jù)處理和數(shù)據(jù)質(zhì)量分析提供記錄依據(jù)。

2.2 相似重復(fù)數(shù)據(jù)清洗技術(shù)

在大數(shù)據(jù)中,相似重復(fù)數(shù)據(jù)是數(shù)據(jù)清理的重點(diǎn),具體表現(xiàn)為多種形式的記錄描述目標(biāo)卻相同,或多條同樣記錄表達(dá)同樣含義,其產(chǎn)生的原因多種多樣,主要包括數(shù)據(jù)錄入拼寫錯(cuò)誤、存儲(chǔ)類型不一致、縮寫不同等。由于相似重復(fù)數(shù)據(jù)的識(shí)別難度較大,所以必須借助重復(fù)檢測(cè)算法進(jìn)行檢測(cè),以保證相似重復(fù)記錄數(shù)據(jù)的清洗效率,避免數(shù)據(jù)冗余。相似重復(fù)數(shù)據(jù)檢測(cè)是對(duì)字段和記錄是否存在重復(fù)性進(jìn)行檢測(cè),前者主要采用編輯距離算法,后者卻主要采用優(yōu)先列隊(duì)算法、排序鄰居算法、N-Gram聚類算法。

2.2.1 基于排列合并算法的數(shù)據(jù)清洗技術(shù)

基于排列合并算法的相似重復(fù)數(shù)據(jù)清洗流程如下:分析源數(shù)據(jù)庫(kù)的屬性段,確定屬性的關(guān)鍵值,根據(jù)關(guān)鍵值按照自上而下或自下而上的順序排列源數(shù)據(jù)庫(kù)中的數(shù)據(jù);對(duì)數(shù)據(jù)庫(kù)中的記錄進(jìn)行掃描,并將掃描后的數(shù)據(jù)與相鄰數(shù)據(jù)進(jìn)行比較,按照算法計(jì)算相鄰數(shù)據(jù)的相似度;系統(tǒng)預(yù)設(shè)閾值,根據(jù)閾值評(píng)價(jià)計(jì)算出來的相似度是否在規(guī)定范圍內(nèi),如果超過閾值,則說明這些相鄰的數(shù)據(jù)或記錄屬于相似重復(fù)記錄,采用合并數(shù)據(jù)或刪除的方式處理數(shù)據(jù)。如果未超過閾值,則按照順序繼續(xù)掃描下面數(shù)據(jù);在數(shù)據(jù)全部檢測(cè)之后,輸出檢測(cè)后的數(shù)據(jù)。

2.2.2 基于N-Gram算法的數(shù)據(jù)清洗技術(shù)

該技術(shù)通過計(jì)算每條記錄的N-Gram值,對(duì)相似重復(fù)數(shù)據(jù)進(jìn)行排序。馬爾科夫假設(shè)下一詞出現(xiàn)的概率依賴于前一個(gè)或前幾個(gè)詞出現(xiàn)的概率,其數(shù)據(jù)模型表達(dá)式為P(S)=p(w1)p(w2|w1)p(w3|w2)…p(wi|wi-1)…p(wn|wn-1)

二元的Bigram認(rèn)為,每條語句中的詞有且僅有與其前面最相近的詞存在相關(guān),其概率數(shù)學(xué)模型表達(dá)式為:

P(S)=p(w1w2…wn)=p(w1)p(w2|w1)p(w3|w1w2)…p(wn|w1w2…wn-1) ≈ p(w1)p(w2|w1)p(w3|w2)…p(wn|wn-1)

三元的Trigram假設(shè)下一個(gè)詞僅與前兩個(gè)詞存在依賴關(guān)系,其概率數(shù)學(xué)模型表達(dá)式為:

P(S)≈ p(w1)p(w2|w1)p(w3|w1w2)…p(wn|wn-2)wn-1)

數(shù)據(jù)清洗過程如下:處理帶有標(biāo)識(shí)性含義的標(biāo)點(diǎn)或者無法識(shí)別的字符串;掃描整個(gè)數(shù)據(jù)庫(kù),建立起基于N-Gram算法的語料庫(kù);按照N-Gram算法對(duì)數(shù)據(jù)記錄進(jìn)行分割,計(jì)算重復(fù)矩陣;對(duì)待清洗數(shù)據(jù)記錄計(jì)算它們的N-Gram值;按照N-Gram排序待清洗數(shù)據(jù)記錄,計(jì)算記錄之間的相似度,根據(jù)相似度高低判斷記錄是否重復(fù)。

2.3 不完整數(shù)據(jù)清洗技術(shù)

圖1:數(shù)據(jù)清洗流程示意圖

大數(shù)據(jù)時(shí)代下,在數(shù)據(jù)上報(bào)或接口調(diào)用時(shí)會(huì)存在大量不完整的數(shù)據(jù),嚴(yán)重影響著數(shù)據(jù)質(zhì)量。不完整數(shù)據(jù)主要包括屬性值錯(cuò)誤和空值,其中用于前者的檢測(cè)方法為關(guān)聯(lián)規(guī)則法、聚類方法、統(tǒng)計(jì)法,上述方法均通過總結(jié)規(guī)律對(duì)錯(cuò)誤值進(jìn)行查找,找到錯(cuò)誤值后予以修復(fù);后者的檢測(cè)方法以人工填寫空缺值、屬性值為主,其空缺值包括最小值、最大值、中間值、平均值或概率統(tǒng)計(jì)函數(shù)值。在不完整數(shù)據(jù)清洗中,一般按照以下清洗流程:估計(jì)數(shù)據(jù)源的缺失值參數(shù),為數(shù)據(jù)清洗提供依據(jù);利用數(shù)據(jù)填充算法填充不完整數(shù)據(jù)的缺失值;填充后的數(shù)據(jù)為完整數(shù)據(jù),將完整數(shù)據(jù)輸出。

2.4 不一致數(shù)據(jù)修復(fù)技術(shù)

大數(shù)據(jù)環(huán)境下,數(shù)據(jù)源受多種因素的影響,違反完整性約束,造成大量不一致數(shù)據(jù)的產(chǎn)生。在數(shù)據(jù)清洗中,要利用不一致數(shù)據(jù)修復(fù)技術(shù)使不一致數(shù)據(jù)符合完整性約束,進(jìn)而保證數(shù)據(jù)質(zhì)量。數(shù)據(jù)修復(fù)流程如下:檢測(cè)數(shù)據(jù)源中的數(shù)據(jù)格式,對(duì)數(shù)據(jù)格式進(jìn)行預(yù)處理;檢測(cè)預(yù)處理數(shù)據(jù)后的數(shù)據(jù)是否符合完整性,如果不符合,則要修復(fù)數(shù)據(jù)。如果在數(shù)據(jù)修復(fù)之后依然存在著與數(shù)據(jù)完整性約束不一致的情況,則要再次修復(fù)數(shù)據(jù),直到數(shù)據(jù)符合要求;數(shù)據(jù)修復(fù)完成后,將其還原成原格式,為數(shù)據(jù)錄入系統(tǒng)打下基礎(chǔ)。

3 結(jié)論

總而言之,數(shù)據(jù)量大、價(jià)值密度低是大數(shù)據(jù)的特點(diǎn),為了提高數(shù)據(jù)質(zhì)量,必須在數(shù)據(jù)預(yù)處理階段進(jìn)行數(shù)據(jù)清洗,采用不完整數(shù)據(jù)清洗技術(shù)、不一致數(shù)據(jù)修復(fù)技術(shù)、相似重復(fù)數(shù)據(jù)清洗技術(shù)等,修復(fù)缺失數(shù)據(jù)、不一致數(shù)據(jù)和異常數(shù)據(jù),合并或刪除相似重復(fù)數(shù)據(jù),進(jìn)而保證數(shù)據(jù)預(yù)處理質(zhì)量,提高數(shù)據(jù)利用效率。

猜你喜歡
數(shù)據(jù)庫(kù)檢測(cè)質(zhì)量
“質(zhì)量”知識(shí)鞏固
“不等式”檢測(cè)題
“一元一次不等式”檢測(cè)題
“一元一次不等式組”檢測(cè)題
質(zhì)量守恒定律考什么
做夢(mèng)導(dǎo)致睡眠質(zhì)量差嗎
數(shù)據(jù)庫(kù)
數(shù)據(jù)庫(kù)
小波變換在PCB缺陷檢測(cè)中的應(yīng)用
數(shù)據(jù)庫(kù)
主站蜘蛛池模板: 色综合天天操| 亚洲婷婷六月| 三上悠亚精品二区在线观看| 国产一级在线播放| 日本一区二区不卡视频| 天天躁狠狠躁| 色噜噜久久| 亚洲另类国产欧美一区二区| 午夜毛片福利| 自偷自拍三级全三级视频| 国产视频大全| 亚洲欧美自拍中文| 久久网欧美| 欧美激情视频二区三区| 国产久操视频| 都市激情亚洲综合久久| 国产农村妇女精品一二区| 亚洲国产清纯| 丁香婷婷激情网| 日韩不卡高清视频| 免费一级毛片完整版在线看| 日韩欧美色综合| 国产成人精品高清不卡在线| 久青草网站| 国产91高跟丝袜| 中国一级特黄大片在线观看| 国产黄在线观看| 国产99视频免费精品是看6| 青青青草国产| 国产不卡网| 欧美第二区| 成人精品免费视频| 欧美精品啪啪一区二区三区| 亚洲码在线中文在线观看| 中文字幕久久精品波多野结| 色偷偷一区二区三区| 亚洲精品777| 中文字幕佐山爱一区二区免费| 国产精品美乳| 国产精品99久久久久久董美香| 亚洲成人www| 日韩欧美亚洲国产成人综合| 在线观看国产精美视频| 五月六月伊人狠狠丁香网| 亚洲区视频在线观看| A级毛片高清免费视频就| 99re在线免费视频| 国产高清在线观看| 免费A级毛片无码免费视频| 色综合综合网| 色AV色 综合网站| 成人毛片在线播放| 久久黄色毛片| 97一区二区在线播放| 国产主播喷水| 999国产精品| 亚洲va在线观看| 亚洲综合一区国产精品| 色网在线视频| 亚洲—日韩aV在线| 中文无码精品a∨在线观看| 人禽伦免费交视频网页播放| 亚洲AⅤ无码日韩AV无码网站| 亚洲成人精品| 欧美日韩一区二区在线播放| 亚洲bt欧美bt精品| 97色伦色在线综合视频| 亚洲成a人片7777| 少妇精品网站| 免费无码又爽又黄又刺激网站| 一级全免费视频播放| 欧美a在线| 国产精品亚洲一区二区三区z | 国产成人福利在线视老湿机| 朝桐光一区二区| 极品性荡少妇一区二区色欲 | 国产欧美日本在线观看| 欧美日韩中文字幕二区三区| 手机在线看片不卡中文字幕| 国产亚洲精品97AA片在线播放| 午夜福利视频一区| 青青草原国产一区二区|