999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多元回歸KNN的網(wǎng)絡(luò)數(shù)據(jù)庫不完整信息填充

2021-11-17 06:36:00趙春霞趙營穎
計(jì)算機(jī)仿真 2021年8期
關(guān)鍵詞:數(shù)據(jù)庫信息方法

趙春霞,趙營穎

(河南中醫(yī)藥大學(xué)信息技術(shù)學(xué)院,河南鄭州450046)

1 引言

在現(xiàn)階段,網(wǎng)絡(luò)數(shù)據(jù)庫數(shù)據(jù)丟失常常是大數(shù)據(jù)環(huán)境中不可避免的問題,如何處理缺少數(shù)據(jù)是目前數(shù)據(jù)分析領(lǐng)域研究的重點(diǎn)。由于在現(xiàn)階段很多數(shù)據(jù)分析都要依賴于完整的數(shù)據(jù)集,因此帶來了一些麻煩。為此,尋找一個(gè)有效而可行的方法來處理這些缺失的數(shù)據(jù)是目前急需解決的問題。

當(dāng)前,已有較多學(xué)者開展了關(guān)于數(shù)據(jù)不完整信息填充的研究,文獻(xiàn)[1]中,王瑋等人提出了不同類別非完整大數(shù)據(jù)中缺失數(shù)據(jù)填充方法,該方法主要找出其它類型指標(biāo)與某一類型指標(biāo)的相關(guān)性,得到數(shù)據(jù)集,求得權(quán)系數(shù),利用相關(guān)理論和經(jīng)驗(yàn),計(jì)算初始數(shù)據(jù)庫的信息熵,確定缺失數(shù)據(jù)區(qū)間的下限,實(shí)現(xiàn)缺失數(shù)據(jù)的填充。但是該方法的缺失數(shù)據(jù)檢測時(shí)間較長,導(dǎo)致網(wǎng)絡(luò)數(shù)據(jù)庫不完整信息填充效率較低;文獻(xiàn)[2]中,何丹丹等人提出了分布式數(shù)據(jù)庫用戶丟失數(shù)據(jù)恢復(fù)重構(gòu)方法,該方法主要通過對(duì)近鄰進(jìn)行加權(quán)計(jì)算,得到丟失數(shù)據(jù)的填充量,完成對(duì)丟失數(shù)據(jù)的恢復(fù)與重建。但是該方法的缺失數(shù)據(jù)預(yù)測誤差較大,導(dǎo)致缺失數(shù)據(jù)估計(jì)值準(zhǔn)確度較低。

針對(duì)上述方法存在的問題,本文提出基于多元回歸KNN的網(wǎng)絡(luò)數(shù)據(jù)庫不完整信息填充方法。首先通過對(duì)網(wǎng)絡(luò)數(shù)據(jù)庫不完整信息進(jìn)行檢測與預(yù)處理,并采用多元回歸KNN方法計(jì)算網(wǎng)絡(luò)數(shù)據(jù)庫中目標(biāo)數(shù)據(jù)與完全值數(shù)據(jù)矩陣中所有數(shù)據(jù)記錄的歐氏距離,獲取缺失值,然后對(duì)網(wǎng)絡(luò)數(shù)據(jù)庫不完整信息進(jìn)行估算與填補(bǔ)。最后通過實(shí)驗(yàn)結(jié)果可知,此次研究的基于多元回歸KNN的網(wǎng)絡(luò)數(shù)據(jù)庫不完整信息填充方法較傳統(tǒng)方法填充效果更好,具備實(shí)際應(yīng)用意義。

2 網(wǎng)絡(luò)數(shù)據(jù)庫不完整信息填充方法

此次研究的基于多元回歸KNN的網(wǎng)絡(luò)數(shù)據(jù)庫不完整信息填充方法的框架如圖1所示。

圖1 基于多元回歸KNN的網(wǎng)絡(luò)數(shù)據(jù)庫不完整信息填充框架

其中,數(shù)據(jù)預(yù)處理是后續(xù)數(shù)據(jù)挖掘與填充的基礎(chǔ),將直接影響填充結(jié)果,為此預(yù)先對(duì)數(shù)據(jù)檢測與預(yù)處理,具體內(nèi)容如下所示。

2.1 網(wǎng)絡(luò)數(shù)據(jù)庫不完整信息檢測與預(yù)處理

在對(duì)網(wǎng)絡(luò)數(shù)據(jù)庫不完整信息填充之前,預(yù)先對(duì)網(wǎng)絡(luò)數(shù)據(jù)庫不完整信息檢測與預(yù)處理[3-4]。假設(shè)樣本空間中有m個(gè)數(shù)據(jù)對(duì)象,每個(gè)數(shù)據(jù)對(duì)象中包含n分割屬性,將其表示為

(1)

式(1)中,ωk代表網(wǎng)絡(luò)數(shù)據(jù)庫中第k個(gè)屬性值的權(quán)重,rik代表第i個(gè)屬性與第k個(gè)屬性的相關(guān)系數(shù),Ek、σk分別代表數(shù)據(jù)k的標(biāo)準(zhǔn)差。

為了綜合考慮網(wǎng)絡(luò)數(shù)據(jù)庫中的相關(guān)性、沖突性以及離散型特質(zhì),首先采用灰色關(guān)聯(lián)度計(jì)算方法對(duì)數(shù)據(jù)庫中的所有信息進(jìn)行檢測[5-6]。假設(shè)給定一個(gè)數(shù)據(jù)庫中的數(shù)據(jù)區(qū)域,計(jì)算該網(wǎng)絡(luò)數(shù)據(jù)庫中的數(shù)據(jù)密度,獲取檢測到的不完整信息,用下述公式表示

w=ωk(t/n)+vi

(2)

式(2)中,t代表當(dāng)前數(shù)據(jù)查詢時(shí)間,n代表數(shù)據(jù)樣本數(shù)量,vi代表第i樣本的數(shù)據(jù)密度。

同時(shí),對(duì)于一個(gè)存在缺失數(shù)據(jù)的網(wǎng)絡(luò)數(shù)據(jù)庫,若采用較小的區(qū)間發(fā)現(xiàn)數(shù)據(jù)與數(shù)據(jù)之間的關(guān)系,會(huì)增加該數(shù)據(jù)庫中的信息熵[7]。信息熵是一個(gè)具有系統(tǒng)有序化程度的度量參數(shù),其值越大代表計(jì)算越混亂,信息熵值越小代表計(jì)算越趨于一致,為此將其定義為

(3)

式(3)中,p代表度量參數(shù)。

依據(jù)上述計(jì)算結(jié)果,利用信息熵的屬性約簡算法,對(duì)網(wǎng)絡(luò)數(shù)據(jù)庫中不完整信息進(jìn)行約簡處理[8-9]。當(dāng)采集的數(shù)據(jù)間隔更大時(shí),數(shù)據(jù)間的線性相關(guān)就會(huì)減少。由此定義的基于時(shí)間相關(guān)性的線性差分公式如下

(4)

式(4)中,η代表預(yù)測誤差,d代表已知數(shù)據(jù)的距的均值,u代表線性差值樣本變量值,其值越大代表計(jì)算越精確。

通過上述過程完成網(wǎng)絡(luò)數(shù)據(jù)庫不完整信息的檢測與預(yù)處理。

2.2 基于多元回歸KNN的不完整信息填充

在上述網(wǎng)絡(luò)數(shù)據(jù)庫不完整信息檢測與預(yù)處理的基礎(chǔ)上,對(duì)網(wǎng)絡(luò)數(shù)據(jù)庫不完整信息填充。在此過程中,主要采用多元回歸KNN方法對(duì)網(wǎng)絡(luò)數(shù)據(jù)庫不完整信息進(jìn)行填充,其步驟如下所示:

第一,網(wǎng)絡(luò)數(shù)據(jù)庫數(shù)據(jù)初始化處理,計(jì)算出網(wǎng)絡(luò)數(shù)據(jù)庫中的分類間隔,其表達(dá)式如下所示

(5)

式(5)中,e代表網(wǎng)絡(luò)數(shù)據(jù)庫中數(shù)據(jù)與數(shù)據(jù)的間隔值,b代表最優(yōu)分類函數(shù),s代表分類的目標(biāo)函數(shù),xi代表第i個(gè)數(shù)據(jù)的判別函數(shù)[10]。

第二,計(jì)算網(wǎng)絡(luò)數(shù)據(jù)庫中目標(biāo)數(shù)據(jù)與完全值數(shù)據(jù)矩陣中所有數(shù)據(jù)記錄的歐氏距離,其表達(dá)式如下所示

(6)

式(6)中,zi代表第i個(gè)最近鄰的最近鄰參數(shù),o代表目標(biāo)數(shù)據(jù)。

第三,通過上述過程計(jì)算出歐氏距離。選出歐式距離最小的數(shù)據(jù)記錄作為目標(biāo)數(shù)據(jù)的最近鄰,并將其存儲(chǔ)到數(shù)據(jù)矩陣的響應(yīng)位置中;

第四,分別從完全值數(shù)據(jù)矩陣中選出與每個(gè)目標(biāo)數(shù)據(jù)最近鄰歐氏距離最小的數(shù)據(jù)記錄,并將其存入數(shù)據(jù)組中[11-12];

第五,初始化每個(gè)目標(biāo)數(shù)據(jù)最近鄰的近鄰重要程度,其表達(dá)式如下所示

(7)

式(7)中,R代表近鄰重要程度,B代表數(shù)據(jù)重要程度判斷參數(shù)。

第六,消除目標(biāo)數(shù)據(jù)的最近鄰噪聲,其具體的判斷標(biāo)準(zhǔn)如下所示

(8)

式(8)中,xi代表目標(biāo)數(shù)據(jù)記錄第i個(gè)最近鄰的噪聲判斷結(jié)果,M代表噪聲消除參數(shù)。

依據(jù)上述計(jì)算判斷目標(biāo)數(shù)據(jù)的非噪聲最近鄰,完成對(duì)最近鄰噪聲的消除,獲取缺失值,在此基礎(chǔ)上通過一個(gè)適當(dāng)?shù)姆蔷€性函數(shù)將數(shù)據(jù)由原始的特征空間映射到一個(gè)新的特征空間,其表達(dá)式為

(9)

第七,在上述數(shù)據(jù)空間映射完成的基礎(chǔ)上,依據(jù)缺失值,對(duì)網(wǎng)絡(luò)數(shù)據(jù)庫不完整信息進(jìn)行估算與填補(bǔ)。在處理過程中,需要注意的是,在大多數(shù)情況下數(shù)據(jù)庫內(nèi)的成分?jǐn)?shù)據(jù)不同,即數(shù)據(jù)庫中的數(shù)據(jù)每一行都是不同的數(shù)據(jù),將其表示為

(10)

上述矩陣為觀測矩陣,n代表行的個(gè)數(shù)即樣本量,D代表列的個(gè)數(shù)為成分?jǐn)?shù)據(jù)的部分?jǐn)?shù)。

由于數(shù)據(jù)中每個(gè)觀測值的定和不同,因此為了填充的準(zhǔn)確性,設(shè)置調(diào)節(jié)因子,將其表示為

(11)

式(11)中,xjk代表不同觀測值的平衡成分,c代表調(diào)節(jié)因子,V代表缺失值。

通過上述過程調(diào)整后能夠保證數(shù)據(jù)庫內(nèi)的成分?jǐn)?shù)據(jù)的一致性。最后對(duì)網(wǎng)絡(luò)數(shù)據(jù)庫不完整信息填充,其表達(dá)式為

(12)

不斷迭代上述步驟,直到所有的網(wǎng)絡(luò)數(shù)據(jù)庫不完整信息檢測與填充完畢,以此,通過上述過程完成對(duì)網(wǎng)絡(luò)數(shù)據(jù)庫不完整信息的填充。

3 實(shí)驗(yàn)分析

3.1 實(shí)驗(yàn)準(zhǔn)備

為驗(yàn)證此次研究的基于多元回歸KNN的網(wǎng)絡(luò)數(shù)據(jù)庫不完整信息填充方法的有效性,進(jìn)行實(shí)驗(yàn)對(duì)比分析,并將文獻(xiàn)[1]提出的不同類別非完整大數(shù)據(jù)中缺失數(shù)據(jù)填充方法、文獻(xiàn)[2]提出的分布式數(shù)據(jù)庫用戶丟失數(shù)據(jù)恢復(fù)重構(gòu)方法與此次研究的方法進(jìn)行對(duì)比。此次實(shí)驗(yàn)硬件平臺(tái)配置為 CPU-INTEL CORE i7-8700K 3.7GHz6-Core等,軟件平臺(tái)基于Py Charm 利用sklearn和jupyter notebook 進(jìn)行圖表繪制。

此次實(shí)驗(yàn)研究共分為兩個(gè)實(shí)驗(yàn)進(jìn)行,在實(shí)驗(yàn)1中,設(shè)置網(wǎng)絡(luò)數(shù)據(jù)庫中的數(shù)據(jù)缺失率為5%,主要對(duì)比三種方法的缺失數(shù)據(jù)檢測時(shí)間、缺失數(shù)據(jù)估計(jì)值準(zhǔn)確度與網(wǎng)絡(luò)數(shù)據(jù)庫不完整信息的填充時(shí)間。在實(shí)驗(yàn)2中,設(shè)置網(wǎng)絡(luò)數(shù)據(jù)庫的數(shù)據(jù)缺失率為10%左右,在該實(shí)驗(yàn)中主要對(duì)比三種方法的缺失數(shù)據(jù)的預(yù)測誤差與信息填充時(shí)間。

3.2 缺失數(shù)據(jù)檢測時(shí)間

實(shí)驗(yàn)1中,對(duì)比基于多元回歸KNN的網(wǎng)絡(luò)數(shù)據(jù)庫不完整信息填充方法與文獻(xiàn)[1]提出的不同類別非完整大數(shù)據(jù)中缺失數(shù)據(jù)填充方法、文獻(xiàn)[2]提出的分布式數(shù)據(jù)庫用戶丟失數(shù)據(jù)恢復(fù)重構(gòu)方法的缺失數(shù)據(jù)檢測時(shí)間,對(duì)比結(jié)果如圖2所示。

圖2 缺失數(shù)據(jù)檢測時(shí)間對(duì)比

分析上圖可知,隨著數(shù)據(jù)量的不斷增加,此次研究方法與不同類別非完整大數(shù)據(jù)中缺失數(shù)據(jù)填充方法、分布式數(shù)據(jù)庫用戶丟失數(shù)據(jù)恢復(fù)重構(gòu)方法的缺失數(shù)據(jù)檢測時(shí)間也呈線性增加。經(jīng)過對(duì)比可知,此次研究的檢測方法較傳統(tǒng)方法的檢測時(shí)間少。

3.3 缺失數(shù)據(jù)估計(jì)值準(zhǔn)確度

缺失數(shù)據(jù)估計(jì)值準(zhǔn)確度的計(jì)算公式如下所示

(13)

以缺失數(shù)據(jù)估計(jì)值準(zhǔn)確度為實(shí)驗(yàn)指標(biāo),進(jìn)行對(duì)比分析,對(duì)本文研究的基于多元回歸KNN的網(wǎng)絡(luò)數(shù)據(jù)庫不完整信息填充方法與文獻(xiàn)[1]提出的不同類別非完整大數(shù)據(jù)中缺失數(shù)據(jù)填充方法、文獻(xiàn)[2]提出的分布式數(shù)據(jù)庫用戶丟失數(shù)據(jù)恢復(fù)重構(gòu)方法的缺失數(shù)據(jù)估計(jì)值準(zhǔn)確度進(jìn)行對(duì)比分析,對(duì)比結(jié)果如圖3所示。

圖3 缺失數(shù)據(jù)估計(jì)值準(zhǔn)確度對(duì)比

分析上圖可知,在數(shù)據(jù)量少于數(shù)據(jù)量多的情況下,此次研究的基于多元回歸KNN的網(wǎng)絡(luò)數(shù)據(jù)庫不完整信息填充方法的缺失數(shù)據(jù)估計(jì)值準(zhǔn)確度都較高,初始準(zhǔn)確度稍低,原因是在初始分析時(shí),輔助信息較少,隨著信息量的增加,誤差隨之減小,并逐漸呈平衡的趨勢。經(jīng)過對(duì)比可知,此次研究的填充方法較傳統(tǒng)的兩種方法估計(jì)準(zhǔn)確度高。

3.4 缺失率為5%時(shí)的不完整信息填充時(shí)間

當(dāng)網(wǎng)絡(luò)數(shù)據(jù)庫的數(shù)據(jù)缺失率為5%時(shí),對(duì)三種方法的不完整信息填充時(shí)間進(jìn)行對(duì)比,對(duì)比結(jié)果如圖4所示。

圖4 缺失率為5%時(shí)不完整信息的填充時(shí)間

分析上圖可知,此次研究的基于多元回歸KNN的網(wǎng)絡(luò)數(shù)據(jù)庫不完整信息填充方法在情況不完整信息的填充上,花費(fèi)的時(shí)間較少,對(duì)比可知,此次研究的方法比傳統(tǒng)兩種方法的不完整信息填充花費(fèi)的時(shí)間少。

3.5 缺失數(shù)據(jù)的預(yù)測誤差

對(duì)不同類別非完整大數(shù)據(jù)中缺失數(shù)據(jù)填充方法、分布式數(shù)據(jù)庫用戶丟失數(shù)據(jù)恢復(fù)重構(gòu)方法與此次研究的基于多元回歸KNN的網(wǎng)絡(luò)數(shù)據(jù)庫不完整信息填充方法的缺失數(shù)據(jù)的預(yù)測誤差進(jìn)行對(duì)比分析,對(duì)比結(jié)果如圖5所示。

圖5 缺失數(shù)據(jù)的預(yù)測誤差

通過圖5能夠看出,隨著確實(shí)數(shù)據(jù)量的增加,不同類別非完整大數(shù)據(jù)中缺失數(shù)據(jù)填充方法和分布式數(shù)據(jù)庫用戶丟失數(shù)據(jù)恢復(fù)重構(gòu)方法的預(yù)測誤差也隨之增大,并且變化幅度較大,對(duì)比可知,沒有此次研究的填充方法的預(yù)測準(zhǔn)確度高。

3.6 缺失率為10%時(shí)的不完整信息填充時(shí)間

當(dāng)網(wǎng)絡(luò)數(shù)據(jù)庫的數(shù)據(jù)缺失率為10%時(shí),對(duì)三種方法的不完整信息填充時(shí)間進(jìn)行對(duì)比,對(duì)比結(jié)果如圖6所示。

圖6 缺失率為10%時(shí)不完整信息的填充時(shí)間

從填充時(shí)間上對(duì)比可知,隨著數(shù)據(jù)量的不斷增加,三種方法的不完整信息填充時(shí)間也在不斷的增長,但是可以看出,此次研究的填充方法運(yùn)行時(shí)間上升幅度較小,不完整信息填充時(shí)間最短,不同類別非完整大數(shù)據(jù)中缺失數(shù)據(jù)填充方法與分布式數(shù)據(jù)庫用戶丟失數(shù)據(jù)恢復(fù)重構(gòu)方法花費(fèi)的時(shí)間都較多。

綜上所述,此次研究的基于多元回歸KNN的網(wǎng)絡(luò)數(shù)據(jù)庫不完整信息填充方法較傳統(tǒng)的兩種方法的缺失數(shù)據(jù)檢測時(shí)間少、對(duì)缺失數(shù)據(jù)估計(jì)值準(zhǔn)確度高、預(yù)測誤差低與信息填充時(shí)間少,充分驗(yàn)證了此次研究方法的有效性。原因是因?yàn)榇舜窝芯康奶畛浞椒A(yù)先對(duì)網(wǎng)絡(luò)數(shù)據(jù)庫中不完整信息進(jìn)行了檢測與預(yù)處理,并采用多元回歸KNN方法對(duì)其進(jìn)行了填充,從而獲得了較好的填充效果,滿足填充方法設(shè)計(jì)需求。

4 結(jié)束語

本文設(shè)計(jì)了一個(gè)基于多元回歸KNN的網(wǎng)絡(luò)數(shù)據(jù)庫不完整信息填充方法,該方法能夠通過系數(shù)的調(diào)整有效消除缺失數(shù)據(jù)帶來的噪聲對(duì)填充結(jié)果的影響,更好的解決了因缺失數(shù)據(jù)噪聲帶來填充結(jié)果偏差大的問題,通過觀察實(shí)驗(yàn)結(jié)果可知,此次研究的網(wǎng)絡(luò)數(shù)據(jù)庫不完整信息填充方法較傳統(tǒng)兩種填充方法填充速度快,對(duì)于網(wǎng)絡(luò)數(shù)據(jù)庫不完整信息檢測花費(fèi)的時(shí)間也少,證明此次研究的方法較傳統(tǒng)方法應(yīng)用效果好。

但是此次研究的方法也存在一定的不足,對(duì)缺失數(shù)據(jù)補(bǔ)全之后得到的重組矩陣秩的確定是不唯一的,如何找到最優(yōu)的秩仍需要進(jìn)一步研究,從而提高數(shù)據(jù)庫不完整信息填充效果。

猜你喜歡
數(shù)據(jù)庫信息方法
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
數(shù)據(jù)庫
數(shù)據(jù)庫
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
數(shù)據(jù)庫
數(shù)據(jù)庫
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
展會(huì)信息
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 国产美女丝袜高潮| 尤物特级无码毛片免费| 片在线无码观看| 国产精品亚洲精品爽爽| 欧美精品色视频| 亚洲国产天堂久久综合| 亚洲婷婷丁香| 亚洲三级影院| 久久久久久尹人网香蕉| 国产毛片高清一级国语 | 无码中文字幕精品推荐| 欧美成人h精品网站| 国产精品久久久久久久久| 欧美区一区| 波多野结衣无码视频在线观看| 最新国产麻豆aⅴ精品无| 99久久精品免费看国产免费软件| 色综合婷婷| 亚洲成人一区二区三区| 免费人成又黄又爽的视频网站| 亚洲av无码人妻| 久久久91人妻无码精品蜜桃HD| 2020精品极品国产色在线观看| 色悠久久综合| 亚洲欧洲日韩综合色天使| 精品久久久久无码| 成人午夜福利视频| 四虎影视永久在线精品| 亚洲色图综合在线| 四虎在线观看视频高清无码| 欧美成人一级| 亚洲91精品视频| 欧美a级完整在线观看| 国产色偷丝袜婷婷无码麻豆制服| 中文字幕在线一区二区在线| 精品成人一区二区三区电影 | 国产精品三级av及在线观看| 久久精品人人做人人爽97| 天天摸天天操免费播放小视频| 国产高清国内精品福利| 中文字幕欧美日韩高清| 成人一级黄色毛片| 亚洲欧美日韩色图| 欧美视频在线第一页| 8090成人午夜精品| 亚洲精品在线观看91| 亚洲高清无码精品| 最新精品久久精品| 久久久黄色片| 亚洲区欧美区| 国产一区二区三区在线无码| 日韩中文精品亚洲第三区| 午夜福利视频一区| 久久这里只有精品23| 天天色综网| 中文字幕中文字字幕码一二区| 色AV色 综合网站| 黄色片中文字幕| 高清久久精品亚洲日韩Av| 国产精品分类视频分类一区| 国产精品美女网站| 日本五区在线不卡精品| 毛片在线区| 日韩精品成人在线| 四虎影视库国产精品一区| 91视频精品| 国产成人91精品免费网址在线| 久久综合一个色综合网| a色毛片免费视频| 亚洲最猛黑人xxxx黑人猛交| 啊嗯不日本网站| 国产成人欧美| 毛片手机在线看| 国产成人综合欧美精品久久 | 亚洲二区视频| 亚洲免费福利视频| 亚洲国产看片基地久久1024| 女人爽到高潮免费视频大全| 欧美成人精品在线| 欧美亚洲另类在线观看| 国产00高中生在线播放| 精品国产免费第一区二区三区日韩|