李 菲,梁振宇
(1.中國(guó)人民武裝警察部隊(duì)遼寧省總隊(duì),遼寧 沈陽(yáng) 110000;2.沈陽(yáng)大學(xué)建筑工程學(xué)院,遼寧 沈陽(yáng) 110000)
電子通信網(wǎng)絡(luò)具有多線(xiàn)程性,用戶(hù)在不斷地交換、傳輸數(shù)據(jù)流的過(guò)程中,會(huì)產(chǎn)生大量的冗余流量或數(shù)據(jù)碎片,這些冗余的數(shù)據(jù)流會(huì)不斷增加存儲(chǔ)負(fù)擔(dān),降低網(wǎng)絡(luò)速度。因此,消除電子通信中數(shù)據(jù)流的冗余是十分必要的,目前,它在信息技術(shù)領(lǐng)域受到了廣泛的關(guān)注,是現(xiàn)階段的研究熱點(diǎn)之一。
文獻(xiàn)[1]為減少測(cè)試變異數(shù),縮短測(cè)試運(yùn)行時(shí)間,研究了變異測(cè)試優(yōu)化技術(shù),提出了基于數(shù)據(jù)流分析的冗余變異概念和冗余變異識(shí)別方法。通過(guò)11 C程序?qū)υ摲椒ǖ目尚行院陀行赃M(jìn)行了分析,但由于過(guò)于注重?cái)?shù)據(jù)之間的相關(guān)性,容易忽略網(wǎng)絡(luò)環(huán)境的約束,影響冗余數(shù)據(jù)關(guān)聯(lián)規(guī)則的準(zhǔn)確性,增加冗余數(shù)據(jù)的誤判率,降低了消除效率。文獻(xiàn)[2]冗余消除方法是將數(shù)據(jù)分割成數(shù)據(jù)塊。該方法需要建立一個(gè)基于冗余數(shù)據(jù)特征的關(guān)系空間,將切割后的數(shù)據(jù)片段輸入到該空間中,然后利用特征關(guān)系屬性找到與冗余特征相關(guān)的數(shù)據(jù)塊,最后逐個(gè)剔除,完成對(duì)冗余數(shù)據(jù)的清理。但是,由于需要對(duì)所有的數(shù)據(jù)逐一進(jìn)行剪切,任務(wù)龐大,目標(biāo)范圍過(guò)大。對(duì)于數(shù)據(jù)量大的網(wǎng)絡(luò)環(huán)境,會(huì)出現(xiàn)冗余干擾等現(xiàn)象,降低了消除效率。
本文基于上述問(wèn)題,提出一種多線(xiàn)程電子通信網(wǎng)絡(luò)數(shù)據(jù)流冗余量消除方法。
網(wǎng)絡(luò)信息環(huán)境下數(shù)據(jù)特征具有相似性,在剔除冗余數(shù)據(jù)時(shí),特征相似的數(shù)據(jù)往往會(huì)導(dǎo)致多重分類(lèi)處理的現(xiàn)象,容易產(chǎn)生錯(cuò)誤,影響剔除的準(zhǔn)確性。此時(shí),有必要對(duì)具有相似特征的數(shù)據(jù)進(jìn)行查找和分類(lèi),有助于提高后續(xù)冗余數(shù)據(jù)流消除的速度,減少相似性對(duì)消除過(guò)程的干擾,提高整體效率。
分類(lèi)前需要提取數(shù)據(jù)的特征,并采用假設(shè)和主動(dòng)抽樣的方法提取數(shù)據(jù)的特征,并以計(jì)算出的特征值作為判斷依據(jù)來(lái)確定相似數(shù)據(jù)。
首先,假設(shè)對(duì)初始數(shù)據(jù)進(jìn)行采樣的所有樣本合集數(shù)目為N,則樣本合集的最大類(lèi)別表示為Nmax;最小類(lèi)別表示為Nmin,基于此可引出,當(dāng)包含初始數(shù)據(jù)的最大類(lèi)別的樣本合集數(shù)量多于最小類(lèi)別的樣本數(shù)量時(shí),可表示為Nmax?Nmin,設(shè)ρl為每類(lèi)數(shù)據(jù)樣本集合中的分類(lèi)密度特征[5],計(jì)算公式為
ρl=Ml/K(l=1,2,…,Nmin)
(1)
其中,K表示活躍在數(shù)據(jù)特征空間中,且最符合歐式距離關(guān)系的鄰近數(shù)據(jù)值[6-7],Ml表示包含此鄰近數(shù)據(jù)值K的最大類(lèi)別的特征樣本合集,以此可以準(zhǔn)確判斷出ρl∈[0,1],與其相關(guān)的分類(lèi)密度ρl可表示為

(2)
假設(shè),第p個(gè)數(shù)據(jù)特征的樣本集合在第j次提取表現(xiàn)時(shí)的特征目標(biāo)數(shù)值為dpj,輸出數(shù)值為ypj(τ),根據(jù)此關(guān)系,推導(dǎo)出符合約束條件的數(shù)據(jù)特征表達(dá)式為

(3)
其中,τ表示數(shù)據(jù)進(jìn)行多次迭代的次數(shù)[8],n表示最終輸出的特征數(shù)據(jù)數(shù)量,m表示最后一個(gè)樣本訓(xùn)練合集包含數(shù)據(jù)的數(shù)量,根據(jù)數(shù)據(jù)迭代的所有次數(shù)將其表示為
w(τ+1)=w(τ)+ηΔw(τ)+α(w(τ)-w(τ-1))
(4)
其中,η表示數(shù)據(jù)迭代的效率,α表示基于相似特征的動(dòng)態(tài)變量因子[9],根據(jù)式(4)進(jìn)行數(shù)據(jù)提取時(shí)的特征收縮量表示為[10]

(5)
式中,φpj(τ)表示輸入初始數(shù)據(jù)的總數(shù)目,o(τ)表示輸出相似特征數(shù)據(jù)的總數(shù)目,以此為基礎(chǔ),完成基于網(wǎng)絡(luò)大環(huán)境下的相似性數(shù)據(jù)特征提取。
設(shè)含有正常數(shù)據(jù)的訓(xùn)練樣本集合表示為Nh,線(xiàn)性激勵(lì)函數(shù)表達(dá)關(guān)系為g(x),包含相似特征數(shù)據(jù)的樣本表示為(xq,tq),且符合以下約束條件
xq=[xq1,xq2,xq3,…,xqn]T∈Rn
(6)
tq=[tq1,tq2,tq3,…,tqm]T∈Rm
(7)
根據(jù)上述兩種公式關(guān)系,可建立最終的相似性特征數(shù)據(jù)的提取公式如下

(8)
其中,f表示相似數(shù)據(jù)的數(shù)量。
基于相似特征數(shù)據(jù)的有效提取,采取數(shù)據(jù)動(dòng)態(tài)特性的頻譜分析法對(duì)其進(jìn)行有效分類(lèi)。
冗余數(shù)據(jù)的特征會(huì)呈現(xiàn)一種離散狀態(tài)[11],根據(jù)此特性建立相關(guān)分析公式,設(shè)數(shù)據(jù)采集空間關(guān)于時(shí)間的關(guān)系為z=z0,其冗余數(shù)據(jù)特征在空間內(nèi)的離散狀態(tài)表示為
S+(zm)=W+(zm,z0)S+(z0)
(9)
其中,W+(zm,z0)表示空間內(nèi)時(shí)間點(diǎn)z0到zm的特征分類(lèi)的數(shù)據(jù)算子,S+(z0)表示冗余數(shù)據(jù)的分類(lèi)合集,在進(jìn)行有效分類(lèi)時(shí),可以通過(guò)減去前M階級(jí)再進(jìn)行逐一分類(lèi),M階級(jí)前的分類(lèi)處理結(jié)果為
p(z0)S+(z0)
(10)
其中,p(z0)表示初始數(shù)據(jù),t(z0)表示冗余數(shù)據(jù)的關(guān)鍵特征。
假設(shè),f0表示原始數(shù)據(jù)的離散動(dòng)態(tài)頻率,冗余數(shù)據(jù)的分類(lèi)處理結(jié)果為

(11)
基于上述過(guò)程,利用頻譜關(guān)系[12]的線(xiàn)性分析法可以得到最終的適應(yīng)函數(shù),能實(shí)現(xiàn)對(duì)大量冗余數(shù)據(jù)的分類(lèi),其表示為
F=XmaxA+(1-Xmax)B
(12)
其中,A表示分類(lèi)精準(zhǔn)度,B表示消除的比例,對(duì)此實(shí)現(xiàn)加權(quán)操作,得出最終分類(lèi)處理結(jié)果

(13)
基于上述步驟可完成最終的冗余數(shù)據(jù)分類(lèi)方法,為后續(xù)消除處理打下良好基礎(chǔ)。
根據(jù)上述過(guò)程中相似特征數(shù)據(jù)的計(jì)算和分類(lèi),可以根據(jù)相似特征閾值快速確定數(shù)據(jù)的離散狀態(tài),在一定程度上保證了后續(xù)冗余數(shù)據(jù)流搜索和消除的效率。
利用網(wǎng)絡(luò)環(huán)境中冗余數(shù)據(jù)的動(dòng)態(tài)變化特性和更新?tīng)顟B(tài),進(jìn)行實(shí)時(shí)跟蹤記錄,標(biāo)記網(wǎng)絡(luò)中字節(jié)頻率變化最大的數(shù)據(jù)流,實(shí)時(shí)觀察其變化情況,并且所有數(shù)據(jù)流狀態(tài)表現(xiàn)最相似的數(shù)據(jù)都可以判斷為冗余數(shù)據(jù),從而完成多線(xiàn)程電子通信,查找網(wǎng)絡(luò)中所有冗余數(shù)據(jù)流的具體操作步驟如下。
1)首先,假設(shè)在多線(xiàn)程電子通信網(wǎng)絡(luò)中有256種不同類(lèi)別的冗余數(shù)據(jù)流,且在實(shí)時(shí)狀態(tài)下出現(xiàn)的頻率為[p0,p1,p2,…,p255],而在這之中,所有數(shù)據(jù)流的字節(jié)值在初始時(shí)表現(xiàn)的不同狀態(tài)的概率為[f0,f1,f2,…,f255],挑選在其中表現(xiàn)狀態(tài)不同的字節(jié)值表示為x0,x1,x2,…,x255,并將其進(jìn)行串聯(lián)合并就可得到

(14)
此公式代表,挑選出的所有經(jīng)過(guò)標(biāo)記后的冗余數(shù)據(jù)的出現(xiàn)概率都要小于且等于此數(shù)值1/p。

(15)
其中,fi表示動(dòng)態(tài)查找的最大限度值,且利用greedy算法,對(duì)此公式進(jìn)行求解即可得到離散狀態(tài)下的實(shí)時(shí)冗余數(shù)據(jù)位置。該算法的計(jì)算特征是不考慮整體的數(shù)據(jù)情況,只以其中某一個(gè)測(cè)量點(diǎn)為選擇重點(diǎn),進(jìn)行計(jì)算,在一定程度上可減少耗用時(shí)間,增強(qiáng)查找效率。
利用加權(quán)算法對(duì)冗余數(shù)據(jù)進(jìn)行有效消除,步驟如下所示:
首先,建立冗余數(shù)據(jù)消除空間,然后將上述過(guò)程中發(fā)現(xiàn)的冗余數(shù)據(jù)放入空間,實(shí)時(shí)跟蹤記錄冗余字節(jié)值的數(shù)量和頻率,并對(duì)冗余頻率不同的數(shù)據(jù)片段進(jìn)行加權(quán)和集成,以去除重復(fù)數(shù)據(jù)片段。具體步驟如下:
假設(shè),在對(duì)冗余數(shù)據(jù)進(jìn)行統(tǒng)計(jì)計(jì)算時(shí),將標(biāo)記的首個(gè)字節(jié)為A的冗余數(shù)據(jù)片段的左右距離表示為L(zhǎng),其中,挑選左右距離為L(zhǎng)的有效數(shù)據(jù)片段,表示為L(zhǎng)S。這時(shí)如果選中前一位數(shù)據(jù),后一位就會(huì)被覆蓋,此時(shí)就需要進(jìn)行消除處理,步驟如圖1所示。

圖1 重復(fù)覆蓋數(shù)據(jù)處理流程
在實(shí)際的網(wǎng)絡(luò)冗余數(shù)據(jù)消除過(guò)程中,其數(shù)據(jù)流在離散狀態(tài)下的貢獻(xiàn)頻率為

(16)
式中,cA表示重復(fù)冗余數(shù)據(jù)的修正頻率。
處理重復(fù)數(shù)據(jù)后,通過(guò)隨機(jī)映射的方式將冗余數(shù)據(jù)包與正常數(shù)據(jù)包進(jìn)行交換,設(shè)BF為隨機(jī)映射函數(shù),長(zhǎng)度為m,其網(wǎng)絡(luò)代碼的二進(jìn)制數(shù)目為q,e表示隨機(jī)映射合集。當(dāng)將其輸入至冗余數(shù)據(jù)空間時(shí),可以通過(guò)映射檢測(cè)得出其中的比特元素編碼,該編碼可以對(duì)冗余數(shù)據(jù)實(shí)現(xiàn)有效替換,它們的替換關(guān)系表示為
p≈(1-e-qn/m)q
(17)
其中,n表示替換元素。為了有效保證冗余數(shù)據(jù)替換消除的時(shí)效性,需要選取距離長(zhǎng)度為m=2.5MB的二進(jìn)制數(shù)據(jù)編碼,可以在最大程度上實(shí)現(xiàn)冗余數(shù)據(jù)的消除。
在多線(xiàn)程電子通信網(wǎng)絡(luò)中對(duì)冗余量的整體消除流程下所示。

圖2 冗余數(shù)據(jù)的消除流程
為了確認(rèn)多線(xiàn)程電子通信網(wǎng)絡(luò)中冗余消除過(guò)程的有效性,采用數(shù)據(jù)配置為Intel XeonE3-1230V2的終端服務(wù)器,4核配置的CPU處理器,8G內(nèi)存,128G固態(tài)硬盤(pán)等作為實(shí)驗(yàn)工具。采取某地區(qū)的三種電子通信網(wǎng)絡(luò),將其引入大小為70.2GB的流量包,進(jìn)行冗余數(shù)據(jù)的特征和查找以及最后的消除,確保實(shí)驗(yàn)環(huán)境的可實(shí)施性。
將文獻(xiàn)[1]和文獻(xiàn)[2]方法與本文進(jìn)行對(duì)比分析,保證實(shí)驗(yàn)結(jié)果的真實(shí)性及合理性,其網(wǎng)絡(luò)環(huán)境及流量參數(shù)如表1所示。

表1 實(shí)驗(yàn)環(huán)境及流量參數(shù)
挑選表1中的1號(hào)和5號(hào)大范圍跟蹤數(shù)據(jù)作為實(shí)驗(yàn)背景,其目標(biāo)范圍較大,可以保證實(shí)驗(yàn)的直觀性。通過(guò)三種方法分別對(duì)兩種跟蹤數(shù)據(jù)下的所有冗余數(shù)據(jù)進(jìn)行消除,得出實(shí)驗(yàn)的字節(jié)數(shù)據(jù)節(jié)省空間對(duì)比結(jié)果如圖3所示。

圖3 跟蹤數(shù)據(jù)1號(hào)的字節(jié)數(shù)據(jù)節(jié)省空間
從圖3和圖4的對(duì)比分析結(jié)果可以看出,無(wú)論在哪種流量環(huán)境下,基于本文的冗余數(shù)據(jù)消除方法的字節(jié)節(jié)省率都要高于其它兩種算法30GB以上。其它兩種方法中,字節(jié)節(jié)省率曲線(xiàn)呈現(xiàn)出波動(dòng)大、狀態(tài)不穩(wěn)定的下降趨勢(shì)。這主要是因?yàn)樗^(guò)于依賴(lài)冗余數(shù)據(jù)的特征屬性,而忽略了原始數(shù)據(jù)造成的冗余干擾。數(shù)據(jù)之間的相似性會(huì)導(dǎo)致多次分類(lèi)處理無(wú)果的現(xiàn)象,導(dǎo)致離散狀態(tài)的冗余數(shù)據(jù)頻繁出現(xiàn),無(wú)法消除或殘存,數(shù)據(jù)完整性較差,從而降低了準(zhǔn)確率和效率。但是因?yàn)楸疚姆椒ㄔ谒阉骱拖哂鄶?shù)據(jù)之前,該方法首先計(jì)算并分類(lèi)原始數(shù)據(jù)相關(guān)特征的相似度,可以有效地對(duì)特征相似數(shù)據(jù)進(jìn)行區(qū)分,而不存在冗余干擾,從而減少后續(xù)消元過(guò)程中的判斷誤差,提高整體準(zhǔn)確度,保證消元過(guò)程的有效實(shí)施。

圖4 跟蹤數(shù)據(jù)5號(hào)的字節(jié)數(shù)據(jù)節(jié)省空間
以表1中的4號(hào)跟蹤數(shù)據(jù)作為實(shí)驗(yàn)背景。通過(guò)三種方法分別對(duì)兩種跟蹤數(shù)據(jù)下的所有冗余數(shù)據(jù)進(jìn)行消除,得出消除過(guò)程的整體加速比指標(biāo)的對(duì)比結(jié)果如圖5所示。

圖5 跟蹤數(shù)據(jù)4號(hào)的加速比對(duì)比
加速比表示基于同一項(xiàng)目任務(wù)的任意兩種處理系統(tǒng)的數(shù)據(jù)運(yùn)行耗用與時(shí)間消耗的比值,其表達(dá)公式如下所示

(18)
式中,p表示CPU耗用數(shù)量;T1表示整體耗用時(shí)間;Tp表示任務(wù)處理時(shí)整體耗用的時(shí)間。
從圖5的對(duì)比分析結(jié)果可以看出,使用本文方法的加速比曲線(xiàn)整體走勢(shì)平緩,穩(wěn)定性較強(qiáng),
表明消除過(guò)程耗用時(shí)間較少,速度較快,可以降低網(wǎng)絡(luò)的延遲性,改善數(shù)據(jù)儲(chǔ)存問(wèn)題。
1)對(duì)原始數(shù)據(jù)進(jìn)行特征相似度搜索和分類(lèi)的預(yù)處理,可以有效地改善原始數(shù)據(jù)造成的冗余干擾和處理的惡性循環(huán),加速比最高可達(dá)8,大幅提高后續(xù)的消除效率和處理難度。
2)采用數(shù)據(jù)替換的方法可以有效地消除冗余數(shù)據(jù)流量,同時(shí)又不破壞數(shù)據(jù)的原有特性,保證數(shù)據(jù)的完整性,高于其它兩種算法30GB以上,可以節(jié)省大量的網(wǎng)絡(luò)空間,優(yōu)化多線(xiàn)程電子通信網(wǎng)絡(luò)。