孫壯
(曲阜師范大學(xué),山東濟(jì)寧 272000)
在數(shù)據(jù)分析研究過程中,數(shù)據(jù)壓縮是一個(gè)基礎(chǔ)問題。一方面,數(shù)據(jù)壓縮能夠減小存儲(chǔ)空間,降低傳輸成本;另一方面,數(shù)據(jù)壓縮可以降低數(shù)據(jù)挖掘復(fù)雜度,并且可以保障數(shù)據(jù)內(nèi)容的完整性與精確性。在常規(guī)的數(shù)據(jù)應(yīng)用場(chǎng)景中,通信傳輸容量存在限制,對(duì)原始數(shù)據(jù)進(jìn)行壓縮是保障有效傳輸?shù)年P(guān)鍵手段之一[1-2]。數(shù)據(jù)壓縮需要滿足下述需求:一是保留原始數(shù)據(jù)局部、全局特征,并可以通過某種手段還原原始數(shù)據(jù);二是數(shù)據(jù)壓縮運(yùn)算不能夠過于繁瑣、復(fù)雜,保障壓縮、解壓與隨機(jī)訪問速度。就現(xiàn)有研究成果來看,已有數(shù)據(jù)壓縮模型由于應(yīng)用方法自身缺陷,致使壓縮后數(shù)據(jù)容易出現(xiàn)失真現(xiàn)象,影響原始數(shù)據(jù)的精確性,故提出基于稀疏表示的數(shù)據(jù)無失真壓縮模型構(gòu)建方法。
為了避免數(shù)據(jù)壓縮出現(xiàn)失真現(xiàn)象,基于超完備字典學(xué)習(xí)方法稀疏表示數(shù)據(jù),簡(jiǎn)化數(shù)據(jù)的結(jié)構(gòu),為后續(xù)數(shù)據(jù)缺失填補(bǔ)奠定堅(jiān)實(shí)的基礎(chǔ)。
超完備字典學(xué)習(xí)方法主要應(yīng)用于數(shù)據(jù)稀疏表示基函數(shù)獲取階段,通過系數(shù)與稀疏表示基函數(shù)使得原始數(shù)據(jù)特征不改變[3]。設(shè)定超完備字典為L∈Rm×n,數(shù)據(jù)樣本集合為,其對(duì)應(yīng)的稀疏表示系數(shù)向量集合為。其中,m為數(shù)據(jù)樣本總數(shù)量,n為稀疏表示系數(shù)總數(shù)量,則超完備字典學(xué)習(xí)原理表達(dá)式為:
以式(1)確定的超完備字典學(xué)習(xí)過程為基礎(chǔ),制定超完備字典學(xué)習(xí)[4-5]具體步驟,具體如下所示:
步驟1:超完備字典初始化。基于給定的過完備字典或者數(shù)據(jù)樣本對(duì)字典進(jìn)行初始化處理;
步驟2:稀疏編碼。以步驟1 初始化后的字典L為基礎(chǔ),基于正交匹配追蹤算法求解每一個(gè)數(shù)據(jù)樣本ai對(duì)應(yīng)的稀疏系數(shù)向量bi。
步驟3:超完備字典更新。以步驟2 計(jì)算的稀疏系數(shù)向量bi為依據(jù),對(duì)超完備字典L進(jìn)行更新處理。依據(jù)上述步驟對(duì)L中所有原子進(jìn)行逐列更新,從而產(chǎn)生新的超完備字典。
步驟4:數(shù)據(jù)稀疏表示。將采集的數(shù)據(jù)y輸入至更新后的超完備字典中,獲取稀疏系數(shù)[6]向量{b1,b2,…,bi,…,bn},則數(shù)據(jù)稀疏表示為:
根據(jù)上述過程完成數(shù)據(jù)的稀疏表示,并制定超完備字典的更新方式,以此來保障稀疏系數(shù)向量獲取的精準(zhǔn)度,為最終數(shù)據(jù)壓縮的實(shí)現(xiàn)提供便利。
以稀疏表示后的數(shù)據(jù)為基礎(chǔ),計(jì)算數(shù)據(jù)之間的相似度,應(yīng)用譜聚類算法[7-8]聚類數(shù)據(jù),以此降低數(shù)據(jù)壓縮的運(yùn)算量。
采用自身乘以自身轉(zhuǎn)置的方式,將數(shù)據(jù)稀疏系數(shù)向量轉(zhuǎn)化為n×n方陣,以此為基礎(chǔ),計(jì)算任意兩個(gè)數(shù)據(jù)yi與yj之間的相似度函數(shù),表達(dá)式為:
式中,ηij為數(shù)據(jù)yi與yj之間的相似度函數(shù);為稀疏系數(shù)方陣的相似權(quán)重。
以譜聚類算法為手段,獲取ηij對(duì)應(yīng)的對(duì)角矩陣U與拉普拉斯矩陣V[9-10],對(duì)拉普拉斯矩陣V進(jìn)行求解,獲取多個(gè)特征向量,并對(duì)其進(jìn)行降序排列,通過標(biāo)準(zhǔn)化處理,獲得向量S=[s1,s2,…,sk],sk代表第k個(gè)拉普拉斯矩陣V特征向量[11-12]。以向量S的行向量si為聚類中心,以數(shù)據(jù)與聚類中心si之間的歐氏距離為依據(jù),劃分?jǐn)?shù)據(jù)類別,具體規(guī)則如下式所示:
式中,dij為聚類中心si與數(shù)據(jù)yj的歐氏距離;γ′為歐氏距離的輔助計(jì)算參數(shù);ε0為誤差項(xiàng);d*為聚類歐氏距離閾值。當(dāng)dij≤d*時(shí),將數(shù)據(jù)歸到ci類;當(dāng)dij>d*時(shí),將數(shù)據(jù)歸到其他類。
依據(jù)上述規(guī)則遍歷全部數(shù)據(jù),直至聚類結(jié)束為止,獲得數(shù)據(jù)聚類結(jié)果為{c1,c2,…,cp},為最終的數(shù)據(jù)壓縮提供依據(jù)。
在數(shù)據(jù)稀疏表示與聚類處理過程中,容易出現(xiàn)數(shù)據(jù)丟失現(xiàn)象,造成數(shù)據(jù)缺失,影響數(shù)據(jù)的最終壓縮與應(yīng)用。因此,此研究應(yīng)用SoftImpute 算法[13]填補(bǔ)缺失數(shù)據(jù),為后續(xù)無失真壓縮的實(shí)現(xiàn)做好準(zhǔn)備。
數(shù)據(jù)缺失填補(bǔ)程序如圖1 所示。
如圖1 所示,采用Lasso 優(yōu)化求解來估計(jì)缺失數(shù)據(jù),表達(dá)式為:
將式(5)估計(jì)的缺失數(shù)據(jù)填補(bǔ)到數(shù)據(jù)缺失位置,即可完成數(shù)據(jù)的缺失填補(bǔ),為數(shù)據(jù)的完整性提供保障。
以缺失填補(bǔ)后的數(shù)據(jù)聚類集合C={c1,c2,…,cp}為基礎(chǔ),應(yīng)用k-means 算法[16]對(duì)數(shù)據(jù)進(jìn)行無失真壓縮,為數(shù)據(jù)的應(yīng)用提供便利。
基于PredZip 算法的數(shù)據(jù)無失真壓縮框架如圖2所示。

圖2 數(shù)據(jù)無失真壓縮框架圖
數(shù)據(jù)無失真壓縮主要?jiǎng)澐譃閮蓚€(gè)階段,分別為算術(shù)編碼階段與概率預(yù)測(cè)階段。對(duì)數(shù)據(jù)進(jìn)行獨(dú)立編碼,編碼后數(shù)據(jù)向量只有一個(gè)維度的值為1,其余值均為0,例如00000001、01000000 等。概率預(yù)測(cè)階段主要是對(duì)數(shù)據(jù)概率分布數(shù)值進(jìn)行預(yù)測(cè),以此來保障壓縮數(shù)據(jù)的準(zhǔn)確性。
上述過程實(shí)現(xiàn)了數(shù)據(jù)的無失真壓縮,節(jié)省了存儲(chǔ)空間,為管理人員提供更簡(jiǎn)便的數(shù)據(jù)支撐。
選取基于分布式壓縮感知和邊緣計(jì)算的配電網(wǎng)電能質(zhì)量數(shù)據(jù)壓縮存儲(chǔ)方法與基于變形場(chǎng)測(cè)量數(shù)據(jù)主元壓縮的模型參量反求方法作為對(duì)比模型,設(shè)計(jì)數(shù)據(jù)無失真壓縮對(duì)比實(shí)驗(yàn),以此來驗(yàn)證構(gòu)建模型數(shù)據(jù)壓縮性能。
選取某公司財(cái)務(wù)管理系統(tǒng)財(cái)務(wù)數(shù)據(jù)作為實(shí)驗(yàn)對(duì)象,由于財(cái)務(wù)數(shù)據(jù)體量較大,若直接對(duì)其進(jìn)行應(yīng)用,會(huì)造成實(shí)驗(yàn)過程較長,運(yùn)算量過大等缺陷,也會(huì)導(dǎo)致實(shí)驗(yàn)結(jié)論的偏差。因此,在公司財(cái)務(wù)管理系統(tǒng)中隨機(jī)選取1 100 MB 財(cái)務(wù)數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù),將其隨機(jī)劃分為10 個(gè)實(shí)驗(yàn)組別,為后續(xù)實(shí)驗(yàn)的進(jìn)行提供便利。實(shí)驗(yàn)組別如表1 所示。

表1 實(shí)驗(yàn)組別
如表1 所示,劃分的10 個(gè)實(shí)驗(yàn)組別中,財(cái)務(wù)數(shù)據(jù)量與財(cái)務(wù)數(shù)據(jù)類別具有較大的差別,表明每個(gè)組別的實(shí)驗(yàn)工況存在一定的差異,符合數(shù)據(jù)壓縮模型應(yīng)用性能測(cè)試需求。
為了直觀顯示構(gòu)建模型的應(yīng)用性能,選取壓縮增益、壓縮比與壓縮失真率作為評(píng)價(jià)指標(biāo)進(jìn)行測(cè)試。常規(guī)情況下,壓縮增益數(shù)值越大,壓縮比與壓縮失真率數(shù)值越小,表明數(shù)據(jù)壓縮性能越好;反之,壓縮增益數(shù)值越小,壓縮比與壓縮失真率數(shù)值越大,表明數(shù)據(jù)壓縮性能越差。
以上述準(zhǔn)備的實(shí)驗(yàn)數(shù)據(jù)選取的評(píng)價(jià)指標(biāo)為基礎(chǔ),進(jìn)行財(cái)務(wù)數(shù)據(jù)壓縮實(shí)驗(yàn),記錄實(shí)驗(yàn)數(shù)據(jù),計(jì)算評(píng)價(jià)指標(biāo)數(shù)值,具體如圖3 所示。

圖3 評(píng)價(jià)指標(biāo)數(shù)據(jù)圖
如圖3(a)數(shù)據(jù)所示,相較于兩種對(duì)比模型,應(yīng)用構(gòu)建模型獲得的財(cái)務(wù)數(shù)據(jù)壓縮增益數(shù)值更大,最大值為18.8;如圖3(b)數(shù)據(jù)所示,相較于兩種對(duì)比模型,應(yīng)用構(gòu)建模型獲得的財(cái)務(wù)數(shù)據(jù)壓縮比數(shù)值更小,最小值為0.1;如圖3(c)數(shù)據(jù)所示,相較于兩種對(duì)比模型,應(yīng)用構(gòu)建模型獲得的財(cái)務(wù)數(shù)據(jù)壓縮失真率數(shù)值更小,最小值為0.5%,充分證實(shí)了構(gòu)建模型數(shù)據(jù)壓縮性能更佳。
財(cái)務(wù)數(shù)據(jù)是企業(yè)運(yùn)營管理的主要依據(jù),也是重要決策制定的關(guān)鍵因素。但是,隨著信息化水平的提升,企業(yè)財(cái)務(wù)數(shù)據(jù)數(shù)量呈現(xiàn)暴增趨勢(shì),為財(cái)務(wù)數(shù)據(jù)存儲(chǔ)、應(yīng)用帶來了極大的挑戰(zhàn)。很多企業(yè)由于存儲(chǔ)空間不足,刪除較為久遠(yuǎn)的財(cái)務(wù)數(shù)據(jù),待需要時(shí)無從取證。由此可見,如何對(duì)財(cái)務(wù)數(shù)據(jù)進(jìn)行無失真壓縮處理是保障企業(yè)可持續(xù)發(fā)展的關(guān)鍵手段,故提出基于稀疏表示的數(shù)據(jù)無失真壓縮模型構(gòu)建研究。實(shí)驗(yàn)數(shù)據(jù)表明,構(gòu)建模型大幅度提升了數(shù)據(jù)壓縮增益,降低了數(shù)據(jù)壓縮比與壓縮失真率,能夠?yàn)樨?cái)務(wù)數(shù)據(jù)處理提供更有效的模型支撐,也為相關(guān)研究提供一定的借鑒。