桑 振,胡 建
(河北農(nóng)業(yè)大學(xué),河北 保定 071000)
伴隨互聯(lián)網(wǎng)和物聯(lián)網(wǎng)等技術(shù)的逐漸成熟,各類(lèi)數(shù)據(jù)量呈爆發(fā)式增長(zhǎng),其中蘊(yùn)含大量具有科學(xué)價(jià)值與應(yīng)用價(jià)值的信息,其不僅能為互聯(lián)網(wǎng)帶來(lái)發(fā)展機(jī)遇,還能為人們生活生產(chǎn)提供更好的服務(wù)。但與此同時(shí),網(wǎng)絡(luò)也時(shí)刻都需要面臨海量數(shù)據(jù)的采集、分析、存儲(chǔ)問(wèn)題,再通過(guò)挖掘不同用戶(hù)數(shù)據(jù)中的有效信息,創(chuàng)造符合用戶(hù)需求的服務(wù),從而提升產(chǎn)業(yè)價(jià)值。然而信息大爆炸時(shí)代的到來(lái)使大數(shù)據(jù)集快速、有效存儲(chǔ)成為互聯(lián)網(wǎng)公司當(dāng)前面臨的新挑戰(zhàn)[1,2]。已有存儲(chǔ)設(shè)備易發(fā)生老化、故障等情況,且難以確保信息絕對(duì)安全傳輸,導(dǎo)致信息丟失或泄露現(xiàn)象頻發(fā)。另外,已有存儲(chǔ)設(shè)備的內(nèi)存空間有限會(huì)約束存儲(chǔ)信息的規(guī)模,導(dǎo)致其對(duì)大數(shù)據(jù)集的存儲(chǔ)和傳輸能力較差,且有關(guān)技術(shù)的發(fā)展速度與數(shù)據(jù)集規(guī)模擴(kuò)大速度不匹配[3],因此,信息壓縮存儲(chǔ)方法逐漸引起相關(guān)領(lǐng)域的關(guān)注。該方法是指通過(guò)使原信息損失或不損失的形式,對(duì)重復(fù)信息進(jìn)行壓縮,以達(dá)到信息數(shù)據(jù)量降低、存儲(chǔ)空間減少的目的,包含可擴(kuò)展性良好、負(fù)載均衡、成本較低等優(yōu)勢(shì),是影響大數(shù)據(jù)集存儲(chǔ)最深遠(yuǎn)的一項(xiàng)技術(shù)。
很多相關(guān)專(zhuān)家學(xué)者均在此類(lèi)技術(shù)的研究上取得杰出成就,例如楊耀森[4]等人使用多核架構(gòu)實(shí)現(xiàn)對(duì)圖像信息的壓縮存儲(chǔ),該方法的信息傳輸速率高達(dá)35MB/s,且兼容性較高,但方法架構(gòu)不能完全適應(yīng)所有應(yīng)用系統(tǒng)。王鶴[5]等人使用分布式壓縮感知和邊緣計(jì)算實(shí)現(xiàn)對(duì)電力信息的壓縮存儲(chǔ),該方法壓縮后的信息完整性較高,且通信開(kāi)銷(xiāo)大大降低,但對(duì)大規(guī)模數(shù)據(jù)的計(jì)算復(fù)雜度有待提升。
窄帶物聯(lián)網(wǎng)是萬(wàn)物互聯(lián)網(wǎng)絡(luò)的重要組成部分,具有帶寬消耗低等特點(diǎn),能實(shí)現(xiàn)較高要求設(shè)備的高效連接,且能提供全面的數(shù)據(jù)連接覆蓋。因此,本文提出基于窄帶物聯(lián)網(wǎng)的信息壓縮存儲(chǔ)方法,通過(guò)移動(dòng)采集感知層、網(wǎng)絡(luò)層和應(yīng)用層的相互協(xié)作,實(shí)現(xiàn)信息壓縮存儲(chǔ),以滿(mǎn)足目前不斷增長(zhǎng)的大數(shù)據(jù)集有效存儲(chǔ)需求。
引入窄帶物聯(lián)網(wǎng)對(duì)信息進(jìn)行管理,構(gòu)建如圖1所示的基于窄帶物聯(lián)網(wǎng)的信息管理模型。

圖1 基于窄帶物聯(lián)網(wǎng)的信息管理模型
圖1中,LoRa網(wǎng)絡(luò)和若干智能終端采集裝置共同構(gòu)成移動(dòng)采集感知層,該網(wǎng)絡(luò)以星型網(wǎng)絡(luò)作為架構(gòu),該裝置能夠自主獲取需要的農(nóng)業(yè)信息,使用LoRa網(wǎng)絡(luò)將所得信息傳輸?shù)骄W(wǎng)絡(luò)層的LoRa網(wǎng)關(guān)匯聚節(jié)點(diǎn);TCP/IP協(xié)議包含于匯聚節(jié)點(diǎn)內(nèi),其接收到傳輸?shù)男畔⒑?經(jīng)過(guò)整合處理將信息傳輸至應(yīng)用層;應(yīng)用層是信息管理模型的核心部分,包含壓縮存儲(chǔ)模塊、數(shù)據(jù)庫(kù)、管理計(jì)算機(jī)等。其中,壓縮存儲(chǔ)模塊通過(guò)基于規(guī)范Hadamard矩陣的信息壓縮存儲(chǔ)方法對(duì)接收到的信息進(jìn)行壓縮存儲(chǔ),并將結(jié)果保存至數(shù)據(jù)庫(kù),用戶(hù)利用管理計(jì)算機(jī)可以操作數(shù)據(jù)庫(kù)中的信息,以及查看返回結(jié)果。
該矩陣在信息處理、通信等領(lǐng)域應(yīng)用十分廣泛。假設(shè)A=(aij)表示實(shí)數(shù)方陣,其階數(shù)用m描述,該方陣滿(mǎn)足式(1)所示表達(dá)式

(1)

設(shè)置Hadamard矩陣階數(shù)為m,如果它是行規(guī)范的H-矩陣,那么該矩陣滿(mǎn)足第一行元素均為1;如果它是列規(guī)范的H-矩陣,那么該矩陣滿(mǎn)足第一列元素均為1;如果它是規(guī)范的H-矩陣,那么該矩陣應(yīng)該同時(shí)滿(mǎn)足上述兩個(gè)條件[6,7]。下述為Hadamard矩陣性質(zhì)。
H-矩陣用Hm描述,其階數(shù)為m,可獲得如式(2)所示表達(dá)式

(2)

若H為H-矩陣,通過(guò)行或列換序、多行或多列與-1相乘、轉(zhuǎn)置操作的任意組合處理H,獲得H′,其仍是H-矩陣。


(3)
式內(nèi),h1j和h2j相加等于±2或0,h1j和h3j相加同樣等于±2或0,所以可得,上式各項(xiàng)與等號(hào)左邊均為4的倍數(shù)[8]。
假設(shè)H是m階H-矩陣,能得到2m階H-矩陣。若某整數(shù)用t描述,其值大于等于0,則存在2t階H-矩陣。
在上述Hadamard矩陣性質(zhì)的基礎(chǔ)上,可將其描述為式(4)所示的遞推關(guān)系
(4)


(5)
通過(guò)上述內(nèi)容得出,Hadamard矩陣為滿(mǎn)秩矩陣,且經(jīng)過(guò)初等變換所得結(jié)果仍為滿(mǎn)秩矩陣。
假設(shè)存在n階矩陣,采用n維數(shù)組描述其在計(jì)算機(jī)內(nèi)的形式,抽象數(shù)據(jù)對(duì)象數(shù)組表達(dá)式用式(6)描述
Array{D={aj1,j2…jn}|j=0,…,bi-1,i=1,2,…,n}
(6)
式內(nèi),數(shù)組維數(shù)用n描述,其值大于0;處于i維位置,數(shù)組的維界用bi描述;處于i維位置,數(shù)組元素的下標(biāo)用ji描述;數(shù)組元素用aj1,j2…jn描述。
在n等于1的條件下,可使用長(zhǎng)度固定的線(xiàn)性表描述n維數(shù)組;在n大于1的條件下,可將n維數(shù)組看作線(xiàn)性表位于n維空間的拓展,因此可將二維數(shù)組的各元素看作長(zhǎng)度固定的線(xiàn)性表。以式(7)描述的數(shù)組為例,具體如下
A={am-1,n-1}m×n
(7)
能夠?qū)⑸鲜疆?dāng)作線(xiàn)性表,用A=(α0,α1,…,αp)描述,且p=m-1或p=n-1。
若各元素為行向量線(xiàn)性表,則p=m-1,用αi=(αi0,αi1,…,αi,n-1)描述,且0≤i≤m-1;若各元素為列向量線(xiàn)性表,則p=n-1,用αj=(α0j,α1j,…,αm-1,j)T描述,且0≤j≤n-1,使矩陣A變成一維數(shù)組的存儲(chǔ)形式。
若二維數(shù)組將行序當(dāng)作主序,其占用的存儲(chǔ)單元數(shù)量為L(zhǎng),可利用下式描述某元素αij的存儲(chǔ)地址
Loc(i,j)=Loc(0,0)+(b2·i+j)L
(8)
式內(nèi),元素的基址用Loc(0,0)描述。上式可轉(zhuǎn)換為式(9)所示形式,是在維界等于b1、b2的情況下
Loc(b1-1,b2-1)=Loc(0,0)b1b2L
=Loc(0,0)+[b2·(b1-1)+b2]L
(9)
將上式的L和Loc(i,j)=0分別設(shè)置成1、0,可使用b1b2描述二維數(shù)組的歸一化存儲(chǔ)空間[11,12]。

根據(jù)Hadamard矩陣定義,N階規(guī)范Hadamard矩陣具有對(duì)稱(chēng)性,其中N=2m、m∈Z。通常使用上、下三角N階矩陣完成對(duì)稱(chēng)矩陣的存儲(chǔ)。

設(shè)置一維數(shù)組用h[N(N+1)/2]描述,將其當(dāng)作階數(shù)為N的規(guī)范Hadamard矩陣的存儲(chǔ)結(jié)構(gòu),那么h[k]與各元素aij相互匹配,具體用式(10)描述

(10)

以某市東北方向農(nóng)業(yè)區(qū)域作為實(shí)驗(yàn)對(duì)象,使用本文方法采集106條農(nóng)業(yè)信息,根據(jù)領(lǐng)域?qū)⑺眯畔澐殖?0個(gè)子集,通過(guò)本文方法實(shí)現(xiàn)采集信息的壓縮存儲(chǔ),以驗(yàn)證該方法的有效性。
引入壓縮比衡量信息壓縮效果,其值越大,壓縮性能越優(yōu)異,計(jì)算過(guò)程為:(1-壓縮后大小/壓縮前大小)×100%。不同信息規(guī)模下,使用本文方法與未使用本文方法的壓縮時(shí)間、解壓縮時(shí)間、壓縮比結(jié)果用表1描述。

表1 不同信息規(guī)模的信息壓縮結(jié)果
分析表1可以看出,隨著信息規(guī)模不斷擴(kuò)大,本文方法使用前后的壓縮時(shí)間和解壓縮時(shí)間均呈上升趨勢(shì)。相較于本文方法使用前,使用本文方法后的兩個(gè)時(shí)間都節(jié)約50%以上,本文方法后的壓縮比始終在75%~90%之間變使用化,而本文方法使用前的最大壓縮比僅為45.3%。對(duì)比以上結(jié)果表明,本文方法的信息壓縮效果良好且效率高。
使用本文方法對(duì)土地信息集進(jìn)行壓縮存儲(chǔ),其中信息高度密集區(qū)域及其經(jīng)過(guò)壓縮處理后的可視化結(jié)果用圖2描述,圖中方塊表示信息。通過(guò)分析圖2中的結(jié)果可以看出,信息高度密集區(qū)域的信息規(guī)模較為龐大,存儲(chǔ)時(shí)會(huì)占用較多存儲(chǔ)空間,使用本文方法處理后,該區(qū)域的信息量大大降低,且能將描述該區(qū)域基本特征的臨界信息保留,因此表明,本文方法具有較優(yōu)異的信息壓縮效果,對(duì)降低存儲(chǔ)空間壓力起著重要作用。

圖2 土地信息集的壓縮效果
使用本文方法對(duì)10個(gè)農(nóng)業(yè)信息子集進(jìn)行壓縮存儲(chǔ),各子集的信息失真率結(jié)果用圖3描述。

圖3 不同子集的信息失真率結(jié)果
通過(guò)分析圖3中的結(jié)果可以看出,經(jīng)過(guò)本文方法處理后的各子集信息失真率均處于10%~14%之間,其中信息失真率最高和最低的子集分別為農(nóng)藥、土地,值為13.5%、10.5%左右。由此可知,本文方法的信息壓縮存儲(chǔ)效果較理想,存儲(chǔ)的信息失真率較低,真實(shí)度高。
測(cè)試不同信息子集分別采用直接存儲(chǔ),以及本文方法的壓縮存儲(chǔ)所需信息存儲(chǔ)空間,結(jié)果用圖4描述。通過(guò)分析圖4中的結(jié)果可以看出,對(duì)各信息子集采用直接存儲(chǔ)方式時(shí),所需信息存儲(chǔ)空間在700~900Mb范圍內(nèi)變化,使用本文方法進(jìn)行各信息子集壓縮存儲(chǔ)時(shí),所需信息存儲(chǔ)空間始終低于200Mb,存儲(chǔ)空間節(jié)約71%~78%左右。以上結(jié)果表明,本文方法的信息壓縮存儲(chǔ)效果優(yōu)勢(shì)顯著,可極大地減少存儲(chǔ)空間。

圖4 不同信息子集的信息存儲(chǔ)空間結(jié)果
隨著互聯(lián)網(wǎng)普及范圍逐漸擴(kuò)大,以及各行各業(yè)的快速發(fā)展,每日都會(huì)產(chǎn)生海量信息,給現(xiàn)有存儲(chǔ)設(shè)備帶來(lái)巨大壓力,針對(duì)這一背景,本研究提出基于窄帶物聯(lián)網(wǎng)的信息壓縮存儲(chǔ)方法,解決了當(dāng)前存在的信息冗余過(guò)大和存儲(chǔ)設(shè)備的存儲(chǔ)空間與信息增長(zhǎng)量不匹配等問(wèn)題。該方法通過(guò)創(chuàng)建基于窄帶物聯(lián)網(wǎng)的信息管理模型,結(jié)合基于規(guī)范Hadamard矩陣的信息壓縮存儲(chǔ)方法,實(shí)現(xiàn)大規(guī)模信息壓縮存儲(chǔ)。經(jīng)實(shí)驗(yàn)驗(yàn)證可知,該方法具有良好的信息壓縮效果,且壓縮效率較高。該方法通過(guò)信息壓縮存儲(chǔ)能使信息存儲(chǔ)空間大幅度減少,因此,其能夠?yàn)閿?shù)據(jù)挖掘領(lǐng)域和互聯(lián)網(wǎng)的進(jìn)一步發(fā)展提供支持。