999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Java的大數(shù)據(jù)壓縮研究

2017-02-06 02:34:55宗家冰
數(shù)碼世界 2017年1期
關(guān)鍵詞:研究

宗家冰

遼寧錦州渤海大學(xué)信息科學(xué)與技術(shù)學(xué)院

基于Java的大數(shù)據(jù)壓縮研究

宗家冰

遼寧錦州渤海大學(xué)信息科學(xué)與技術(shù)學(xué)院

本文針對(duì)大數(shù)據(jù)壓縮存儲(chǔ)算法的研究與實(shí)現(xiàn),隨著數(shù)據(jù)庫(kù)承載的信息量的快速增長(zhǎng),大數(shù)據(jù)壓縮是一種必然趨勢(shì),數(shù)據(jù)壓縮包括兩種類(lèi)型:無(wú)損數(shù)據(jù)壓縮和有損數(shù)據(jù)壓縮,在本文中主要介紹使用較為廣泛的無(wú)損數(shù)據(jù)壓縮算法,論文中實(shí)現(xiàn)大數(shù)據(jù)壓縮是按照無(wú)損壓縮技術(shù)的方法,從基于統(tǒng)計(jì)和字典的數(shù)據(jù)壓縮優(yōu)缺點(diǎn)進(jìn)行比較研究,基于Java大數(shù)據(jù)BWT壓縮算法的不足,提出了一種改進(jìn)的NBWT大數(shù)據(jù)壓縮算法。對(duì)大數(shù)據(jù)的三個(gè)構(gòu)成元素:數(shù)據(jù)、時(shí)間標(biāo)簽和壓縮碼采用不同的數(shù)據(jù)編碼策略進(jìn)行壓縮,在數(shù)據(jù)壓縮過(guò)程中,提出了使用矢量方式壓縮數(shù)據(jù)的概念。通過(guò)設(shè)立大數(shù)據(jù)壓縮緩沖池的方法,最后對(duì)本文的改進(jìn)大數(shù)據(jù)壓縮算法進(jìn)行了仿真測(cè)試,測(cè)試結(jié)果表明,一種改進(jìn)大數(shù)據(jù)壓縮算法的壓縮率與壓縮時(shí)間都有所改善。

Java 大數(shù)據(jù) BWT壓縮算法 無(wú)損壓縮

1 引言

目前,隨著大數(shù)據(jù)的發(fā)展,計(jì)算機(jī)用于各行各業(yè)處理信息需求逐漸增多,系統(tǒng)內(nèi)部存儲(chǔ)數(shù)據(jù)量不斷增多,海量數(shù)據(jù)在時(shí)、空上指數(shù)倍增長(zhǎng),為海量信息存儲(chǔ)帶來(lái)不便,特別是數(shù)據(jù)量巨大、存儲(chǔ)要求較高的系統(tǒng)中需要對(duì)數(shù)據(jù)進(jìn)行加工后才存儲(chǔ)到系統(tǒng)中,必須對(duì)海量數(shù)據(jù)進(jìn)行有效的編碼、壓縮后進(jìn)行存儲(chǔ),為了能夠解決海量數(shù)據(jù)存儲(chǔ)BTW算法受到程序員的極大關(guān)注。

數(shù)據(jù)的表現(xiàn)形式多種,例如:符號(hào)、文字、字符、音樂(lè)、標(biāo)志、圖片、動(dòng)畫(huà)等多種形式。利用計(jì)算機(jī)來(lái)處理數(shù)據(jù)已經(jīng)面臨的一個(gè)問(wèn)題:海量數(shù)據(jù)的壓縮存儲(chǔ)與數(shù)據(jù)解壓等問(wèn)題。為此我們?cè)噲D采取其他的數(shù)據(jù)表達(dá)方式,目的是減少數(shù)據(jù)總量,這就需要對(duì)海量數(shù)據(jù)進(jìn)行壓縮。

數(shù)據(jù)壓縮算法分為無(wú)損壓縮和有損壓縮兩種數(shù)據(jù)壓縮編碼形式,相對(duì)于有損數(shù)據(jù)壓縮編碼來(lái)說(shuō),無(wú)損數(shù)據(jù)壓縮編碼的數(shù)據(jù)占用存儲(chǔ)空間較大,數(shù)據(jù)壓縮比并不高,但是,將其還原原始數(shù)據(jù)的同時(shí),沒(méi)有任何數(shù)據(jù)損壞,隨著無(wú)損壓縮算法逐漸被廣泛應(yīng)用,使得無(wú)損壓縮算法成為各個(gè)系統(tǒng)實(shí)現(xiàn)海量數(shù)據(jù)壓縮存儲(chǔ)的首選工具,由于本文是對(duì)BTW算法的一種改進(jìn)的海量數(shù)據(jù)壓縮存儲(chǔ)的算法,下文將會(huì)詳細(xì)的描述該改進(jìn)算法的主要步驟及其優(yōu)缺點(diǎn),并對(duì)該改進(jìn)的數(shù)據(jù)壓縮存儲(chǔ)算法進(jìn)行測(cè)試與歸納總結(jié)。

2 數(shù)據(jù)壓縮算法分類(lèi)研究

2.1 數(shù)據(jù)壓縮概念

在計(jì)算機(jī)科學(xué),數(shù)據(jù)壓縮是按照特定的規(guī)律經(jīng)過(guò)編碼減少的數(shù)據(jù)位數(shù)存儲(chǔ)過(guò)程。數(shù)據(jù)壓縮是指在縮減數(shù)據(jù)量且減少數(shù)據(jù)存儲(chǔ)空間,提高其數(shù)據(jù)存儲(chǔ)空間和數(shù)據(jù)處理效率,或按照一定的算法對(duì)海量數(shù)據(jù)進(jìn)行重新壓縮編碼,減少數(shù)據(jù)的冗余空間和數(shù)據(jù)存儲(chǔ)空間的一種信息編碼技術(shù)。

數(shù)據(jù)壓縮是信息技術(shù)研究中非常重要的分支,在信息技術(shù)中被稱為數(shù)據(jù)編碼。但是近些年來(lái),數(shù)據(jù)壓縮存儲(chǔ)己不僅是局限于數(shù)據(jù)編碼方法的研究,它已經(jīng)是一種獨(dú)立的研究分支體系,數(shù)據(jù)壓縮算法主要研究數(shù)據(jù)的存儲(chǔ)表示、壓縮編碼和解壓數(shù)據(jù)的方法,目的是減少數(shù)據(jù)在系統(tǒng)占據(jù)的存儲(chǔ)空間。

2.2 大數(shù)據(jù)壓縮分類(lèi)研究

數(shù)據(jù)壓縮包括有損數(shù)據(jù)壓縮存儲(chǔ)和無(wú)損數(shù)據(jù)壓縮存儲(chǔ)。無(wú)損數(shù)據(jù)壓縮存儲(chǔ)技術(shù)通常所說(shuō)的是數(shù)據(jù)壓縮編碼技術(shù),根據(jù)海量數(shù)據(jù)進(jìn)行壓縮編碼處理以達(dá)到壓縮存儲(chǔ)的過(guò)程,在數(shù)據(jù)壓縮存儲(chǔ)過(guò)程中,被壓縮的數(shù)據(jù)必須經(jīng)過(guò)解碼恢復(fù)原始數(shù)據(jù),數(shù)據(jù)壓縮分類(lèi)包括:字符、文本文件、數(shù)據(jù)庫(kù)數(shù)據(jù)、程序數(shù)據(jù)、圖像數(shù)據(jù)壓縮過(guò)程,一般為數(shù)據(jù)壓縮存儲(chǔ)是文字或數(shù)字等,而針對(duì)圖像數(shù)據(jù)壓縮、聲音壓縮、視頻圖像壓縮的效率是很低,無(wú)損數(shù)據(jù)壓縮存儲(chǔ)是必然的選擇基于統(tǒng)計(jì)和字典的數(shù)據(jù)壓縮算法,表1為數(shù)據(jù)壓縮存儲(chǔ)的分類(lèi)研究。

表1 數(shù)據(jù)壓縮存儲(chǔ)的分類(lèi)研究

3 一種改進(jìn)的大數(shù)據(jù)壓縮編碼算法

講述本文改進(jìn)的壓縮編碼方法的同時(shí),先介紹一下關(guān)于詞典方式壓縮編碼,根據(jù)的是大數(shù)據(jù)所本身包含具有重復(fù)性代碼序列的特征。壓縮編碼的常用格式為:zip格式、rar格式、xz格式等等。

在本文中,研究一種改進(jìn)的大數(shù)據(jù)壓縮編碼方式,無(wú)損編碼是大數(shù)據(jù)壓縮編碼的最優(yōu)方式,在實(shí)現(xiàn)大數(shù)據(jù)壓縮編碼的過(guò)程中使得壓縮效率和壓縮比盡可能最快最優(yōu)為最佳。

3.1 一種改進(jìn)的大數(shù)據(jù)壓縮算法的概述

本文改進(jìn)的大數(shù)據(jù)壓縮編碼主要是將壓縮數(shù)據(jù)進(jìn)行字符和整數(shù)進(jìn)行分開(kāi)壓縮編碼,字符壓縮算法使用BWT算法,其應(yīng)用壓縮排序算法對(duì)字符數(shù)據(jù)塊進(jìn)行重組,將原始的數(shù)據(jù)轉(zhuǎn)換成一個(gè)相似的一段數(shù)據(jù),此過(guò)程并不是進(jìn)行壓縮算法,而是為了提高數(shù)據(jù)壓縮率的輔助工具,在壓縮編碼的過(guò)程中需要存儲(chǔ)一些額外的數(shù)據(jù)用于后續(xù)的解碼操作。BWT算法最重要之處是能夠產(chǎn)生一種轉(zhuǎn)換數(shù)據(jù)比原始數(shù)據(jù)存在更多更長(zhǎng)的連續(xù)編碼數(shù)據(jù);另一種數(shù)據(jù)壓縮編碼算法主要是針對(duì)整數(shù)進(jìn)行壓縮編碼,較小的整數(shù)用較短的編碼字段,較大的數(shù)據(jù)使用較大的編碼字段表示。假設(shè)有個(gè)整數(shù)x要進(jìn)行整數(shù)壓縮編碼,當(dāng)x的值趨于較小時(shí),此時(shí)的數(shù)據(jù)壓縮編碼字段較短,可以有效的節(jié)省大數(shù)據(jù)的存儲(chǔ)空間。

3.2 一種改進(jìn)的大數(shù)據(jù)壓縮算法原理

NBWT為改進(jìn)的大數(shù)據(jù)壓縮算法,該算法描述的是給定的待進(jìn)行數(shù)據(jù)壓縮的一段字符,該段字符集合標(biāo)示為X={X1,X2,X3,…,Xn},使用本文的改進(jìn)的大數(shù)據(jù)壓算法先要判斷給定的大數(shù)據(jù)中是否包含整數(shù)字符,如果包含整數(shù)字符交給Golomb編碼函數(shù),否則直接交給NBWT編碼函數(shù),將讀取的數(shù)據(jù)進(jìn)行循環(huán)右移位后旋轉(zhuǎn),經(jīng)過(guò)一系列的移位旋轉(zhuǎn)獲取到新的數(shù)據(jù),再將新數(shù)據(jù)按照字典升序進(jìn)行排序操作,BWT壓縮算法對(duì)于由相同符號(hào)開(kāi)頭的大數(shù)據(jù)的壓縮作用非常好。

3.3 一種改進(jìn)的大數(shù)據(jù)壓縮算法實(shí)現(xiàn)步驟

給定的X大數(shù)據(jù)待壓縮編碼序列,其中x表示為整數(shù)編碼部分,Golomb編碼算法的實(shí)現(xiàn)步驟:

①選取一個(gè)參數(shù)m,確定編碼的位數(shù),b=2^m,m是需要先確認(rèn)的參數(shù)值;

②定義q=[int](x-1)/b,表示一個(gè)取整過(guò)程;

③使用r=x-qb-1,經(jīng)過(guò)式子轉(zhuǎn)化為x=qb+r+1,此種編碼過(guò)程由兩個(gè)部分組成,一是q個(gè)1加上1個(gè)0組成,表示q;另一部分由m個(gè)位組成表示成為r。

接下來(lái)討論針對(duì)上文給定的數(shù)據(jù)序列X,改進(jìn)的NBWT數(shù)據(jù)壓縮編碼算法的實(shí)現(xiàn)步驟為:

①判斷給定的X序列數(shù)據(jù)是否包含整數(shù),如果包含交給Golomb編碼算法,否則進(jìn)行2;

②將X的序列進(jìn)行循環(huán)右移位,形成一個(gè)新的數(shù)據(jù)數(shù)組X1,X={Xn,Xn-1,Xn-2,…,X1};

③將X1按照字典的升序進(jìn)行排序;

④計(jì)算X1的長(zhǎng)度,N=size(X1);

⑤定義i=0(0<i<N),循環(huán)處理X1和X之間的對(duì)應(yīng)關(guān)系,X[N-i-1]=X1[i];

⑥輸出已經(jīng)編碼的數(shù)據(jù)序列。

實(shí)現(xiàn)大數(shù)據(jù)的解壓算法是根據(jù)大數(shù)據(jù)壓縮算法而實(shí)現(xiàn)的一種可逆算法,這種算法按照壓縮算法的逆過(guò)程進(jìn)行,實(shí)現(xiàn)解壓算法非常簡(jiǎn)單,在這里不再闡述。

4 一種改進(jìn)的大數(shù)據(jù)壓縮算法測(cè)試及其應(yīng)用分析

改進(jìn)的大數(shù)據(jù)壓縮算法性能比較,BWT壓縮編碼算法優(yōu)點(diǎn)是簡(jiǎn)單易懂,但是其缺點(diǎn)是耗費(fèi)更多的內(nèi)存資源,因?yàn)樗紦?jù)更多多字符串存儲(chǔ)循右移的數(shù)組序列。

改進(jìn)的大數(shù)據(jù)壓縮編碼算法應(yīng)用在數(shù)據(jù)庫(kù)需要存儲(chǔ)的大數(shù)據(jù)環(huán)境下,測(cè)試數(shù)據(jù)取于某個(gè)系統(tǒng)內(nèi)的數(shù)據(jù)庫(kù)大數(shù)據(jù)模塊,分別對(duì)給定的大數(shù)據(jù)進(jìn)行壓縮測(cè)試及其分析,包括:壓縮時(shí)間、壓縮比例、解壓時(shí)間、還原質(zhì)量等等。本文給定的大數(shù)據(jù)文件大小為100G,下面從不同的參數(shù)進(jìn)行比較壓縮算法的性能(表2)。

表2 比較不同種壓縮算法的性能

大數(shù)據(jù)壓縮算法測(cè)試及結(jié)果表明,改進(jìn)的NBWT壓縮算法由于其他算法,該算法無(wú)論在壓縮時(shí)間和壓縮比上都具有一定的優(yōu)勢(shì),提高大數(shù)據(jù)的壓縮比和降低大數(shù)據(jù)的壓縮時(shí)間是改進(jìn)算法的唯一目的。

5 結(jié)論與展望

本文研究的大數(shù)據(jù)壓縮算法,通過(guò)對(duì)BWT算法的改進(jìn)與設(shè)計(jì),通過(guò)對(duì)NBWT的算法實(shí)現(xiàn)步驟簡(jiǎn)單的描述,最后本文給出本文大數(shù)據(jù)算法的測(cè)試應(yīng)用分析過(guò)程及其及其測(cè)試結(jié)果的性能比較,測(cè)試結(jié)果表明,一種改進(jìn)大數(shù)據(jù)壓縮算法的壓縮率與壓縮時(shí)間都有所改善。

[1]Moghaddam Alborz,Kabir Ehsanollah. Dynamic and memory efficient web page prediction model using LZ78 and LZW algorithms[J]. 14th Information Computer Conference, 2009: 675-680

[2]P.Ferragina,I.Nitto,R .Venturini. On the bitcomplexity of Lempel-Ziv compression[J]. Proceedings of the Twentieth Annual ACM-SIAM Symposium on Discrete Algorithms, 2009:768-777

[3]R. Grossi, J. S. Vitter, Compressed suffix arrays and suffix trees with applications to text indexing and string matching[J]. SIAM J. Comput. 2005,35(2):378-407

[4]Jacob Ziv. The Universal LZ77 Compression Algorithm Is Essentially Optimal for Individual Finite-Length N-Blocks[J]. IEEE Transactions on Information Theory, 2009,55(5):1941-1944

猜你喜歡
研究
FMS與YBT相關(guān)性的實(shí)證研究
2020年國(guó)內(nèi)翻譯研究述評(píng)
遼代千人邑研究述論
視錯(cuò)覺(jué)在平面設(shè)計(jì)中的應(yīng)用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
關(guān)于遼朝“一國(guó)兩制”研究的回顧與思考
EMA伺服控制系統(tǒng)研究
基于聲、光、磁、觸摸多功能控制的研究
電子制作(2018年11期)2018-08-04 03:26:04
新版C-NCAP側(cè)面碰撞假人損傷研究
關(guān)于反傾銷(xiāo)會(huì)計(jì)研究的思考
焊接膜層脫落的攻關(guān)研究
電子制作(2017年23期)2017-02-02 07:17:19
主站蜘蛛池模板: 亚洲AV一二三区无码AV蜜桃| 激情综合婷婷丁香五月尤物| 欧美另类图片视频无弹跳第一页| 亚洲a级在线观看| 亚洲无线观看| jizz国产在线| 国产一区二区免费播放| 天天躁日日躁狠狠躁中文字幕| 一级毛片在线播放| 中文字幕首页系列人妻| 国产微拍一区| 九九九九热精品视频| 在线免费看片a| 天堂中文在线资源| 亚洲天堂自拍| 日本人妻丰满熟妇区| 国产精品毛片一区| 免费三A级毛片视频| 老司机久久99久久精品播放| 毛片网站在线播放| yy6080理论大片一级久久| 国产一级小视频| 日韩欧美视频第一区在线观看| 久草国产在线观看| 欧美午夜在线视频| 国产精品一区二区国产主播| 无码人妻免费| 国产精品lululu在线观看| 四虎国产精品永久一区| 福利视频一区| 无码综合天天久久综合网| 国产菊爆视频在线观看| 乱人伦99久久| 久久久噜噜噜久久中文字幕色伊伊| 欧美午夜小视频| 国产丝袜91| av无码一区二区三区在线| 亚洲国产欧美国产综合久久 | 一区二区三区四区在线| 亚洲第一黄色网址| 国产精品密蕾丝视频| 欧美日本在线播放| 免费看美女自慰的网站| 爱做久久久久久| 婷婷六月天激情| 日韩av无码精品专区| 亚洲精品国产成人7777| 日本免费一级视频| 亚洲无码高清免费视频亚洲 | 不卡无码h在线观看| 91视频精品| 精品三级网站| 欧美日韩综合网| 天天爽免费视频| 亚洲成人网在线观看| 日韩东京热无码人妻| 精品无码人妻一区二区| 丁香五月婷婷激情基地| 国产精品视频系列专区| 日本不卡在线视频| 国产成人精品一区二区三区| 国产视频入口| 久久久久久高潮白浆| 日韩精品一区二区三区中文无码 | 尤物成AV人片在线观看| 精品无码一区二区三区在线视频| 欧美97欧美综合色伦图| 精品一區二區久久久久久久網站| 91色爱欧美精品www| 人妻丰满熟妇av五码区| 在线看片中文字幕| 国产毛片高清一级国语| 又爽又大又光又色的午夜视频| 欧美、日韩、国产综合一区| 92午夜福利影院一区二区三区| 欧美成一级| 91亚洲免费视频| 丰满人妻久久中文字幕| 日韩精品一区二区三区免费| 国产在线无码av完整版在线观看| 露脸国产精品自产在线播| 成年女人a毛片免费视频|