999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

壓縮編碼的上下文樹構造算法

2015-04-10 05:09:23付敏戴祖旭王道蓬
武漢工程大學學報 2015年4期
關鍵詞:符號

付敏,戴祖旭,王道蓬

1 武漢工程大學理學院,湖北 武漢 430502;2 華中科技大學圖像識別與人工智能研究所多譜圖像信息處理國防重點實驗室,湖北 武漢 430074

壓縮編碼的上下文樹構造算法

付敏1,2,戴祖旭1,王道蓬2

1 武漢工程大學理學院,湖北 武漢 430502;2 華中科技大學圖像識別與人工智能研究所多譜圖像信息處理國防重點實驗室,湖北 武漢 430074

上下文樹是構造無算壓縮算法的一種重要基礎,作為信息處理過程分析隨機序列統計特性的常用數據結構,隨機序列中的符號來自于某個固定的符號集合.上下文樹一般是一棵n元樹,其中n大于1,但是樹是一種占用計算機內存較多的數據結構,因此提出了基于壓縮編碼的上下文樹構造算法,根據符號的一階統計特性對符號做二進制的壓縮編碼,用二元樹代替n(n>2)元樹,在相同內存的存儲空間下,可以大大增加樹的高度.計算機數值實驗表明基于壓縮編碼的上下樹構造對子串做出了更大長度的相關性檢測,并且提高了數據分析的精度.

上下文樹;n元樹;壓縮編碼

0 引言

信息處理技術的飛速發展使得算法應用越來越為廣泛,在圖像處理[1],路徑搜索優化[2-3]以及工程應用等領域,數學形態學越來越重要.作為其中的一種重要的數據結構,上下文樹是信息處理過程中分析隨機序列統計特性的常用工具.利用上下文樹獲取序列中字符串[4-5]的頻率分布,可以構造高效的數據壓縮算法[6-7],通過上下文樹分析文本或生物DNA序列中符號的相關性,可以準確實現文檔或DNA序列的自動分段[8-9].同時,上下文樹也是研究可變長Markov鏈的主要數學工具,用于隨機序列發生器設計[10-11].

隨機序列中的符號來自于某個固定的符號集合,比如英文文檔包括26個字母,DNA序列由A、C、G、T組成,它們分別代表組成DNA的四種核苷酸一腺嘌呤、胞嘧啶、鳥嘌呤和胸腺嘧啶.因此上下文樹一般是一棵n元樹,其中n大于1.樹是一種占用計算機內存較多的數據結構,系統內存容量會直接影響樹的高度,而樹高決定了分析過程中序列子字符串的長度,會直接影響符號串統計特性的精度.

本文提出了基于壓縮編碼的上下文樹構造算法,根據符號的一階統計特性對符號做二進制的壓縮編碼,用二元樹代替n(n>2)元樹,在相同內存的存儲空間下,可以大大增加樹的高度,對子串做更大長度的相關性檢測,提高分析的精度.

1 上下文樹

設A={a1,a2,…,an}是一個符號集合,隨機序列x=x-Nx-N+1…x-1x0x1…xMxi∈A,i∈I從序列x中任取一點,比如x0,向左回溯,找到x=x-jx-j+1…x-1x0,其中0≤J≤N,使得條件概率為

成立,設x=x-jx-j+1…x-1x0為x1的上下文環境. x1的上下文環境說明了影響符號x1的出現的歷史追溯到x-J即可,不必再回溯到x-J-1以及更早的符號.要驗證式(1)中的n個等式,需要根據序列x統計出字符串x-j-1x-j…x-1x0x和x-jx-j+1…x-1x0x出現的頻數.統計頻數的工作由如下的上下文樹算法完成.

算法1:上下文樹構造算法:

(1)初始化根節點,符號計數設置為0.

(2)假設根據字符串xt=x1x2…xt構造出樹Tt,當前輸入符號為xt+1,從根節點出發,按照字符串xtxt-1…的指引,訪問Tt的結點,直到xt的符號用完,或者到了葉子結點.對每個訪問到的結點,將該結點處的符號xt+1的計數增加1.

(3)如果最后一次訪問到的結點xt+1處的計數≥2,創建一個新結點xt…xt-j+1xt-j,新結點xt+1處的計數置為1,其他符號的計數置為0,得到樹Tt+1.

從上下文樹構造算法可知,樹Tt是一棵n元樹,其高度隨著從左到右掃描序列的時刻t增加而增加.n元樹結點個數有如下性質:

命題2:高度為h的n元滿樹的長度為l(l≤h)的字符串個數為nl個.

2 基于壓縮編碼的上下文樹算法

由于隨機序列中符號出現的概率是非均勻分布的,利用熵壓縮編碼的原理可以對符號進行二進制變長壓縮編碼,二進制符號作為碼元符號,隨機序列中的自然語言符號可編碼為變長的二進制串.本文在構建上下文樹的時候,樹的結點不是自然語言符號,而是僅含0,1的二元樹,每個自然語言符號都對應著二元樹上的一段路徑.

算法2:基于壓縮編碼的上下文樹算法.

(1)統計隨機序列的符號的頻率,構造Huffman編碼,形成碼表,用B(xi)表示自然語言符號x對應的二進制串.

(2)初始化根結點,符號計數置為0,令t時刻自然語言符號序列為xt=x1x2…xt.

(3)假設根據字符串xt=x1x2…xt構造出樹Tt,當前輸入為xt+1,從根結點出發,按照字符xtxt-1…的指引,訪問Tt的結點,直到xt的符號用完,或者到了葉子結點,比如B(xt)…B(xt-j+1).對每個訪問到的結點,將該結點處符號xt+1的計數增加1.

(4)如果最后一次訪問到的結點xt+1處的計數≥2,創建一個新結點B(xt)…B(xt-j+1)B(xt-j),新結點處xt+1的計數置為1,其他符號的計數置為0,得到樹Tt+1.

基于壓縮編碼的上下文樹算法與上下文樹算法不同點在于,將n元樹化為二元樹,n元樹中的每個結點在二元樹中擴展為一條路徑.該路徑對應著自然語言符號的Huffman編碼.下面的結論表明,將n元樹化為二元樹,在表達相同數量的自然語言字符串情況下占用的內存卻大大減少了.

命題3:設n元樹的每個節點指針域占用字節數為d,數據域占用字節數為m,對n個符號采用二進制編碼,平均碼長為l0.則高度為h的n元滿樹所占用字節總數

表1 3個長度為62的字符串1-62階條件概率計算結果范例Table 1 Computational results of 3 stings'conditional probability

除以nh得到:

故關于n的不等式(4)有解

也即n≥2時結論成立.

3 實驗結果

利用基于壓縮編碼的上下文樹構造算法對英文長篇小說《Forrest Gramp》(Winston Groom,1986)開展了統計工作,程序運行環境為32位微軟XP service pack3操作系統,Pentium Dual-Core E6700 CPU,主頻3.20 GHz,內存2 GByte分析字符串長度達到62個自然語言符號時,運行時間約34分鐘,統計出共281 705條長度為62的字符串,每個字符串分別計算出從1階到62階條件概率以供后續分析使用.表1給出了其中的3個計算結果.

從數據統計分析可以看出,符號的一階統計特性可以在數值實驗中得到,對文本信息的符號做二進制的壓縮編碼,在結構處理上采用二元樹代替(>2)元樹,在相同內存的存儲空間下,理論上證明可以增加樹的高度,實驗也進一步驗證結論.基于此,可以對長度更大的子串進行相關性檢測,并且提高分析的精度.

[1]洪漢玉,章秀華,程莉.道路病害形態特征的圖像分析[J].武漢工程大學學報,2014,36(4):70-76.

HONG Han-yu,ZHANG Xiu-hua,CHENG Li.Image analysis method for road disease morphology characteristic[J].Journal of Wuhan Institute of Technology,2014,36(4):70-76.(in Chinese)

[2]孫玉昕,章瑾.利用堆排序優化路徑搜索效率的分析[J].武漢工程大學學報,2013,35(10):50-55.

SUN Yu-xin,ZHANG Jin.Practical analysis of improving path searching efficiency by heap sort[J].Journal of Wuhan Institute of Technology,2013,35(10):50-55.(in Chinese)

[3]王學華,劉莉君,馬凡杰,等.數控激光加工路徑鏈表快速搜索優化[J].武漢工程大學學報,2014,36(10):52-57.

WANG Xue-hua,LIU Li-jun,MA Fan-jie et al.Rapid routine searching of numerical control laser processing based on linked list structure[J].Journal of Wuhan Institute of Technology,2014,36(10):52-57.(in Chinese)

[4]徐超,周一民,沈磊.一種面向隱含主題的上下文樹核[J].電子與信息學報,2010,32(11):2695-2700.

XU Chao,ZHOU Yi-min,SHEN Lei.A context tree kernel based on latent semantictopic[J].Journal of Electronics&Information Technology,2010,32(11):2695-2606.(in Chinese)

[5]RISSANEN J.A universal data compression system[J]. IEEE Transactions on information theory,1983,29(5):656-664.

[6]陳亮,孟慶愿,董彥磊,等.CTW無損壓縮算法在管道無損檢測中的應用[J].實驗技術與管理,2012,29(6):42-47.

CHEN Liang,MENG Qingyuan,DONG Yanlei,et al. Using CTW lossless compression algorithm in pipelines nondestructive testing[J].Experimental Technology and Management,2012,29(6):42-47.(in Chinese)

[7]DUMONT Thierry.Context tree estimation in variable length hidden[J].IEEE Transactions on information theory,2014,60(6):3196-3208.

[8]GWADERA R,GIONIS A,MANNILA H.Optimal segmentation using tree models[J].Knowledge and Information Systems,2008,15(3):259-283.

[9]Martins D A,Neves A J R,Pinho A J.Variable Order Finite-Context Models in DNA Sequence Coding[C]// PatternRecognitionandImageAnalysis.Springer Berlin Heidelberg,2009:457-464.

[10]BüHLMANN P.Model selection for variable length Markov chains and tuning the context algorithm[J]. Annals of the Institute of Statistical Mathematics,2000,52(2):287-315.

[11]CéNAC P,CHAUVIN B,PACCAUT F,et al.Context trees,variable length Markov chains and dynamical sources[C]//Séminaire de Probabilités XLIV. Springer Berlin Heidelberg,2012:1-39.

Context tree algorithm based on compression encoding

FU Min1,2,DAI Zu-xu1,WANG Dao-peng2
1.College of Science,Wuhan Institute of Technology,Wuhan 430502,China; 2.Institute of Pattern Recognition and Artificial Intelligence,Multi-spectral Image Information Processing Key Laboratory of National Defense,Huazhong University of Science and Technology,Wuhan 430074,China

The context tree as a commonly used data structure plays a very important role in analyzing statistical characteristics of random sequence,and the random sequence of symbols generally comes from a fixed symbol set.The general context tree is a n-tree,in which n is more than 1.Because the tree is a kind of computer memory wasting data structure,a context tree construction algorithm based on compress coding was presented utilizing the first-order statistical properties of binary symbols.In the numerical experiment under the same memory storage space condition,the tree’s height has been greatly increased,and the accuracy of data analysis also improved.

context tree;n_gram tree;compression encoding

TP309.7

A

10.3969/j.issn.1674-2869.2015.04.012

1674-2869(2015)04-0056-03

本文編輯:陳小平

2015-01-12

湖北省自然科學基金重點項目(2010CDA009);湖北省自然科學基金一般項目(2009CDB367);國家自然科學基金面上項目(61175013);武漢工程大學校級教研項目(X2013021).

付敏(1979-),女,湖北襄陽人,講師,博士研究生.研究方向:信息處理,計算機視覺.

猜你喜歡
符號
幸運符號
符號神通廣大
學符號,比多少
幼兒園(2021年6期)2021-07-28 07:42:14
“+”“-”符號的由來
靈魂的符號
散文詩(2017年17期)2018-01-31 02:34:20
怎樣填運算符號
變符號
倍圖的全符號點控制數
圖的有效符號邊控制數
草繩和奇怪的符號
主站蜘蛛池模板: 呦系列视频一区二区三区| 亚洲色图欧美在线| 2021国产精品自拍| 亚洲精品日产精品乱码不卡| 青青操视频在线| 午夜视频www| 亚洲熟女中文字幕男人总站| 国产欧美日韩18| 欧美一道本| 国产香蕉在线视频| 不卡视频国产| 98精品全国免费观看视频| 成人免费网站久久久| 在线精品视频成人网| 国产精品福利导航| 91精品国产麻豆国产自产在线| 久久人搡人人玩人妻精品| 国产精品自在线天天看片| 在线日本国产成人免费的| 九色视频一区| 国产不卡网| 狠狠综合久久| 国产丰满大乳无码免费播放 | 国产福利小视频高清在线观看| 老司机午夜精品视频你懂的| 热re99久久精品国99热| www.日韩三级| 国产精品55夜色66夜色| 少妇精品在线| 国产成人禁片在线观看| 亚洲色图欧美| 91视频首页| 手机在线免费不卡一区二| 四虎国产永久在线观看| 欧美日韩中文国产va另类| 色噜噜在线观看| 欧美一区二区福利视频| 视频国产精品丝袜第一页| 亚洲性日韩精品一区二区| 伊人网址在线| 国产精品区视频中文字幕| 一级一级一片免费| 国产18页| 免费国产小视频在线观看| 久久毛片免费基地| 精品久久久久久中文字幕女| 欧美精品综合视频一区二区| 91精品国产综合久久不国产大片| 国产粉嫩粉嫩的18在线播放91 | 一级毛片免费观看久| a级毛片在线免费观看| 欧美日韩第三页| 久久综合激情网| 精品第一国产综合精品Aⅴ| 99爱视频精品免视看| 9999在线视频| 亚洲一级无毛片无码在线免费视频 | 中文字幕在线观看日本| 天天综合亚洲| 97在线视频免费观看| 性视频久久| 精品福利网| 亚洲中文字幕无码mv| 日韩精品毛片| 日本欧美一二三区色视频| 亚洲欧美日韩成人高清在线一区| 亚洲午夜片| 亚洲综合片| 中文字幕日韩丝袜一区| 婷婷中文在线| 欧美高清视频一区二区三区| 最新国产网站| 亚洲福利片无码最新在线播放| 国产福利小视频高清在线观看| 国产成人高精品免费视频| 偷拍久久网| 青草91视频免费观看| 一本大道东京热无码av| 中文无码日韩精品| 国产精品99久久久久久董美香| 欧美精品v欧洲精品| 日韩视频福利|