999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于卷積降噪自編碼器的藏文歷史文獻(xiàn)版面分析方法

2018-08-17 07:10:42張西群馬龍龍段立娟劉澤宇
中文信息學(xué)報(bào) 2018年7期
關(guān)鍵詞:分類文本方法

張西群,馬龍龍,段立娟,劉澤宇,吳 健

0 引言

近年來(lái),人們對(duì)傳統(tǒng)歷史文化的保護(hù)和傳承越來(lái)越重視,研究人員對(duì)歷史文獻(xiàn)數(shù)字化的興趣也越來(lái)越高漲。

藏族是一個(gè)擁有豐富傳統(tǒng)文化的民族,是中華燦爛文明不可或缺的重要組成部分。藏文歷史文獻(xiàn)是藏族傳統(tǒng)文化寶庫(kù)中一顆璀璨的明珠,其作為承載藏族古老文明的載體,受到了歷史學(xué)家、語(yǔ)言學(xué)家、佛學(xué)家、文獻(xiàn)學(xué)家的廣泛關(guān)注。一直以來(lái),中央政府非常重視藏文歷史文獻(xiàn)及文物的保護(hù)及發(fā)掘,先后多次進(jìn)行了藏族文物歷史文獻(xiàn)的收集和保護(hù)工作[1];但是,藏文歷史文獻(xiàn)的研究和發(fā)展現(xiàn)狀仍然不容樂觀。當(dāng)前對(duì)藏文歷史文獻(xiàn)的保護(hù)主要停留在存放保護(hù)階段。大部分的藏文歷史文獻(xiàn)被保存在博物館、廟宇或研究院的庫(kù)房中,只有部分根據(jù)需要以人工輸入、掃描、拍照等電子化手段進(jìn)行保存,以供研究。這種方式存在耗費(fèi)大量人力物力、傳輸流通不便、不能對(duì)藏文歷史文獻(xiàn)內(nèi)容充分挖掘和利用等問題。同時(shí),歷史文獻(xiàn)的研究與保護(hù)也存在著矛盾。在研究藏文歷史文獻(xiàn)的過(guò)程中,無(wú)法避免對(duì)歷史文獻(xiàn)的觸摸以及翻動(dòng),這一環(huán)節(jié)對(duì)有著幾百年甚至上千年歷史的文獻(xiàn)來(lái)說(shuō),可能是致命的。而采用數(shù)字化的方法對(duì)藏文歷史文獻(xiàn)圖像進(jìn)行自動(dòng)的版面分析和識(shí)別,將文獻(xiàn)內(nèi)容轉(zhuǎn)化為數(shù)字化的文本存儲(chǔ),可以大大提高對(duì)藏文歷史文獻(xiàn)的利用效率;可以大批量遠(yuǎn)距離在線瀏覽和傳輸,實(shí)現(xiàn)資源的共享;能夠在妥善保存原件的基礎(chǔ)上,實(shí)現(xiàn)對(duì)藏文歷史文獻(xiàn)的充分研究和傳承。因此,采用數(shù)字化技術(shù)對(duì)現(xiàn)有的藏文歷史文獻(xiàn)中的文本部分進(jìn)行自動(dòng)識(shí)別并轉(zhuǎn)化為數(shù)字形式存儲(chǔ),對(duì)藏族歷史文化的研究、保護(hù)和傳承具有非常重要的意義。

版面分析是歷史文獻(xiàn)數(shù)字化過(guò)程中重要的基礎(chǔ)步驟。在過(guò)去的幾十年中,國(guó)內(nèi)外的研究者針對(duì)印刷或手寫的歷史文獻(xiàn)提出了許多不同的版面分析方法。版面分析方法多依賴于所處理文獻(xiàn)的版面特點(diǎn),通常針對(duì)不同的文獻(xiàn)版面布局使用特定的版面分析方法。此外,現(xiàn)有的版面分析方法主要用來(lái)處理一些主流語(yǔ)言(如: 中文、英文、法語(yǔ)等)的歷史文獻(xiàn),很少有針對(duì)少數(shù)民族語(yǔ)言歷史文獻(xiàn)特點(diǎn)的版面分析方法提出。由于藏文歷史文獻(xiàn)的固有特點(diǎn),文本和邊框、文本和圖形之間通常會(huì)有粘連的情況發(fā)生;版面也較為復(fù)雜,文獻(xiàn)圖像顏色不一致,噪點(diǎn)多,文獻(xiàn)中的邊框、線段經(jīng)常會(huì)出現(xiàn)彎曲、傾斜、斷裂等情況。以上這些特點(diǎn)給實(shí)現(xiàn)高性能的藏文歷史文獻(xiàn)的版面分析帶來(lái)了較大挑戰(zhàn)。圖1展示了一個(gè)藏文歷史文獻(xiàn)圖像的樣例。現(xiàn)有的文獻(xiàn)版面分析方法大部分是對(duì)近現(xiàn)代比較規(guī)則的印刷書籍的版面進(jìn)行分析,不適用于版面比較復(fù)雜的歷史文獻(xiàn);已有的歷史文獻(xiàn)的版面分析方法,大多是針對(duì)某一種語(yǔ)言文字的歷史文獻(xiàn)特點(diǎn)提出的方法,并不完全適用于藏文歷史文獻(xiàn)。

圖1 藏文歷史文獻(xiàn)圖像

受文獻(xiàn)[2]的啟發(fā),本文提出了一種基于卷積降噪自編碼器的藏文歷史文獻(xiàn)版面分析方法,該方法克服了藏文歷史文獻(xiàn)的退化、顏色不一致、噪點(diǎn)多等特點(diǎn)對(duì)版面分析效果的影響。具體分為四步。第一步,首先使用超像素聚類算法將藏文歷史文獻(xiàn)的圖像聚類成不同的超像素塊;第二步,利用卷積降噪自編碼器提取超像素塊的特征;第三步,使用SVM分類器將藏文歷史文獻(xiàn)圖像的超像素塊進(jìn)行分類;最后,將藏文歷史文獻(xiàn)的版面分析結(jié)果存儲(chǔ)在XML文件中。實(shí)驗(yàn)結(jié)果表明,此方法能夠有效地對(duì)藏文歷史文獻(xiàn)的版面進(jìn)行分析,將不同的版面元素分離。

本文其他部分組織如下: 第一節(jié)介紹文檔版面分析的相關(guān)工作;第二節(jié)引入本文提出的版面分析方法;第三節(jié)給出實(shí)驗(yàn)結(jié)果及分析;第四節(jié)簡(jiǎn)述結(jié)論。

1 相關(guān)工作

近年來(lái),研究人員針對(duì)不同特點(diǎn)的文獻(xiàn)提出了多種多樣的方法對(duì)文獻(xiàn)版面進(jìn)行分析。Sébastien[3]將它們分為了三類。

第一種類型的方法通常用于典型的、版面布局較簡(jiǎn)單的文獻(xiàn),例如,曼哈頓布局類型的文獻(xiàn)。Dai-Ton[4]提出了一種自適應(yīng)的過(guò)分割和融合算法來(lái)對(duì)印刷出版物進(jìn)行版面分割;利用圖像背景中的白色矩形信息先將圖像盡可能地過(guò)分割,然后將通過(guò)形態(tài)學(xué)方法檢測(cè)出的直線和圖畫區(qū)域從圖像中去除,通過(guò)連通區(qū)域分析得到候選文本;通過(guò)預(yù)定義的規(guī)則將字體大小相同、距離相近的候選文本組合成一個(gè)連通區(qū)域;然后使用段落分布模型將不同段落分割開;此方法在現(xiàn)代印刷報(bào)紙、雜志等出版物上獲得了較好的分割效果。郭[5]提出了一種改進(jìn)的連通區(qū)域分析方法,對(duì)報(bào)紙和雜志圖像進(jìn)行版面分析;該方法先對(duì)單個(gè)字域進(jìn)行擴(kuò)充以填補(bǔ)字內(nèi)的空隙,然后再通過(guò)投影進(jìn)行文本塊連通,最后通過(guò)分析連通塊的投影,對(duì)連通塊進(jìn)行標(biāo)記;其實(shí)驗(yàn)結(jié)果表明此方法對(duì)報(bào)紙和雜志的版面分析是比較有效的。

第二種方法的不同之處在于它們嘗試適應(yīng)文獻(xiàn)圖像中的局部變化,以便能夠使用相同的方法來(lái)分割更多布局類型的文獻(xiàn)圖像。Chen等[2]在他們以前研究[6]的基礎(chǔ)上,提出了一種基于超像素分類的無(wú)監(jiān)督學(xué)習(xí)方法來(lái)分析歷史文獻(xiàn)版面,對(duì)待分析文本圖像先進(jìn)行超像素聚類,然后對(duì)超像素進(jìn)行分類,并將分類結(jié)果融合成連通區(qū)域;此方法與其原來(lái)的方法相比,不僅降低了計(jì)算復(fù)雜度,也提升了分析效果。Yadav[7]提出了一種基于角點(diǎn)檢測(cè)的文本提取方法,其受到在視頻中利用角點(diǎn)檢測(cè)進(jìn)行文本區(qū)域檢測(cè)的啟發(fā)和文本圖像中文本區(qū)域的角點(diǎn)密度比其他區(qū)域的角點(diǎn)密度大的先驗(yàn)知識(shí);先將文本圖像均分成較小的塊,然后利用角點(diǎn)密度對(duì)圖像塊進(jìn)行分類;此方法在一些手寫文本圖像和歷史印刷圖像數(shù)據(jù)集上都得到了較好的結(jié)果。

第三種類型的方法通過(guò)結(jié)合先前提出的一些方法或者使用先進(jìn)的神經(jīng)網(wǎng)絡(luò)來(lái)克服以上兩類算法的缺點(diǎn)。Ramel[8]提出了一種混合的文本區(qū)域提取方法,通過(guò)在二值化的圖像中進(jìn)行連通區(qū)域檢測(cè),然后根據(jù)連通塊的大小為每個(gè)連通塊標(biāo)記預(yù)分類標(biāo)簽;再融合前景和背景信息,根據(jù)預(yù)定義的規(guī)則將有重疊的連通區(qū)域進(jìn)行合并及重新標(biāo)記分類;最后將重心距離較近的文本塊合并;此方法在其印刷歷史書籍上得到了較好的效果。姜[9]在大型中文古籍《四庫(kù)全書》自動(dòng)版面分析系統(tǒng)中,使用了基于傳統(tǒng)的混合方法和先驗(yàn)規(guī)則的自動(dòng)處理與人工修正相結(jié)合的設(shè)計(jì)思想;能夠自動(dòng)采用相應(yīng)算法處理多種規(guī)范和準(zhǔn)規(guī)范的版面。肖[10]在復(fù)雜背景下彝文古籍文本提取方法的研究中,利用邊緣檢測(cè)和小波變換對(duì)原始圖像進(jìn)行了分解,然后通過(guò)GBDT(Gradient Boost Descent Tree)分類器進(jìn)行文本和非文本的分類,并結(jié)合形態(tài)學(xué)變化和先驗(yàn)規(guī)則準(zhǔn)確定位文本區(qū)域。Bukhari[11]提出一種手寫阿拉伯歷史文獻(xiàn)的正文和側(cè)邊注釋分割的方法;通過(guò)將圖像連通區(qū)域歸一化,提取連通區(qū)域的形狀特征和上下文特征組成特征向量,然后利用AutoMLP(Auto Multi-Layer Perception)分類器對(duì)圖像中的連通區(qū)域進(jìn)行分類,結(jié)合最近鄰分析得到最終的分割結(jié)果。

2 基于卷積降噪自編碼器的藏文歷史文獻(xiàn)版面分析方法

本文所提出方法的流程圖如圖2所示。首先,將藏文歷史文獻(xiàn)進(jìn)行超像素聚類,獲得超像素塊;然后,利用卷積降噪自編碼器對(duì)超像素塊進(jìn)行特征提取;最后,利用SVM分類器對(duì)藏文歷史文獻(xiàn)的超像素塊進(jìn)行分類,從而提取出藏文歷史文獻(xiàn)版面的各個(gè)部分,并將結(jié)果保存在XML中。

圖2 版面分析流程圖

2.1 超像素聚類

超像素(Superpixel)是一種圖像預(yù)處理技術(shù),它利用相鄰像素點(diǎn)在紋理、顏色、亮度等特征上的相似程度將相鄰像素點(diǎn)聚成一個(gè)圖像塊,從而獲取圖像的冗余信息,相比傳統(tǒng)的圖像處理基本單元——像素,超像素有利于提取圖像的局部結(jié)構(gòu)特征,能夠大幅度減小后續(xù)處理的計(jì)算復(fù)雜度。

本文采用了SLIC[12](Simple Linear Iterative Clustering)算法進(jìn)行超像素聚類。此算法不僅方法簡(jiǎn)單而且能夠得到高質(zhì)量整齊的超像素;還有比其他超像素分割方法更高的效率[13],并且可以用于彩色圖像和灰度圖像。SLIC唯一需要的參數(shù)就是設(shè)定預(yù)期超像素的個(gè)數(shù)。SLIC算法首先將圖像換到CIELAB顏色空間,通過(guò)CIELAB顏色空間中的L(亮度通道),A(顏色通道,從紅色到深綠),B(顏色通道,從藍(lán)色到黃色)的值以及像素的坐標(biāo)x、y定義的五維空間進(jìn)行局部的像素聚類。在這個(gè)空間距離不規(guī)范的五維空間中,簡(jiǎn)單地使用歐氏距離進(jìn)行聚類是不合適的,所以SLIC使用了一種全新距離計(jì)算方法,計(jì)算方法如式(1)所示。

(1)

超像素聚類算法在五維空間進(jìn)行聚類時(shí)考慮了顏色相似性和像素接近度,使得預(yù)期的超像素塊的大小和它們的空間范圍大致相等,加強(qiáng)了超像素形狀的整齊性。圖3為藏文歷史文獻(xiàn)的超像素聚類結(jié)果,不同的灰度邊緣代表不同的超像素塊。從圖3中可以看出,大部分不同的版面元素能夠被超像素塊分割開。

圖3 藏文歷史文獻(xiàn)的超像素聚類結(jié)果

2.2 卷積降噪自編碼器

2.2.1 自編碼器介紹

自編碼器(AutoEncoder,AE)是深度神經(jīng)網(wǎng)絡(luò)的一種。經(jīng)過(guò)訓(xùn)練后它能嘗試將輸入通過(guò)編碼器編碼,然后利用解碼器解碼出與原輸入盡可能一致的輸出。一般意義上的自編碼器內(nèi)部有一個(gè)隱藏層h,可以產(chǎn)生表示輸入的編碼。通常會(huì)給自編碼器加上一些強(qiáng)制的約束,使它只能近似地復(fù)制與訓(xùn)練數(shù)據(jù)相似的輸入。強(qiáng)制約束使模型優(yōu)先學(xué)習(xí)輸入數(shù)據(jù)中具有顯著性的特性,因此AE能夠?qū)W習(xí)到數(shù)據(jù)的有用特征。除了這種單層的自編碼器,還有堆疊自編碼器(Stacked AE,SAE)、卷積自編碼器(Convolutional AE,CAE)、降噪自編碼器(Denoising AE,DAE)等多種類型的自編碼器[14]。

堆疊自編碼器,由一系列的自編碼器堆疊而成。每個(gè)自編碼器的編碼作為下一層的輸入,這樣一層一層堆疊起來(lái),構(gòu)成一個(gè)深層網(wǎng)絡(luò),其能夠逐層地學(xué)習(xí)原始數(shù)據(jù)的多種表達(dá)。卷積自編碼器,利用卷積從數(shù)據(jù)中自動(dòng)學(xué)習(xí)并提取特征。它的權(quán)值共享結(jié)構(gòu)大大減少了網(wǎng)絡(luò)的參數(shù)。結(jié)合局部連接,使得網(wǎng)絡(luò)在圖像分析中優(yōu)勢(shì)明顯,能夠自動(dòng)提取圖像的紋理、顏色等特征,其提取的特征有更好的魯棒性和泛化能力。降噪自編碼器,是在自編碼器的基礎(chǔ)上,將原始輸入加入噪聲,輸出目標(biāo)為沒有被噪聲污染過(guò)的原始輸入;這就迫使編碼器去學(xué)習(xí)輸入信號(hào)的更加魯棒的表達(dá),使得其泛化能力比一般編碼器更強(qiáng)。

大部分的藏文歷史文獻(xiàn)是寫在藏紙上面的。藏紙是一種用傳統(tǒng)手工技術(shù)制造的紙張,其表面粗糙,顏色不均勻。在獲取藏文歷史文獻(xiàn)的圖像時(shí),也會(huì)產(chǎn)生光照不均勻、圖像模糊等情況。為了克服藏文歷史文獻(xiàn)的以上缺點(diǎn),取得比較好的版面分析效果,本文選用卷積降噪自編碼器(Convolutional Denoising AE,CDAE)來(lái)提取超像素塊的特征。

2.2.2 CDAE的結(jié)構(gòu)

CDAE的結(jié)構(gòu)如圖4所示。為了能夠展示清楚卷積降噪自編碼器的結(jié)構(gòu),將其編碼器部分和解碼器分開展示,并標(biāo)示了每層的Feature Map(FM)個(gè)數(shù)。它主要由三個(gè)卷積層(Conv1,Conv2,Conv3)和相應(yīng)的三個(gè)反卷積層(DConv1,DConv2,DConv3)和兩個(gè)全連接層(FC1,F(xiàn)C2)組成。各層的具體參數(shù)如表1所示。表中“-”的意思是沒有此項(xiàng)參數(shù)。

圖4 自編碼器結(jié)構(gòu)圖

表1 CDAE的各層的參數(shù)

2.2.3 CDAE的輸入和目標(biāo)輸出

一般的降噪自編碼器的輸入為原始圖像加上噪聲,輸出目標(biāo)為原始圖像。通過(guò)這樣的訓(xùn)練使自編碼器能夠?qū)W習(xí)到樣本的魯棒性的表達(dá),降低噪聲污染的影響。藏文歷史文獻(xiàn)圖像本身有許多噪聲存在,為了使CDAE能夠?qū)W習(xí)到藏文歷史文獻(xiàn)的魯棒性表達(dá),消除噪聲的影響,本文結(jié)合gamma矯正方法和Otsu算法消除了藏文歷史文獻(xiàn)中的噪點(diǎn),光照不均衡等的影響,得到了較為清晰的藏文歷史文獻(xiàn)的二值化圖像。并以超像素塊在此二值化圖像上的對(duì)應(yīng)位置的像素塊作為CDAE的目標(biāo)輸出,以原始藏文歷史文獻(xiàn)的灰度圖像中對(duì)應(yīng)位置的像素塊為輸入訓(xùn)練CDAE自編碼器。

圖5對(duì)CDAE編碼器部分的輸入和三個(gè)卷積層在這個(gè)輸入上提取的Feature Map進(jìn)行了可視化。圖中每一個(gè)塊代表該層不同的濾波器所提取的特征;從圖中可以看出,同一個(gè)卷積層的不同濾波器所產(chǎn)生的特征具有相似性,而不同的卷積層之間所提取的特征差異比較大,這也證實(shí)了不同卷積層可以學(xué)習(xí)到原始輸入不同層次的表達(dá)。圖6展示了CDAE的輸入,目標(biāo)輸出和真實(shí)輸出之間的對(duì)比。輸入數(shù)據(jù)為藏文歷史文獻(xiàn)的灰度圖,從圖中可以看出,輸入圖像有比較多的噪點(diǎn);目標(biāo)輸出為輸入圖像相應(yīng)的二值化圖像;從CDAE經(jīng)過(guò)訓(xùn)練以后產(chǎn)生的真實(shí)輸出可以看出,與原始輸入圖像相比大部分的噪點(diǎn)被消除,而且與目標(biāo)輸出非常相似。

圖5 CDAE編碼器輸入和三層卷積提取的Feature Map

圖6 CDAE的訓(xùn)練數(shù)據(jù)和真實(shí)輸出

2.3 SVM分類器

支持向量機(jī)(Support Vector Machine)是一種分類算法。通過(guò)尋求結(jié)構(gòu)風(fēng)險(xiǎn)最小化來(lái)提高其泛化能力,實(shí)現(xiàn)經(jīng)驗(yàn)風(fēng)險(xiǎn)和置信范圍的最小化。通俗來(lái)講,它是一種二分類模型,其基本模型定義為特征空間上的間隔最大的線性分類器,即支持向量機(jī)的學(xué)習(xí)策略便是間隔最大化,最終可轉(zhuǎn)化為一個(gè)凸二次規(guī)劃問題的求解。解線性分類問題,線性分類支持向量機(jī)是一種非常有效的方法,但有些分類問題是非線性的,這時(shí)支持向量機(jī)可以使用核技巧引入一個(gè)核函數(shù)K,將數(shù)據(jù)映射到高維空間,來(lái)解決在原始空間中線性不可分的問題。常用的核函數(shù)有多項(xiàng)式核函數(shù)、線性核函數(shù)和徑向基核函數(shù)等[15]。以上介紹的SVM主要是用來(lái)解決二分類問題,如果使用SVM解決多分類問題,大致有兩種思路。一種是將多分類問題轉(zhuǎn)化為多組二分類問題直接求解;第二種思路是適當(dāng)改變?cè)贾С窒蛄繖C(jī)的優(yōu)化問題,直接得到多分類支持向量機(jī);但由于第二種思想計(jì)算太過(guò)復(fù)雜、計(jì)算量太大沒有被廣泛應(yīng)用。

本文將從藏文歷史文獻(xiàn)圖像中提取的超像素分為三類,即邊框、文本和背景,其類別標(biāo)簽分別標(biāo)記為0、1、2。選用多分類帶徑向基核函數(shù)的支持向量機(jī)來(lái)訓(xùn)練超像素的分類模型。

3 實(shí)驗(yàn)結(jié)果及分析

3.1 實(shí)驗(yàn)程序框架

實(shí)驗(yàn)的操作系統(tǒng)為Ubuntu14.04,GPU為NVIDIA K40M。目前構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)的開源框架有很多,如Theano、Keras、Pytorch、TensorFlow、Caffe等。本文實(shí)驗(yàn)選用Keras進(jìn)行模型搭建,Tensorflow作為Keras后端并利用TFRecords保存訓(xùn)練數(shù)據(jù)[16]。

3.2 實(shí)驗(yàn)數(shù)據(jù)準(zhǔn)備

實(shí)驗(yàn)數(shù)據(jù)來(lái)源于青海民族大學(xué)提供的藏文歷史文獻(xiàn)《班禪大師作品全集》的圖像,共440張。版面主要有兩種類型,一種為邊框內(nèi)只嵌入文本;另一種為如圖1所示的邊框內(nèi)嵌入文本和非文本。通過(guò)SLIC算法將每個(gè)圖片聚成1 000個(gè)左右的超像素塊,以超像素塊中心點(diǎn)的像素點(diǎn)所屬的類別代表超像素的類別;為了避免重復(fù)計(jì)算,圖片的超像素塊信息存儲(chǔ)在相應(yīng)的XML文件中。

由于超像素塊的形狀是不規(guī)則的,為了訓(xùn)練自編碼器,選擇超像素塊的固定邊長(zhǎng)為45像素的外接四邊形區(qū)域代替超像素塊。自編碼器的輸入為超像素塊的灰度圖,輸出為其對(duì)應(yīng)的二值化圖像塊。在所有圖像中,屬于文本、邊框、背景的超像素塊分別為33萬(wàn)多塊,4萬(wàn)多塊和8萬(wàn)多塊。為了均衡訓(xùn)練數(shù)據(jù),從三類超像素塊中分別隨機(jī)取三類超像素塊各4.65萬(wàn)塊,共13.95萬(wàn)塊構(gòu)成實(shí)驗(yàn)數(shù)據(jù)集。其中,前12萬(wàn)塊(每類包括4萬(wàn)塊)作為訓(xùn)練集,其余1.95萬(wàn)塊做測(cè)試集,訓(xùn)練集中的后10%做驗(yàn)證集。為了方便實(shí)驗(yàn),將數(shù)據(jù)集以輸入圖像塊,目標(biāo)圖像塊,類標(biāo)簽的TFRecords格式存儲(chǔ)在二進(jìn)制文件中。

3.3 實(shí)驗(yàn)

3.3.1 自編碼器的輸入對(duì)結(jié)果的影響

文獻(xiàn)[2]中以三通道彩色圖像作為其CAE的輸入和目標(biāo)輸出,其數(shù)據(jù)集的各個(gè)部分有明顯的顏色區(qū)別,顏色信息能對(duì)其分類準(zhǔn)確性產(chǎn)生比較積極的影響;然而藏文歷史文獻(xiàn)圖像的不同頁(yè)面之間在顏色和亮度上有比較大的差異;雖然卷積自編碼器有比較強(qiáng)的特征提取和泛化能力,但是面對(duì)藏文歷史文獻(xiàn)圖像的復(fù)雜性,本文認(rèn)為顏色信息不會(huì)對(duì)藏文歷史文獻(xiàn)超像素塊的分類產(chǎn)生積極的影響。以下實(shí)驗(yàn)驗(yàn)證了這一想法。

用同樣結(jié)構(gòu)的自編碼器,輸入分別設(shè)為彩色圖像和灰度圖像,目標(biāo)輸出均為其對(duì)位輸入;訓(xùn)練好自編碼器之后分別用它們提取的特征訓(xùn)練SVM分類器,對(duì)超像素塊做分類。CAE為卷積自編碼器,其結(jié)構(gòu)與CDAE相同。實(shí)驗(yàn)結(jié)果如表2所示。

表2 顏色信息對(duì)分類結(jié)果影響的對(duì)比

從實(shí)驗(yàn)結(jié)果可以看出,輸入為彩色圖像的自編碼器提取的特征分類結(jié)果低于灰度圖像。此實(shí)驗(yàn)表明了對(duì)于藏文歷史文獻(xiàn)來(lái)說(shuō)顏色信息沒有對(duì)分類產(chǎn)生比較積極的作用,導(dǎo)致分類準(zhǔn)確率低于單通道的灰度圖像;所以在訓(xùn)練CDAE時(shí),本文選擇了藏文歷史文獻(xiàn)的灰度圖像作為輸入,消除顏色信息對(duì)特征提取過(guò)程的干擾,降低計(jì)算的復(fù)雜度。

3.3.2 降噪對(duì)超像素塊分類的影響

降噪自編碼器能夠?qū)W習(xí)輸入信號(hào)的更加魯棒的表達(dá),使得它的泛化能力比一般編碼器更強(qiáng)。表3中分別用二值化圖和灰度圖做目標(biāo)輸出,訓(xùn)練同樣結(jié)構(gòu)的自編碼器來(lái)提取特征對(duì)超像素塊進(jìn)行分類。

表3 降噪對(duì)分類結(jié)果影響的對(duì)比

由結(jié)果可以看出,用降噪方式訓(xùn)練的自編碼器具有更高的分類準(zhǔn)確率,這證實(shí)了降噪自編碼器能夠消除噪聲的干擾,更專注于藏文歷史文獻(xiàn)中內(nèi)容相關(guān)的信息。

3.3.3 實(shí)驗(yàn)結(jié)果對(duì)比分析

本文用相同的超像素?cái)?shù)據(jù)分別對(duì)文獻(xiàn)[2]中的方法和本文的方法進(jìn)行了實(shí)驗(yàn)。文獻(xiàn)[2]中的方法采用了三個(gè)不同的全連接層結(jié)構(gòu)自編碼器組成,選用不同尺度的訓(xùn)練數(shù)據(jù)逐層進(jìn)行訓(xùn)練。對(duì)一個(gè)超像素塊分別用這三個(gè)自編碼器從不同的尺度提取特征,然后將三個(gè)自編碼器提取的特征組成一個(gè)特征向量。為了更加全面地對(duì)比實(shí)驗(yàn)結(jié)果,除了按照文獻(xiàn)[2]中的原始方法(輸入圖像和目標(biāo)輸出均為彩色圖像)進(jìn)行了實(shí)驗(yàn),在不改變其自編碼結(jié)構(gòu)的情況下,還使用了跟本方法類似的降噪方式訓(xùn)練其自編碼器。實(shí)驗(yàn)結(jié)果如表4所示。

從表4中可以看出,在藏文歷史文獻(xiàn)的版面分析方面,本文的方法要明顯優(yōu)于文獻(xiàn)[2]中的方法。從實(shí)驗(yàn)結(jié)果可以看出,用不同的方式訓(xùn)練的文獻(xiàn)[2]的自編碼器,分類正確率差異比較小。這表明在藏文歷史文獻(xiàn)上,文獻(xiàn)[2]中的方法獲取的特征雖然也學(xué)習(xí)到了能夠區(qū)分不同超像素類別的特征,但其特征的泛化能力和魯棒性較弱。本文的方法可以彌補(bǔ)其不足,得到泛化能力和魯棒性都較強(qiáng)的特征,取得了較高的分類正確率。

表4 實(shí)驗(yàn)結(jié)果對(duì)比

圖7展示了進(jìn)行超像素分類后的藏文歷史文獻(xiàn)的版面分析結(jié)果,文本區(qū)域、邊框、邊緣背景區(qū)域分別用不同的灰度邊緣來(lái)區(qū)分。從圖中可以看出大部分的版面元素都能夠得到正確的分類結(jié)果,但是由于版面的不規(guī)則和算法的局限性,有部分超像素塊被誤分為其他類別。

圖7 版面分析結(jié)果

4 總結(jié)

本文提出了基于卷積降噪自編碼器的藏文歷史文獻(xiàn)的版面分析方法,首先對(duì)藏文歷史文獻(xiàn)圖像進(jìn)行超像素聚類,然后訓(xùn)練卷積降噪自編碼器來(lái)提取特征,再利用SVM分類器對(duì)超像素塊進(jìn)行分類。實(shí)驗(yàn)表明,在藏文歷史文獻(xiàn)的版面分析上,本文的方法獲得了較高的分類準(zhǔn)確率。但本文設(shè)計(jì)的方法仍存在一些不足,如藏文歷史文獻(xiàn)圖像數(shù)據(jù)種類和數(shù)量還需完善,網(wǎng)絡(luò)結(jié)構(gòu)還有改善空間,識(shí)別率有待提高,最終結(jié)果比較依賴超像素聚類結(jié)果等,后續(xù)將繼續(xù)研究改進(jìn)。

猜你喜歡
分類文本方法
分類算一算
在808DA上文本顯示的改善
分類討論求坐標(biāo)
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 黄色免费在线网址| 国产素人在线| 老汉色老汉首页a亚洲| 亚洲天天更新| 成人日韩视频| h网址在线观看| 婷婷色在线视频| 一级福利视频| 亚洲第一区在线| 狠狠色综合网| 九九这里只有精品视频| 亚洲美女AV免费一区| 欧美在线观看不卡| 国产乱人伦偷精品视频AAA| 国产精品无码翘臀在线看纯欲| 国产亚洲精品91| 国产精品分类视频分类一区| 色欲不卡无码一区二区| 国产精品微拍| 韩日无码在线不卡| 99精品视频在线观看免费播放| 亚洲男人的天堂网| 精品一区二区无码av| 国产97色在线| 久久精品人人做人人综合试看| 国产呦精品一区二区三区下载| 中国国产一级毛片| 午夜高清国产拍精品| 人人澡人人爽欧美一区| 国产特级毛片aaaaaa| 国模沟沟一区二区三区| 日本a∨在线观看| 午夜精品国产自在| 国产国产人免费视频成18| 日韩精品高清自在线| 免费激情网址| 亚洲福利网址| 玖玖免费视频在线观看| 日本人妻丰满熟妇区| 免费a在线观看播放| 高潮毛片免费观看| 狠狠v日韩v欧美v| 亚洲精品国产成人7777| 国产在线自在拍91精品黑人| 99视频在线免费| 91美女在线| 久久精品亚洲中文字幕乱码| 欧美日韩在线观看一区二区三区| 在线观看亚洲国产| 91成人在线观看| 亚洲AⅤ波多系列中文字幕| 国产精品久久久免费视频| 99re热精品视频中文字幕不卡| 一级毛片网| 亚洲第一在线播放| 国产人成在线观看| 亚洲男人的天堂视频| 三级国产在线观看| 亚洲va欧美va国产综合下载| 免费精品一区二区h| 精品亚洲欧美中文字幕在线看 | 国产精品成人免费视频99| 一级全免费视频播放| 99久久精彩视频| 亚洲va视频| 久久99精品国产麻豆宅宅| 国产00高中生在线播放| a级毛片在线免费| 99久久精品国产麻豆婷婷| 欧美中文字幕在线二区| 亚洲日韩在线满18点击进入| 亚洲国产成人自拍| 久久一日本道色综合久久| 久久黄色一级视频| 四虎影视8848永久精品| 亚洲欧美成人网| swag国产精品| 超碰91免费人妻| 亚洲第一中文字幕| 91国内在线观看| 国内丰满少妇猛烈精品播| 制服丝袜一区|