999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

東巴象形文字文檔圖像的文本行自動分割算法研究

2022-11-02 11:24:20康厚良楊玉婷
圖學學報 2022年5期
關鍵詞:文本

康厚良,楊玉婷

東巴象形文字文檔圖像的文本行自動分割算法研究

康厚良1,楊玉婷2

(1. 蘇州市職業大學體育部,江蘇 蘇州 215000;2. 蘇州市職業大學計算機工程學院,江蘇 蘇州 215000)

以卷積神經網絡(CNN)為代表的深度學習技術在圖像分類和識別領域表現出了非常優異的性能。但東巴象形文字未有標準、公開的數據集,無法借鑒或使用已有的深度學習算法。為了快速建立權威、有效的東巴文字庫,分析已出版東巴文檔的版面結構,從文檔中提取文本行、東巴字成為了當前的首要任務。因此,結合東巴象形文字文檔圖像的結構特點,給出了東巴文檔圖像的文本行自動分割算法。首先利用基于密度和距離的k-均值聚類算法確定了文本行的分類數量和分類標準;然后,通過文字塊的二次處理矯正了分割中的錯誤結果,提高了算法的準確率。在充分利用東巴字文檔結構特征的同時,保留了機器學習模型客觀、無主觀經驗影響的優勢。通過實驗表明,該算法可用于東巴文檔圖像、脫機手寫漢字、東巴經的文本行分割,以及文本行中東巴字和漢字的分割,具有實現簡單、準確性高、適應性強的特點,從而為東巴文字庫的建立奠定基礎。

東巴象形文字;東巴文檔分析;文本行分割;投影分割;d-K-means

1 東巴象形文字手寫文檔分析

東巴文是一種十分原始的圖畫象形文字,是人類早期圖畫文字中象形文字、標音文字過渡的一種文字形式[1-2],主要是由東巴法師用于抄寫經文。由于其還未發展成為一種字形比較固定、統一的表意文字[3-4],因書寫的東巴法師不同而具有明顯的個體差異性,導致非常多異體字[5]的存在,使得通過計算機實現東巴字的自動識別面臨很多挑戰。

隨著以卷積神經網絡(convolutional neural networks,CNN)為代表的深度學習技術的設計越來越深層化,圖像特征的標識能力越來越強,深度學習在圖像分類和識別領域表現出了非常優異的性能[6-8]。但深度學習的優勢有賴于大數據,數據量的不足會直接導致模型出現過擬合的問題[9]。雖然很多專家也針對此問題提出了小樣本學習[10],甚至是1-樣本學習(one-shot learning)[11]的解決方案,但對樣本仍有一些限制條件。如,樣本需要達到一定的數量或具有某些方面的特征(文字樣本需包含某些筆劃特征或書寫順序[11]等)。因此,擁有權威、充足的東巴字樣本才能為東巴字的自動識別提供更多的途徑,但目前東巴字還未有標準、公開的數據集,并且大量的文檔資料均是非常古老的紙質資料,且多珍藏于世界各大著名圖書館和博物館,使東巴字的樣本采集難度增大。

電子文檔的普及化、共享化使東巴字的樣本采集有了更加方便、快捷的途徑,通過對原有已出版書籍,特別是絕版、權威書籍文檔圖像中東巴字的提取,可快速擴充文字庫,增加字庫的容量。而原有的樣本采集工作也轉化為對文檔圖像的版面分析和識別、文本的分割和提取工作。

文本行分割作為東巴字提取、東巴字譯注段落分析、特定樣本采集等一系列文檔分析和采集工作的基礎,有著非常重要的意義,但是卻鮮有研究對其進行探討。由于東巴文檔圖像中兼有東巴文和脫機手寫漢字(例如:《納西象形文字譜》),若能借鑒或使用已有的脫機手寫漢字版面分析技術,則可大幅提高工作效率。文獻[12-14]結合脫機手寫文檔圖像的結構特征,采用改進的投影分割算法以直觀的方式實現了手寫文本行的分割。這類算法符合人類分割文本行的習慣,具有直觀、簡單、易實現的特點,但仍或多或少地受到經驗參數的影響(如,實現上下兩行粘連字符分割時,憑經驗將行分割線設置為文字高度的1/10[12],文本行分割和合并時將手寫字的大小限定在一定范圍之內[13]等)。為了克服這一問題,目前學者們更多是采用與深度學習相結合的方法。GRüNING等[15]提出了一種兩階段的歷史古籍文本行檢測算法。該方法通過ARU-Net深度學習網絡,結合數據增強策略,將全頁訓練樣本的數量降低至50張以下,并且能夠用于任意方向和曲線的文本行檢測。HAZEM等[16]采用以主題為單位的文檔分割思想,按照祈禱者的時間順序實現了對中世紀手稿的文本行分割及段落、文檔結構等更高層次的分析,并建立了對應的數據集。但由于缺乏大量的標注訓練數據,無法采用深度學習的方法來測試數據集。BOILLET等[17]在Doc-UFCN[18],dhSegment[19]和ARU-Net[15]等3種深度學習網絡的基礎上給出了具有通用性的歷史古籍文本行分割算法,并提出了統一的數據標注方式以提高識別效率。WANG等[20]提出了端到端的中文文本頁面檢測、識別系統。通過將文本檢測和文字識別統一到一個框架中,實現了全局文本特征與文本核的結合,降低了文字識別對文本檢測的依賴性,提高了系統的魯棒性。LIU等[21]提出了基于圖卷積網絡(graph convolutional network,GCN)的文本行檢測算法。該算法將文檔中的單詞作為基本單元,以單詞為基礎得到文本行,再以文本行為基礎得到段落,是非常少有的既能檢測脫機手寫文本行,又能檢測文檔段落的方法。但是,該方法以脫機手寫單詞為基本單元,單詞在文檔中的識別效率將直接影響算法最終的準確率。

基于深度學習的方法具有精度高、健壯性好、不受經驗參數影響等優點,但針對于特定領域,對訓練數據的規模、數據標記方式等均有著不同的要求。并且,一些研究[15,17,19,21]對文檔中文本行的分割及文檔結構的分析是建立在利用已有的文字檢測和識別算法的基礎上完成的。這與本文通過分析東巴文檔圖像的結構,分割并提取其中的東巴字、脫機手寫漢字,形成完整的東巴象形文字數據集的思路是相悖的。

因此,結合東巴象形文字文檔圖像的結構特點,本文提出一種適用于東巴字文檔圖像的文本行自動分割(automatic text line segmentation,ATLS)算法,以傳統投影分割算法為基礎加入了基于密度和距離的k-均值聚類算法(distance & density K-means,d-K-means),保證了文本行分割的合理性和徹底性。ATLS算法充分利用了東巴字文檔的結構特征,同時又保留了機器學習模型客觀、無主觀經驗影響的優勢,使算法的健壯性更好、準確性更高、適用范圍更廣,從而為以更小的文檔單位研究東巴字,建立具有權威性的東巴字庫奠定基礎。

2 東巴字文檔圖像的文本行自動分割算法

2.1 東巴字文檔圖像研究對象的選擇

《納西象形文字譜》[22]、《納西族象形標音文字字典》[23]和《納西語英語漢語語匯》[24]是代表東巴文編撰領域較高水平的三部字典,如圖1所示。其中,方國瑜先生編撰的《納西象形文字譜》是一本純手寫的字典,與其他兩本字典相比,其排版、布局更加復雜,加之全部為脫機手寫字文檔,文字的大小、文本行的間距、段落的縮進距離等隨意性更強,難以做到完全一致。因此,選擇《納西象形文字譜》作為研究對象具有一定代表性,有利于提高ATLS算法的適用性和擴展性。

ATLS算法的核心思路是:首先,采用垂直和水平投影對東巴文檔圖像進行初次分割,提取文字塊;其次,將文字塊作為聚類的數據樣本,結合d-K-means算法對文字塊進行自動分類,確定文字塊的屬性;最后,對其中的異常文字塊進行二次處理,保證文檔中單個文本行的獨立性和完整性。

2.2 文檔圖像的預處理及初次分割

由于東巴文檔圖像中的頁眉和頁腳一般為印刷體,排版位置固定、大小相同(圖1)。因此,在預處理階段,首先計算文檔中頁眉和頁腳的位置并去除,以減少對文檔正文結構的干擾,效果如圖2(a)和(b)所示;其次,采用水平和垂直投影算法對文檔圖像進行初分割,分割時將投影值為0的像素行作為文檔圖像的分割行/列,并提取文檔中的文字塊,如圖2(a)和(c)所示。其中,圖2(a)為初次水平分割的結果,圖2(c)為初次垂直分割的結果。

由于脫機手寫文檔的書寫比較隨意,文本行的間距大小不同,單個字符內部可能存在局部分離,而字符間又易發生重疊、粘連和交錯,加之東巴字大小不一,使得由初次分割得到的文字塊中存在分割不徹底或過渡分割的文字塊,如圖2(a)和(c)所示。并且,初次分割得到的文字塊屬于無標記樣本,文字塊的屬性、包含的文本行數量或文字塊的有效性都是未知的。為了找出無標記樣本的內在特征,實現文檔中文本行的有效提取,選擇無監督學習(unsupervised learning)中廣泛應用的聚類算法[23]——K-means來分析文字塊的屬性。

圖2 文檔圖像的預處理和初次分割((a)原始文檔圖像;(b)去除頁眉和頁腳;(c)初次垂直投影;(d)垂直投影合并)

2.3 基于密度和距離的k-均值聚類算法

K-means基于“以物聚物”的原理是將一組個體按照相似性歸為若干類,使得屬于同一類別的個體之間的差異性盡可能的小,而不同類別則盡可能的大,具有簡潔、快速的優點[25]。但是,K-means一般要求事先指定分類數量,且對初始點敏感,導致聚類結果穩定性差,使用范圍受限。為克服原始算法的缺陷,選擇基于密度和距離的k-均值聚類算法(d-K-means)[26]。該算法在K-means算法的基礎上權衡了密度和距離對聚類的影響,首先在權值的基礎上通過引入最小最大原則來選擇初始聚類中心,避免初始聚類中心選擇隨機性引起的局部最優解問題,減少算法的迭代次數;其次,通過比較預分類前后所有數據點BWP指標[27]平均值的變化來自動確定類中心及其個數,保證了K-means聚類中心及其數量的有效性。使用d-K-means算法實現東巴文檔圖像中文字塊的分類與屬性識別的操作步驟為:

步驟1.確定樣本集合及采樣特征。將投影算法得到的文字塊作為聚類分析的數據樣本。由圖2可知,在水平方向上,文字塊的屬性判斷與文字塊的高度有關(過大,可能是分割不徹底;過小,可能是過分割),因此將文字塊的高度及其在文檔圖像中的序號作為水平樣本的特征。在垂直方向上,由于空白分割列的位置相對固定,變化幅度較少,因此選擇文檔中連續的空白分割列作為垂直樣本,將其起始位置和列寬作為樣本特征。那么,對于包含個文字塊的樣本集合,其水平樣本及垂直樣本的特征描述為

其中,和分別為水平樣本的序號和行高;和分別為垂直樣本的起始位置和列寬。由于在水平和垂直方向上的文字塊處理方式類似,且水平分割的處理過程更為復雜,因此以水平樣本的分類過程為例來描述整個算法的流程。圖3(a)和圖4(a)的分布給出了《納西象形文字譜》文檔圖像水平和垂直樣本的特征分布情況。

步驟2.計算水平樣本P的半徑,得

其中,P_nearest()為與水平樣本P距離最近的個樣本;()為2個樣本點之間的歐氏距離;為初始時每個聚類包含的樣本數,在二維空間中一般取m=4[28]。

步驟3.根據水平樣本P_領域,計算權值,選擇權值最大的樣本點作為聚類的第一個中心點,即

其中,QP_領域內的樣本;為樣本P_領域內的樣本數量;()為2個樣本點之間的歐氏距離;為樣本集向量空間的大小;max和min為樣本集合二維特征的最大值和最小值;|| ||2為歐氏距離的平方。

步驟4.計算每個水平樣本的中心點指標C,選取中心點指標最大的樣本作為新的備選聚類中心,并加入到中心點列表中,對樣本集合進行預分類,即

圖3 基于d-K-means的東巴文檔水平文字塊的分類((a)文檔中水平樣本的分布;(b) BWP平均值的變化情況;(c)基于d-K-means的分類)

Fig. 3 Classification of horizontal text blocks in Dongba documents based on d-K-means ((a) Distribution of horizontal samples in the document; (b) Variation of BWP mean; (c) Classification based on d-K-means)

圖4 基于d-K-means的東巴文檔垂直文字塊的分類((a)文檔中垂直樣本的分布;(b) BWP平均值的變化情況;(c)基于d-K-means的分類)

其中,為水平樣本P的權值;為水平樣本P與距離自身最近的類簇中心點之間的距離,為當前中心點的數量。

步驟5.計算類間距離。類間距離(,)指的是第類中的第個樣本P到其他每個類中樣本的歐式距離平均值的最小值。顯然,(,)的值越大,則類間分離性越好,得

步驟6.計算類內距離。類內距離(,)指的是第類中的第個樣本P到類中其他樣本距離的平均值。顯然,(,)越小,類內緊密性越好,密度越高,即

步驟7.根據預分類結果,計算集合中所有水平樣本BWP指標的平均值,即

其中,為集合中的樣本數。若BWP指標的平均值增大,則將該點作為聚類中心,并刪除其領域中的數據,然后接著尋找下一個聚類中心;若BWP指標的平均值減小或不存在可選取的數據點,說明所有聚類中心已找到,則停止算法。通過5次迭代過程,BWP指標平均值的變化情況如圖3(b)所示。由此可知,文檔圖像中的水平樣本可分為4類,根據中心點列表中的4個聚類中心位置,使用K-means對水平樣本進行分類的結果如圖3(c)所示。

圖3(c)中,4個聚類行高的取值范圍分別為:橙色聚類[17, 58];藍色聚類[71, 207];綠色聚類[239, 346];紅色聚類[426, 449]。結合圖2(a)的分割結果可看出,藍色聚類為單個文本行的聚類,橙色聚類為過分割文字塊的聚類,而綠色和紅色聚類為分割不徹底的大文字塊的聚類。同理,對垂直樣本進行處理得到的樣本特征分布情況、BWP值和分類結果如圖4所示。結合圖2(c)的垂直樣本分布情況可知,橙色和紫色聚類為文檔最左側和最右側的空白列,綠色和藍色聚類為文檔中的分割列,而紅色聚類為過分割空白列。由此,根據不同聚類的取值范圍,可快速判斷文字塊的類別屬性,并針對異常字塊進行二次處理。

2.4 文字塊的二次處理

文字塊的二次處理包括:過分割文字塊的合并和大文字塊的二次分割。

(1)過分割文字塊的合并。垂直方向上,只需去除紅色聚類中無效的空白分割列即可,實現簡單,合并前后的效果如圖2(c)和(d)所示。水平方向上,由圖3(c)的分類結果可知,單個文本行的高度范圍為[71, 207],那么當文字塊的高度<71時,該文字塊為過分割文字塊,需要合并。結合文字排版和書寫習慣可知,一般情況下,行內字塊的上下間距一定小于行間字塊的上下間距,也就是說,距離越近的文字塊,其關系越親密。因此,將過分割文字塊與其間距更近的相鄰文字塊進行合并。即,對于相鄰的3個文字塊block-1,blockblock+1,其起止點的坐標分別為:(0, sy-1)和(0, ey-1),(0, sy)和(0, ey),(0, sy1)和(0, ey+1),則文字塊block-1和block之間的上下間距為

那么,可合并文字塊combine為

過分割文字塊的合并效果如圖5(c)所示。

(2) 大文字塊的二次分割。由于受文檔圖像中東巴字及手寫字上下行粘連的影響,使文本行在分割的過程中產生了很多無法分割的大文字塊,有的包含2個文本行,也有的包含多個文本行,如圖5(a)所示。為了實現大文字塊的有效分割,一種簡單、快捷的方式是選擇字塊中水平投影值較小的行作為分割行。但這又會將處于文字塊上下邊界處投影值較小的像素行也錯誤地作為分割行。因此,在選擇分割行時,首先對所有像素行的投影值按照從小到大的順序排列,選擇投影值較小的行作為備選分割行;然后,計算備選分割行與文字塊上下邊界的高度差,如果高度差大于單個文本行的最小值,則將其作為分割行,否則繼續從備選行中查找滿足條件的像素行。

因此,設單個文本行的高度范圍為[1,2],則對于行高為h的文字塊block,若文字塊的起止坐標為(0,sy)和(0,ey),且h>s2,該文字塊的分割步驟為:

步驟1.計算第sy行至第ey行的水平投影值,并存儲到集合中;

步驟2.選擇集合中投影值最小且與syey的高度差均>1的像素行作為分割行,并將該行從集合中刪除。滿足條件

圖5 文本行的水平分割與合并((a)文本行的水平分割效果;(b)大文字塊的水平投影值統計;(c)文字塊的二次合并與分割)

步驟3.使用分割行對文字塊進行二次分割,得到2個子塊。

步驟4.判斷每個子塊的行高,若子塊的行高>2,則重復執行步驟1~步驟3,直至所有子塊的高度介于[1,2]為止。

由圖3(c)的分類結果可知,單個文本行的高度范圍為[71, 207],則對文檔中的大文字塊進行判斷和分割,結果如圖5(c)所示。通過二次處理,東巴文檔圖像中的單個文本行得到了有效提取,保證了文本行的獨立性和完整性。

2.5 算法的復雜度分析

ATLS算法由3個核心模塊組成,即:基于投影的文檔分割、基于d-K-means的文字塊分類及文字塊的二次處理。假設單個文檔圖像包含行列(>)像素點,一本書籍包括頁文檔,且投影分割最多得到個文字塊,則:

(1) 基于投影的文檔分割,需要計算每個像素行或列的投影值,因此時間復雜度(1)=(×)≈(2);

(3) 文字塊的二次處理包括異常文字塊的合并及大文字塊的二次分割。其中,異常文字塊的合并需計算文字塊的高度及與其上下相鄰文字塊的間距。最壞情況下,需合并的文字塊數量為,則時間復雜度(31)=();大文字塊的二次分割需要根據文字塊的高度再次進行分割線的篩選和投影分割。最壞情況下,大文字塊的高度為,其時間復雜度為(32)=(2)。因此,該階段的時間復雜度(3)=(31)+(32)≈(2)。

3 實 驗

3.1 準確性測試

三部字典中,正文部分《納西象形文字譜》包括554頁,《納西族象形標音文字字典》包括360頁,《納西語英語漢語語匯》包括655頁。由于這些文檔中,有部分文檔頁不包括東巴字(如,前言、緒論等),為了準確分析最終文本行的提取效果,從三部字典中隨機抽取150頁含有東巴字的文檔圖像和30頁不含東巴字的文檔圖像作為測試樣本,分別選擇基于圖像結構特征分析的文本行提取算法[12]、集成了PANNet,ResNet和DenseNet等3種神經網絡結構的端到端文本行提取算法[18]和本文算法進行比較,結果見表1。

表1 不同類型算法提取東巴文檔文本行的正確率

為了便于比較,文獻[18]采用了由CASIA- HWDB2.0-2.2數據集訓練后得到的網絡模型,由于該數據集中不包含東巴字,因此在采用該模型提取包含東巴字的文本行時,準確率較低,而在處理不含東巴字的脫機手寫文檔時,由于受到表格、文字下劃線等其他因素的影響,正確率也低于其他2種算法。但是,當文檔中僅含印刷體漢字時,其準確率顯著提高。文獻[12]的整體表現均優于文獻[18],但是當文檔中含東巴字時,由于文檔的排版結構發生較大變化,因此文獻[12]的正確率也受到較大影響。

3.2 擴展性測試

《創世紀》是一部非常具有代表性的東巴經典,很多東巴經均采用此類格式排版。這類文檔一般由東巴經原文和中文譯注兩部分組成,文檔內容往往與表格交疊,比前述東巴文檔圖像更加復雜。并且,一些東巴祭祀在書寫東巴經時,還經常將表格的下框線作為東巴文字的一種補充,實現連字成句的效果,使文本行的分割難度增大,如圖6所示。

圖6 《創世紀》的文檔結構

由于《創世紀》中東巴經部分和漢字注解部分的位置固定,對上下2個組成部分的內容單獨使用ALTS算法進行初次分割、計算BWP指標、分類,結果如圖7(a)~(e)所示。由此可知,東巴經部分的聚類中心數量為3,單個文本行的高度范圍為[57, 83];而漢字注解部分的聚類中心數量也為3,單個文本行的高度范圍為[23, 42]。因此,結合文本行的高度范圍,對圖7(e)的初次分割結果進行二次處理的效果如圖7(f)所示。此時,原有文檔中存在的過分割文字塊得到了有效合并,文檔的整體結構更加顯著。可見,當文本行中既有東巴字,又有脫機手寫漢字,甚至文檔中包含少量噪音時,ATLS算法也能得到較好的效果。

同時,分別使用文獻[12]、文獻[18]和ATLS算法對《創世紀》全書37頁文檔圖像的東巴字部分和脫機手寫漢字部分分別進行文本行分割,其正確率見表2。可見,ATLS的可擴展性優于其他2種算法。

3.3 文字分割測試

由于文本行中的文字分割過程,與文檔中的垂直分割過程非常相似。因此,將ATLS算法進一步應用到文本行上單個文字的分割中。首先,將已提取的文本行進行垂直投影分割,得到文字樣本,如圖8(a)所示。其次,將文字樣本的寬度及其在文本行中的序號作為特征,求出其BWP指標,并使用K-means進行分類,如圖8(b)~(d)所示。其中,藍色聚類中文字樣本的寬度范圍為[18, 150],紅色聚類中為[154, 278]。結合圖8(a)可知,紅色聚類中的文字樣本為分割不完全的大文字塊。因此,對大文字塊進行二次分割,結果如圖8(e)所示。

圖7 《創世紀》文檔分割過程((a)東巴經的BWP值;(b)東巴經的分類結果;(c)漢字注解的BWP值;(d)漢字注解的分類結果;(e)文檔圖像的初始分割;(f)文檔圖像的二次處理)

Fig. 7 “Genesis” document segmentation process ((a) The BWP of the Dongba scripture; (b) The classification of the Dongba scripture; (c) The BWP of the Chinese annotation; (d) The classification of the Chinese annotation; (e) Initial segmentation of the document; (f) Secondary processing of the document)

表2 不同類型算法提取《創世紀》文本行的正確率(%)

圖8 基于d-K-means的文字樣本分類((a)文本行的垂直分割;(b)文字樣本的分布;(c) BWP平均值的變化情況;(d)基于d-K-means的分類;(e)文字塊的二次分割)

由于文本行中除了包含脫機手寫漢字之外,還包含國際音標、東巴字、數字和標點符號等多種類型的文字樣本,如圖9(a)所示。當文本行中存在文字過分割時,ATLS算法可能無法有效地辨別和合并,如圖9(b)和(c)所示。但是,ATLS算法在文字分割方面仍能取得較好的效果,準確率整體上達到了95.26%。說明,ATLS算法也可用于文本行中單個文字的分割。

圖9 文本行的組成((a)包括東巴字的文本行;(b)存在大字塊和過分割的文本行;(c)大字塊的細分)

4 結束語

文本行分割是一項重要的預處理工作,是字符分割、東巴字提取、東巴字譯注分析、不同層次樣本采集等是一系列文檔分析和采集工作的基礎。因此,結合東巴字的特殊形態及文檔的獨有結構特征給出了適用于東巴字文檔圖像的ATLS算法。通過引入d-K-means聚類分析和文字塊的二次處理,使文本行分割更加準確、徹底。通過實驗表明,本文算法除了可用于東巴字文檔圖像的文本行分割之外,也可用于東巴經的文本行分割及文本行中的文字分割,算法具有實現簡單、準確性高、適應性強的特點。后續將結合ATLS算法進一步細化文檔結構分析,完成東巴典籍中東巴象形文字的提取及文字注釋的分離,從而為東巴文檔的分析和數據采集,建立東巴文字集奠定基礎。

[1] 和力民. 試論東巴文化的傳承[J]. 云南社會科學, 2004(1): 83-87.

HE L M. On transition of dongba culture[J]. Social Sciences in Yunnan, 2004(1): 83-87 (in Chinese).

[2] 楊玉婷, 康厚良. 東巴象形文字特征曲線提取算法研究[J]. 圖學學報, 2019, 40(3): 591-599.

YANG Y T, KANG H L. Research on the extracting algorithm of dongba hieroglyphic feature curves[J]. Journal of Graphics, 2019, 40(3): 591-599 (in Chinese).

[3] 胡瑞波, 張曉松, 徐人平, 等. 納西族東巴象形文字字體構造研究[J]. 鄭州輕工業學院學報: 社會科學版, 2013, 14(2): 94-100.

HU R B, ZHANG X S, XU R P, et al. A Study on the Font Structure of Naxi Dongba Hieroglyphs[J]. Journal of Zhengzhou University of Light Industry: Social Science, 2013, 14(2): 94-100 (in Chinese).

[4] 楊玉婷, 康厚良, 廖國富. 東巴象形文字特征曲線簡化算法研究[J]. 圖學學報, 2019, 40(4): 697-703.

YANG Y T, KANG H L, LIAO G F. Research on simplification algorithm of dongba hieroglyphic feature curve[J]. Journal of Graphics, 2019, 40(4): 697-703 (in Chinese).

[5] 鄭飛洲. 納西東巴文字字素研究[M]. 北京: 民族出版社, 2005: 45-127.

ZHENG F Z. Research on Naxi Dongba character grapheme[M]. Beijing: National Publishing House Press, 2005: 45-127 (in Chinese).

[6] WANG L, LI S J, LV Y J. Learning to rank semantic coherence for topic segmentation[C]//2017 Conference on Empirical Methods in Natural Language Processing. Stroudsburg: Association for Computational Linguistics , 2017: 1340-1344.

[7] KOSHOREK O, COHEN A, MOR N, et al. Text segmentation as a supervised learning task[C]//2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg: Association for Computational Linguistics, 2018: 469-473.

[8] ARNOLD S, SCHNEIDER R, CUDRé-MAUROUX P, et al. SECTOR: a neural model for coherent topic segmentation and classification[J]. Transactions of the Association for Computational Linguistics, 2019, 7: 169-184.

[9] 劉穎, 雷研博, 范九倫, 等. 基于小樣本學習的圖像分類技術綜述[J]. 自動化學報, 2021, 47(2): 297-315.

LIU Y, LEI Y B, FAN J L, et al. Survey on image classification technology based on small sample learning[J]. Acta Automatica Sinica, 2021, 47(2): 297-315 (in Chinese).

[10] GAO H H, XIAO J S, YIN Y Y, et al. A mutually supervised graph attention network for few-shot segmentation: the perspective of fully utilizing limited samples[J]. IEEE Transactions on Neural Networks and Learning Systems, 2022, PP(99): 1-13.

[11] LAKE B M, SALAKHUTDINOV R, TENENBAUM J B. Human-level concept learning through probabilistic program induction[J]. Science, 2015, 350(6266): 1332-1338.

[12] 周雙飛, 劉純平, 柳恭, 等. 最小加權分割路徑的古籍手寫漢字多步切分方法[J]. 小型微型計算機系統, 2012, 33(3): 614-620.

ZHOU S F, LIU C P, LIU G, et al. Multi-step segmentation method based on minimum weight segmentation path for ancient handwritten Chinese character[J]. Journal of Chinese Computer Systems, 2012, 33(3): 614-620 (in Chinese).

[13] 朱宗曉, 楊兵. 特征離散點計算在手寫文本行分割中的應用[J]. 計算機工程與應用, 2015, 51(8): 148-152, 204.

ZHU Z X, YANG B. Using feature discrete-point computing in handwritten documents line segmentation[J]. Computer Engineering and Applications, 2015, 51(8): 148-152, 204 (in Chinese).

[14] 雷鑫, 李俊陽, 宋宇, 等. 用于手寫漢字識別的文本分割方法[J]. 智能計算機與應用, 2018, 8(2): 126-128.

LEI X, LI J Y, SONG Y, et al. Text segmentation method applied for handwritten Chinese characters recognition[J]. Intelligent Computer and Applications, 2018, 8(2): 126-128 (in Chinese).

[15] GRüNING T, LEIFERT G, STRAU? T, et al. A two-stage method for text line detection in historical documents[J]. International Journal on Document Analysis and Recognition: IJDAR, 2019, 22(3): 285-302.

[16] HAZEM A, DAILLE B, STUTZMANN D, et al. Hierarchical text segmentation for medieval manuscripts[C]//The 28th International Conference on Computational Linguistics. Stroudsburg: International Committee on Computational Linguistics, 2020: 6240-6251.

[17] BOILLET M, KERMORVANT C, PAQUET T. Robust text line detection in historical documents: learning and evaluation methods[J]. International Journal on Document Analysis and Recognition: IJDAR, 2022, 25(2): 95-114.

[18] BOILLET M, KERMORVANT C, PAQUET T. Multiple document datasets pre-training improves text line detection with deep neural networks[C]//2020 25th International Conference on Pattern Recognition. New York: IEEE Press, 2021: 2134-2141.

[19] ARES OLIVEIRA S, SEGUIN B, KAPLAN F. dhSegment: a generic deep-learning approach for document segmentation[C]//2018 16th International Conference on Frontiers in Handwriting Recognition . New York: IEEE Press, 2018: 7-12.

[20] WANG Z H, YU Y W, WANG Y B, et al. Robust end-to-end offline Chinese handwriting text page spotter with text kernel[M]//Document Analysis and Recognition - ICDAR 2021 Workshops. Cham: Springer International Publishing, 2021: 21-35.

[21] LIU S, WANG R S, RAPTIS M, et al. Unified line and paragraph detection by graph convolutional networks[M]// Document Analysis Systems. Cham: Springer International Publishing, 2022: 33-47.

[22] 方國瑜. 納西象形文字譜[M]. 昆明: 云南人民出版社, 2005: 25-247.

FANG G Y. Naxi hieroglyphs dictionary[M]. Kunming: Yunnan People’s Publishing House, 2005: 25-247 (in Chinese).

[23] 李霖燦. 納西族象形標音文字字典[M]. 昆明: 云南民族出版社, 2001: 15-70.

LI L C. Naxi pictographs and transcription characters dictionary[M]. Kunming: Yunnan People’s Publishing House, 2001: 15-70 (in Chinese).

[24] ROCK J F. A Na-Khi-English encyclopedic dictionary (Part I)[M]. Roma: Roma Istituto Italiano Peril Medio ed Estreme Prientale, 1963: 45-655.

[25] 張冬梅, 李敏, 徐大川, 等. k-均值問題的理論與算法綜述[J]. 中國科學: 數學, 2020, 50(9): 1387-1404.

ZHANG D M, LI M, XU D C, et al. A survey on theory and algorithms for k-means problems[J]. Scientia Sinica: Mathematica, 2020, 50(9): 1387-1404 (in Chinese).

[26] 唐澤坤, 朱澤宇, 楊裔, 等. 基于距離和密度的d-K-means算法[J]. 計算機應用研究, 2020, 37(6): 1719-1723.

TANG Z K, ZHU Z Y, YANG Y, et al. D-K-means algorithm based on distance and density[J]. Application Research of Computers, 2020, 37(6): 1719-1723 (in Chinese).

[27] 王法勝, 魯明羽, 趙清杰, 等. 粒子濾波算法[J]. 計算機學報, 2014, 37(8): 1679-1694.

WANG F S, LU M Y, ZHAO Q J, et al. Particle filtering algorithm[J]. Chinese Journal of Computers, 2014, 37(8): 1679-1694 (in Chinese).

[28] 孫凌燕. 基于密度的聚類算法研究[D]. 太原: 中北大學, 2009.

SUN L Y. Research of clustering algorithm based on density[D]. Taiyuan: North University of China, 2009 (in Chinese).

Automatic segmentation algorithm for text lines of Dongba hieroglyphs document image

KANG Hou-liang1, YANG Yu-ting2

(1. Sports Department, Suzhou Vocational University, Suzhou Jiangsu 215000, China; 2. School of Computer Engineering, Suzhou Vocational University, Suzhou Jiangsu 215000, China)

Deep learning technologies represented by convolutional neural networks (CNN) have shown excellent performance in the field of image classification and recognition. However, since there is no standard and public dataset for Dongba hieroglyphs, we cannot draw on or use the existing deep learning algorithms. In order to establish an authoritative and effective Dongba hieroglyphs dataset, the current primary task is to analyze the layout structure of the published Dongba classic documents, and extract the text lines and Dongba hieroglyphs in the documents. Therefore, based on the structural features of Dongba hieroglyphic document images, an automatic text-line segmentation algorithm was proposed for Dongba document images. The algorithm first employed the d-k-means clustering algorithm to determine the classification quantity and classification standard of text lines; then, the wrong results in the segmentation were corrected through the secondary processing of the text blocks, so as to enhance the accuracy of the algorithm. While making full use of the structural features of Dongba characters, the algorithm retained such advantages of the machine-learning model as objectivity and immunity to subjective experience. Experiments show that the algorithm can be used for the text line segmentation of Dongba document images, offline handwritten Chinese characters, Dongba scriptures, and the segmentation of individual Dongba and Chinese characters in text lines. It is simple in implementation, high in accuracy, and strong in adaptability, thus laying the foundation for the establishment of the Dongba character library.

Dongba hieroglyph; Dongba documents analysis; text line segmentation; projection segmentation; d-K-means

TP 391

10.11996/JG.j.2095-302X.2022050865

A

2095-302X(2022)05-0865-10

2021-12-31;

2022-05-05

31 December,2021;

5 May,2022

蘇州市職業大學引進人才科研啟動金項目(201905000034)

Suzhou Vocational University Introduced Talents Scientific Research Start-up Fund Project (201905000034)

康厚良(1979-),男,教授,碩士。主要研究方向為民族文化及數字化。E-mail:kangfu1979110@163.com

KANG Hou-liang (1979-), professor, master. His main research interests cover national culture and its digitization. E-mail:kangfu1979110@163.com

楊玉婷(1983-),女,副教授,碩士。主要研究方向為圖形圖像處理、計算機視覺等。E-mail:tudou-yeah@163.com

YANG Yu-ting (1983-), associate professor, master. Her main research interests cover digital image processing and pattern recognition, etc. E-mail:tudou-yeah@163.com

猜你喜歡
文本
文本聯讀學概括 細致觀察促寫作
重點:論述類文本閱讀
重點:實用類文本閱讀
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
作為“文本鏈”的元電影
藝術評論(2020年3期)2020-02-06 06:29:22
在808DA上文本顯示的改善
“文化傳承與理解”離不開對具體文本的解讀與把握
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
從背景出發還是從文本出發
語文知識(2015年11期)2015-02-28 22:01:59
主站蜘蛛池模板: 天堂中文在线资源| 久久国产亚洲偷自| 国产亚洲欧美在线专区| 欧美亚洲一区二区三区导航| 国产欧美日韩资源在线观看| 岛国精品一区免费视频在线观看| 中文字幕人妻无码系列第三区| 99成人在线观看| 国内嫩模私拍精品视频| 日韩不卡高清视频| 久久久久国产精品嫩草影院| 网友自拍视频精品区| 国产无码在线调教| 久久这里只有精品免费| 国产精品蜜芽在线观看| 成人国产精品2021| 欧美不卡视频一区发布| 动漫精品中文字幕无码| 91成人免费观看| 亚洲AV无码乱码在线观看裸奔| 亚洲成人精品| 亚洲成人网在线观看| 欧美人在线一区二区三区| 欧美高清三区| 中文字幕免费播放| 91精品啪在线观看国产91九色| 久久精品国产精品青草app| 国产伦精品一区二区三区视频优播 | 久久久受www免费人成| 色综合久久88色综合天天提莫| 欧美a在线视频| 亚洲精品人成网线在线| 欧美性天天| 亚洲成人高清无码| 四虎成人精品| 亚洲第一福利视频导航| www.精品国产| 日本免费精品| 欧美福利在线观看| 亚洲人妖在线| 伊人天堂网| 国产高清色视频免费看的网址| 久操线在视频在线观看| 搞黄网站免费观看| 丝袜高跟美脚国产1区| 国产成人乱码一区二区三区在线| 自慰高潮喷白浆在线观看| jizz国产在线| 亚洲成人网在线观看| 无码福利视频| 亚洲人成网址| 欧美在线综合视频| 伊人国产无码高清视频| 国产精品手机在线观看你懂的| 日韩美一区二区| 香蕉在线视频网站| 国产色图在线观看| 欧美一级高清视频在线播放| 免费无码AV片在线观看中文| 欧美日韩国产精品综合| 国产麻豆另类AV| 精品欧美一区二区三区在线| 欧美亚洲激情| 欧美高清日韩| 国产视频大全| 超清人妻系列无码专区| 国产精品人成在线播放| 欧美日韩北条麻妃一区二区| 日本不卡在线播放| 国产在线自在拍91精品黑人| 99久久免费精品特色大片| 亚洲清纯自偷自拍另类专区| 动漫精品中文字幕无码| 成人国产精品一级毛片天堂| 亚洲黄网在线| 国产一区亚洲一区| 欧美高清三区| 伊人激情久久综合中文字幕| 久草视频一区| 乱人伦99久久| 香蕉久久国产超碰青草| lhav亚洲精品|