999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于OpenCV-Python的彝文文檔圖像識別的 預處理算法

2024-05-25 06:29:02李成恩鄧拉美喻寧興
電子元器件與信息技術 2024年2期
關鍵詞:文本

李成恩,鄧拉美,喻寧興

1.六盤水市六枝特區第一中學,貴州六盤水,553400

2.六盤水市六枝特區教育局,貴州六盤水,553400

3.六盤水市第二人民醫院,貴州六盤水,553400

0 引言

彝族文章是我國彝族歷史文化的重要載體,是研究分布在我國西南地區的彝族的重要資料,更是中華民族的文化瑰寶。但是隨著時間的推移,彝族文檔保護情況不容樂觀,而且由于年代久遠和紙張質量問題,很多彝族文檔已經無法翻看和查閱,對彝族文檔進行數字化處理,是保存文檔的迫切需要,保存彝族的文章文檔、通過分析研究彝族文章了解彝族的歷史、文化和風俗習慣,也是鑄牢中華民族共同體意識的迫切需要。

民族語言信息化是讓民族語言“活”起來,因此,研究民族語言意義重大。研究如何識別彝族文本文檔,首先,我們要掌握一定的彝文知識。彝文指的是彝族的文字,其特點包括:彝文是一種古老的音節文字,一個字形代表一個意義,其文字總數達萬余字。彝文的獨特體字多,合體字少。彝文的字形結構有點、橫、豎、橫析,大致有象形、會意、指事、假借四類。彝文涉及宗教、歷史、哲學、文學、語言文字、醫藥、天文、地理和農技等各個方面。彝文文獻的書寫方式因地區而異,四川涼山一帶彝文一般由右向左橫行書寫;云南、貴州、廣西一帶則由左向右豎行書寫。彝文的聲調一般分為3~5個,調型簡單。彝文的詞序和虛詞是表達語法意義的主要手段,基本語序是主語—賓語—謂語。名詞、動詞、人稱代詞作定語時,在中心詞前;形容詞、數量詞作修飾語時,在中心詞后。有些副詞修飾雙音節中心詞時,在中心詞的兩個音節之間。彝文中的量詞非常豐富,有些方言的量詞能直接修飾中心詞,起后置冠詞的作用。1980年,國務院正式推行了《彝文規范方案》,很大程度上推動了彝族文化的傳播。2014年,貴州民族大學的吳勰對古彝文進行了規范化,整理出5000多個古彝文字符,其中常用字3000余個,其余為文獻整理所需的異體字[1]。到目前為止,該套字符集已經能夠滿足古彝文信息化的基本需求。目前對彝族文章文檔的圖像識別的研究比較少[2]。結合彝文的特征用合適的算法進行預處理,對彝文文檔的識別和分析具有重要意義。預處理的好壞直接關系到文本圖像的識別和分析的質量。

1 方法和程序

一般來說,古籍文檔圖像分析和識別需要幾個階段:預處理(二值化)、文本行切分、字符切分和文字識別[3]。本論文是利用OpenCVPython為實驗平臺,將通過高清攝像機拍攝的彝文圖片進行預處理。為后期的圖像處理和識別奠定基礎。本論文選取的彝文圖片為2010年6月中華書局出版的《國家圖書館藏彝文典籍目錄》。

圖片二值化是圖片預處理的關鍵環節。在二值化之前要進行灰度化處理。二值化的好壞直接影響后期圖片的識別和處理。在OpenCVPython中二值化的效果見圖1。

圖1 彝文文本原始圖像與二值化圖像對比

在OpenCV-Python實驗平臺上彝文文本圖像二值化的算法如圖2所示。

圖2 彝文文本圖像二值化算法截圖

文本圖像中的噪聲一般是圖像采集、傳輸等過程中由外界因素干擾所引起的,為了減少文本圖像中的噪聲,提高文本圖像的質量和文本圖像識別的準確率,文本圖像識別的預處理過程中一般還包括了對圖像進行降噪處理。本文在OpenCV中利用算法對文本圖片進行了降噪處理。降噪處理后可以極大提高圖片質量。降噪前后對比如圖3所示。

圖3 彝文文本圖像降噪前后對比

降噪的算法截圖如圖4所示。

圖4 彝文文本圖像降噪算法截圖

經過對文本圖像的二值化和降噪處理后,接下來開始對文本圖像進行連通域分析。通過對文本圖像的連通域分析,可以將圖像中的不同物體分割開來,實現高準確率的圖像識別。本文嘗試對《國家圖書館藏彝文典籍目錄》中的第466頁的彝文進行連通域分析。通過分析,得到連通域169個。連通域分析結果如圖5所示。

圖5 彝文文本圖像的連通域分析結果

2 發現的問題和展望

2.1 發現的問題

對圖像進行預處理是為文本圖像的識別做準備工作,對預處理的結果進行分析,是我們發現問題、尋找研究方向和方法的必由之路。通過對連通域結果的圖片分析,我們發現以下三個問題,這也是以后研究的方向。

①我們可以看到在貴州、云南等地彝文有豎向書寫的寫作習慣,并且在列與列之間會出現一個個獨立的筆畫(點)。列和列之間的筆畫如圖6所示。

圖6 列和列之間的筆畫

②連通域數量過多的問題,如圖6所示,一張彝文圖像有169個連通域,連通域數量多會對后期字符識別造成干擾。

③有些彝文文章存在彝文和漢文的混排的情況。需要研究如何把彝文和漢文切分出來,實現彝文文本圖像版面的分割和描述。

2.2 研究展望

(1)經查閱資料,對于列和列之間的點有兩種觀點,一種觀點是姓氏之間的分割點,另一種觀點認為列和列之間的點是分割不同的音節點,以避免混淆和誤解。兩種觀點的對錯,有待去考證。需要再深入地研究,找到真正的原因。列和列之間的點的歸屬問題,是列切分必須解決的問題。通過觀察彝文圖像可以看出,彝文列和列之間的距離不均等,甚至來說列間距差別還有點大,再加上彝文有些字體書寫習慣和字體本身結構的原因,給列切分帶來了一定的難度,不能簡單地按照寬度均分的方法,筆者打算采用基于輪廓的分割方法來嘗試對彝文文本圖片的文字進行列切分,一般情況下,采用該方法對圖片的質量、清晰度要求比較高,如果圖片質量不高或者存在噪聲,會極大地影響輪廓識別的準確性,極大可能造成切分出錯,彝文尤其是古彝文由于年代久遠、保存環境等原因,圖片質量普遍不高,使用基于輪廓切分的方法比較困難。彝文是豎向書寫的文體,如何精準地把彝文列切分出來,是彝文圖像識別中非常重要的步驟,更是以字符切分、字符識別的基礎,列切分效果的好壞,直接影響到后面的圖像識別的最終結果。彝文列切分中可能產生部分字體切分出錯的情況,比如列和列之間的筆畫的歸屬問題,切分出錯的字體部分回歸本體的問題。如何在OpenCVPython中用合適的算法來處理上述的問題,是今后研究的方向之一。

(2)如何有效地減少、合并連通域也是今后研究的課題。連通域數量多可能由很多原因造成。比如圖片質量、噪聲干擾、算法的閾值等。針對預處理后連通域數量過多的情況,筆者打算在以后的研究過程中通過優化算法程序的方法進行實驗。摸索出一種更適合彝文文本圖像連通域分析的算法,也是今后的努力方向和目標。

(3)今后研究的方向還包括對彝文和漢文混排的文本圖像版面分割和描述的問題的研究,在彝文文本預處理的過程中,選取的彝文圖片比較單純,都只是字符,沒有插圖、頁碼,以及其他不同于字符的內容出現,但是在現實中彝文文本圖像中包括很多有異于字符的內容,如何把版面不同的內容進行準確分割和描述,如何在OpenCV-Python的實驗平臺上找到合適的算法對彝文、彝文和漢文混排的文本圖像的版面進行分割和描述,也是以后研究的重點問題。

3 結語

在OpenCV-Python中利用算法對彝文文檔圖像進行有效處理,包括但不限于列切分、字符切分、后處理等,并且通過一定數量的實驗測試,保證算法處理結果有較高的準確率。總結并提煉出基于OpenCV-Python的有效處理彝文文本圖像的算法。在基于OpenCV-Python平臺上擴大試驗樣本的數量,優化算法,以期能達到更好的彝文文本圖像識別效果。

猜你喜歡
文本
文本聯讀學概括 細致觀察促寫作
重點:論述類文本閱讀
重點:實用類文本閱讀
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
作為“文本鏈”的元電影
藝術評論(2020年3期)2020-02-06 06:29:22
在808DA上文本顯示的改善
“文化傳承與理解”離不開對具體文本的解讀與把握
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
從背景出發還是從文本出發
語文知識(2015年11期)2015-02-28 22:01:59
主站蜘蛛池模板: a网站在线观看| 亚洲熟女中文字幕男人总站| 免费在线色| 亚洲欧洲天堂色AV| 激情网址在线观看| 亚洲精品桃花岛av在线| 国产极品美女在线| 亚洲AV成人一区二区三区AV| 国产男女XX00免费观看| 亚洲精品成人福利在线电影| 亚洲无码A视频在线| 国产午夜精品一区二区三区软件| 激情爆乳一区二区| 华人在线亚洲欧美精品| 国产成人你懂的在线观看| 欧洲极品无码一区二区三区| 波多野结衣一区二区三区AV| 免费一级毛片在线观看| 在线免费亚洲无码视频| 一区二区理伦视频| 久久不卡精品| 99这里只有精品免费视频| 日本a∨在线观看| 久久大香香蕉国产免费网站 | 亚洲精品爱草草视频在线| 国产成人综合日韩精品无码首页 | 亚洲中文字幕久久无码精品A| 天天躁狠狠躁| 亚洲人成亚洲精品| 永久成人无码激情视频免费| 欧美亚洲日韩中文| 国产亚洲男人的天堂在线观看| 伊人久热这里只有精品视频99| 国产一级妓女av网站| 狠狠v日韩v欧美v| 四虎在线观看视频高清无码| 日本久久免费| 欧美日韩在线观看一区二区三区| a国产精品| 九九精品在线观看| 久久青草精品一区二区三区| 国产精品天干天干在线观看| 欧美亚洲国产日韩电影在线| 91网红精品在线观看| 欧美精品伊人久久| AV不卡在线永久免费观看| 亚洲黄网在线| 亚洲最猛黑人xxxx黑人猛交| 91亚洲视频下载| 国产精品区视频中文字幕| 国产偷国产偷在线高清| 99视频精品在线观看| 综合网天天| 国产福利在线免费| 伊人国产无码高清视频| 伊人久久精品亚洲午夜| 又大又硬又爽免费视频| a毛片在线| av免费在线观看美女叉开腿| 国产一级视频久久| 在线色国产| 看国产一级毛片| 无套av在线| 中文字幕 欧美日韩| 国产精品护士| 亚洲精品麻豆| 欧美日韩激情在线| 天天躁夜夜躁狠狠躁图片| 99爱视频精品免视看| 国产福利小视频在线播放观看| 老司机午夜精品网站在线观看| 久久香蕉国产线看观| 亚洲免费播放| 草草影院国产第一页| 91精品国产自产在线观看| 欧美性精品不卡在线观看| 99视频在线免费| 亚洲精品福利视频| 四虎精品黑人视频| 高清欧美性猛交XXXX黑人猛交| 欧美精品高清| 国产理论一区|