999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

滿文檔案圖像智能處理系統設計與實現

2022-05-25 09:20:32劉柯言黨佳偉鄭蕊蕊賀建軍
大連民族大學學報 2022年1期
關鍵詞:單詞服務系統

劉柯言,黨佳偉,鄭蕊蕊,周 瑜,賀建軍

(大連民族大學 信息與通信工程學院 ,遼寧 大連 116605)

清代中央和地方各級機關處理政務過程中形成了大量的滿文古籍檔案,雖然由于戰亂、災害等原因沒有完全保存下來,現存數量仍然十分巨大,具有重要的歷史、文化研究價值和參考憑證作用[1]。目前,中國第一歷史檔案館所藏的明清檔案總數達1 000多萬件(冊),其中明代檔案3 000余件(冊),僅占館藏檔案的萬分之三;而館藏滿文檔案至少有160萬件 (冊),約占館藏檔案的1/6。除中國第一歷史檔案館之外,遼寧省檔案館也有數以萬計的滿文檔冊,且不乏珍本善本[2]。

由于滿文古籍檔案種類繁多而且通常退化較嚴重,因此對滿文古籍檔案進行數字化處理和有效開發利用,需要對滿文古籍檔案進行掃描、識別和翻譯。滿文識別是滿文檔案圖像處理中的重要環節之一,近年來也有許多針對性的研究。人們早期對于滿文識別算法的研究是基于基元(字母)切分的,例如文獻[3-4],他們研究了基于模糊串匹配策略的滿文識別算法,但是這些算法步驟繁瑣,而且滿文檔案的字體和樣式不同,照明、方向、噪音和可變背景色不一致,導致基元的切分與識別精度上稍有欠缺。文獻[5]建立了一種基于小波神經網絡的基元識別算法,文獻[6-7]通過加入后處理機制來提升識別的準確度。之后,文獻[8-9]分別研究了基于多特征集成的識別算法和基于多分類器融合的識別算法。隨著近年來深度學習的興起,人們嘗試從其它角度來進行研究,尤其是整詞的滿文識別算法,例如文獻[10]建立的基于有向無環圖支持向量機識別算法以及文獻[11-12]提出了空間金字塔池化深度卷積神經網絡識別算法。

現有的滿文檔案圖像處理相關系統十分稀缺,只有中國第一歷史檔案館與漢王科技股份有限公司合作開發的“滿文檔案圖像識別軟件系統”[13]。該系統包括滿文檔案圖像識別軟件,能夠將滿文檔案的圖像信息通過識別技術轉換成可編輯檢索的文本信息,界面可顯示滿文檔案原圖、滿文轉寫字母。但是該軟件沒有公開,普通群眾無法使用,而且該軟件必須下載安裝后才可以使用,既占用計算機系統空間又缺少便利性,功能相對單一。

實際使用中不僅需要識別和翻譯,還需要對其進行二值化、超分辨率重構、版面分析、印章去除等處理。這些數字化處理方式已經有了對應的處理算法,而且取得了不錯的成果,但是這些算法沒有形成應用系統,只有具備計算機編程基礎的人才可能使用,普通的滿文工作者通常不具備這方面的能力,無法給他們提供直接幫助。而且這些算法都是只專注于單一功能,不能統一協調工作,沒有辦法滿足復雜的應用場景。因此本文主要目的是設計并實現一套滿文檔案圖像智能處理系統,采用前后端分離架構設計,前端使用Vue框架構建單頁面應用,后端采用微服務架構接入現有的滿文檔案圖像處理算法實現,并且進行整合,最終達到可以線上使用該系統對滿文檔案圖像進行復雜處理的目的,實現在線滿文檔案圖像翻譯、滿文檔案圖像預處理、滿文檔案圖像識別、滿文檔案圖像版面分割等主要功能。

1 系統架構設計

實現滿文檔案圖像智能處理系統,需要接入滿文檔案圖像處理的相關算法,現有的滿文檔案圖像處理算法包括滿文檔案圖像單詞識別、二值化處理、版面分析、印章去除、文本行分割、超分辨率重構[14-18]。這些算法可以支持本系統的功能實現,但是這些算法基于不同的Python版本和不同的機器學習框架,傳統的單體應用無法滿足本系統的需求,因此采用微服務的架構設計如圖1所示。整個系統采用前后端分離的架構設計,分為前端、后端微服務和數據庫三個部分。其中后端微服務部分包括系統業務服務、服務注冊與發現中心和滿文檔案圖像處理服務。

圖1 技術架構圖

本系統的工作流程是:當前端向系統業務服務發送HTTP請求后,系統業務服務根據請求的接口處理業務邏輯,連接數據庫,如果接收到的是需要進行滿文檔案圖像處理的請求,那么系統業務服務通過圖像處理微服務的名稱即可調用對應的滿文檔案圖像處理微服務,最后將處理結果返回給前端界面,供用戶查看。其中基于SpringBoot框架的系統業務服務是整個系統的重要環節,處理關鍵業務邏輯,起到樞紐的作用。所以本系統主要設計并實現了以下五個方面內容。

1.1 基于SpringBoot的系統業務服務設計

此服務是系統的關鍵,連接著前端,數據庫,還有圖像處理服務。前端通過發送HTTP請求到本服務,根據接口的不同,進行相應的業務處理,或操作數據庫,或連接圖像處理服務,拿到圖像處理服務的處理結果后返回給前端,就完成了一次完整的通信。此服務采用SpringBoot框架[19]進行開發。

Spring框架功能十分強大,在Java開發的領域占有很大的市場份額,但是就算是一個很簡單的項目,也需要經過復雜的配置才能實現。因此就有了SpringBoot框架,它的特點就是能夠自動配置,只要存在相應的jar包,Spring就會進行自動配置。如果默認配置不能滿足系統需求,則可以通過替換掉自動配置類,實現自定義配置。除此而外,SpringBoot還集成了嵌入式的Web服務器,系統監控等部分常用的功能,能夠快速構建企業級應用程序,而且SpringBoot和SpringCloud框架由同一公司開發,具有相似的開發流程,配合使用可以提高開發速度,實現快速搭建微服務架構,滿足本系統要求。

該服務采用Spring MVC的設計模式,因為本系統采用前后端分離的開發模式,所以此部分不處理任何界面相關內容,只負責處理web前端發來的請求,并且返回前端需要的數據內容。如果需要對圖像進行處理,那么系統業務服務就會向滿文檔案圖像處理服務發送HTTP請求,得到處理結果后,再返回給前端用于顯示。該服務采用常用的分層設計,共分為Dao層、Service層、Controller層三個層級。

Dao層即數據持久層,也被稱為Mapper層。它的作用是訪問數據庫,向數據庫發送SQL語句,完成增刪改查任務。

Service層即業務邏輯層,其作用是完成功能設計,Service層調用Dao層接口,接受Dao層返回的數據,完成項目的基本功能設計。或者向圖像處理服務發送請求,并且接收處理結果。

Controller層即控制層,功能為請求和響應控制,是前后臺交接部分,接受前端請求,調用Service層,接收Service層返回的數據,最后返回和前端約定的數據到前端。

1.2 基于Flask框架的滿文檔案圖像處理服務設計

現有的滿文檔案圖像處理算法主要有兩種實現方式:一是利用Python開發語言,通過Tensorflow機器學習框架實現,并且依賴的Python版本和Tensorflow版本存在不同;二是利用Matlab實現。所以接入這些算法面臨的難點是如何統一封裝,形成可以調用的接口。Python語言號稱膠水語言,能夠通過特定的依賴包調用Matlab算法,這樣利用Python可以將所有算法進行整合。滿文檔案圖像處理服務只需要提供接口,不做其他處理,因此需要借助輕量級Flask框架實現。Flask框架是一個使用Python編寫的Web應用程序框架,該框架的特點是輕量級、可拓展性強[20]。在此基礎上,根據Python版本和算法依賴包的版本區別,創建多個基于Flask框架的圖像處理微服務,將所有滿文檔案圖像處理算法進行單獨封裝,形成接口供系統業務服務進行調用。解決了算法語言多樣,版本多樣的難點,具有靈活性高,安全性強的特點。

1.3 基于SpringCloud框架的服務注冊與發現中心設計

建立基于SpringCloud框架的微服務系統,整合基于Flask的滿文檔案圖像處理算法服務和基于SpringBoot的系統業務服務。系統業務服務需要調用滿文檔案圖像處理算法接口,但是直接調用圖像處理算法接口存在諸多問題,比如需要指定請求地址或是無法準確定位錯誤信息等。所以需要一個整體的框架來解決服務治理,統籌管理所有的服務。SpringCloud是一個從全局出發的微服務整理治理框架,它將所有注冊到其中的單體微服務進行統一管理,為各個微服務之間提供集成服務,其中包括配置管理、服務發現、斷路器、路由等。可以用SpringBoot的開發風格做到一鍵啟動和部署。并且SpringCloud的微服務核心組件Eureka可以支持Python。所以本文使用SpringCloud微服務框架,可以將基于SpringBoot的系統業務服務和基于Flask的圖像處理算法服務整合到微服務架構中,實現算法調用。

1.4 基于Vue框架的前端系統設計

建立基于Vue的前端系統,實現系統的頁面展示和邏輯處理。傳統的Web開發往往和后端服務系統集成在一個工程目錄中,依賴于后端工程才能開發調試。這就導致開發過程必須同步進行,影響開發效率。基于Vue的前端系統可以單獨啟動,通過和后端服務約定通信格式,即可單獨開發,通過HTTP協議和后端進行通信。而且具有開發效率高,打包部署便利等優點[21]。

1.5 基于MySQL的數據庫設計

數據庫是系統開發的重要環節,其中保存著大量的用戶數據,包括用戶信息,歷史記錄等。MySQL作為一款開源軟件,可以免費使用和修改,支持SQL查詢語言,加上其快速的處理速度使它在世界范圍內都深受喜愛。本文使用MySQL關系型數據庫存儲系統數據,并且設計了符合系統要求的數據庫表。

本系統數據庫設計了user、mw _func、mw_image_processing_history、mw_resource、mw_dict、mw_mw等六個數據表,其中用戶表用于保存用戶的基本信息,包括編號、登錄賬號、密碼、用戶姓名、角色身份等。圖像處理功能表主要包括功能名稱、功能描述、啟用狀態等信息,該表用于保存圖像處理功能的基本信息。歷史記錄表主要包括用戶ID、處理時長、處理結果、輸入數據、輸出數據等,該表用于保存用戶操作的歷史記錄信息。文件資源表主要包括原始名稱、新名稱、保存路徑、創建時間等,該表用于保存用戶上傳的圖片、PDF文件、ZIP壓縮包等資源信息以及在系統中的存儲位置。滿文翻譯表主要包括滿文拉丁字母轉寫、中文釋義、備注等,用于滿文翻譯。滿文單詞表主要包括滿文文字,其中id字段和mw_dict表中的id對應,該表用于查詢滿文單詞。

2 系統功能設計

本系統主要功能主要包含四大模塊如圖2。檔案預處理模塊、檔案版面分析模塊、檔案識別模塊、單詞翻譯模塊。

圖2 功能架構設計

2.1 檔案預處理

檔案預處理模塊包括二值化、超分辨率重構和印章去除功能。

二值化:二值化就是將用戶輸入的滿文檔案圖像上像素點的灰度值設置為0或255,從而使整個圖像呈現出明顯的黑白效果的過程。能夠清楚的區分滿文檔案圖像中的文字和背景,提高清晰度,也有利于提高其他算法的準確度。

超分辨率重構:超分辨率重構可以提高用戶輸入的滿文檔案圖像的分辨率,通過特定的算法計算,將低分辨率的圖像轉化成一幅高分辨率的圖像過程就是超分辨率重構。通過超分辨率重構能夠提高圖片的像素質量,提高圖片清晰度,便于用戶的查看。

印章去除:印章去除是通過算法將圖片中的印章部分去掉,從而得到新的圖像的過程。通過印章去除能夠去掉滿文檔案圖像中無用信息,便于用戶的查看,也有利于降低印章對滿文檔案圖像的影響,提高其他算法的準確度。

2.2 檔案版面分析

檔案版面分析模塊包括文本行分割和版面分割功能。

文本行分割:每張滿文檔案圖像通常都包含大量的文本信息,整篇幅的文本信息無法進行細化的識別和處理,因此有必要將整篇的滿文檔案圖像切分成 單獨的滿文圖像進行處理。在此基礎上便于實現滿文的識別與翻譯。文本行分割滿文檔案圖像,能夠將規范的滿文檔案圖像以字符為單位,切分成一個個單獨的滿文單詞圖像,便于之后進行復雜的滿文圖像處理。

版面分割:版面分割就是對滿文檔案版面中不同區域的類別進行檢測和分割。滿文檔案圖像的版面分割能夠標記和提取文檔圖像中的主要和次要信息,例如正文、標題和頁碼等,對于用戶查看和滿文檔案識別具有重要意義。

2.3 檔案識別

檔案識別模塊包括單詞識別和檔案識別功能。

單詞識別:每張滿文檔案圖像通常都由許多滿文單詞構成,要實現滿文檔案圖像的識別,首先要滿足單詞圖像的識別,通過對單詞圖像的識別,得到該單詞的拉丁字母轉寫。

檔案識別:每張滿文檔案圖像通常都包含大量滿文單詞,識別單詞圖像在此種情況下效率并不高效,因此需要識別滿文檔案圖像,此功能的實現借助于文本行分割算法,將滿文檔案分割成多個單詞圖像,在此基礎上進行單詞識別,最終得到文檔中所有滿文單詞的拉丁轉寫,提高識別效率。

2.4 單詞翻譯

單詞翻譯模塊包括單詞圖像翻譯和單詞轉寫翻譯功能。

單詞轉寫翻譯:滿文單詞可以遵循指定的標準轉化成拉丁字母轉寫,本系統的轉寫規則依據《新滿漢大辭典》,并將轉寫字母和中文翻譯保存在數據庫。此功能根據用戶輸入的拉丁轉寫字母來查詢數據庫,即可獲得該轉寫字母的滿文單詞和中文翻譯。

單詞圖像翻譯:用戶輸入一張滿文單詞圖像,根據單詞識別算法,可以獲得該單詞的拉丁字母轉寫,再通過查詢數據庫中保存的轉寫、滿文單詞和中文翻譯的對應關系,即可實現滿文單詞的翻譯。

3 關鍵算法

滿文檔案圖像處理功能依賴相關算法,下面對本文使用到的關鍵算法進行簡要介紹。

3.1 二值化算法

本文使用到的滿文檔案圖像二值化算法是源于霍小娜提出的“滿文歷史文檔圖像二值化方法研究”[14]。該論文提出了一種基于U型卷積神經網絡的滿文歷史文檔圖像二值化方法。該方法采用分塊同態濾波操作對圖像進行預處理,然后再通過U型卷積神經網絡對滿文歷史文檔圖像進行前景和背景分割,可以得到性能良好的二值化圖像。

3.2 超分辨率重構算法

本文使用到的滿文檔案圖像超分辨率重構算法是源于畢加晶的“滿文數據生成方法研究”論文[15]。此論文建立了一種基于SRGAN的滿文圖像超分辨率重建模型,與SRCNN方法、最近鄰插值法以及雙三次插值法等重建方法相比,此方法可以取得更好的視覺效果。

3.3 印章去除算法

本文使用到的滿文檔案圖像印章去除算法是源于盧海濤的“基于深度學習技術的滿文檔案圖像印章檢測與去除方法”論文[16]。該論文提出“基于深度生成對抗網絡的滿文檔案圖像印章去除方法”,該模型由生成器與判別器組成,在生成器的設計中使用具有U-Net結構與卷積神經網絡相結合的方式,在判別器中構建了一個全卷積神經網絡的PatchGan網絡,并且結合印章去除的任務設計了一個適合印章去除的損失函數,在新的損失函數中加大對印章區域的懲罰,讓印章去除模型能集中注意力去除印章區域,也盡量減少非印章區域的文檔部分細節的損失。

3.4 文本行分割算法

本文使用到的滿文檔案圖像文本行分割算法是源于張晶提出的“基于縫隙裁剪的滿文單詞分割和提取方法研究”[17]。該文提出了一種基于縫隙剪裁的滿文檔案圖像單詞分割和提取方法。首先,通過投影輪廓匹配策略初步涂抹并確定文本列數目;然后,在相鄰文本列間自底向上地進行動態規劃,尋找最小能量線,并通過中線區域約束得到不損壞滿文文字部件的最佳分割線;最后,依據分割線提取獨立滿文文本列進而提取滿文單詞。

3.5 版面分割算法

本文使用到的滿文檔案圖像版面分割算法來自陳璇的“基于深度學習的滿文檔案版面分析方法研究”論文[18]。該論文提出了基于Mask R-CNN的滿文檔案版面分析方法MDLA_Mask R-CNN(Manchu Document Layout Analysis based on Mask R-CNN),在該模型中,首先將滿文檔案圖像送入到特征提取網絡中進行特征提取,生成特征圖;然后將生成的特征圖輸入到RPN網絡中生成區域建議框并完成第一次區域建議框的修訂;再把區域建議框和由特征提取生成的最高維特征圖傳入到RoI Align層,RoI Align層提取出區域建議框對應的特征并將其轉化為固定值;通過全連接層完成類別預測和邊框回歸,經過FCN全卷積神經網絡對感興趣區域的像素進行分類并得到mask預測;最終實現滿文檔案圖像的實例分割,從而完成滿文檔案版面分析任務。

3.6 單詞識別算法

本文單詞識別算法是基于ATTENTION機制的滿文單詞圖像識別方法,該模型網絡有兩個部分:編碼層與解碼層。

編碼層方面包括卷積層,循環編碼層。其中卷積層使用了ResNet殘差網絡進行特征提取,通過多個殘差單元與卷積核對滿文圖像進行多層次的特征提取,而后再通過全連接操作對特征進行序列疊加,最終得到特征序列。而循環編碼層使用了雙向LSTM循環神經網絡,對比單向LSTM循環神經網絡,能夠從正向與逆向對特征序列進行運算,從而加強了圖像文字信息的依賴性。

解碼層方面,使用了ATTENTION機制與LSTM循環神經網絡結合的方法進行文字的解碼輸出工作。整個解碼工作分為三個步驟:首先,利用LSTM循環神經網絡隱藏狀態與上層的BiLSTM雙向循環神經網絡所提取的特征序列進行相關性計算,再通過歸一化的方式對不同的特征序列進行不同的權重分配。而后,特征序列通過與權重進行加權和計算產生所需關鍵特征信息。最后,通過循環產生的關鍵特征信息結合LSTM網絡,對文字圖像進行序列識別。

3.7 滿文單詞轉寫拉丁字母標準

滿文單詞識別需要依據相應的標準,將滿文字母轉寫成拉丁字母。滿文共有35個字母,其中包括6個元音字母,19個輔音字母以及10個特定字母,滿文字母分為單寫,字首,字中和字尾四種形式,其中相同字母連接不同元音時寫法也會不同。隨著現代語言學研究方法和現代計算機技術在滿文研究中的應用,使用拉丁字母轉寫已然成為滿文研究和教學中最基本的方法,因此,本文將構建滿文字母表的字符轉寫成拉丁字母表的字符,在構建滿文文字符號系統轉換為拉丁文符號系統的時候,首先考慮的是得出拉丁字母表的字符同滿文字母表字符的一一對應關系。目前通用的有穆林多夫轉寫字符,太清轉寫字符,本文采用的是《新滿漢大詞典》轉寫字符,見表1。本詞典的轉寫字符有兩個特點,一是注意轉寫字符內部的系統性,二是盡可能不用附加符號而用雙字母,只有在以h起頭的音節前面出現s的情況下,要在s和h中間加上一個隔音符號(’)。

表1 滿文單詞轉寫拉丁字母方案

4 系統實現

在本系統采用B/S架構,在開發過程中,前端開發采用了Vue框架,引入了UI框架Ant-Design-Vue,引入Echarts顯示圖表,引入基于Promise的HTTP客戶端Axios。后端采用微服務架構,包括基于SpringBoot框架的系統業務服務,基于SpringCloud的服務注冊與發現中心,基于Flask 的圖像處理服務。后端服務間依賴Eureka組件互相聯系,確保服務間調用。數據庫使用關系型數據庫MySql,根據系統需要設計出對應的數據表。最終系統實現效果如圖3。

a) 系統主頁

5 結 語

本文通過調研發現,目前市面上的滿文處理系統缺少二值化處理、印章去除、版面分析等功能,為了實現這些功能,調研了現在已經實現的滿文檔案圖像處理算法,這些算法能夠對滿文檔案圖像進行相應的處理,因此設計并實現滿文檔案圖像智能處理系統,本系統實現了滿文檔案預處理、版面分析、檔案識別和單詞翻譯等功能模塊,模塊間可以相互配合使用,可解決復雜的滿文檔案圖像處理問題。系統采用前后端分離的架構設計,前端采用Vue框架構建單頁面應用,后端部分采用微服務的架構設計,解決跨語言調用、依賴包版本沖突和算法更新問題。本系統的實現,不僅有利于提升滿文檔案數字化、智能化處理的工作效率,推動滿文檔案更廣泛地利用,而且也可為其它少數民族古籍檔案處理系統的設計和開發提供經驗和參考。

猜你喜歡
單詞服務系統
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
單詞連一連
服務在身邊 健康每一天
今日農業(2019年12期)2019-08-15 00:56:32
服務在身邊 健康每一天
今日農業(2019年10期)2019-01-04 04:28:15
服務在身邊 健康每一天
今日農業(2019年16期)2019-01-03 11:39:20
看圖填單詞
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
招行30年:從“滿意服務”到“感動服務”
商周刊(2017年9期)2017-08-22 02:57:56
主站蜘蛛池模板: 色婷婷久久| 91黄视频在线观看| www亚洲精品| 国产午夜精品鲁丝片| 久久精品人人做人人综合试看| 一级一级一片免费| 国产18在线播放| 国产乱码精品一区二区三区中文| 久久伊人色| 91视频99| 日韩精品无码免费专网站| 性色在线视频精品| 中文字幕66页| 久久久噜噜噜| 日韩毛片视频| 色屁屁一区二区三区视频国产| 欧美日韩国产系列在线观看| 国产福利大秀91| AV色爱天堂网| 一区二区在线视频免费观看| 人妻丰满熟妇av五码区| 天天综合网站| 天天视频在线91频| 欧美一级夜夜爽www| 99中文字幕亚洲一区二区| 中文字幕久久亚洲一区| 久久精品国产91久久综合麻豆自制| 亚洲综合精品香蕉久久网| 国产精品粉嫩| 四虎成人精品在永久免费| 凹凸国产分类在线观看| 欧美亚洲国产精品第一页| 成年片色大黄全免费网站久久| 久久久久亚洲精品成人网| 热re99久久精品国99热| 国产成人无码Av在线播放无广告| 久久无码av三级| 国产迷奸在线看| 亚洲天堂精品视频| 国产精品黄色片| 国产成人综合久久精品下载| 免费高清毛片| 2020亚洲精品无码| 久久久久免费看成人影片| 香蕉蕉亚亚洲aav综合| 色噜噜狠狠狠综合曰曰曰| 国产剧情一区二区| 91成人在线免费视频| 欧美另类图片视频无弹跳第一页 | 在线免费无码视频| 久久情精品国产品免费| 久久天天躁夜夜躁狠狠| 亚洲无码高清一区二区| 欧美精品在线免费| 国产91导航| 成人看片欧美一区二区| 国产精品久久久久久影院| 日韩不卡免费视频| 性欧美久久| 3344在线观看无码| 日韩无码一二三区| 亚洲成a人片在线观看88| 另类重口100页在线播放| 亚洲狠狠婷婷综合久久久久| 国产你懂得| 一区二区三区成人| 伊人中文网| 免费观看国产小粉嫩喷水| 在线日韩日本国产亚洲| 黄色网页在线播放| 亚洲精品你懂的| 青青青视频免费一区二区| 狠狠干欧美| 激情综合网址| 国产免费羞羞视频| 欧美亚洲一二三区| 波多野结衣一区二区三区AV| 亚洲无卡视频| 毛片手机在线看| 小13箩利洗澡无码视频免费网站| 成人精品区| 欧美精品二区|