999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

古文識別平臺的設計與實現

2020-08-17 09:24:23馮力方吳蘆婷劉敏王穎高榮
現代信息科技 2020年9期
關鍵詞:深度學習

馮力方 吳蘆婷 劉敏 王穎 高榮

摘? 要:為推動古文數字化,促進古文資源共享,需要借助現代技術進行古文識別的工作,但現階段能提供古文識別功能的平臺非常匱乏,并且這些平臺能實現的功能有限,不能從根本上解決古文識別難、不準確、傳播難等問題。針對這些情況設計了古文識別系統,該系統為用戶提供古文資料識別和用戶資源共享兩種主要功能,能夠有效滿足古文研究工作者和古文愛好者的需求,也能夠對古文資源進行有效保護和利用。

關鍵詞:古文識別;深度學習;系統設計

中圖分類號:TP391? ? ? 文獻標識碼:A 文章編號:2096-4706(2020)09-0079-03

Design and Implementation of Ancient Prose Recognition Platform

FENG Lifang,WU Luting,LIU Min,WANG Ying,GAO Rong

(School of Information and Statistics,Guangxi University of Finance and Economics,Nanning? 530003,China)

Abstract:In order to promote the digitization of ancient scripts and promote the sharing of ancient scripture resources,it is necessary to use modern technology to perform ancient script recognition. However,at this stage,platforms that provide ancient script recognition capabilities are very scarce,and the functions that these platforms can achieve are limited and cannot be fundamentally solved difficulties in identifying,inaccurate and difficult to disseminate in ancient texts. In response to these situations,an ancient text recognition system was designed. This system provides users with two main functions:ancient text data recognition and user resource sharing and exchange,which can effectively meet the needs of ancient text researchers and ancient text lovers,and can also effectively protect ancient text resources use.

Keywords:ancient text recognition;deep learning;system design

0? 引? 言

古文是數千年中華傳統文化的重要載體之一,對古文資源進行保護和有效利用不僅有利于傳承和發揚中華傳統文化,也有利于研究人員對中華傳統文化的研究。因此古文數字化具有重要意義。2017年,我國出臺的“十三五規劃”中明確指出需要加強古籍文檔的數字化工作,推動古籍文檔數字化,促進古籍資源共享[1]。實現古文數字化,能提高在大量的古文資源中進行檢索和歷史溯源等任務的效率,也為古文的深度加工提供了編輯基礎。古文存在于古籍中,為了減少對古籍的損壞,古文數字化可以把古籍以圖片的形式保存下來供人參考,但是圖片中的文字存在不可編輯、不好查找、不方便檢索的問題,而要將古籍通過人工錄入的方式完成數字化又存在浪費人力物力的問題。為了有效解決古文數字化的問題,提高古文數字化的效率,需要利用現代互聯網技術,構建包含古文資料識別和用戶資源共享功能平臺的智能工作系統。目前已有一些針對古文數字化的研究,黃偉國[2]設計了一種古籍文檔圖像智能標注系統,但功能比較單一,不支持基于整張圖片的文字檢查和識別功能。王春穎[3]設計了一種方書古籍數字化平臺,但缺少在線交流平臺,對古文資源共享和用戶交流有較大影響。為了更好地解決這個問題,基于國家級大學生創新創業項目資金支持,本文設計實現了一個新的古文識別平臺,該平臺的主要用戶是古文研究工作者和古文愛好者,能降低古文研究工作者的工作難度,促進古文資源開放化。

1? 系統總體結構

古文識別系統采用B/S架構即瀏覽器和服務器架構模

式。系統前端頁面結合采用HTML、CSS、AJAX、Bootstrap、jQuery等技術框架來構建,采用這些框架使得Web開發更加快捷,提升了前端開發的效率,降低了開發成本,縮短了開發周期。

平臺后臺架構由Python、Django 2.1、MySQL等技術框架實現,具有效率高、穩定性強、移植性好、便于維護等特點。在前期進行數據準備時,利用Python語言編寫程序爬取網絡上的古文資料,存入數據庫中作為數據集,并對數據集進行數據清洗后用于后續卷積神經網絡模型的訓練。其中數據采集階段使用Scrapy框架編寫爬蟲程序進行數據采集,Scrapy是一個成熟的爬蟲框架,支持異步爬取,并發性強,性能較高。數據清洗則先采用OCR技術對數據集進行初步的識別后,再通過人工進行篩選與校驗,完成數據集的標注。運用TensorFlow框架來進行模型的訓練,TensorFlow框架被廣泛應用于多種機器學習和深度學習領域,具有跨平臺、接口豐富、易部署等優點。

系統總體架構圖如圖1所示,整個系統可分解為三層。應用層提供圖片識別、PDF識別、古文論壇、識別任務區等應用功能。策略層中共享平臺功能通過積分統計、用戶管理的方式實現;識別模型為CNN模型,使用圖像灰度化、圖像二值化、OCR識別、傾斜矯正等圖像處理技術處理后的古文圖像數據和用戶反饋數據來建立;基礎數據處理通過Python提供的功能庫來完成數據采集、數據清洗、數據標注、數據緩存等操作。數據層通過MySQL數據庫對業務數據和日志數據進行緩存。

2? 系統模塊功能

古文識別平臺由兩個子平臺組成,分別為古文資料識別和用戶資源共享功能平臺,平臺界面圖如圖2所示。

2.1? 古文資料識別平臺

古文資料識別平臺的主要功能是接收用戶上傳的文件,可以是圖片文件或PDF文件。平臺將識別上傳文件中的古文文本,將其轉換成簡體中文,并以現代閱讀習慣重新排列展示。

該平臺分為圖片識別模塊和PDF識別兩大模塊。圖片識別模塊用于上傳一張或多張含有古文文本的圖片,將圖片文件中的古文文本轉換為現代文本后進行展示,支持上傳BMP、JPG、PNG、GIF等多種圖片文件格式。PDF識別模塊用于上傳古文文本PDF文件,將PDF文件中的古文文本轉換為現代文本后進行展示,一次僅支持上傳一份PDF文件,支持的文件大小為最大200 MB。

兩個識別模塊都具有文件校驗、修改識別結果、下載識別結果的功能。文件校驗功能會在用戶選擇上傳文件時對文件的格式進行校驗,若用戶上傳的文件格式不正確,則觸發彈窗提醒用戶重新上傳,此功能保證了后續識別文件格式的正確。修改識別結果功能是為了在識別完成后,用戶能夠對識別結果中不正確的文字進行修改,使識別結果更加準確,且用戶修改的結果會被記錄在數據庫中用于修正未來的識別結果,提升識別的準確率。下載識別結果功能用于將識別的最終結果保存到用戶指定格式的文件中,可選的文件格式有TXT、DOC、DOCX、PDF等,方便用戶將識別結果用于后續所需的工作。

PDF識別界面如圖3所示。

圖片轉換示例如圖4所示。

2.2? 用戶資源共享功能平臺

用戶資源共享平臺設置的主要目的是給用戶之間提供更好的交流環境,同時通過人工識別的方式來識別平臺無法正確識別的古文文本。

用戶資源共享平臺主要有“古文論壇”和“任務區”兩個功能板塊。“古文論壇”為用戶之間的交流提供了一個交流論壇,同時也給古文愛好者和社科研究人員提供了一個古文交流平臺,用戶可以實時討論在識別過程中遇到的古文文本問題。“古文論壇”內含有“簽到處”“交流區”和“活躍排行”“論壇公告”四個模塊。在“簽到處”用戶可進行每日簽到獲得用戶積分;“交流區”分為“閑談灌水”“經驗分享”“古籍咨詢”三大板塊,用戶可選擇相應板塊暢所欲言;而“活躍排行”則是根據日、月、年的時間段展示積極發帖的用戶,鼓勵用戶積極進行討論交流,增加網站的流量;“論壇公告”用來展示管理員發布的公告。

在“任務區”用戶可接受其他用戶發布或本平臺發布的識別古文文本任務,通過完成這些平臺未能成功識別的任務賺取用戶積分,以此來兌換古文文本的識別次數。這樣可以通過人工識別的方式提高平臺識別的正確率,提高用戶積極性。

3? 結? 論

古文識別平臺以系統實用、結構合理、技術規范作為基本設計原則,規劃了系統的整體架構,為用戶提供了清晰簡潔,智能友好的交互界面。操作簡便靈活、便于管理和維護,實現了古文資料識別和用戶資源共享功能平臺的集成,且平臺之間能夠進行數據共享。平臺初期通過爬蟲程序采集古文資料,使用OCR技術與人工標注等方式來獲得訓練模型所需的數據集。在得到初步訓練的模型后,數據集來源則主要為用戶上傳的古文資料,在用戶進行識別后,修改識別結果并下載這一過程,相當于無形中完成的一次清洗標注。隨著用戶使用次數的增加,模型所獲得的訓練樣本不斷擴大,模型的識別率也逐漸提高。用戶資源共享平臺中每位普通用戶用于進行古文識別的積分有限,在消耗完積分之后,可通過完成此平臺中發布的識別古文任務來賺取積分,鼓勵用戶自發地進行古文的識別,增加了用戶獲取積分的途徑來避免用戶的流失,任務中用戶所上傳與識別的古文資料也是數據集的來源之一。

數千年的中華文明留下浩如煙海的古籍,這些古籍對現代人了解古代歷史、社會和文化發展具有重要的價值。古文文獻數字化是時代和社會的呼聲,也是構建中國特色哲學社會科學的重要步驟。古文識別系統順應古籍資料數字化、智能處理和相關人文計算研究的發展潮流,充分利用信息技術手段,將古文資源識別和用戶資源共享功能模塊一一實現,為古文研究人員和古文愛好者提供了一個技術支持和交流的平臺。

參考文獻:

[1] 中國政府網.文化部關于印發《“十三五”時期全國古籍保護工作規劃》的通知 [EB/OL].(2017-09-06).http://www.gov.cn/xinwen/2017-09/06/content_5223039.htm.

[2] 黃偉國.古籍文檔圖像智能標注系統的設計與實現 [D].廣州:華南理工大學,2019.

[3] 王春穎.方書古籍數字化實踐研究 [D].哈爾濱:黑龍江中醫藥大學,2015.

作者簡介:馮力方(1999.09—),女,漢族,海南瓊海人,本科,研究方向:數據挖掘;吳蘆婷(1998.11—),女,漢族,廣西北海人,本科,研究方向:數據挖掘;劉敏(1999.01—),女,漢族,廣西賀州人,本科,研究方向:數據挖掘;王穎(1999. 08—),女,漢族,廣西桂林人,本科,研究方向:數據挖掘;通訊作者:高榮(1979.02—),男,漢族,山東濰坊人,講師,碩士研究生,研究方向:數據挖掘。

猜你喜歡
深度學習
從合坐走向合學:淺議新學習模式的構建
面向大數據遠程開放實驗平臺構建研究
基于自動智能分類器的圖書館亂架圖書檢測
搭建深度學習的三級階梯
有體驗的學習才是有意義的學習
電子商務中基于深度學習的虛假交易識別研究
現代情報(2016年10期)2016-12-15 11:50:53
利用網絡技術促進學生深度學習的幾大策略
考試周刊(2016年94期)2016-12-12 12:15:04
MOOC與翻轉課堂融合的深度學習場域建構
大數據技術在反恐怖主義中的應用展望
深度學習算法應用于巖石圖像處理的可行性研究
軟件導刊(2016年9期)2016-11-07 22:20:49
主站蜘蛛池模板: 久996视频精品免费观看| 国产永久免费视频m3u8| 国产欧美中文字幕| 女人18毛片一级毛片在线| 亚洲人成色在线观看| 国产95在线 | 亚洲精品桃花岛av在线| 亚洲国产清纯| 亚洲国产在一区二区三区| 亚洲欧洲日产国码无码av喷潮| 国产一区二区三区日韩精品| 超碰精品无码一区二区| 综合久久五月天| 久久亚洲高清国产| 国产成人亚洲精品无码电影| 国产精品免费p区| 98超碰在线观看| 九色最新网址| 在线观看亚洲成人| 亚洲中文字幕日产无码2021| 国产永久在线视频| 在线a视频免费观看| 玖玖精品视频在线观看| 亚洲精品福利网站| 欧美性久久久久| 欧美a在线视频| 亚洲无码高清一区| 青青草原国产免费av观看| 国产乱视频网站| 视频二区国产精品职场同事| 又黄又湿又爽的视频| 99精品国产自在现线观看| 91色综合综合热五月激情| 欧美在线一级片| 亚洲精品桃花岛av在线| 刘亦菲一区二区在线观看| 久久婷婷国产综合尤物精品| 一区二区三区高清视频国产女人| 1769国产精品免费视频| 最新国产你懂的在线网址| 波多野结衣一区二区三区AV| 亚洲黄色高清| 欧美啪啪一区| 98超碰在线观看| 国产美女免费| 久久精品亚洲专区| 嫩草国产在线| 欧美成a人片在线观看| 人妻一本久道久久综合久久鬼色| 亚洲一区波多野结衣二区三区| 国产成人福利在线视老湿机| 波多野结衣第一页| 精品久久777| 四虎影视8848永久精品| 亚洲第一黄色网址| 国产视频资源在线观看| 久久久成年黄色视频| 亚洲视频欧美不卡| 日韩免费视频播播| 国产欧美精品专区一区二区| 日本在线视频免费| 亚洲美女AV免费一区| 91成人在线免费视频| 国产精品林美惠子在线播放| 国产精品天干天干在线观看 | 狠狠色噜噜狠狠狠狠色综合久| 中文字幕在线观| 欧美一区二区自偷自拍视频| 制服丝袜亚洲| 亚洲高清中文字幕在线看不卡| 久久精品中文字幕少妇| 国产午夜福利在线小视频| 国产美女免费| av手机版在线播放| 无码高潮喷水专区久久| 国产成人一二三| 无遮挡一级毛片呦女视频| 国产亚洲精品yxsp| 美女被躁出白浆视频播放| 亚洲高清中文字幕| 久夜色精品国产噜噜| 国产精品嫩草影院视频|