999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

漢語言難檢字讀音查詢app研究與開發(fā)

2020-03-19 07:41:46吳博世田英愛王浩翔
科學(xué)咨詢 2020年53期
關(guān)鍵詞:數(shù)據(jù)庫文本信息

吳博世 田英愛 王浩翔

(北京信息科技大學(xué)計(jì)算機(jī)學(xué)院 北京 100000)

近期,越來越多的人了解并喜歡上了國(guó)學(xué)文化,人們紛紛投入對(duì)國(guó)學(xué)文化學(xué)習(xí)的行列,掀起了一陣國(guó)學(xué)文化的學(xué)習(xí)熱潮。隨著人們對(duì)國(guó)學(xué)文化的逐步學(xué)習(xí),我們發(fā)現(xiàn)人們?nèi)鄙賹W(xué)習(xí)國(guó)學(xué)文化的工具。調(diào)查了解到,人們學(xué)習(xí)國(guó)學(xué)文化的一大阻礙就是有很多生僻字不認(rèn)識(shí)、不會(huì)讀、不了解是什么意思。為了有效推動(dòng)國(guó)學(xué)文化的學(xué)習(xí),我們經(jīng)過組內(nèi)討論決定利用OCR技術(shù),以及相關(guān)的Android頁面設(shè)計(jì),還有相關(guān)的難檢字識(shí)別算法,如attention,設(shè)計(jì)一款有助于學(xué)習(xí)國(guó)學(xué)文化的app,解決漢語言難檢字讀音的困難。

一、實(shí)現(xiàn)app的過程

在項(xiàng)目開始時(shí),我們先規(guī)劃了本app大概要實(shí)現(xiàn)的功能,理清了設(shè)計(jì)思路。我們要實(shí)現(xiàn)通過圖像識(shí)別技術(shù)、手寫輸入技術(shù),將要識(shí)別的字轉(zhuǎn)化為文本信息,再基于《山海經(jīng)》中的生僻字創(chuàng)建一個(gè)數(shù)據(jù)庫,最后通過連接數(shù)據(jù)庫將文本信息和數(shù)據(jù)庫中的字進(jìn)行匹配,然后調(diào)用數(shù)據(jù)庫中的信息,從而實(shí)現(xiàn)本app所既定的功能。我們的設(shè)計(jì)思路是通過Andorid Studio來構(gòu)建這個(gè)手機(jī)app的框架,然后再通過接口連接到一些其他技術(shù),最后連接Andorid Studio內(nèi)部的數(shù)據(jù)庫[1]將收集到的字的信息導(dǎo)入其中,最終完成一個(gè)功能豐富的app。

(一)應(yīng)用OCR技術(shù)

我們首要學(xué)習(xí)的技術(shù)就是OCR技術(shù),OCR技術(shù)是光學(xué)字符識(shí)別(Optical Character Recognition, OCR)[2],是指對(duì)文本資料的圖像文件進(jìn)行分析識(shí)別處理,獲取文字及版面信息的過程。亦即將圖像中的文字進(jìn)行識(shí)別,并以文本的形式返回。

我們將OCR技術(shù)應(yīng)用到我們的項(xiàng)目過程中遇到了較大的困難,在文字檢測(cè)部分的困難是要定位字的位置。在給定的一張圖像中,我們需要找出這張圖里文字出現(xiàn)的位置,這就需要用到attention技術(shù)。為了區(qū)分出是不是字,除了從整體對(duì)圖片進(jìn)行把握,更關(guān)注的是局部信息,也就是字的特點(diǎn),包括筆畫,字形,結(jié)構(gòu)等內(nèi)容。至于圖像中其他無關(guān)緊要的信息,對(duì)于字的識(shí)別并不能起作用,所以,注意力機(jī)制就是一個(gè)關(guān)鍵的技術(shù),讓深度學(xué)習(xí)模型更關(guān)注某個(gè)局部的信息。

(二)應(yīng)用RA-CNN技術(shù)

在文本識(shí)別部分的困難是首先是用戶將想要識(shí)別的字拍照上傳,由于用戶拍照的過程比較隨意,圖像的場(chǎng)景不固定,文字布局多樣,導(dǎo)致上傳了各式各樣的圖像,圖像歪斜、模糊,文本布局扭曲、褶皺、換向都是不可避免的,也會(huì)遇到低亮度、低對(duì)比度、光照不均、透視變形和殘缺遮擋等問題,這就需要進(jìn)行校正,通過幾何變換、畸變校正、去除模糊、圖像增強(qiáng)和光線校正等文字檢測(cè)對(duì)用戶上傳圖像中的文字進(jìn)行處理[3]。其次是對(duì)文本內(nèi)容進(jìn)行識(shí)別,將圖像中的文本信息轉(zhuǎn)化為文本信息,要識(shí)別得出每個(gè)文字是什么,然后根據(jù)識(shí)別出來的文字匹配我們數(shù)據(jù)庫中的文字,將數(shù)據(jù)庫中與之匹配的文字信息調(diào)用出來。將圖像中的文本信息轉(zhuǎn)化為文本信息是重中之重,它也需要attention技術(shù)的支持才能實(shí)現(xiàn),我們借鑒了一個(gè)基于CNN的注意力機(jī)制,叫做Recurrent attention convolutional neural network (RA-CNN)[4],該模型遞歸地分析局部信息,從局部信息中提取必要的特征,讓整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)不僅關(guān)注整體信息,還關(guān)注局部信息,拿“木”字舉例,之前通過文字檢測(cè)的attention技術(shù)來定位到“木”這個(gè)字的位置,然后根據(jù)RA-CNN技術(shù)遞歸地將“木”字放大成一個(gè)個(gè)局部的筆畫,比如一撇,一捺,一橫,一豎,然后再通過Attention Proposal Sub-Network (APN)技術(shù),迭代地生成子區(qū)域,并對(duì)這些子區(qū)域進(jìn)行必要的預(yù)測(cè),將這些子區(qū)域所得到的預(yù)測(cè)結(jié)果進(jìn)行必要的整合,從而得到整個(gè)字的預(yù)測(cè)概率。

總體來說,Attention機(jī)制就是從整個(gè)圖像出發(fā),判斷出字分布的位置,然后輸出一個(gè)坐標(biāo)值和尺寸大小,在這個(gè)基礎(chǔ)上,下一個(gè)子圖就是從上一個(gè)判斷出的圖像中出發(fā),再輸出一個(gè)坐標(biāo)值和尺寸大小;然后再迭代持續(xù)放大圖片,從而不停地聚集在圖片中的某些關(guān)鍵位置,不同尺寸的圖片都能輸出不同的信息,再將其進(jìn)行必要的融合,最終得出整個(gè)圖像中識(shí)別出來的字。

(OCR的技術(shù)路線)

(三)Android Studio中的接口調(diào)用

要想使用OCR技術(shù),就必須使用接口調(diào)用。我們通過Android Studio來實(shí)現(xiàn)接口調(diào)用,要實(shí)現(xiàn)的功能是用手機(jī)拍照,然后將照片信息傳遞給服務(wù)器,參數(shù)以POST的形式發(fā)送,按照百度OCRapi的要求[5],需要加上@FormUrlEncode注釋,我們使用@Field的方式將參數(shù)加入請(qǐng)求體,Observable中的是RecognitionResultBean類型,我們可以從里面拿到服務(wù)器返回的文字識(shí)別信息。調(diào)用此方法,便可以把圖片類型轉(zhuǎn)化成字符串類型,之后的操作便是對(duì)網(wǎng)絡(luò)接口調(diào)用之后的回調(diào)方法進(jìn)行定義,我們?cè)谡{(diào)用成功后的onNext操作中,拿到了RecognitionResultBean類型參數(shù),這個(gè)參數(shù)里含有圖片所包含文字的信息,我們將所有的文字一一取出,用StringBuilder連接成一個(gè)字符串,返回給View層,調(diào)用View層的updateUI進(jìn)行UI界面的更新,對(duì)于這個(gè)字符串我們?cè)谥筮€可以進(jìn)行進(jìn)一步的分析操作。

要使用相機(jī)功能調(diào)用,就需要請(qǐng)求權(quán)限。分別是網(wǎng)絡(luò)請(qǐng)求權(quán)限,數(shù)據(jù)的讀存取權(quán)限,以及相機(jī)權(quán)限。在Android 6.0 之前應(yīng)用的權(quán)限在安裝時(shí)全部授予,也就是說只要在AndroidManifest中申請(qǐng)過的權(quán)限,都會(huì)給予。而在Android 6.0 或更高版本之后,對(duì)權(quán)限的管理作出了改變,對(duì)某些涉及用戶隱私的權(quán)限可在運(yùn)行時(shí)根據(jù)用戶的需要?jiǎng)討B(tài)授予,也就是說,在AndroidManifest中申請(qǐng)的權(quán)限,在用戶使用的過程中還得詢問用戶是否給予,用戶給予權(quán)限了,應(yīng)用才能進(jìn)行相關(guān)的權(quán)限操作。如果拍照成功,我們就把照片作為參數(shù)傳遞給之前定義好的接口方法,調(diào)用進(jìn)行圖片文字識(shí)別。可以看到,我還把照片放入imageview中方便與識(shí)別結(jié)果進(jìn)行對(duì)比。等服務(wù)器成功返回識(shí)別結(jié)構(gòu)之后,就會(huì)調(diào)用VIew層的updateUI,更新textview顯示識(shí)別結(jié)果。

在測(cè)試階段,我們先就《山海經(jīng)》一書來選取難檢字進(jìn)行數(shù)據(jù)處理,錄入安卓的數(shù)據(jù)庫,進(jìn)行測(cè)試,其中印刷體字的識(shí)別準(zhǔn)確率還是比較高的,幾乎達(dá)到了100%,手寫體識(shí)別,因?yàn)槿藶橐蛩剌^大,識(shí)別率不盡人意,但是還是可以識(shí)別出來大部分。目前在山海經(jīng)中收錄難檢字300余字,以后會(huì)添加入《詩經(jīng)》等生澀難懂的書目的難檢字,或找到相關(guān)難檢字庫。

二、結(jié)束語

此項(xiàng)目在歷經(jīng)一年之后,我們終于完成了對(duì)本app的研究,并完成了真機(jī)的試驗(yàn),還得到了很不錯(cuò)的識(shí)別率,真的很不錯(cuò),我們覺得這是一款對(duì)于國(guó)學(xué)愛好者很友好的軟件,后續(xù)我們還會(huì)增加字庫,研發(fā)更加方便的識(shí)別模式,美化成更精致簡(jiǎn)潔的頁面,使用戶的體驗(yàn)達(dá)到最佳。

猜你喜歡
數(shù)據(jù)庫文本信息
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
數(shù)據(jù)庫
數(shù)據(jù)庫
數(shù)據(jù)庫
數(shù)據(jù)庫
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
展會(huì)信息
如何快速走進(jìn)文本
主站蜘蛛池模板: 久久久久亚洲AV成人人电影软件| 亚洲欧美不卡中文字幕| 一本大道无码高清| 国产成人福利在线视老湿机| 国产女人喷水视频| 亚洲成a人片在线观看88| 国产嫖妓91东北老熟女久久一| 在线观看免费黄色网址| 欧美日韩国产精品va| 亚欧成人无码AV在线播放| 国产xx在线观看| 欧美日韩资源| 毛片免费在线视频| 亚洲天堂视频在线观看免费| 欧美中文字幕无线码视频| 国产乱子伦无码精品小说| 久久精品娱乐亚洲领先| 国产一级一级毛片永久| 日韩无码黄色| 国产午夜不卡| 九九热视频在线免费观看| aa级毛片毛片免费观看久| 成年人午夜免费视频| 日本亚洲最大的色成网站www| 99资源在线| 欧美激情首页| 91青草视频| a色毛片免费视频| 在线观看亚洲人成网站| 久久久久久尹人网香蕉 | 色综合网址| 久爱午夜精品免费视频| 99久久国产精品无码| 国产Av无码精品色午夜| 无码日韩视频| 乱系列中文字幕在线视频| 国产精品无码AV中文| 亚洲色图欧美一区| 欧美国产日产一区二区| 国产成人精品免费av| 日本人又色又爽的视频| 欧美α片免费观看| 中文字幕亚洲精品2页| 国产亚洲日韩av在线| 亚洲国产精品VA在线看黑人| 国产91丝袜在线播放动漫| 色综合五月| 啪啪免费视频一区二区| 热久久国产| 久久黄色免费电影| 国产情侣一区| 国产精品午夜福利麻豆| 99久久人妻精品免费二区| 97一区二区在线播放| 免费毛片在线| 国产www网站| 91丝袜美腿高跟国产极品老师| 少妇高潮惨叫久久久久久| 亚洲日韩精品伊甸| 99视频在线看| 无码'专区第一页| 国产视频欧美| 在线观看欧美精品二区| 国产网站一区二区三区| 日韩黄色精品| 国产精品一区二区无码免费看片| 色综合中文字幕| 亚洲色图在线观看| 99热这里只有精品2| a在线亚洲男人的天堂试看| 中文字幕1区2区| 日韩美女福利视频| 国产剧情伊人| 国产成人亚洲综合a∨婷婷| 午夜毛片免费观看视频 | 在线观看无码a∨| 免费人成又黄又爽的视频网站| 欧美三级不卡在线观看视频| 91福利在线看| 欧洲日本亚洲中文字幕| 国产在线八区| 日本午夜精品一本在线观看|