999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Java技術的泰語脫機手寫模式識別研究

2017-11-30 02:53:01
無線互聯科技 2017年21期
關鍵詞:模式識別特征提取實驗

文 竹

(廣西國際商務職業技術學院,廣西 南寧 530007)

基于Java技術的泰語脫機手寫模式識別研究

文 竹

(廣西國際商務職業技術學院,廣西 南寧 530007)

近年來無紙化辦公的應用需求越來越多,人們開始將過去重要的手寫資料以各種方式保存在計算機中。然而常見的拍照掃描等方式只能以圖片存儲,更多時候人們需要的是ASCII碼。如果人工錄入,則會耗費龐大的人力和物力。為了解決這些問題,需要研究能將手寫體轉換為電子文檔的脫機手寫識別系統,實現手寫體文字的自動識別。文章通過分析脫機手寫識別的國內外研究現狀,探討了泰語脫機手寫模式識別的意義,并提出了實現泰語脫機手寫模式識別系統的技術路線與實施方案,以期加強中泰的經貿往來,提高兩國旅游服務等行業的工作效率,助推中國“一帶一路”發展戰略。

模式識別;脫機手寫;神經網絡;算法

泰語是泰國的官方語言,目前全球有約6 800萬人口使用泰語,文字資料記載極為豐富。自2002年泰國所在的東盟區域建成自由貿易區后,其與中國的政治、經濟合作十分緊密。中國開啟“一帶一路”發展戰略后,更是加強了與泰國的經貿往來,泰國在中國的地緣戰略建設中意義重大。筆者在查閱資料時發現,目前國內外都沒有專門針對泰語的脫機手寫識別研究,因此,研究脫機手寫泰語識別系統無論對于中國還是泰國都有十分積極的意義。本研究目的是結合泰語文字的書寫特點,利用經典的模式識別、機器學習和人工神經網絡技術,對脫機手寫泰語識別進行深入研究,并最終使用Java技術完成脫機手寫泰語識別系統的設計。脫機手寫泰語識別系統目前有巨大的市場前景,脫機手寫識別也是當今模式識別、機器學習、人工神經網絡領域的熱門研究內容。

1 脫機手寫識別的國內外研究現狀

文字識別是模式識別的一種。模式識別是機器識別、計算機識別或機器自動識別,目的在于讓機器自動識別事物。文字識別就是將待識別的信息映射歸類并將該信息標簽化存儲到計算機中對應文字類別的模式識別。

目前國內外的文字識別主要有印刷體識別和手寫體識別兩大分支。印刷體識別又稱為光學字符識別(Optical Character Recognition,OCR),是從電子設備(例如掃描儀或數碼相機)獲取紙上打印的字符,通過檢測暗、亮的模式確定其形狀,然后用字符識別方法將形狀翻譯成計算機文字的過程。到目前為止,許多公司都開發出了基于印刷體識別的應用軟件,在實際生活中也被大量地運用;手寫識別是針對人的手寫體文字進行識別,該技術起步較晚,并且手寫文字存在書寫變形、文字風格差異大和文字不固定等特點,這些特點給手寫體識別的實現帶來了很大難度。手寫體識別又可以分為聯機手寫識別和脫機手寫識別。聯機手寫識別也稱為在線手寫識別,是一種將用戶在觸摸板、手寫板、屏幕等設備上的手寫軌跡轉化為計算機中對應的文字的技術。聯機手寫識別特點在于需要的存儲容量較少,識別率高,更貼近實際應用,因此生活中已經被大量應用;與印刷體識別相似的是,脫機手寫識別同樣是通過掃描儀或數碼相機通過輸入文字圖像的方式獲取紙質上或其他可視部分的文字信息,不同的是脫機手寫識別是針對人的手寫體進行識別。脫機識別過程比聯機識別少了用戶輸入的筆畫順序,而且容易受噪點、光照、書寫風格影響,所以識別難度較大。

2 泰語脫機手寫模式識別的意義

到目前為止,國內外都沒有成熟的脫機手寫識別系統。單獨針對泰語的脫機手寫識別研究也毫無進展。目前出現的識別系統都為印刷體識別,不受書寫風格、噪點、光照等影響,所以字符識別是圖像識別和人工智能領域中一個非?;钴S的分支,一方面是由于問題本身的難度使之成為一個極具挑戰性的課題,另一方面,是因為字符識別不是一門孤立的應用技術,其中包含了模式識別領域的其他分支都會遇到的一些基本的、共性的問題。也正是由于字符識別技術的飛速發展,才促使模式識別和圖像分析發展成為一個成熟的科學領域。

在聯機手寫字符識別中,計算機能夠通過與計算機相連的手寫輸入設備獲得輸入字符筆畫的順序、筆畫的方向以及字符的形狀,所以相對脫機識別來說其具有更多的可用信息,從而識別相對容易一些。但是,聯機識別有一個嚴重的不足,即要求輸入者必須在指定的設備上書寫,然而人們在生活中大部分的書寫情況是不滿足這一要求的,比如入境泰國時所填寫的入境資料、開具支票等。如果需要計算機去識別這些已經成為泰文的東西,就屬于脫機手寫識別技術了。針對泰語的脫機手寫識別不但具有很高的應用價值,同時也具有很高的理論價值。首先,由于經濟的發展,中國和泰國金融市場化進程的日益加快,票據業務發展很快,票據數量也與日俱增,其中包括個人憑證、支票、發票、進賬單等均需要處理大量的信息。而目前,票據錄入仍然依賴人工處理,使得票據管理工作相對落后。如果能通過脫機泰語手寫識別系統實現信息的自動錄入,無疑會大大促進傳統人工處理方式中存在的工作量大、成本高、效率低、時效性差等問題的解決。因此,針對泰語的脫機手寫識別研究有著重大的現實意義和十分廣闊的應用前景,一旦研究成功并投入使用將產生巨大的社會和經濟效益。其次,全球約有6 800萬人口使用泰語,泰語一共有輔音字母44個,元音字母和符號32個,識別種類較小,有助于深入分析及驗證一些新的理論。

3 研究目標與內容

本文主要研究泰語文字的書寫特點,利用經典的模式識別、機器學習和人工神經網絡技術,對輸入到系統的手寫泰語數據進行圖像識別并輸出對應的泰語字母。脫機手寫泰語識別系統會搭建一個實驗版本的系統進行實驗,選取最合理、最有效的特征提取方法、機器學習模型來搭建系統,并收集樣本訓練該系統,最終使用組合特征提取方式、反向傳播(Back Propagation,BP)神經網絡等技術在Java開發環境中實現該系統。具體研究內容如下。

3.1 對泰文文字的研究

對泰文文字進行比較深入的分析。包括泰文字符集、泰文字符的書寫方法、泰文文字的組字規律、文字獨有的拓補特性和泰文手寫文字產生的形變等等。

3.2 圖像預處理

對圖像進行預處理,以消除圖像的干擾信息,得到統一規格的圖像。

3.3 脫機手寫泰文文字特征提取

針對泰文文字識別,對泰文特征提取方法進行研究,以便計算機將文字特征數值化后輸入到系統中進行識別。

3.4 分類器設計

手寫識別的最關鍵一個環節就是分類器的設計。近幾年來,很多研究者都證明了一些經典的分類器在手寫識別上都展現出良好的性能。本文將對幾種經典的分類法的優缺點進行對比研究,并選擇性能最優的分類法作為脫機手寫泰語識別系統的分類器。

3.5 脫機手寫泰語識別系統設計、測試和評估

使用Java開發搭建一個實驗版本的系統進行多次實驗,選取最合理、最有效的特征提取方法、機器學習模型搭建系統,并收集樣本訓練該系統。最后,選擇若干組手寫樣本對識別系統進行測試,評估識別效果。

4 實現系統的技術路線

4.1 技術路線

4.1.1 手寫泰文筆跡圖像的預處理

針對手寫泰文圖像在采集、掃描和保存過程中存在的各種問題,提出一套泰文筆跡圖像預處理算法。對現有的用于筆跡圖像去噪的算法,進行詳細的實驗分析論證,最后對筆畫沒有破壞的自適應中值濾波算法進行圖像去噪,最后設計泰文圖像歸一化的整個過程。

4.1.2 手寫字符識別算法

將對近鄰分類法(K-Nearest Neighbor,KNN)(歐式幾何法)、樸素貝葉斯分類法、神經網絡分類法等方法的優缺點進行對比,最后選擇性能最優的一個作為脫機手寫泰語識別系統的分類器。

4.1.3 基于Java技術完成脫機手寫泰語識別系統的設計

脫機手寫泰語識別系統目標是在輸入系統的手寫泰文數據的圖像中識別出對應的泰文字母。該系統會搭建一個實驗版本的系統進行多次試驗,選取最合理、最有效的特征提取方法、機器學習模型搭建系統,并收集樣本訓練該系統。

4.2 技術可行性

由于本文運算量較大,為了縮短訓練、減少處理時間和響應時間,項目要選擇運行效率更高的運行環境。Java語言運行效率高,簡單、易用且跨平臺,同時提供了一些易用的圖形處理接口、用戶界面接口。用戶拍照并傳輸到PC端再進行識別比較麻煩,Java語言擁有良好的可移植性,將為本文移植到Android系統實現手機拍照識別提供極大的便利。

4.3 實施方案

本文所研究的目標是將輸入到系統中的手寫泰語數據圖像識別出對應的泰語字母,泰語一共有輔音字母44個,元音字母和符號32個。經過團隊的努力,已經搭建好了一個實驗版本的系統進行多次實驗,以選取最合理、最有效的特征提取方法、機器學習模型搭建最終的脫機手寫泰語識別系統。經過大量的數據測試,脫機手寫泰語識別系統最終使用組合特征提取方式、BP神經網絡并在Java開發環境中實現。

脫機手寫泰語識別系統總共有6個功能模塊,包括:手寫圖像數據提取、預處理、特征提取、訓練、識別、結果顯示[1]。

從數據流圖的角度來說本系統主要有4個模塊。

(1)圖像預處理:將原始圖像經過灰度化、二值化、細化、歸一化后得到規格統一的歸一化圖像。

(2)特征提取:將歸一化的圖像進行特征提取,并將這些特征轉換成特征序列。

(3)訓練:用特征序列進行監督式學習,將分類器訓練后的結果存儲到分類器數據庫。

(4)識別:用分類器數據對特征提取后的特征序列進行分類,得出識別結果。

脫機手寫泰語識別系統的非功能需求包括2個方面。

(1)從載入文件到識別,系統不超過1 s即可返回結果。

(2)在隨機抽取的樣本測試中,系統識別精度應該在85%以上。

系統主要工作流程可以分為:加載文件流程、識別流程。在系統啟動時,首先清空顯示界面,當用戶點擊“選擇識別文件”按鈕,彈出文件選擇框讓用戶進行選擇。當用戶選擇的文件格式符合要求(.jpg/.png)時,將圖像加載到內存中,并顯示到用戶界面上。若文件格式不屬于這兩種格式則提示文件不符合要求,可以重新選擇。當用戶點擊識別按鈕時,首先判斷用戶是否選擇了識別文件,若沒選擇會返回提示信息,否則進入下一階段。在預處理階段,系統判斷圖片規格是否符合識別要求(圖片長寬是否合適),若不符合要求,則提示錯誤信息,否則進入下一流程。經過預處理、特征提取、分類后最終得到結果顯示在用戶界面上[2]。

針對手寫泰語而言,需要提取的特征維度為65維度,經過篩選后剩下20個特征,這樣,我們就確定了輸入層的節點數為20個。脫機手寫泰語識別系統一共要識別輔音字母44個元音字母和符號32個共76個字符,若將輸出層節點代表N(N為整數)位二進制數,則輸出層節點數應該滿足logn76lt;N,滿足此時的同時取最小值,即N=7。為了使BP神經網絡保持一定識別精度的同時減少訓練時間,脫機手寫泰語識別系統設置一層隱藏層。中間層節點數我們設置為輸入層節點數的兩倍加一,即41個節點。為了讓網絡訓練保持一定訓練速度的同時不出現不穩定的現象,脫機手寫泰語識別系統選取的學習速率為0.1。閘值和權值初始值通過隨機浮點函數確定,精度保留小數點后一位。隨機數的范圍為[-0.7,0.7]。

神經網絡的學習過程主要有6個部分:初始化、信號傳播、誤差計算、誤差校正、誤差判定、循環訓練。學習開始的時候系統會連接權及閘值初始化,然后進入學習模式,在信號傳播期間計算中間層各單元的輸入、輸出和計算輸出層各單元的校正誤差,校正誤差的同時調整中間層至輸出層之間的連接權及輸出層各單元的輸出閘值,接下來更新學習輸入模式并判斷全部模式訓練是否結束,如果還未結束則重復該過程,如果已經結束則更新學習次數。

神經網絡訓練完成后,網絡暫時存在內存中,需要永久性存儲以便下次識別。JSON是一種輕量級的數據交換格式本,使用方便,便于查詢,因此本文使用JSON做數據存儲格式。本文使用JSON-Java工具包,將文件存儲成.json格式。

目前研究團隊已經初步設計出的脫機手寫泰語識別系統,人機交互界面主要有客戶版和實驗版兩個版本??蛻舭嬷饕δ転檫x擇待識別圖片、圖片預處理并展示、識別。實驗版功能更強大,除了含有客戶版的功能外,還增加了圖片批量識別、特征提取方式選擇、分類器選擇、訓練、結果輸出、實驗統計等功能。實驗版有助于在實驗階段對系統進行調試、訓練、實驗和總結并完善。項目團隊對于幾種特征提取方法和分類器進行了對比實驗,從而找出針對脫機手寫泰語字母識別系統的最佳性能識別方法。本次實驗從260人中采集了17 500份手寫樣本。為了降低實驗的難度,本次實驗規定手寫樣本必須風格統一。其中,隨機提取2 310份樣本作為測試樣本,其余的作為接下來研究的訓練樣本。已經進行的實驗中,分別對網格、外圍、直方圖、組合特征進行了對比實驗,測試樣本為2 310份測試時選用BP神經網絡做分類器,實驗結果如表1所示。

表1 實驗結果

泰語字符中,有多個字母有較高的相似度,這使得泰語手寫識別系統的研發具有一定難度。本文擬利用廣西與東盟、泰國之間的便利條件,抽取更多樣本資料進行實驗,在特征提取中,采用彈性網絡加外圍特征的組合特征提取方式,爭取使得特征有較好的區分度。本文使用BP神經網絡作為分類器,可以借助當前最流行的BP神經技術進一步提高識別精度。

5 結語

泰語手寫識別系統研發所取得的進展,將極大地提高數據錄入和處理的效率,并允許各種設備有讀取環境中豐富的泰語文字信息的能力??梢詫⑻┱Z文字識別技術應用于大規模數據統計中。例如,留學生成績單錄入、出入境稅單申報、出入境表格填寫、中泰合資企業財務信息處理等,使用脫機手寫泰語識別技術將大大提高這方面的工作效率。此外,隨著我國“一帶一路”政策的實施,與泰國方面的金融、基礎建設、鐵路、航空、旅游、醫藥等方面的合作日益增加,有大量財務、稅務、金融領域的單據需要進行處理。使用脫機手寫泰語識別技術有利于加強中泰的經貿往來,提高兩國旅游服務等行業的工作效率,助推中國“一帶一路”發展戰略。

[1]張翠芳.Zhang并行細化算法的改進[J].計算機應用技術,2016(6):69-71.

[2]楊金偉,段會川.脫機手寫數字識別方法[J].計算機工程與設計,2008(20):5379-5382.

Research on Thai handwritten pattern recognition based on Java technology

Wen Zhu
(Guangxi International Business Vocational College, Nanning 530007, China)

In recent years, there is an increasing demand for paperless office applications, and people have begun to store important handwritten information in computers in a variety of ways. However, common scanning methods such as pictures can only be stored as pictures, more often people need ASCII code. If you manually enter, it will spend a huge amount of manpower and material resources. In order to solve these problems, it is necessary to study offline handwriting recognition system that can convert handwriting to electronic document, and realize automatic recognition of handwritten text. By analyzing the current research situation of offline handwriting recognition at home and abroad, this article discusses the meaning of Thai offline handwriting pattern recognition and puts forward the technical route and implementation plan of Thai offline handwriting pattern recognition system in order to strengthen Sino-Thai economic and trade exchanges, improve the efficiency of tourism and other industries in the two countries and boost China’s development strategy of“One Belt, One Road”.

pattern recognition; offline handwriting; neural network; algorithm

文竹(1982— ),女,貴州銅仁人,講師,碩士;研究方向:大數據,數據挖掘。

猜你喜歡
模式識別特征提取實驗
記一次有趣的實驗
做個怪怪長實驗
基于Gazebo仿真環境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
淺談模式識別在圖像識別中的應用
電子測試(2017年23期)2017-04-04 05:06:50
一種基于LBP 特征提取和稀疏表示的肝病識別算法
第四屆亞洲模式識別會議
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
第3屆亞洲模式識別會議
基于MED和循環域解調的多故障特征提取
主站蜘蛛池模板: 国产欧美高清| 四虎精品黑人视频| 免费激情网站| 91在线视频福利| 中文字幕在线日本| 成人福利在线观看| 国产精品一区二区不卡的视频| 亚洲天堂.com| 国产www网站| 欧美午夜视频在线| 91激情视频| 在线无码av一区二区三区| 国产精品女同一区三区五区| 人人看人人鲁狠狠高清| www.狠狠| 9cao视频精品| 美女被操91视频| 中文字幕 欧美日韩| 国产精品久久久久久久久kt| 亚洲乱码在线播放| 精品人妻无码中字系列| 国产白浆视频| 欧美精品导航| 91久久国产成人免费观看| 风韵丰满熟妇啪啪区老熟熟女| 福利姬国产精品一区在线| 九色综合视频网| 一级成人a做片免费| 老熟妇喷水一区二区三区| www成人国产在线观看网站| 国产成人高清亚洲一区久久| 亚洲成人精品| 精品亚洲欧美中文字幕在线看| 日韩精品免费在线视频| 国产人成在线观看| 成人精品免费视频| 亚洲成aⅴ人片在线影院八| 午夜精品区| 亚洲黄网视频| 国产剧情伊人| 91福利免费| 亚洲国产欧美国产综合久久 | 在线综合亚洲欧美网站| 久久人妻xunleige无码| 毛片视频网址| 国产亚洲精品资源在线26u| 国产h视频在线观看视频| 久久婷婷五月综合色一区二区| 国产一区二区福利| a欧美在线| 一级成人a做片免费| a级高清毛片| 亚洲成a人片| 亚洲视频在线网| 91国内视频在线观看| 99在线视频免费| 色视频久久| 国产成人免费高清AⅤ| 视频一本大道香蕉久在线播放| 亚洲人在线| 日韩欧美国产成人| 国产精品毛片在线直播完整版| 国产91视频免费| 中国一级毛片免费观看| 免费三A级毛片视频| 亚洲婷婷六月| 国产人成乱码视频免费观看| 午夜免费视频网站| 亚洲精品片911| 国产地址二永久伊甸园| 免费毛片网站在线观看| 久操中文在线| 国产免费一级精品视频 | 有专无码视频| 国产欧美日韩在线在线不卡视频| 亚洲AV无码久久天堂| 乱码国产乱码精品精在线播放| 久久一色本道亚洲| 日韩国产亚洲一区二区在线观看| 综合久久五月天| 露脸国产精品自产在线播| 18禁高潮出水呻吟娇喘蜜芽|