汪曉青
摘 要:在分析人工智能機(jī)器學(xué)習(xí)的基礎(chǔ)上,利用實(shí)例,從各方面論述了基于人工智能機(jī)器學(xué)習(xí)的文字識(shí)別方法需要注意的問題,希望對(duì)于今后我國(guó)的機(jī)器學(xué)習(xí)領(lǐng)域發(fā)展具有一定幫助。
關(guān)鍵詞:人工智能;機(jī)器學(xué)習(xí);文字識(shí)別;神經(jīng)網(wǎng)絡(luò)
前言
在不斷發(fā)展的科學(xué)技術(shù)背景下,智能化則是各個(gè)行業(yè)所發(fā)展的趨勢(shì),機(jī)器學(xué)習(xí)就是智能化中一個(gè)重要方面。當(dāng)前,人類在語音、圖像識(shí)別、智能機(jī)器人以及智能搜索領(lǐng)域中獲得很大的進(jìn)步,也有著很多的成功應(yīng)用實(shí)例。當(dāng)前,自動(dòng)駕駛技術(shù)、深度問答都是建立在人工智能中的機(jī)器學(xué)習(xí)領(lǐng)域的基礎(chǔ)上,在逐步發(fā)展壯大的過程中,已經(jīng)能夠體現(xiàn)出具有巨大的優(yōu)越性[1,2]。鑒于此,應(yīng)該重視基于人工智能機(jī)器學(xué)習(xí)的文字識(shí)別方法的研究工作,希望能夠在此領(lǐng)域獲得進(jìn)一步的發(fā)展。
一、人工智能機(jī)器學(xué)習(xí)概述
在具體的計(jì)算機(jī)程序智能化研究中,應(yīng)該從大腦模擬角度思考,這則是進(jìn)行機(jī)器學(xué)習(xí)的基本內(nèi)容。在分析人腦進(jìn)行知識(shí)構(gòu)建的情況下,應(yīng)該對(duì)于環(huán)境中涉及到數(shù)據(jù)和規(guī)律進(jìn)行總結(jié)分析,并能積極應(yīng)用在云計(jì)算程序中,并能有效改善程序相應(yīng)的執(zhí)行能力。在人工智能機(jī)器學(xué)習(xí)方面,從二十世紀(jì)中期,就已經(jīng)獲得必要的成就,但是,對(duì)于其具體的學(xué)習(xí)機(jī)理還存在很大的研究空間,應(yīng)該從機(jī)器學(xué)習(xí)的發(fā)展歷史,進(jìn)行思考。一是,在20世紀(jì)中期,這個(gè)階段中計(jì)算機(jī)信息技術(shù)呈現(xiàn)出飛速發(fā)展的趨勢(shì),人們逐漸應(yīng)用神經(jīng)網(wǎng)絡(luò)模型,一些機(jī)器學(xué)習(xí)算法(比如,進(jìn)化算法)以及判別函數(shù)在背景下出現(xiàn),但由于上述算法存在一定的局限性,難以應(yīng)用于實(shí)踐中;二是,在二十世紀(jì)七十年代中,這部分專家對(duì)于人工智能機(jī)器學(xué)習(xí)陷入一定的瓶頸期,在理論方面存在很大的問題,無法彌補(bǔ)實(shí)踐中的理論差距,還對(duì)于神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)器存在一定的理論缺陷,研究工作進(jìn)展很慢;三是,到了二十世紀(jì)八十年代,機(jī)器學(xué)習(xí)領(lǐng)域獲得比較大的成功,更多專家學(xué)者關(guān)注到不同類型的學(xué)習(xí)器模型的實(shí)際應(yīng)用,并能發(fā)展出多種的學(xué)習(xí)算法,能夠較好地建立起理論和實(shí)踐之間的聯(lián)系,能夠?qū)⑷斯ぶ悄軝C(jī)器學(xué)習(xí)應(yīng)用在很多研究領(lǐng)域中,并在理論方面有了一定的突破和應(yīng)用,比如,在股票交易、天氣預(yù)報(bào)、圖像處理等應(yīng)用中。所以,人工智能機(jī)器學(xué)習(xí)在某種程度上也是體現(xiàn)國(guó)家綜合競(jìng)爭(zhēng)力的表現(xiàn),應(yīng)該在各個(gè)方面予以充分重視,保證充分提升我國(guó)在人工智能機(jī)器學(xué)習(xí)領(lǐng)域中的實(shí)力。
二、人工智能機(jī)器學(xué)習(xí)基礎(chǔ)上的文字識(shí)別方法
1.文字識(shí)別系統(tǒng)分類器
在進(jìn)行文字系統(tǒng)分類器選擇中,經(jīng)常應(yīng)用BP神經(jīng)網(wǎng)絡(luò)分類器,具體的構(gòu)建中,應(yīng)該結(jié)合BP神經(jīng)網(wǎng)絡(luò)的需求,進(jìn)行網(wǎng)絡(luò)構(gòu)建,利用net1,net2和net3來對(duì)于特征數(shù)據(jù)訓(xùn)練的表征,結(jié)合BP網(wǎng)絡(luò)要求,包括相應(yīng)的輸入層、輸出層以及兩個(gè)隱層。
在進(jìn)行網(wǎng)絡(luò)初始化的過程中,主要包括initwb和initnw兩種方式,前者的應(yīng)用中,主要就是使得全部網(wǎng)絡(luò)偏置量進(jìn)行初始化,并進(jìn)行權(quán)值賦值,這還需要結(jié)合實(shí)際來應(yīng)用自定義矩陣,而后者則利用網(wǎng)絡(luò)中的默認(rèn)初始化進(jìn)行,在具體的應(yīng)用中,利用算法Nguyen以及Widrow,能夠保證在不同的層次中,能夠有效初始化偏置值以及權(quán)重問題,在這樣的背景下,輸入控件的全部神經(jīng)元活動(dòng)能保障被輸入,盡量避免在神經(jīng)元的浪費(fèi)問題,表現(xiàn)出比較高效的訓(xùn)練速率,體現(xiàn)出較好的優(yōu)勢(shì)。
2.文字識(shí)別性能
經(jīng)過統(tǒng)計(jì),在日常生活中所經(jīng)常出現(xiàn)的漢字達(dá)到六千多字,其中,醫(yī)學(xué)領(lǐng)域中包括2000多字。基于此,這里選擇常用的醫(yī)學(xué)漢字為基礎(chǔ),對(duì)于六百字符的數(shù)字進(jìn)行圖像構(gòu)建操作,其中,字幅圖像一共包括十幅,并分成六組,前九幅字符圖像則是進(jìn)行訓(xùn)練的數(shù)據(jù),另外,最后一組則為進(jìn)行測(cè)試的圖像。具體將其應(yīng)用在上述的LSSVM以及BP神經(jīng)網(wǎng)絡(luò)中,經(jīng)過實(shí)驗(yàn)分析,可以得到如下結(jié)論。
具體的交叉驗(yàn)證中,文字識(shí)別系統(tǒng)能夠有效判斷部分文字,經(jīng)過統(tǒng)計(jì),應(yīng)用此系統(tǒng),為了滿足識(shí)別率高達(dá)2000字符以上。為了進(jìn)一步完善此系統(tǒng)的應(yīng)用效果,應(yīng)該對(duì)于分類器在每一組的特征基礎(chǔ)進(jìn)行分類操作,要想保證能夠有效識(shí)別更多文字,則應(yīng)該在該分類器中包含以上全部字符。所以,應(yīng)該對(duì)于2000漢字進(jìn)行劃分處理,利用不同的小組特征進(jìn)行訓(xùn)練,保證不同分類器所具備的同一類的特征。在此基礎(chǔ)上,針對(duì)不同分類器當(dāng)中的數(shù)據(jù)進(jìn)行篩選,應(yīng)用票數(shù)最多的識(shí)別結(jié)果,將其應(yīng)用于交叉驗(yàn)證當(dāng)中,在有效的驗(yàn)證后對(duì)最終的識(shí)別結(jié)果進(jìn)行輸出。
三、結(jié)論
由此可見,在信息技術(shù)飛速發(fā)展的背景下,人類文明也在經(jīng)歷著翻天覆地的變化,信息技術(shù)正在改變我們的生活和工作。人工智能機(jī)器學(xué)習(xí)則是信息技術(shù)發(fā)展的一個(gè)重要方面,具有非常重要的研究?jī)r(jià)值以及廣闊的發(fā)展空間,在此基礎(chǔ)上,應(yīng)該充分重視人工智能機(jī)器學(xué)習(xí)的研究工作,并詳細(xì)開展文字識(shí)別方法展的研究,對(duì)于進(jìn)一步提升我國(guó)的機(jī)器學(xué)習(xí)發(fā)展具有重要意義。
參考文獻(xiàn)
[1]歐文武,朱軍民,劉昌平.視頻文本定位[J].計(jì)算機(jī)工程與應(yīng)用,2004,40(30).
[2]張鵬,謝曉堯.基于改進(jìn)的C-支持向量機(jī)的手寫體數(shù)字高識(shí)別率方法研究[J].貴州師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2014,32(2).
(作者單位:武漢軟件工程職業(yè)學(xué)院)