張愷天
摘要
隨著當(dāng)前時代科技的進(jìn)步,人工智能發(fā)展極為迅速,人們對機(jī)器學(xué)習(xí)的研究也取得突破性進(jìn)展?;跈C(jī)器學(xué)習(xí)的文字識別方法對信息技術(shù)有著極為重要的促進(jìn)意義。接下來本文將對基于機(jī)器學(xué)習(xí)的文字識別方法研究,進(jìn)行一定分析探討,并對其做相應(yīng)整理和總結(jié)。
【關(guān)鍵詞】機(jī)器學(xué)習(xí) 文字識別 方法研究
機(jī)器學(xué)習(xí)作為人工智能的重要組成內(nèi)容,近年來其已經(jīng)逐漸被應(yīng)用至各行業(yè)領(lǐng)域中,其所具有的智能化特性,使得其應(yīng)用過程所取得實質(zhì)性效果極為明顯。而基于機(jī)器學(xué)習(xí)的文字識別,雖然其在原理以及技巧上已經(jīng)形成相對豐富的理論支撐,但在實際實踐期間仍面臨各種因素制約,使其識別效果很難得到體現(xiàn)。
1 機(jī)器學(xué)習(xí)發(fā)展簡析
機(jī)器學(xué)習(xí)即是使機(jī)器能夠形成與人類大腦相似的模仿性能,從上世紀(jì)中期開始,其主要以進(jìn)化學(xué)習(xí)以及判別函數(shù)來體現(xiàn),整體局限性相對較為明顯;自上世紀(jì)八十年代,不同種類學(xué)習(xí)器模型的產(chǎn)生,使得其能夠結(jié)合多種學(xué)習(xí)算法確保理論與實踐能夠形成緊密連接;直至今天,機(jī)器學(xué)習(xí)已經(jīng)逐漸被運(yùn)用至多個行業(yè)領(lǐng)域中,比如圖像處理、股票交易等;其對整個信息時代智能化發(fā)展的推動效果明顯。
2 基于機(jī)器學(xué)習(xí)的文字識別發(fā)展及問題
2.1 文字識別發(fā)展及缺陷分析
常規(guī)的文字識別即按照文字直觀形態(tài)特征,通過對文字字符間的形態(tài)差別做對應(yīng)統(tǒng)計分析,以找出一組相似的可以代表文字差異統(tǒng)計參數(shù),來對其進(jìn)行全面的篩選識別,以此達(dá)到計算機(jī)文字識別并使其自動錄入保存。但在實際運(yùn)用期間,針對字符較少的英文來進(jìn)行識別應(yīng)用時,仍很難取得良好的識別準(zhǔn)確率;造成這種現(xiàn)象主要是因文字種類、文字自身像素抖動、識別時間長等原因所致。其中文字種類的多樣性使得文字識別難度加大,而十倍花費(fèi)時間較長使得整個個識別效率很難得到保障。
2.2 機(jī)器學(xué)習(xí)文字識別問題
基于機(jī)器學(xué)習(xí)文字識別的開發(fā)和實踐一定程度上促進(jìn)了文字識別的發(fā)展,比如以往所出現(xiàn)的紫光、賽庫等較為人們所熟知的文字識別軟件產(chǎn)品,其對識別對象整體識別率相對有一定保障;但從實際來看其本身所存在問題仍然較為明顯,比如識別過程中常會出現(xiàn)對部分相似字識別錯誤的情況,同時相應(yīng)版面分析缺乏一定智能特性,整個識別結(jié)果處理排版與原文字圖像差別性較大,都使得基于機(jī)器學(xué)習(xí)的文字識別效率和識別質(zhì)量和很難得以體現(xiàn)。
3 基于機(jī)器學(xué)習(xí)的文字識別方法
通過上文對基于機(jī)器學(xué)習(xí)的文字識別發(fā)展及問題分析,結(jié)合實際開展對應(yīng)識別方法方案設(shè)定時,應(yīng)注重對系統(tǒng)方案專業(yè)性和精確性的合理設(shè)定,確保機(jī)器學(xué)習(xí)自身智能化特性充分得到發(fā)揮,使文字識別效率能夠得到保障。
3.1 文字識別方法發(fā)展方向
當(dāng)前文字識別主要是對手寫體、印刷體、世界場景文字進(jìn)行相應(yīng)識別。其中手寫體文字識別通常在對應(yīng)文字識別系統(tǒng)輸入終端固定位置進(jìn)行輸入,其輸入文字像素為二值圖像;而印刷體文字其文字圖像本身為灰度圖像,其對系統(tǒng)計算復(fù)雜度要求更高;而世界場景文字圖片本身背景干擾要遠(yuǎn)超過印刷體文字,其識別難度也會呈直線上升;因此根據(jù)此類情況對其進(jìn)行基于機(jī)器學(xué)習(xí)的全新文字識別方法方法設(shè)定,也是確保文字識別能夠全面、高效、穩(wěn)定發(fā)展下去的必要條件。
3.2 專業(yè)框架系統(tǒng)的形成
(1)進(jìn)行基于機(jī)器學(xué)習(xí)的文字識別方法設(shè)置時,應(yīng)明確機(jī)器學(xué)習(xí)本身所具有的分類器構(gòu)建特質(zhì),集合分類器對大量未知及已知視距進(jìn)行正確分析分類的功效,確?;跈C(jī)器學(xué)習(xí)的文字識別系統(tǒng)能夠全面形成。這個過程中相應(yīng)研究人員應(yīng)注重其辨識性特征向量提取,對各信息數(shù)據(jù)之間規(guī)律原則做好全方位劃分,結(jié)合分類器提供訓(xùn)練數(shù)據(jù)模式,將其交由分類器并使其能夠從中進(jìn)行學(xué)習(xí)歸納,以此使文字識別系統(tǒng)本身適應(yīng)能力以及易升級特性可以得到保障。
(2)對其系統(tǒng)學(xué)習(xí)過程進(jìn)行合理構(gòu)造,確保其學(xué)習(xí)過程能夠與推理過程形成緊密相連;對應(yīng)極其學(xué)習(xí)可以根據(jù)學(xué)習(xí)策略、知識描述等開展對應(yīng)分類作業(yè)。此期間注重知識表現(xiàn)形式作為機(jī)器學(xué)習(xí)系統(tǒng)重要組成部分,其主要是以自身所帶就具體算法決定,相同結(jié)構(gòu)學(xué)習(xí)器往往可以運(yùn)用至不同領(lǐng)域中,即受此原理影響。與此同時,推理過程作為相應(yīng)機(jī)器學(xué)習(xí)的智能化實質(zhì)體現(xiàn),結(jié)合推理策略的專業(yè)設(shè)定使文字識別系統(tǒng)學(xué)習(xí)器、數(shù)據(jù)、知識調(diào)整之間的關(guān)系能夠完全得到直觀反映。對機(jī)器學(xué)習(xí)算法進(jìn)行符號表示和原理劃分,明確其將數(shù)據(jù)轉(zhuǎn)化為知識進(jìn)行陣列表示的特性,此期間知識表示與分類器類型以及結(jié)構(gòu)直接相關(guān),例如在神經(jīng)網(wǎng)絡(luò)網(wǎng)狀結(jié)構(gòu)中的權(quán)值和閾值分布。當(dāng)前常見的較為成熟的學(xué)習(xí)器主要是以貝葉斯分類器、神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林等來能體現(xiàn)。其中隨機(jī)森林作為當(dāng)前最新的分類器,其在運(yùn)用之文字識別過程中,能夠結(jié)合自身較好的強(qiáng)大自學(xué)能力以對大量數(shù)據(jù)學(xué)習(xí)歸納等特質(zhì),最大限度降低文字識別過程中所出現(xiàn)不明分類及識別誤差,確保整個文字識別效率和識別質(zhì)量能夠完全達(dá)到預(yù)期標(biāo)準(zhǔn)。
(3)對其系統(tǒng)內(nèi)學(xué)習(xí)器進(jìn)行專業(yè)檢測和合理設(shè)定,明確學(xué)習(xí)器輸入必須與相應(yīng)系統(tǒng)環(huán)境有直接關(guān)系,相應(yīng)學(xué)習(xí)器按照內(nèi)部學(xué)習(xí)算法來將環(huán)境數(shù)據(jù)進(jìn)行歸納轉(zhuǎn)換,對轉(zhuǎn)換形成新信息做更新至知識庫作業(yè),確保學(xué)習(xí)器下次輸入與上次輸入能夠形成一定聯(lián)系,確保學(xué)習(xí)器完成指定任務(wù)后可以對學(xué)習(xí)部分形成反饋,使其知識庫、環(huán)境、執(zhí)行部分可以反應(yīng)對應(yīng)工作內(nèi)容。以此確保整個文字識別系統(tǒng)完善性和專業(yè)性充分得到體現(xiàn),最大限度提升文字識別效率。
3.3 應(yīng)用分析
基于機(jī)器學(xué)習(xí)文字識別系統(tǒng)構(gòu)建完成后,進(jìn)行對應(yīng)文字識別運(yùn)用。以漢字為例,當(dāng)前我們生活工作中所接觸漢字你數(shù)量在7000左右,常用漢字為3000作用,在此基礎(chǔ)上進(jìn)行識別設(shè)置時必須對至少700各字符數(shù)字進(jìn)行圖像構(gòu)建,字符圖像數(shù)量共計十幅,將所有構(gòu)建圖像分為七組,每組選擇一副圖像為測試數(shù)據(jù),其余九幅圖像為訓(xùn)練數(shù)據(jù)結(jié)合神經(jīng)網(wǎng)絡(luò)文字世界系統(tǒng);最終所取得識別輸出結(jié)果準(zhǔn)確性較高,整體識別質(zhì)量能夠有效得到保障。
4 結(jié)束語
通過對基于機(jī)器學(xué)習(xí)的文字識別方法研究分析,可以看出其對文字識別技術(shù)發(fā)展有著極為重要的積極影響;因此注重對機(jī)器學(xué)習(xí)的加強(qiáng)和完善,明確對其運(yùn)用的專業(yè)合理性,是確保我國文字識別水平能夠不斷提高、進(jìn)步的必要條件。
參考文獻(xiàn)
[1]馮琬婷.基于文字識別視角分析人工智能機(jī)器學(xué)習(xí)中的文字識別方法[J].電子技術(shù)與軟件工程,2017(13):253.
[2]端木海臣.文字識別視域下的人工智能機(jī)器學(xué)習(xí)的文字識別方法研究[J].電腦編程技巧與維護(hù),2017(12):82-84.