
書(shū)名:《文字書(shū)寫(xiě)系統(tǒng)的計(jì)算理論》
作者:史伯樂(lè)(Richard Sproat)
出版社:北京大學(xué)出版社
ISBN:978-7-301-17155-4/H·2496
出版時(shí)間:2010年8月
定價(jià):34元
21 世紀(jì)是一個(gè)符號(hào)化的信息時(shí)代,文字和符號(hào)日益成為記載和傳遞信息的重要載體。因此,文字日漸廣泛存在于各種場(chǎng)景中的各類物體之上,如路標(biāo)、車牌、食品包裝等。如今,人工智能發(fā)展迅速,并漸漸被廣泛應(yīng)用到各個(gè)領(lǐng)域中。人工智能在未來(lái)的社會(huì)中將發(fā)揮著不可替代的作用,然而人工智能離不開(kāi)場(chǎng)景文字書(shū)寫(xiě)識(shí)別。
由史伯樂(lè)(Richard Sproat)著,北京大學(xué)出版社2010 年8 月出版發(fā)行的《文字書(shū)寫(xiě)系統(tǒng)的計(jì)算理論》一書(shū)以文字書(shū)寫(xiě)系統(tǒng)為研究對(duì)象,深入剖析其計(jì)算理論。該書(shū)圍繞兩大論點(diǎn)展開(kāi)論述:(一)詞形與書(shū)寫(xiě)規(guī)則的映射是一種正則關(guān)系;(二)一個(gè)特定的語(yǔ)言書(shū)寫(xiě)系統(tǒng)與其表達(dá)的語(yǔ)言學(xué)信息具有一致性。作者首先提出論點(diǎn),接著以實(shí)例的形式從不同角度加以論證。具體內(nèi)容涵蓋書(shū)寫(xiě)系統(tǒng)的正則性、特定文字語(yǔ)言學(xué)信息表達(dá)及其一致性問(wèn)題、常用的文字體系等多方面知識(shí)。該書(shū)結(jié)構(gòu)層次清晰,中心明確,條理性、理論性、實(shí)用性較強(qiáng),對(duì)場(chǎng)景文字書(shū)寫(xiě)識(shí)別研究者探究神經(jīng)網(wǎng)絡(luò)環(huán)境下場(chǎng)景文字書(shū)寫(xiě)識(shí)別具有一定積極意義,可供其參閱。
場(chǎng)景文字書(shū)寫(xiě)識(shí)別要通過(guò)計(jì)算機(jī)視覺(jué)進(jìn)行識(shí)別、轉(zhuǎn)換,理解圖片上的文字,是計(jì)算機(jī)視覺(jué)技術(shù)中的重要組成部分。人們通常將識(shí)別圖片文字的技術(shù)稱為光學(xué)字符識(shí)別,簡(jiǎn)稱OCR。傳統(tǒng)OCR 主要以掃描文檔圖片為主,成像過(guò)程容易受限,識(shí)別方法主要依靠二值化等技術(shù)。場(chǎng)景文字識(shí)別是對(duì)傳統(tǒng)OCR 的繼承與發(fā)展。較傳統(tǒng)OCR 而言,場(chǎng)景文字的排布、背景、字體、顏色等都更為復(fù)雜,因而在識(shí)別方面也更具挑戰(zhàn)性。近年來(lái),在神經(jīng)網(wǎng)絡(luò)的興起下,計(jì)算機(jī)視覺(jué)行業(yè)中的許多問(wèn)題因此得到了有效解決。神經(jīng)網(wǎng)絡(luò)是一種以模擬人腦神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)的機(jī)器學(xué)習(xí)技術(shù)。它的結(jié)構(gòu)靈活,特征學(xué)習(xí)能力強(qiáng),可進(jìn)行端到端的訓(xùn)練,因而成為場(chǎng)景文字識(shí)別的得力助手,在場(chǎng)景文字書(shū)寫(xiě)識(shí)別過(guò)程中具有不可忽視的作用。在國(guó)家社會(huì)科學(xué)基金項(xiàng)目(16XYY009)資助下,通過(guò)對(duì)場(chǎng)景文字書(shū)寫(xiě)識(shí)別進(jìn)行探究,加深人們對(duì)網(wǎng)絡(luò)神經(jīng)背景下場(chǎng)景文字書(shū)寫(xiě)識(shí)別的了解,以期促使人們能合理利用網(wǎng)絡(luò)神經(jīng)對(duì)場(chǎng)景文字進(jìn)行識(shí)別。
文字檢測(cè)是場(chǎng)景文字書(shū)寫(xiě)識(shí)別的第一步。片段鏈接是快速進(jìn)行文字檢測(cè)的一種方法,其核心是對(duì)文字進(jìn)行拆解,將其分為片段和鏈接兩大元素。片段是一個(gè)局部包圍盒,用于覆蓋一小部分單詞或者文本行,常用一個(gè)帶有角度的矩形框進(jìn)行表示。矩形框與文字的高度差不多,但每個(gè)矩形框的長(zhǎng)度只占整體長(zhǎng)度中的一部分。如crocs 這個(gè)單詞可拆解為五個(gè)片段,每個(gè)片段包含一個(gè)字母。由于每個(gè)字母的長(zhǎng)度不同,故其矩形框長(zhǎng)度也有所不同,c 的長(zhǎng)度比r 長(zhǎng),因此其矩形框也比r 長(zhǎng)。鏈接是指將兩個(gè)相鄰的片段連接起來(lái),通過(guò)片段連接組成一個(gè)完整的文字,能相連的片段表示是同一個(gè)部分的,不能相連的片段則表示不同部分。如c、r、o、c、s 這五個(gè)片段能連接起來(lái)組成crocs 這個(gè)完整而有意義的單詞,這表示c、r、o、c、s 屬于同一個(gè)部分。在進(jìn)行文字檢測(cè)時(shí),算法通過(guò)全面檢測(cè)片段,將兩個(gè)相連片段連接起來(lái),并以幾何規(guī)則為依據(jù)將相連片段整合為一個(gè)整詞的包圍盒,從而獲取檢測(cè)結(jié)果。該種方法最大的優(yōu)勢(shì)是它可以對(duì)長(zhǎng)文本或非水平長(zhǎng)詞進(jìn)行檢測(cè)。
經(jīng)過(guò)文字檢測(cè)后,接下來(lái)就是對(duì)文字進(jìn)行識(shí)別。CRNN 是能進(jìn)行端到端訓(xùn)練的一種文字識(shí)別技術(shù)。它最大的優(yōu)勢(shì)是無(wú)需逐一對(duì)單個(gè)字符進(jìn)行標(biāo)注,能直接對(duì)文本與相應(yīng)的標(biāo)簽進(jìn)行訓(xùn)練。CRNN主要由卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)和翻譯層組成。卷積神經(jīng)網(wǎng)絡(luò)主要對(duì)卷積特征圖進(jìn)行分析、整理,并提取特征序列。循環(huán)神經(jīng)網(wǎng)絡(luò)負(fù)責(zé)檢測(cè)卷積神經(jīng)網(wǎng)絡(luò)提取的特征序列,并輸出檢測(cè)結(jié)果。翻譯層則負(fù)責(zé)對(duì)檢測(cè)結(jié)果進(jìn)行翻譯。這樣就完成了對(duì)場(chǎng)景文字的識(shí)別,從而為場(chǎng)景文字書(shū)寫(xiě)奠定良好基礎(chǔ)。然而場(chǎng)景文字書(shū)寫(xiě)識(shí)別探索之路漫漫,需要研究者不斷探究,通過(guò)不斷學(xué)習(xí),掌握相關(guān)知識(shí),增強(qiáng)自身專業(yè)素養(yǎng),從而更好地運(yùn)用神經(jīng)網(wǎng)絡(luò)推動(dòng)場(chǎng)景文字的書(shū)寫(xiě)識(shí)別。