999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于隨機循環網絡的漢字骨架生成

2024-01-04 15:55:08高奕星
現代電子技術 2024年1期
關鍵詞:方法模型

高奕星,施 霖

(昆明理工大學信息工程與自動化學院,云南 昆明 650500)

0 引 言

漢字的結構復雜、形態多樣,每個漢字都具有結構的唯一性,漢字骨架作為漢字字形的重要拓撲描述具有重要意義。漢字骨架生成廣泛應用于字形技術[1]、漢字識別[2]、漢字生成[3]等漢字信息處理領域。

漢字骨架可由一段書寫序列進行表示,與圖像表示相比,序列格式的漢字骨架包含更多的動態信息,如時間順序、軌跡等,這些信息對漢字的筆畫連接、拓撲結構等有更為清晰的描述,同時書寫序列可以很容易地轉換為圖像[4]。循環神經網絡(RNN)廣泛應用于序列建模,如自然語言處理[5]、語音處理[6]等領域。目前基于RNN已經提出了生成英文字符骨架的方法。文獻[7]利用帶有長短期記憶[8](LSTM)的RNN 結合遞歸混合密度網絡[9](RMDNs)能夠學習并生成可辨識的書寫軌跡序列。文獻[10]提出了一種條件變分遞歸神經網絡(C-VRNN),將字符的風格樣式和骨架分離,對兩者的分布進行建模,實現對字符骨架的編輯或生成全新的字符骨架。文獻[11]在VRNN 的基礎上引入了解耦樣式描述符(DSD)模型,提高了模型從不同風格樣式的字符中學習字符骨架的能力。

相較于英文這種僅有幾十個字母的文字,漢字不僅具有數萬種字形且具有高層次的信息和復雜的形狀結構,因此漢字骨架的生成難度更大。文獻[12]首次嘗試使用RNN 生成漢字骨架,在帶有LSTM 的RNN 框架下生成了無寬度信息的漢字,即漢字骨架,但其合成結果的質量較差,會生成不存在的漢字或生成結果不可讀。文獻[13]在Graves 的框架上進行擴展,提出了一種帶有字符嵌入的條件生成模型,對手寫漢字的分布進行建模,模型從與RNN 相關的概率分布中采樣來生成新的漢字骨架,但會出現部分漢字骨架筆畫缺失的問題,同時字符嵌入的聯合訓練模型需要數百萬個訓練樣本。文獻[14]提出了一種帶有單調注意機制[15]的用于序列樣式轉換任務的序列到序列[16](Seq2Seq)模型FontRNN,能夠從少量的輸入樣本中學習并生成大規模的漢字骨架。FontRNN 有效改善了文獻[13]方法中筆畫缺失的問題,但對于序列長度極短的筆畫,筆畫缺失的問題仍然存在。

盡管上述方法已經表現出了良好的效果,但正如文獻[13]所證明的那樣,生成性RNN 模型無法捕獲小但重要的細節以進行精確繪制,這主要是由于缺乏對漢字高級信息的理解,如筆畫的構成和布局。

本文將漢字的結構信息與神經網絡相結合,將漢字骨架拆分為兩層序列數據:筆畫序列和筆畫點序列。筆畫序列包含了漢字的框架結構信息,增強了漢字字形的描述。文中使用RRN 作為生成模型,RRN 沒有使用梯度下降訓練方法,而是采用固有算法[17]來更新權重,避免了梯度消失或爆炸的問題。同時,RRN 對生成長序列具有很強的魯棒性,這使得本文模型能夠生成具有更豐富書寫細節的漢字骨架。

在RRN 的框架下,生成模型不依賴于大量的訓練數據,因此本文使用多個RRN 組成的分布式網絡來生成漢字骨架。根據漢字的筆畫數量和筆畫類型對數據集進行細分,采用分布式訓練方法,利用間架結構對筆畫進行縮放和重組來生成漢字骨架。通過分布式訓練,生成模型可以較少地依賴硬件性能并快速完成訓練。

由于漢字的字形和字體多樣,本文著眼于規范漢字,后文中所表述的漢字均為手寫的規范漢字。

1 方 法

本節介紹了提出的漢字骨架生成方法。首先,簡要說明了序列格式的漢字骨架表示;然后,詳細描述了基于多個RRN 構建的漢字骨架生成模型。

1.1 數據表示

漢字骨架可由書寫序列進行表示,書寫序列為可變長的點序列數據,通常由在線方法記錄書寫時筆尖的運動軌跡獲得,可表示為:

式中:Xi和Yi為筆尖水平運動的XY軸坐標;Pi為書寫時的壓力值。漢字由順序書寫的筆畫組成,而筆畫又由一段序列點構成。根據書寫壓力Pi可以將漢字拆解為多個筆畫,筆畫序列表示為:

式中:Si表示漢字第i個筆畫的類型;n為漢字的筆畫數;(Δxi,Δyi,Lxi,Lyi)為筆畫序列中蘊含的漢字結構信息,用于表示每個漢字筆畫的放縮比例和相對位置,Δxi和Δyi表示第i個筆畫的第一個序列點與規范化區間的中心點間在XY軸的相對距離;Lxi和Lyi表示第i個筆畫相較于整個字在XY軸的比例關系。筆畫點序列表示為:

式中:ΔXi和ΔYi表示第i個序列點與第i- 1 個序列點之間XY軸的相對偏移,其中(ΔX1,ΔY1)為(0,0);m為筆畫的序列點數;ΔPi表示第i個序列點相較于第i- 1 個序列點書寫壓力值的變化,其中ΔP1表示第一個序列點的書寫壓力值。

1.2 漢字骨架生成模型

如圖1 所示,本文提出的漢字骨架生成模型包含兩個部分:筆畫序列生成模型和筆畫生成模型。以下將詳細敘述這兩部分模型。

圖1 漢字骨架生成模型示例

1.2.1 筆畫序列生成模型

筆畫序列生成模型由若干個RRN 構成(圖1 中僅展示出一個),每個RRN 生成部分漢字的筆畫序列。RRN的隱層由大量稀疏且隨機連接的神經元組成,從可變數量的神經元Nin接收輸入,網絡活動演化可由一階微分方程表示[18-19]:

式中:ri= tanh(xi)為網絡的活動水平,表示神經元xi的放電率;y表示輸入脈沖信號;τ表示單位時間常數;WRec為N×N的稀疏循環權重,非0 初始值隨機取自均值為0、標準差為的高斯分布,g是突觸強度縮放系數,pc是神經元之間的連接概率;WIn為輸入權重,由均值為0、單位標準差的高斯分布初始化;網絡活動由z讀出;WOut為Nout×N的讀出權重,Nout表示期望目標活動的維度,初始值來自均值為0、方差為的高斯分布;Inoise為N× 1 隨機向量噪聲,取自均值為0、標準差為I0的高斯分布。

RRN 的訓練需對循環權重WRec和WOut進行更新,更新方法為固有算法[17],通過基于FORCE 算法[20]的遞歸最小二乘法RLS 實現。循環權重WRec的更新定義為:

其中60%的神經元上的突觸是可塑的,B(i)是神經元i突觸前循環單位的子集,ei表示神經i的個體誤差,定義如下:

式中:ri(t)是權重更新之前神經元i的活動;Ri(t)則是該神經元的固有軌跡活動。固有軌跡活動為權重更新前隨機獲取的網絡活動。

Pi(每個神經元i一個)用于估計突觸前輸入到神經元i(B(i))的相關矩陣的逆,由式(8)進行更新:

讀出權重WOut的更新定義為:

式(10)為定義的誤差,f(t) 為目標漢字的筆畫序列。

P是網絡活動水平r的相關矩陣的逆加上正則化項的運行估計,其表達式為:

筆畫序列生成模型中,每條脈沖輸入對應一個漢字的筆畫序列,即當模型訓練完成后,特定的脈沖輸入將激活RRN 生成目標漢字的筆畫序列。

1.2.2 筆畫生成模型

筆畫生成模型同樣由若干個RRN 構成,每個RRN生成一類筆畫的點序列。筆畫生成模型的訓練過程與筆畫序列生成模型基本一致,區別之處在于期望輸出的數據維度不同。由1.1 節中可知,筆畫點序列為三維數據,通常序列的長度不一,因此通過增加一個維度Di來判斷RRN 何時停止輸出,此時筆畫點序列表示為:

式中:Di為序列點是否為結束的標記,D1~Dm-1均為0,Dm為1,當Di為1 時表示序列結束。其余變量與公式(3)中一致。

一般來說,本文方法是按如下步驟實現漢字骨架的生成:首先通過脈沖信號激活RRN 生成期望漢字的筆畫序列,根據筆畫序列確定目標漢字包含的筆畫和間架結構;然后再次通過脈沖信號激活RRN 生成相應筆畫的點序列;最后根據間架結構將筆畫按序重組生成目標漢字的骨架。

2 實 驗

本節介紹了漢字骨架生成模型上進行的實驗,對數據集、超參數配置和RRN 分布式訓練方法進行了說明。實驗均通過Matlab 程序在一臺2.9 GHz AMD Ryzen 7 4800H CPU 和16.0 GB RAM 的PC 上實現。

2.1 數據集

訓練RRN 生成模型僅需一個小規模的漢字數據集,該數據集需滿足兩個條件:其一,漢字樣本為規范漢字,即正體字,書寫標準且不存在連筆潦草等情況;其二,漢字樣本為序列格式且具有大量的特征序列點。

由于并未發現同時滿足上述兩個條件的公開數據集,所以選擇了自建數據集。通過電子手寫板采集手寫漢字數據,記錄下漢字的書寫序列。為了保證書寫的準確性及規范性,采集的漢字根據《GB 13000.1 字符集漢字筆順規范》(GF 3002—1999)中規定的筆畫數和筆順進行書寫。一共采集了3 755 個手寫漢字樣本,樣本字符來自GB 2312-80 中全部一級常用漢字。每個漢字樣本的序列點數一般為數百個,根據2.1 節中描述的方法將3 755 個漢字樣本處理為兩類數據:3 755 個漢字的筆畫序列數據和36 670 條筆畫的點序列數據。經過預處理后,每條筆畫數據的序列點數m在10 個左右。

2.2 超參數配置

RRN 模型的部分超參數設置為:突觸強度縮放系數g= 1.5,神經元間連接概率pc= 0.1,時間常數τ=10 ms,輸入脈沖的振幅為4,輸入持續時間為100 ms 或200 ms(筆畫序列生成模型中為100 ms,筆畫生成模型中為200 ms),噪聲Inoise的振幅I0= 0.001。

除上述超參數外,還需配置RRN 模型的神經元數N。神經元數決定了RRN 的記憶容量,訓練數據規模越大,N也需越大,同時訓練數據的序列長度不同,兩者之間的對應關系也會發生變化。由于沒有現存的經驗指明兩者之間的準確關系,所以本文通過實驗的方法對RRN 的記憶容量進行量化,以探究RRN 的記憶容量與神經元數之間的關系。實驗分別在兩類生成模型上進行。

筆畫序列為五維數據,因此WOut的維度為5 ×N。將筆畫序列生成模型中WRec和WOut的更新次數設置為1和5。通過計算RRN 生成的筆畫序列與訓練數據之間的平均歐幾里德距離來判斷網絡的訓練誤差。對筆畫序列中Si、(Δxi,Δyi)和(Lxi,Lyi)三個類別的數據分別計算誤差,其中Si進行四舍五入后再計算歐氏距離,當Si的誤差為0 時,記錄下此時的神經元數。由于當Si的誤差為0 時,(Δxi,Δyi)和(Lxi,Lyi)的平均歐氏距離通常小于0.005,因此以Si的平均歐氏距離作為精度判斷標準。從數據集中選取不同規模的筆畫序列數據,用來訓練不同神經元數的RRN 模型,如圖2a)所示,將實驗得出的數據進行曲線擬合,在95%置信區間,擬合曲線的公式為:

圖2 RRN 神經元數與訓練數據規模關系圖

擬合優度R2為0.999 5。

筆畫點序列為四維數據,因此WOut的維度為4 ×N,將筆畫生成模型中WRec和WOut的更新次數設置為1 和10。同樣采用歐氏距離來判斷RRN 的訓練精度,對筆畫中(ΔXi,ΔYi,ΔPi)計算平均歐氏距離。當歐氏距離剛小于0.17 時記錄下此時的神經元數。從數據集中選取了不同規模的筆畫點序列數據,用于訓練不同神經元數的RRN 模型。如圖2b)所示,將實驗得出的數據進行曲線擬合,在95%置信區間,擬合曲線的公式為:

擬合優度R2為0.986 8。

通過上述兩組實驗,對于自建數據集,得出RRN 的神經元數與訓練數據規模之間大致的量化關系,在后續訓練漢字骨架生成模型時,以此為標準來設置神經元數N。

2.3 分布式訓練

筆畫序列生成模型和筆畫生成模型均采用分布式的訓練方法,即運用多個小規模的RRN 組成分布式的網絡構建生成模型,同時將數據集拆分為若干個細分數據集,使用細分數據集訓練單個RRN。

將不同規模訓練數據所需的訓練時長作為細分數據集的依據,為此記錄了2.2 節中兩組實驗所用的訓練時間。

圖3a)為RRN 訓練時長與筆畫序列數據規模的關系圖。對于筆畫序列數據,首先將筆畫序列按漢字的筆畫數分為24 組(自建數據集中漢字的筆畫數為1~24),接著將24 組數據以500 條左右為一組繼續進行細分,不足500 條的單獨作為1 組,最終得到了84 個細分的筆畫序列數據集,每個細分數據集訓練一個RRN。對于數據規模在500 條左右的細分數據集,RRN 的神經元數N設置在550~600,訓練數量規模遠不足500 條的RRN,神經元數按照2.2 節中得出的量化關系進行設置。

圖3 RRN 訓練時長與訓練數據規模關系圖

圖3b)為RRN 訓練時長與筆畫點序列數據規模的關系圖,對于筆畫點序列數據,首先將36 670 條漢字筆畫數據以漢字筆畫類型數分為32組(通常漢字包含32 種筆畫類型),接著將32 組數據以50 條數據為一組繼續進行拆分,不足100 條的單獨作為1 組,最終得到了731 個細分的筆畫數據集,每個細分數據集訓練一個RRN。對于數據規模為50 條的細分數據集,對應RRN 的神經元數N設置為300,訓練數據規模大于50 條的RRN,神經元數N按照2.2 節中得出的量化關系進行設置。

3 實驗結果分析討論

本節展示了漢字骨架生成的結果,包括生成筆畫的不同變體、不同漢字字符類型的漢字骨架和訓練時長,并與相關工作進行了對比。

3.1 漢字骨架生成

訓練完成后漢字骨架生成模型可以生成3 755 個不同漢字字符的骨架。圖4 展示了漢字“字”骨架的生成示例,圖中每列表示生成“字”的筆畫序列,每行為生成的筆畫序列中對應的每個筆畫類型的變體,最后一行為筆畫按間架結構進行放縮拼接形成的“字”的骨架。將GF 2001—2001 規范中規定的筆形、折點、折數等作為評估筆畫的標準。“字”具有6 個筆畫,圖中每個筆畫都生成了10 個變體,為了便于觀察,圖中將每個筆畫都放縮至相似的大小,可以看出生成的所有筆畫都各不相同,每個相同類型的筆畫具有的特征點數不盡相同,筆畫的特征清晰可辨。從最后一行10 個“字”的骨架可以看出每個骨架對字形的描述都較為準確,肉眼可輕易識別出字形,沒有出現錯漏筆畫和結構異常的情況。

圖4 漢字“字”骨架生成圖示

為了驗證本文提出的方法生成不同漢字骨架的能力,在圖5 中展示了9 個不同漢字字符的骨架生成示例。由圖中可以看出所有生成的漢字骨架都是可讀的且均不相同,肉眼可輕易識別出字符類型。根據GF 2001—2001 規范,每個漢字骨架對筆畫的描述都較為準確,且具有較為豐富的書寫細節(每個筆畫包含的序列段數),水平或豎直的筆畫軌跡具有一定的弧度,這與人類真實書寫的漢字類似。這些結果驗證了本文提出的方法可以生成可識別且書寫細節特征豐富的漢字骨架。

3.2 訓練時長

本節記錄了訓練分布式RRN 網絡的訓練時間,由于RRN 的數量較多,在表1 中統計了兩類生成模型的訓練總時長。筆畫序列生成模型由84 個RRN 組成,訓練用時73.3 min。筆畫生成模型由731 個RRN 組成,訓練用時309.2 min。漢字骨架生成模型由筆畫序列生成模型和筆畫生成模型組成,共包含815 個RRN,總訓練時長為382.5 min,不到6.5 h。

表1 不同生成模型RRN 的數量和總訓練時間

上述訓練均在一臺PC 上完成,通過分布式的訓練方法,多個RRN 可以在不同的計算機上同時進行訓練,這樣訓練時間將進一步縮短。

3.3 與相關方法的比較

圖6 為本文方法與基于RNN 的方法(文獻[13]提出的方法)和FontRNN 的對比圖。這是與本文的方法最相關的兩種方法。本節結合GF 2001—2001 規范,從以下五個方面來進行對比:

圖6 不同方法生成漢字骨架對比圖

1)能否通過肉眼辨別漢字。

2)是否存在額外筆畫或筆畫缺失的情況。

3)漢字骨架蘊含書寫細節的豐富度。

4)訓練數據規模。

5)訓練時長。

從圖6 可以看出,三種方法生成的漢字骨架相同字符并不完全相同,且均能通過肉眼進行辨別。筆畫層面,如圖6b)中圈出部分所示,基于RNN 的方法生成的漢字骨架并不總是準確的,存在部分筆畫缺失的情況,而本文方法和FontRNN 的生成結果中則未出現缺失的情況,三種方法均未出現添加額外筆畫的情況。圖中漢字筆畫的不同序列段為相鄰序列點相連得到的,序列段越多表示漢字骨架包含的序列點越多,即書寫細節特征越豐富。據此可知,本文方法生成的漢字骨架蘊含的書寫細節特征最豐富,FontRNN 次之,基于RNN 的方法最少。本文方法與FontRNN 生成的漢字骨架具有類似人類正常書寫的弧度,而基于RNN 的方法則明顯有別于人類書寫。除此之外,根據每個筆畫的序列段數可知,本文方法與RNN 生成相同類型的漢字骨架時,骨架所包含的特征點數并不總是相同的,表明這兩類方法生成的漢字骨架具有更大的隨機性,而FontRNN 生成相同漢字的骨架時,特征點數是一致的。上述與訓練數據的規模相關,基于RNN 的方法采用了字符嵌入的聯合訓練,訓練數據的規模超過了200 萬,而本文方法使用了一個小得多的數據集,僅包含3 755 個樣本。FontRNN 則是采用了遷移學習的策略,使用了更小的訓練集(僅2 000 個樣本)。訓練時長層面,RNN 方法的訓練時長大概需要50 h,而FontRNN 在處理775 個樣本時耗時近3 h,本文方法則需要不到6.5 h。上述三個方法使用的訓練數據規模及設備的性能均不相同,因此訓練時長僅作為一個直觀的參考,無法直接體現出方法的性能優勢。

4 結 論

本文將漢字的結構信息與神經網絡相結合,提出了一種基于多個并行的RRN 構成的分布式網絡用于生成漢字骨架,該網絡可用于快速生成大規模且高質量的漢字骨架。相較于現有大多利用RNN 的方法,本文方法只需小規模的訓練數據即可完成訓練,同時可以保留更多的骨架特征點,增強了對漢字結構的描述。此外,生成模型采用了分布式的訓練方法,可快速完成訓練。實驗結果表明,本文提出的方法可以快速生成具有更豐富書寫細節特征的漢字骨架,這體現了本文方法在漢字骨架生成方面的優勢。

猜你喜歡
方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
學習方法
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 国产91无码福利在线 | 99在线国产| 亚洲色偷偷偷鲁综合| 91青青视频| 影音先锋丝袜制服| 2020国产免费久久精品99| 亚洲中文精品人人永久免费| 99久久精品免费看国产电影| 自偷自拍三级全三级视频 | 国产精品成人第一区| 呦女亚洲一区精品| 亚洲国产清纯| 欧美日韩在线亚洲国产人| 一区二区三区高清视频国产女人| 2020国产精品视频| 免费在线看黄网址| 九月婷婷亚洲综合在线| 亚洲日韩AV无码一区二区三区人 | 美女被操91视频| 亚洲日韩国产精品综合在线观看| 欧美亚洲日韩不卡在线在线观看| 波多野结衣第一页| 午夜日b视频| 国产日韩av在线播放| 国内精品91| 在线播放国产一区| 久久综合伊人 六十路| 免费激情网址| 亚洲第一福利视频导航| 黄色网页在线播放| 精品1区2区3区| 久久中文无码精品| 亚洲欧美在线综合图区| 国产一区二区三区精品久久呦| 亚洲区第一页| 国产网站免费观看| 欧美日韩高清在线| 国产成人凹凸视频在线| 在线视频一区二区三区不卡| 国产精品对白刺激| 伊人久久大香线蕉影院| 午夜视频免费试看| 国产在线自揄拍揄视频网站| 国产成人高清精品免费| 热这里只有精品国产热门精品| 国产激情第一页| 91在线国内在线播放老师 | 亚洲综合色区在线播放2019 | 亚洲精品麻豆| 国产av一码二码三码无码| 国产美女在线观看| 人妻少妇久久久久久97人妻| 色天堂无毒不卡| 欧美午夜性视频| 免费A级毛片无码免费视频| 国产精品福利社| 高潮毛片免费观看| 亚洲精品动漫在线观看| 国产综合日韩另类一区二区| 在线观看国产一区二区三区99| 国产日韩欧美在线播放| a欧美在线| 国产女人综合久久精品视| 亚洲国产日韩视频观看| 亚洲欧美在线精品一区二区| 亚洲v日韩v欧美在线观看| 91小视频在线| 无码中文字幕乱码免费2| 国产亚洲欧美在线中文bt天堂| 91精品国产综合久久不国产大片| 亚洲久悠悠色悠在线播放| 久久精品91麻豆| 激情在线网| 婷婷六月激情综合一区| 亚洲AⅤ永久无码精品毛片| 久久精品这里只有精99品| 日韩视频福利| 精品人妻系列无码专区久久| 亚洲第一天堂无码专区| 成人亚洲天堂| 丁香亚洲综合五月天婷婷| 成人午夜福利视频|