999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的甲骨文分類算法研究

2021-11-01 08:53:22涂淳寧王貴田吉李匯嘉李婷
現代計算機 2021年26期
關鍵詞:模型

涂淳寧,王貴,田吉,李匯嘉,李婷

(浙江大學城市學院計算機與計算科學學院,杭州 310015)

0 引言

甲骨文是現在已知的中國最古老文字,在中國文字不斷演變的歷史上有著極其重要的地位。但是經過長時間的研究,直到現在只有2000多個甲骨文字符被識別,仍有超過3000個字符未被識別。得益于深度學習在特征學習方面有著極強的能力,在圖像分類、語言模型等人工智能應用上取得了很好的成果[1]。針對人工識別效率低下這一問題,本文結合基于深度學習的圖像分類模型及語料分析模型,提出了甲骨文未識別字符詞性及相關特征的預測模型。研究的成果可望推廣到其他帶有圖像表征的類似古文字預測中。

本次的研究選擇圖像處理庫PIL對收集到的甲骨文字符圖像做濾波處理以增強圖像可讀性。甲骨文的文字特征有著一字多形、異字同形、有兩個或多個字刻在一起的合寫特點[2],因此選擇TensorFlow上的遷移學習模型使用圖像特征提取模塊的InceptionV3架構將甲骨文字符按造字方式分類以及是否合寫進行分類預測。此外,選擇CBOW模型對語料分析,在得到特征詞預測的基礎上計算余弦距離得到與特征詞相似度高的詞。圖像與語料兩種預測方式相結合,為未來對各類型古文字未識別字符的預測奠定了良好的基礎。

1 相關模型及方法

1.1 圖像濾波

圖像濾波即在保留圖像特征的前提下為簡化圖像數據,提高圖像可讀性而對圖像進行處理。圖像信號在采集、傳輸和保存等階段會受到不同因素的干擾而遭受不同類型的噪聲污染,噪聲污染會嚴重影響圖像特征提取等系列后續處理過程[3]。好的圖像濾波處理可以有效提高圖像分析的準確性,是不可缺少的圖像預處理操作。研究對圖片采用了平滑濾波和銳化濾波兩種不同的處理方式。用平滑濾波處理甲骨文字符圖像使得圖像中的字符部分更加平滑。之后嘗試用銳化濾波處理圖像,增強圖片中字符的細節,使字符的邊緣更加明顯。

1.2 GoogLeNet Inception網絡結構

深度學習在圖像識別分類任務上不斷取得新的進展[4]。圖像識別作為深度學習應用的任務之一,特點是在識別分類時應用了由卷積層、池化層、全連接層連接組成的卷積神經網絡[5]。Inception系列網絡結構與傳統神經網絡結構相比以全局平均池化層代替全連接層以降低參數量,通過設計在保持計算量不變的情況下增加網絡寬度和深度。相比VGG等神經網絡逐層卷積,Inception網絡連接大小不同的卷積核以實現不同大小的特征融合,在利用密集矩陣的高計算性能同時保持網絡結構稀疏性,網絡結構如圖1所示。

圖1 Inception V1網絡結構

Inception V2網絡結構對Inception V1網絡結果做出改進,用兩個3×3的小卷積代替5×5的大卷積運算。利用多個小卷積代替大卷積的優勢是保持表達能力的同時減少參數,提升了計算速度[6]。Inception V2網絡結構如圖2所示。

圖2 Inception V2網絡結構

第三代模型Inception V3與該系列之前的模型相比將一個二維的n*n卷積層分解成了n*1和1*n兩個卷積,這不僅減輕了過擬合還降低了參數的數量。另外,Inception V3網絡還提出了批標準化這一方法以達到加快訓練速度的目的。

1.3 詞向量模型

因為計算機只能處理識別結構化數據而文本屬于非結構數據,所以研究首先需要將文本轉變為可以識別處理的結構化數據。這一過程即是將自然語言映射為向量[7]。當前常見的文本表示技術是谷歌于2013年提出的一種生成詞向量的神經網絡模型——Word2Vec。Word2Vec模型生成的詞向量映射包含語料的語義,在各項自然語言處理任務中都起著重要作用[8]。Word2Vec模型在自然語言處理應用中包括連續詞袋模型CBOW和跳字模型Skip-gram兩種不同的結構[9]。模型先將單詞設置為一個N維的隨機向量,最后經過模型不斷地訓練獲取每個單詞的最優向量[10]。相比通過簡單的數字來表示各個詞,詞向量映射重點考慮了詞和詞之間的關聯關系[11]。

CBOW模型是由特征詞上下文文本的N個詞來預測特征詞的概率(N一般為2)。模型結構如圖3所示:

圖3 CBOW模型結構

模型結構共分為3層。第一層為輸入層,輸入某個特征詞的上下文詞映射向量。第二層為映射層,該層將上下文文本的映射向量相加求和,通過上下文輸入的詞來計算各個特征詞與上下文之間相符合的概率。第三層為輸出層,輸出映射層計算后得到的概率最大的特征詞。

模型訓練時采用負采樣技術,在訓練中引入了負例使每次訓練只更新一部分的詞向量權重,相比對所有權重進行更新大幅降低了計算量,大幅提升了模型計算性能。如圖4所示為采用負采樣后的CBOW模型:

圖4 采用負采樣的CBOW模型

設置每個詞的詞向量維度為128,根據特征詞(將預測的詞)上下文2個文本來預測特征詞。隨后進行抽樣,隨機構造20個與預測詞不一樣的詞作為負樣本與預測詞拼接作為輸入層輸入,嵌入下一層得到權重和偏置。Softmax函數對每一個輸出分類都賦予一個概率值,結果表示識別為特定類的概率,模型輸出的Softmax值表示模型隨機抽取對預測詞及其20個負采樣樣本的預測概率,之后利用梯度下降算法Adam作為優化器計算模型的損失函數。Softmax公式如公式(1)所示:

2 實驗及結果分析

2.1 實驗數據采集及預處理

基于甲骨文有一字多形和異字同形的特點,實驗按照造字方式和字符是否合寫進行分類,收集了字形不同的甲骨文字符圖片共2313張。之后收集了甲骨文語料共1653個句子。對于語料中未識別但已分析出大概的語義的詞用人名、地名、祭祀名等詞代替。Word2Vec模型訓練英文語料時可以根據詞間的空格對詞進行劃分,但這一方法并不適用于中文語料。所以使用Word2Vec模型訓練中文語料時需要進行對語料分詞[12]。由于本次實驗基于字形圖像和語義兩個方面進行研究,所以在分詞時按照單個字符作為一個詞進行劃分。分詞完成后建立單詞到向量以及向量的映射字典。實驗的整體框架如圖5所示:

圖5 圖像分類模型框架

為提高實驗模型的性能,對數據進行以下預處理:①在分詞時選擇按照單個字符作為一個詞進行劃分。②對甲骨文字符圖像濾波處理以期提高圖像的可讀性,最大限度地簡化數據。③由于數據量過少會導致過擬合,所以訓練時的數據量對深度學習網絡訓練結果的優劣起著至關重要的作用[13]。針對數據量較難達到訓練深度學習模型量級的情況,對甲骨文圖像進行邊緣隨機修剪來擴充數據集。④訓練時劃分80%的圖片做訓練集,20%的圖片做測試集。在訓練出最優模型后利用測試集衡量模型的性能。

2.2 模型訓練

基于InceptionV3架構實現對甲骨文字符圖像分類訓練。為字符圖像訓練分類器,分析每一個圖像并求每一個圖像的瓶頸值;計算完成后訓練8000個步驟,每次步驟隨機抽取一百個訓練圖像,從緩存中找到圖像瓶頸后輸入到最終層獲取圖像預測。隨后比較預測標簽與實際標簽,通過反向傳播更新模型權重。隨著深度學習模型的繼續,訓練的準確度逐漸提高。所有訓練步驟完成后得到一個基于所有訓練圖像的預測精度。

訓練CBOW模型找出特征詞。載入模型,提取各個單詞的詞向量,將詞向量歸一化后相乘得到各個單詞之間的余弦距離,找出與特征詞最相近的10個詞。

2.3 結果分析

由表1的分類準確度可發現圖片經過不同的處理方式后的分類準確度也并不相同。經過平滑處理后得到的字符保持了更好完整性,分類結果總體上也比原圖像和經過銳化處理后的圖像更好。

表1 圖像處理后的分類準確度

圖像訓練完成后,可以對未識別出的甲骨文圖像進行造字分類識別,通過載入訓練模型以及分類的類別名稱,對圖像進行分類。實驗隨機從網絡找了一些甲骨文字符圖像來驗證模型,部分結果如圖6所示,每張圖都有造字判斷概率以及是否合寫判斷概率,可看出模型有著較高的識別率。

圖6 部分結果展示

由于語料較少,所以預測后只能得到一個預測詞是不夠的,利用CBOW模型找出與預測詞詞性最相近的10個詞。如圖7所示為甲骨文語料中各詞向量間的余弦距離圖。相似的數詞及動物名等詞之間的余弦距離接近,可以認為模型能夠對詞向量較好分類。

圖7 詞向量之間的余弦距離圖

可以得出結論無論圖像分類模型和詞向量模型都對甲骨文有著準確的識別。最后將圖像分類模型與詞向量模型的預測相結合,在找出的十個單詞中篩選符合預測詞造字方式的詞,再在數據庫中分析這幾個詞出現最多的詞性以及其他文字特征。

如表2所示為假設“二”作為特征詞后提取的十個最相近的詞。由表2可以看到其中包含了與“二”一樣的“三”、“五”、“六”、“八”、“十”等數詞。

表2 詞“二”的近似詞

最后將圖像分類模型與詞向量預測模型相結合,在找出的十個詞中篩選符合特征詞造字方式的詞,再在數據庫中分析這幾個詞出現最多的詞性以及其他文字屬性。詞性可分為主詞性和其他詞性(主詞性即該詞最常用最有可能的詞性,其他詞性即除了主詞性外該次還有可能的詞性)。表3和表4為篩選與“二”最接近詞中造字方式也相同的詞的詞性。次數為數據庫中單詞為該詞性的數量,也可看作為該詞預測詞性的可能性。

表3 預測詞的主詞性

表4 預測詞的其它詞性

3 結語

本文提出了一種關于甲骨文的分類識別方法。針對甲骨文字符中仍有大量字符未被識別這一問題,通過圖像識別及自然語言處理的綜合運用,對未識別字符的詞性及其它特征進行了預測。研究成果可以降低古文字研究的人工工作量,提升工作效率,在其它的中文古文字識別中也具有一定的參考價值。未來將繼續對模型進行優化和改進,使之能夠更好地應用于甲骨文字符的識別工作中。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 亚洲性视频网站| 91精品最新国内在线播放| 美女一级毛片无遮挡内谢| 国产精品太粉嫩高中在线观看| 露脸真实国语乱在线观看| 免费国产不卡午夜福在线观看| 成年免费在线观看| 国内丰满少妇猛烈精品播| 欧美三级日韩三级| 在线免费观看a视频| 无码aⅴ精品一区二区三区| 波多野结衣一区二区三视频 | 成人午夜亚洲影视在线观看| 伊人久久久大香线蕉综合直播| 亚洲综合片| 久久永久视频| 日韩激情成人| 2021国产v亚洲v天堂无码| 欧美激情第一区| 国模极品一区二区三区| 亚洲欧洲日韩久久狠狠爱| 亚洲国产看片基地久久1024| 网久久综合| 欧美色视频在线| 亚洲娇小与黑人巨大交| 日韩毛片免费视频| 九九九精品成人免费视频7| 国产精品99久久久久久董美香| 天堂亚洲网| 国产AV毛片| 97视频在线精品国自产拍| 亚洲中文字幕久久无码精品A| 国产日韩欧美在线视频免费观看| 中日无码在线观看| 国产91特黄特色A级毛片| 大学生久久香蕉国产线观看 | 免费不卡视频| 亚洲黄色视频在线观看一区| 国产欧美日韩专区发布| 91麻豆精品视频| 久久美女精品国产精品亚洲| 中国一级特黄大片在线观看| 国产一区二区免费播放| 成·人免费午夜无码视频在线观看| 国产自在线播放| 亚洲黄网视频| 成人亚洲视频| 手机永久AV在线播放| 久久久亚洲色| 极品av一区二区| 国产精品妖精视频| 国产综合精品一区二区| 国产精品嫩草影院av| 亚洲色无码专线精品观看| 国产在线视频二区| 国产综合精品一区二区| 亚洲乱码视频| 国产91色在线| 国产高颜值露脸在线观看| 国产乱子伦无码精品小说| 综合色88| 666精品国产精品亚洲| 91在线视频福利| 国产又爽又黄无遮挡免费观看| 蜜芽国产尤物av尤物在线看| 视频二区亚洲精品| 日本亚洲欧美在线| 国产一级精品毛片基地| 尤物精品视频一区二区三区| 亚洲水蜜桃久久综合网站| 亚洲天堂网在线观看视频| 中文字幕丝袜一区二区| 久久成人国产精品免费软件 | a级毛片免费网站| 日韩成人高清无码| 九月婷婷亚洲综合在线| 呦女精品网站| 伊人色综合久久天天| 国产色网站| 国产麻豆91网在线看| 日本日韩欧美| 国产呦视频免费视频在线观看|