999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于YOLOv5算法的滿文不定長字元數據集制作方法研究

2023-04-29 00:00:00李昭儀于淼于曉鵬
計算機時代 2023年12期

摘" 要: 在進行滿文識別時需要用到大量的滿文數據,但目前還沒有滿文不定長字元數據集。本文提出一種基于YOLOv5的滿文不定長字元數據集制作方法,用于后續的訓練和研究。與傳統切割方法相比,只需提供待檢測圖片即可。通過對基于YOLOv5的數據集制作流程的改進,去除原YOLOv5實驗中對圖像進行翻轉和隨機裁剪部分,并且將原YOLOv5的損失函數替換為EIoU,添加了注意力機制SE模塊。實驗結果表明:與原始的 YOLOv5網絡相比,其精度和召回率分別提高到98.95%和98.83%,證明了算法的實用性和高效性。

關鍵詞: YOLOv5; EIoU; SE模塊; 數據集制作; 目標檢測; 滿文

中圖分類號:TP391.4" " " " " 文獻標識碼:A" " "文章編號:1006-8228(2023)12-34-06

Research on the method of making Manchu indeterminate length

character dataset based on YOLOv5

Li Zhaoyi, Yu Miao, Yu Xiaopeng

(College of Mathematics and Computer Science, Jilin Normal University, Siping, Jilin 136000, China)

Abstract: A large amount of Manchu data is needed in Manchu recognition, but there is currently no Manchu indeterminate length character dataset available. To solve this problem, a method of making Manchu indeterminate length character dataset based on YOLOv5 is proposed for subsequent training and research. Compared with traditional cutting methods, only the image to be detected is required. By improving the dataset making process based on YOLOv5, the parts of image flipping and random cropping in the original YOLOv5 experiment are removed. The loss function of the original YOLOv5 is replaced with EIoU, and the attention mechanism SE module is added. The experimental results show that compared with the original YOLOv5 network, its accuracy and recall rate are improved to 98.95% and 98.83%, respectively, which proves the practicability and high efficiency of the algorithm.

Key words: YOLOv5; EIoU; SE module; dataset making; target detection; Manchu

0 引言

在我國悠久歷史中,留下了不少珍貴的滿文文獻檔案,這些資料得不到妥善保管和充分利用,由于年久日深已經遭到了損壞。因此迫切需要研究對滿文的檢測與識別技術。現有的網絡針對滿文的檢測與識別技術的研究少之又少,目前還沒有關于滿文不定長字元的公共數據集,因此實驗需要根據自己所掌握的滿文知識進行數據集制作。

1 相關研究

1.1 滿文基礎知識

滿文是一種拼音文字,從書寫規則來看,是由上而下,由左而右,豎排書寫。滿文共有12字頭,每組字頭約有100余字。滿文字母出現在詞匯中不同位置有不同書寫形式,分別是獨立體、詞首型、詞中型、詞尾型,以字母a為例,如圖1所示。

1.2 YOLOv5

YOLOv5實現在圖像中定位并識別目標物體,由輸入端(Input)、主干網絡(Backbone)、頸部網絡(Neck)以及輸出端[1]四部分組成。由于網絡的深度和維度的不同,YOLOv5模型包括多個版本,本研究實驗選擇了YOLOv5m模型。

1.3 OpenCV

OpenCV是計算機視覺中經典的專用庫,其支持多語言,跨平臺,功能強大[2],實現了大量的圖像處理通用方法。該庫的應用領域廣泛,如邊緣檢測、圖像分類、圖像分割等。

2 方法設計

手動切割圖像來制作不定長字元數據集將會是一項工程量十分浩大的工作,想得到一個高質量的數據集是達不到的,其次傳統的切割方法在對字元進行切割時不夠靈活,還會損失圖像的像素,對識別的結果有一定影響。所以本實驗設計了將YOLOv5和OpenCV結合應用到滿文字元切割的方法,來實現更好地切割字元制作數據集。本實驗方法流程圖如圖2所示。

訓練YOLOv5時同樣需要自己制作數據集,在制作數據集時,需要對包含各個字元的滿文單詞圖像手動標記,本實驗使用Make Sense進行標記,導出的格式為YOLO,將制作好的YOLO格式數據集進行訓練,得到檢測準確率最好的模型,再整理出一份可以包含所有字元不同情況下的所有寫法的圖像集,用訓練好的模型對該圖像集進行字元定位,根據得到的位置進行區域提取,最后獲得覆蓋各個字元所有書寫情況的不定長字元數據集。

2.1 傳統的滿文字元切割方法

滿文單詞的拼寫是十分復雜的,不同的字元在不同的位置有不同的表現形式,同一字體型號的不同滿文單詞尺寸也有可能相差很多,因此要將滿文單詞切分成滿文字元進行識別[3]。傳統的切分滿文字元的方法有投影法[4]、皮爾遜相關系數[5]、骨骼法等,但是使用傳統切割方法并不適用于所有情況下的圖片,會出現切分不正確、像素缺失等情況。

2.2 基于YOLOv5的滿文字元切割方法

由于滿文單詞中每個字元所包含的像素較少、圖像的尺寸較小,為了保證每個字元沒有像素的損失,減小對識別準確率的影響,因此本實驗將目標檢測方法YOLOv5與滿文字元切割相結合,來制作不定長滿文字元數據集。首先由于YOLOv5是一種端到端的深度學習原理,可以直接在原始圖像中開始,不需要預處理。其次YOLOv5使用的是卷積神經網絡來提取圖像特征[6],在圖像質量不好的情況下也可以很好的工作。最后YOLOv5提出了自適應圖片縮放方法,可以避免過多信息冗余,提高運算速率。

2.3 訓練模型

YOLOv5發行了多個版本,本實驗采用的版本為5.0版本[7],其結構圖如圖3所示。

⑴ 輸入端:YOLOv5的輸入端沿用了之前的Mosaic數據增強操作,在網絡進行標準化BN計算時,計算一張照片相當于計算多張照片,這樣可以極大程度上減少GPU計算。

⑵ Backbone:YOLOv5中C3模塊為CSP架構[8]有兩種設計,分別為應用在Backbone的CSP1_X結構和應用在Neck的CSP2_X結構。網絡結構圖如圖4、圖5所示。

其中CBS的結構為Conv、BN、SiLU結合,主要應用于卷積操作。SPPF結構如圖6所示,其采用多個小尺寸池化核來代替單個大尺寸池化核,提高了運行速率。

⑶ Neck:頸部網絡采用特征金字塔網絡FPN加路徑聚合網絡PAN的結構,更充分提取到特征,利用到高層的語義信息和底層的細節信息,有利于分類和定位。

通常情況下目標檢測算法的損失函數由兩部分組成,分別是 Classification Loss(分類損失函數)和Bounding Box Regression Loss(回歸損失函數)。假設預測框和真實框的交集為A,并集為B,IOU定義為交集A除以并集B,IoU的Loss為:

[IoU_Loss = 1-IoU = 1-AB]

⑷ 輸出端:YOLOv5中采用CIoU_Loss做損失函數。通過nms非極大值抑制進一步篩選掉多余的檢測框[9],得到最終的檢測框。

2.4 改進策略

為了保證滿文字元的完整性,避免混淆同字型不同方向的不同字元,本文將去除圖像翻轉和隨機裁剪。為了提高檢測識別的準確率,本文將損失函數改為EIoU[10]。由于一些字元之間存在的差別微乎其微,因此本文引入注意力機制SE模塊進行改進,提高最終效果。

2.4.1 去除圖像翻轉和隨機裁剪

原始的YOLOv5網絡在圖像訓練過程中通常會進行一些數據增強操作,例如翻轉、旋轉等,增加訓練數據的多樣性和泛化能力。由于滿文字元中存在書寫形式相同,方向不同的字母,例如字元L和字元M在詞中位置時,如圖7、圖8所示,黑色框內分別是字元L和字元M在詞中位置的寫法。針對此情況,本文將YOLOv5中圖像翻轉部分去除,避免了由于同體不同方向不同字導致的檢測識別錯誤。

通過觀察滿文字元書寫情況,可以看到有些字元存在非常相似、字元表現形式相差微乎其微的。例如字元BA和字元B在詞頭位置時,如圖9、圖10所示,黑色框內是字元BA和字元B在詞頭位置的寫法。針對此情況,本文將yolov5中圖像隨機裁剪部分去除,避免由于字元圖像像素相差極少導致的檢測識別錯誤。

2.4.2 損失函數EIoU

CIoU定義公式為:[LCIoU" = 1-IoU+ρ2(b,bgt)c2+α]v,[α]是權重函數,v用來度量長寬比的相似性,定義為:[v=4π2(arctanwgthgt-arctanwh)2],它關于邊長 w和 h的梯度公式為:

[?v?w=8π2(arctanwgthgt-arctanwh)*hw2+h2]

[?v?h=-8π2(arctanwgthgt-arctanwh)*hw2+h2]

首先,如果預測框和標注的真實框的長寬比是相同的,那么長寬比恒為0,這是不合理的;其次,觀察梯度公式可以看出,w和h不能同時增大或減小,這顯然是不夠合理的。因此用EIoU_Loss來進行改進,2021年中國科學院大學張易凡等人[11]提出了損失函數EIoU,公式為:

[LEIoU=LIoU +Ldis+Lasp]

[=1-IoU+ρ2(b,bgt)c2+ρ2(w,wgt)C2w+ρ2(h,hgt)C2h]

其中,[Cw]和[Ch]分別是覆蓋真實框和預測框的寬和高,EIoU將損失函數分成了損失 [LIoU]、距離損失[Ldis]、邊長損失[Lasp]三個部分。損失函數EIoU與損失函數CIoU不同的地方在于損失函數EIoU_Loss是在CIoU_Loss基礎上提出的,加入了Focal聚焦優質的錨框,將原始的寬高比例改為寬高值回歸。EIoU_Loss損失函數提高了衡量相交尺度的方式,減少了單純IoU_Loss時的不足,提高檢測目標檢測框的準確度。

2.4.3 添加注意力機制SE模塊

在滿文字元檢測任務中,某些字元在做詞頭時之間細微差別的特征信息容易在深層網絡中丟失,同時,在圖像質量低、光照不均勻等情況下,給字元特征提取帶來了極大的干擾,需要更加注重字體特征的提取。SE注意力機制[12-13]可以讓模型學習滿文字元信息量最大的特征并抑制不重要的特征,從而提高檢測效果。為此,本實驗將SE注意力機制添加在主干網絡backbone的SPPF的前一層,增強滿文字元特征信息的提取。

SE模塊結構如圖11所示,主要包含壓縮(squeeze)和激勵(excitation)兩部分。

⑴ 壓縮(squeeze)

壓縮操作過程如圖12所示,由于卷積沒有全局感受野,很難獲得足夠的信息來提取通道之間的關系特征,為了解決利用通道依賴性的問題,采用全局平局池化來實現,將包含全局信息的特征圖W*H*C輸出維度變為1*1*C。算子公式為:[zc=Fsq(uc)=1H*Wi=1Hj=1Wuci,j]

⑵ 激勵(excitation)

激勵操作過程如圖13所示,由兩個全連接層組成,得到squeeze的1*1*C全局特征后,通過FC(Fully Connected)全連接層對每個通道的重要性進行預測。為了減少通道個數從而降低計算量,設置了縮放參數SERatio。激勵操作計算公式為:

[s=Fex(z,W)=σ(g(z,W))=σ(W2δ(W1z))]

[s=Fex(z,W)=σ(g(z,W))=σ(W2max(0,W1z))]

2.5 生成數據集

在處理圖像時,經常會發生僅僅需要圖片中特定位置的信息的情況,為了降低GPU利用率,對該圖片特定區域進行提取,然后對該區域再進行處理、分析等操作,這樣的區域稱為ROI區域[14]。

實驗中通過YOLOv5檢測之后得到的結果分析圖如圖14所示,檢測所得數據結果存放在文本文檔中,數據顯示如圖15所示,每一行從左到右數據分別代表:檢測到目標類別、目標中心點坐標的x值(x_center)y值(y_center)、目標的寬度(width)高度(height)。但是由于YOLOv5的文本文檔中存儲的x_center、y_center、width、height都是經過歸一化處理的所以,上述公式中所計算得到的x1、x2、y1、y2值都是經過歸一化處理之后的值,實驗要的是原值,因此得到以下公式:

x1=(x_center-width/2)*整張圖片的寬度

x2=(x_center+width/2)*整張圖片的寬度

y1=(y_center-height/2)*整張圖片的高度

y2=(y_center+height/2)*整張圖片的高度

該公式中整張圖片的高度和寬度是指該圖片的像素寬度、像素高度,在水平方向上裁剪x1、x2,在垂直方向上裁剪y1、y2,即可得到目標字元圖像從而構成數據集。

3 實驗與結果分析

3.1 實驗方法

由于本文的最終數據集是由單個滿文字元圖像組成的,因此將使用傳統方法制作的字元數據集與基于YOLOv5方法制成的字元數據集進行比較,來觀察比較生成的數據集的性能表現。

本文從兩個方面來進行數據集之間的比較:一是通過觀察不同方法生成的字元圖像的表現形式來比較數據集的性能;二是通過比較不同方法生成的字元數據集的準確率等指標來評判各數據集性能。

3.2 模型

迄今為止,在目標檢測領域,深度學習神經網絡發展良好,取得了非常可觀的成績,其中有兩種類型具有代表性,分別是雙階段模型和單階段模型,YOLO[15]系列就是單階段類型,將目標檢測任務看做一個regression問題來處理,在網絡的輸入端輸入整張待檢測圖像,直接在輸出層輸出邊界框的位置及其所屬類別。在YOLOv5系列中,YOLOv5m以速度快、準確率高、模型小、易于使用的優點而著名.

選擇使用YOLOv5m進行文字目標檢測,是因為它具有高性能、多尺度檢測能力,簡單易用,可以滿足文字目標檢測的需求。

3.3 評估指標

本文將從以下幾個方面作為評估指標進行評估,第一個方面是在對滿文單詞圖像進行切割之前對圖像進行的操作的繁簡程度;第二個方面是通過不同方法得到的字元圖像的質量;第三個方面是通過Precision(精度)、Recall(召回率)、mAP@0.50和mAP@0.50/0.95[16]。

Precision:衡量準確性,表現為找到的正例比例/實際的正例比例。

Recall:衡量的是一個分類能把所有的正類都找出來的能力,表現為找到的正例比例/所有本應該被找對的正例比例。

mAP@0.50:表示將IoU閾值設為0.50時,用Precision和Recall作為兩軸作圖后圍成的面積的平均值。

mAP@0.50/0.95:表示在0.50到0.95的取值范圍內,從0.50開始以每步0.05的距離逐步遞增的閾值上mAP的平均值。

3.4 實驗結果

如表1所示,在進行實驗之前的準備工作中,如果采用傳統的投影法就需要對圖像進行預處理操作,但是采用本實驗方法不需要對圖像進行任何預處理。用深度學習人工神經網絡來對圖片進行目標檢測分類,代替人力對圖片進行篩選操作,節省了大量的人力資源。

如圖16、圖17所示,分別是傳統方法得到的字元BO做字頭時的字元圖片和通過本實驗方法得到的BO做字頭時的字元圖片,觀察圖片可知,圖16是二值化之后的圖片,而圖17是灰度圖片,包含更多圖片像素信息,在使用本實驗方法得到的數據集時會將大大提高準確率;觀察圖16可以看到字元是有缺失的,在字元BO最下一行的字體像素已經被背景像素替代,但是圖17的字元是完整的,因此采用基于YOLOv5深度學習的方法進行數據集制作會保證字元的完整性,保持原圖像質量不受損壞,所得字元的正確性可以得到保證。

本實驗分別用YOLOv5s、YOLOv5m、損失函數改為EIoU、在使用損失函數EIoU基礎上添加注意力機制SE模塊,具體訓練結果如圖18所示,其中圖18(a)、圖18(b)、圖18(c)、圖18(d)分別表示不同訓練方法在相同訓練輪數下檢測精度、召回率、mAP@0.50、mAP@0.50/0.95的表現情況,檢測結果如表2所示。實驗結果表明,對YOLOv5的每一項改進都取得了一定的效果。

4 總結與展望

本文提出基于YOLOv5深度學習的方法制作滿文不定長字元數據集。此方法相較于傳統的滿文字元切割方法節省了大量的人力資源,不需要對待處理圖像進行預處理操作。本文的實驗方法更具有靈活性,對檢測到的字元可以靈活的改變切割尺寸大小,包容性更強,對待處理圖像的質量要求低。通過本文的實驗方法可以保證最后得到字元圖像中字元的完整性,提高使用該數據集進行識別時的準確率。

本文選擇在速度和準確度之間提供了較好的平衡的YOLOv5m模型上進行改進實驗,進一步提高了字元檢測的精度,本文方法可以為滿文字元識別、滿文整詞識別等領域的研究人員提供新的數據集制作思路,進而可以考慮將該方法延伸到少數民族文字數據集的制作上。接下來的研究,將考慮增加隱馬爾科夫模型來提高字元的識別能力,從而實驗更好的實驗效果。

參考文獻(References):

[1] 楊航,何皓明,李滕科,等.基于改進YOLOv5的鴿子蛋殼破損

檢測[J].西南師范大學學報(自然科學版),2023,48(8):92-102.

[2] Bradski G, Daebler A.Learning OpenCV. Computer vision

with OpenCV library[J].University of Arizona Usa Since,2008.

[3] 許爽,李敏,朱滿瓊,等.滿文識別技術研究與分析[J].大連

民族學院學報,2014,16(5):546-551.

[4] 白文榮.手寫體蒙古文字識別——切分技術的研究[J].科技

經濟市場,2009(6):30-31.

[5] Gooch J W .Pearson Correlation Coefficient[M].2011.

[6] Hubel D H, Wiesel T N.Receptive fields, binocular

interaction and functional architecture in the cat's visual cortex[J].Journal of Physiology,1962,160(1):106-154.

[7] 王彥生,朱佳佳,王紫儀,等.基于改進YOLOv5的電廠人員絕

緣手套佩戴檢測[J/OL].計算機測量與控制:1-9[2023-08-06].http://kns.cnki.net/kcms/detail/11.4762.TP.

20230713.1122.028.html.

[8] Wang C Y, Liao H Y M, Yeh I H ,et al.CSPNet: A New

Backbone that can Enhance Learning Capability of CNN.2019[2023-08-06].

[9] 周飛燕,金林鵬,董軍.卷積神經網絡研究綜述[J].計算機

學報,2017,40(6):1229-1251.

[10] 呂禾豐,陸華才.基于YOLOv5算法的交通標志識別技術

研究[J].電子測量與儀器學報,2021,35(10):137-144.

[11] Zhang Y F , Ren W , Zhang Z ,et al.Focal and Efficient

IOU Loss for Accurate Bounding Box Regression[J]." 2021.

[12] 游越,伊力哈木·亞爾買買提.基于改進YOLOv5在電力巡

檢中的目標檢測算法研究[J].高壓電器,2023,59(2):89-96.

[13] Hu J , Shen L , Albanie S ,et al.Squeeze-and-Excitation

Networks.[J].IEEE transactions on pattern analysis and machine intelligence,2020,42(8):2011-2023.

[14] 毛科技,汪敏豪,陳立建,等.結合目標檢測與匹配修正的

手腕骨興趣區域提取[J].中國圖象圖形學報,2022(3):27.

[15] Redmon J , Divvala S , Girshick R ,et al.You Only Look

Once: Unified, Real-Time Object Detection[C]//Computer Vision amp; Pattern Recognition.IEEE, 2016.

[16] 李宇瓊.基于改進YOLOv5的深度學習交通標志識別[D].

長沙:中南林業科技大學,2023.

主站蜘蛛池模板: 五月天久久婷婷| 狠狠色狠狠色综合久久第一次| 午夜色综合| 亚洲色欲色欲www在线观看| 国产精品无码作爱| 成人在线亚洲| 国产 日韩 欧美 第二页| 蜜臀AVWWW国产天堂| 久久久久国产一区二区| 亚洲综合在线最大成人| h视频在线播放| 制服丝袜国产精品| 国产成人精品一区二区| 国产真实乱了在线播放| 男人天堂亚洲天堂| 亚洲码在线中文在线观看| 日韩无码视频播放| 热re99久久精品国99热| 成人国产精品网站在线看| 亚洲性视频网站| 精品人妻一区二区三区蜜桃AⅤ| 国产精品免费福利久久播放 | 欧美人人干| 欧美不卡视频在线观看| 亚洲AV一二三区无码AV蜜桃| 久久久久久久久久国产精品| 亚洲精品第五页| 国产99精品视频| 高潮毛片免费观看| av在线手机播放| 欧美三级日韩三级| 国产亚洲精品资源在线26u| 欧美久久网| 亚洲91精品视频| 亚洲中文字幕无码mv| 国产成人毛片| 亚洲国产欧美目韩成人综合| 国产不卡在线看| 色网在线视频| 一边摸一边做爽的视频17国产| 九九热视频在线免费观看| 日韩毛片基地| yjizz视频最新网站在线| 九月婷婷亚洲综合在线| 国产成人亚洲精品无码电影| 在线无码av一区二区三区| 亚洲最新网址| 91亚瑟视频| 中文字幕首页系列人妻| 亚洲欧美另类中文字幕| 91黄色在线观看| 久久无码免费束人妻| 欲色天天综合网| 欧美综合中文字幕久久| 粗大猛烈进出高潮视频无码| 亚洲一级毛片免费观看| 狠狠操夜夜爽| 日韩福利在线视频| 久久国产亚洲欧美日韩精品| 国产欧美日韩另类精彩视频| 亚洲欧洲一区二区三区| 国产 在线视频无码| 免费看a毛片| 日日摸夜夜爽无码| 亚洲第一页在线观看| 在线观看热码亚洲av每日更新| 亚洲日本中文字幕乱码中文| 88av在线看| 国产欧美日韩18| 精品人妻无码区在线视频| 日本免费新一区视频| 999精品色在线观看| 欧美激情视频一区二区三区免费| 香蕉视频在线观看www| 国产精品天干天干在线观看| 一级毛片无毒不卡直接观看| 一级毛片免费不卡在线视频| 99视频在线免费看| 美女国产在线| 中文字幕无码电影| 综合亚洲色图| 午夜精品影院|