999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

改進YOLOv7的晶圓字符檢測算法

2024-02-21 02:33:58梁漢濠潘玲佼
無線電工程 2024年2期
關鍵詞:特征

梁漢濠,張 雷,劉 超,潘玲佼

(1.江蘇理工學院 電氣信息工程學院,江蘇 常州 213016;2.佰奧軟件有限公司,江蘇 昆山 215312)

0 引言

基于機器視覺的晶圓加工方式極大程度地提高了晶圓自動化生產效率和產品質量,機器視覺技術正日漸成為我國智能制造領域的關鍵技術之一。在晶圓自動化生產中,晶圓注冊是不可或缺的環節。每一塊晶圓在進行細節加工前,都需要進行注冊,即對晶圓特定位置印刷的型號和序列號等信息進行提取和數據庫更新。光學字符識別 (Optical Character Recognition,OCR)[1]技術是完成晶圓注冊的關鍵技術。OCR檢測傳統流程為:用圖像處理將字符逐個提取出來,將其與事先準備的固定模板相匹配,即用每個字符去遍歷所有模板圖像,尋找與該字符重復度最高的,與哪個模板匹配度最高則被確認為該字符。在傳統字符識別研究方面,姚文風等[2]提前準備標準的字符庫,用被測圖像與整個庫進行異或運算,容易造成字符的誤判,無法分辨相近字符。王浩楠等[3]運用字符識別標準模板進行模板匹配,對輪胎表面字符識別準確率達99.51%。隨著神經網絡的興起,目前字符識別大多采用深度學習的算法,依靠大量的數據集進行特征提取,解決字符的識別問題。白睿等[4]通過Lenet-5對在道路場景下的行車字符識別進行了識別。祁忠琪等[5]利用新型的卷積網絡,將字符先分割再識別。熊帆等[6]利用循環卷積網絡,增加子模型和注意力機制,同時引入中心損失函數,提高字符識別準確率。胡蝶等[7]以卷積神經網絡為核心對生產日期進行檢測,準確率遠高于傳統模板匹配。朱立倩[8]以Faster R-CNN為主干網絡,插入注意力機制對數顯儀表字符識別的準確率達到了95%。

經過對比發現,目前主流的字符識別深度學習方法大多以CNN、Faster-CNN、YOLO系列為主。鑒于YOLOv7可以直接通過卷積神經網絡對圖片進行卷積、特征提取和回歸的特點。本文提出一種基于YOLOv7的改進晶圓字符識別算法。本文的改進主要是:① 在主干網絡末尾添加Swin Transformer,完成全局和局部信息的整合,提高圖片特征的提取率和利用率;② 在預測頭部插入A2-Net注意力機制,賦予網絡自動獲取每個特征通道權重的權利,同時突出圖片的關鍵特征,增強訓練效果;③ 在損失函數方面采用SIOU損失函數替代CIOU損失函數,以回歸的邊界向量角度為引導,進一步提高檢測的準確性。

1 YOLOv7算法介紹

YOLOv7與常規YOLO系列相同,包含了主干網絡(Backbone)、解碼網絡(Neck)、預測網絡(Prediction)三部分。主干網絡負責圖片輸入和特征提取,主要由CBS卷積層、MPConv 卷積層和E-ELAN卷積層三部分構成。E-ELAN是高效層聚合網絡,在保證原始梯度路徑的同時,優化網絡的收集能力,還具有拓展計算塊和采集輸入圖片不同特征組信息的能力。MPConv卷積層主要作用是篩選得到的特征,對CBS卷積層得到的特征進行最大池化,并將其分成2支,用Concat模塊將2支進行特征融合,進一步增強網絡對于圖片特征的提取能力。原版YOLOv7在Neck網絡的開始插入SPPCSPC(金字塔)模塊,該模塊主要用來保證頭部網絡可以實現多尺度的特征融合;隨后將融合后的特征通過上采樣(UPSample)層,與之前得到的卷積特征進行特征融合,中間會再次MPConv卷積層強化特征提取能力。在預測網絡(Prediction)部分,采用了REP模塊、Conv模塊與全連接層組成3個預測頭。在損失函數方面,網絡主要采用了2種損失函數。在置信度和分類方面采用了交叉熵損失(BCE Loss)函數,在定位方面選擇了CIoU損失函數,其結構如圖1所示。

圖1 YOLOV7結構Fig.1 Structure of YOLOv7

2 改進后的YOLOv7網絡

為了更好地訓練效果和更準確地預測結果,本文提出了一種改進的YOLOv7字符識別算法。首先在主干網絡的末尾加入Swin Transformer模塊,然后在預測頭前插入注意力模塊,最后對網絡的定位損失函數進行修改,引入SIOU損失函數,保證網絡能夠準確定位到字符。改進算法可以整體提升算法的特征提取能力,同時進一步提高分類精度和定位精度。改進后的網絡總體結構模型如圖2所示。

圖2 改進后YOLOv7結構Fig.2 Structure of improved YOLOv7

2.1 Swin Transformer模塊

YOLOv7原本的主干神經網絡需要依靠復雜的卷積來提升識別效果。因此本文考慮引入 Transformer來提升網絡的特征提取能力,但是鑒于傳統的 Transformer當圖片像素點增多時,其關鍵模塊MSA需要計算特征圖片中每一個像素之間的關系,會導致計算機計算量增大而降低運行效率。與之不同的是Swin Transformer[9]提升識別效果的途徑依靠滑動窗口和多層次結構。在其網絡中的體現為多連續窗口(Window Multi-Head Self-Attention, W-MSA)和多位移自注意層(Shifted-Window Multi-Head Self-attention, SW-MSA)模塊,SW-MSA模塊領先于MSA模塊的地方在于將需要提取的特征層進一步分割,在相互關系的建立上采取滑動窗口的方式。具體來說:當需要提取的特征層含有4×4個像素,為了得到像素間的關系傳統的MSA需要計算120次;而SW-MSA先將其分為4個2×2的像素塊,對于每個小塊計算每個像素間的關系只需要計算4×6次;對于不同像素塊間的關系采用將分割線滑動將其分割成3×3像素塊和2個1×2的像素塊,分割后對每個小塊的像素關系進行計算需要計算38次;SW-MSA模塊需要計算64次,相較于傳統的MSA減少了大約一半的計算量。窗口滑動分割原理如圖3所示。

圖3 窗口滑動分割原理Fig.3 Principle of window sliding segmentation

加入SW-MSA層不僅不會提升計算的復雜度,還能整合全局和局部特征信息。Swin Transformer模塊如圖4所示。主要流程是:先將輸入圖片通過LN特征歸一化層;然后將其輸入W-MSA進行分割提取,將提取后的特征信息與原輸入進行計算,將結果輸入進新的歸一化層,隨后通過MLP層再進行計算,之后通過LP層和SW-MSA層進行計算;最后再次通過MLP層得到最終結果。核心計算公式如下;

(1)

圖4 Swin Transformer模塊Fig.4 Swin Transformer module

Qu=XPWQ,

(2)

Key=XPWK,

(3)

Value=XPWV,

(4)

2.2 A2-Net注意力機制

在網絡頭部插入A2-Net[10]注意力機制,本文采取的注意力機制的優勢在于運用了2種注意力操作:第一個操作對池化特征的二階統計進行隱性計算,能捕捉到訓練集中的復雜背景和運動屬性;第二個操作在于可以自適應地分配特征,使特定位置更有關聯。注意力機制模塊如圖5所示。

圖5 注意力機制模塊Fig.5 Attention mechanism module

實現的主要流程為:先設定輸入XP∈Rc×w×h,可以得到每個像素坐標特征為vi,定義Wi為此網絡的輸出,用公式表示為:

Wi=FD(G(X),vi),

(5)

式中:FD(X)為Feather Distribution(分布)模塊,G(X)為Feather Gathering(雙線性池化)模塊,將特征向量ai和bi做外積后相和。

(6)

式中:ai、bi是通過2個不同CNN得到的結果,因為經過2層所以起到二階統計的效果,也可以是不同層得到的不同結果。一般ai通過卷積和歸一化得到,bi通過尺寸縮減模塊獲得。這時對應模塊的第一部分先將特征抓取出來;隨后FD將特征分配到已知特征子集的過程,可以保證使用極小的卷積即可得到對應的特征:

FD=Softmax(ρ(x,W)),

(7)

式中:W為實際參數,ρ(x,W)為將采集特征分配給每個帶有實際參數的位置。經過FD分配后的結果,進行Softmax歸一化,再次通過尺寸縮減模板與原來的輸入特征層進行融合得到最后的輸出特征層。

2.3 SIOU損失函數

上文提到本網路的損失函數主要有類別和置信度損失函數BCE-Loss,定位損失函數CIOU-Loss兩類。本文為了幫助字符快速定位檢測引入SIOU損失函數。先前的CIOU-Loss具體公式如下:

(8)

式中:b、bgt為預測框和真實框(Ground Truth,GT)中心位置坐標,ρ(b,bgt)為二者間的經典歐式距離,c為兩框之間外接最小矩形的對角線長度,IOU為占空比,a為最關鍵的權重函數。

(9)

式中:v用來表示預測框和GT框二者的長寬比的相等性。

(10)

CIOU-Loss函數主要基于預測和目標兩框之間的重復面積比、中心點距離和寬高比來測算損失。然而真實框和預測框之間一般會存在一定的角度,這個角度也是損失函數應當考慮的內容。因此本文提出用SIOU代替CIOU,將其作為最后的定位損失函數。SIOU函數主要包括Angle cost、Distance cost、Shape cost、IOU cost四部分。按照理論,加入SIOU函數后能夠有效減少因未考慮角度而造成的自由度損失,進一步提高預測的準確性,其核心計算公式如下:

(11)

式中:Δ為包含Angle cost的Distance cost。

(12)

式中:δ為Angle cost。

(13)

式中:φ為Shape cost。

(14)

3 實驗結果分析

3.1 實驗環境

本文的實驗環境為PyTorch v1.8.0,在此框架下進行網絡的訓練和預測。本文訓練時使用GPU加速訓練,同時利用CUDA以及CU-DNN提高設備的運行速度。運行系統為Windows 10,搭載的GPU為NVIDIA GeForce RTX 3080,搭載的CPU為Inter?CoreTMi9-9900KCPU@3.60 GHz。CUDA版本為11.1, CU-DNN版本為v8.0.5.39,Python版本為3.8。

3.2 數據集獲取

本數據集包含廠家給的3類晶圓字母庫以及自己實際加工中拍攝的晶圓字符圖片660張。考慮到字符印刷時會存在角度偏轉,也可能因為光源的變化導致明暗不同,實際加工中存在噪聲的情況。本文對已有圖像采用角度偏轉、增加噪聲、改變明暗度3種方式擴充,將圖片擴充到3 960張。其中訓練集、測試集和預測集的比例為8∶2。本文對數據集標注的工具為LabelImg,標簽文件的格式為xml。標簽示意如圖6所示。

圖6 標簽示意Fig.6 Schematic of labels

3.3 部分超參數設置和評價指標

本文網絡在訓練時的部分超參數設置[11]如表1所示。

表1 部分參數

深度學習神經網絡的評價指標有多種,本文采用的是PR曲線,即準確率(Precision)和召回率(Recall)曲線。鑒于本文預測種類較多的特點,采用平均準確率均值(mean Average Precision,mAP)和檢測速率幀每秒(Frame Per Second,FPS)來判斷本文提出的模型性能[11]。P、R的計算如下:

(15)

(16)

式中:TP[12]為在已知的類別中,經過模型判定后正確且實際也為正確的正樣本個數;FP[13]為經過模型認定為正樣本個數,但實際不是正樣本的個數;FN為被誤判為負樣本的正樣本個數。PR曲線如圖7所示。

圖7 PR曲線Fig.7 PR curve

所有檢測類別的mAP計算公式[14]為:

(17)

在訓練時當訓練輪數達到300時,損失達到最小值,如圖8所示。

圖8 Loss曲線Fig.8 Loss curve

3.4 結果與分析

為保證本文所提出方法的優越性,在已知數據集上對所有分類目標進行消融實驗,通過分別插入上文所述的Swin Transformer模塊和A2-Net模塊,以及修改后的損失函數進行驗證。具體測試結果如表2所示。消融實驗[15]結果表明,Swin Transformer模塊、插入A2-Net模塊、使用SIOU損失函數都使本網絡的性能得到提升,直接表現在mAP上的提高分別為0.94%、0.8%、0.98%。二者分別聯合插入的效果也較好,均對結果有所提升。將3個改進聯合使用時,與原YOLOv7相比提升為5.32%、5.21%、5.02%,因此表明本文改進后的網絡能力有所提升。

表2 數據集上消融實驗結果

將本文提出的模型與其他檢測模型對比,本文選擇的是與YOLOv3[16]、Faster R-CNN[17]和SSD[18]進行對比。為了驗證本文的預測速度,對FPS[19]進行了對比,實驗結果如表3所示。可以看出,在mAP上本文所提算法比另外3種中最高的Faster R-CNN高15.24%;在采集速度上,本文模型比速度較快的YOLOv3每秒還能多預測21張。本文所提的網絡在識別準確度和時效性方面都擁有較好的表現。

表3 4種預測網絡對比

為了突出本文算法對于字符檢測的優越性,從已有數據集中挑選出一組字符(V,3,S)與改進前的網絡進行對比,預測結果如圖9所示。圖9(a)為改進前的網絡所檢測出的預測結果,圖9(b)為插入3個模塊后的網絡預測結果。另外本文還對真實的加工晶圓字符圖片進行預測。

對比圖9(a)和圖9(b)可以發現,本文提出的模型對于字符“V”的預測置信度[20]提高了27%,對于字符“3”的檢測精度提高了20%,對于字符“S”的識別精度提高10%。可以觀察到,加入模塊后效果的確優于改進前的。本文還對真實晶圓上的晶圓字符進行了檢測,得到的結果如圖10所示,證明其效果的確能達到預期。

圖10 晶圓字符識別Fig.10 Wafer character recognition

4 結束語

本文在原有YOLOv7模型的基礎上,在金字塔層頭部插入了Swin Transformer增強了網絡對于全局和局部信息整合的能力,提高了對與字符圖片特征的提取;在預測頭位置插入了A2-Net注意力機制增加了自適應預測的能力,提升利用率;用SIOU損失函數替換已有的CIOU損失函數,提升了對于字符定位的能力。實驗證明,本文提出的改進對晶圓的字符識別有較好的效果。

猜你喜歡
特征
抓住特征巧觀察
離散型隨機變量的分布列與數字特征
具有兩個P’維非線性不可約特征標的非可解群
月震特征及與地震的對比
如何表達“特征”
被k(2≤k≤16)整除的正整數的特征
中等數學(2019年8期)2019-11-25 01:38:14
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
詈語的文化蘊含與現代特征
新聞傳播(2018年11期)2018-08-29 08:15:24
抓住特征巧觀察
基于特征篩選的模型選擇
主站蜘蛛池模板: 国产在线精品美女观看| 67194亚洲无码| 国产一区成人| 亚洲天堂色色人体| 2048国产精品原创综合在线| 99999久久久久久亚洲| 国产青榴视频| 扒开粉嫩的小缝隙喷白浆视频| 国产成人综合日韩精品无码不卡| 亚洲精选无码久久久| 亚洲无码精彩视频在线观看| 原味小视频在线www国产| 国产99视频在线| 久久人妻xunleige无码| 亚洲欧美不卡视频| 成人一级免费视频| 一级毛片网| 91青青草视频在线观看的| 亚洲美女高潮久久久久久久| 亚洲精品无码抽插日韩| 亚洲国产天堂在线观看| 亚洲精品无码抽插日韩| 91成人免费观看| 国产成人免费手机在线观看视频| 欧美v在线| 自拍偷拍欧美| 亚洲国产一区在线观看| 凹凸国产分类在线观看| 美女裸体18禁网站| 色综合天天操| 欧美一级黄片一区2区| 亚洲欧州色色免费AV| 不卡色老大久久综合网| 欧美日韩激情| 人人91人人澡人人妻人人爽| 成人中文在线| 在线欧美日韩| 亚洲男人在线| 久久中文字幕不卡一二区| 潮喷在线无码白浆| 日韩av无码DVD| 久久不卡国产精品无码| 毛片一区二区在线看| 国产波多野结衣中文在线播放| 国产色婷婷| 国产9191精品免费观看| 色网在线视频| 亚洲Av综合日韩精品久久久| 青青青国产视频| 国产无吗一区二区三区在线欢| 亚洲 日韩 激情 无码 中出| 欧美午夜视频在线| 久久一级电影| 国产欧美性爱网| 伊人激情久久综合中文字幕| 精品无码专区亚洲| 国产精品无码AⅤ在线观看播放| 午夜日b视频| 国产精品成人久久| 婷婷色丁香综合激情| 久久99精品国产麻豆宅宅| 国产白浆在线| 狼友av永久网站免费观看| 日韩国产综合精选| 国产 在线视频无码| jijzzizz老师出水喷水喷出| 国产99久久亚洲综合精品西瓜tv| 无码区日韩专区免费系列| 青青草原国产一区二区| 天天摸夜夜操| 免费国产在线精品一区| 亚洲av色吊丝无码| 一本大道视频精品人妻| 无码高潮喷水在线观看| 日韩精品无码免费一区二区三区 | 国产成熟女人性满足视频| 日本精品视频| 国产9191精品免费观看| 少妇极品熟妇人妻专区视频| 亚洲人成人伊人成综合网无码| 一级香蕉视频在线观看| 国产靠逼视频|