零部件光學影像精準定位的輕量化深度學習網絡

2023-10-02 07:39:10牛小明何光輝

光學精密工程 2023年17期

牛小明，曾理*，楊飛，何光輝

（1.重慶大學數學與統計學院，重慶 401331；2.長春長光辰譜科技有限公司，吉林長春 130000）

1 引言

機器視覺定位［1］是一種基于光學攝像頭或其他傳感器獲取物體位置和姿態信息，并結合算法進行數據處理，最終實現對目標物體精確定位和跟蹤的技術。該技術在工業4.0 中發揮著不可或缺的作用。在智能制造中，視覺定位技術可以用于產品或零部件的定位［2］、檢測和識別，實現產線流水線的自動化和智能化，進而大幅提升生產效能，降低人工成本。在機器人自動化裝配中［3］，視覺定位技術可以幫助機器人定位和識別零部件，實現自動化裝配。在智能物流中，視覺定位技術可以用于物品的識別［4］和追蹤，提高物流效率和準確性；在智能倉儲中，視覺定位技術可以用于物品的分類和存儲，提高倉儲效率和管理水平。

機器視覺定位技術通常包括以下幾個步驟：圖像采集、圖像預處理、特征提取、目標匹配和坐標轉換（圖像的像素坐標轉換為機器人的空間物理坐標）。在流水線自動安裝時，機器視覺定位不精準對微型芯片、高靈敏零部件、易碎且價格昂貴的屏幕等產品的影響可能會更加嚴重。具體影響包括：（1）損壞產品，機器視覺定位不準確會導致機器在操作時未能正確識別產品位置，可能會對其進行錯誤的處理或施加過大的力量，從而導致產品損壞；（2）降低產品質量，機器視覺定位不準確可能會導致產品的安裝不夠精準或位置不正確，進而導致產品質量下滑，功能異常或者壽命縮減；（3）增加生產成本，由于機器視覺定位不準確，機器需要進行額外的處理或人工干預，從而增加生產成本；（4）安全隱患，機器視覺定位不準確還可能會導致產品被放置在不正確的位置，從而產生安全隱患。對于微型芯片和高靈敏零部件等產品，錯誤的操作可能會導致電路短路等嚴重問題。因此，在智能制造生產過程中，機器視覺的定位準確性和精度起到至為關鍵的作用。

隨著人工智能的發展，深度學習方法在自動駕駛、智能安防、工業制造和醫學影像等領域得到了廣泛的應用。AlexNet［5］是深度學習在計算機視覺領域的開端，它使用深度卷積神經網絡（Convolutional Neural Network，CNN）對大規模圖像數據集ImageNet 進行分類，同時也在目標檢測領域進行了嘗試。2014 年，Girshickt［6］等提出了R-CNN（Region based Convolutional Neural Network）算法，它使用區域建議法取出候選目標區域，然后對單個區域采用CNN 進行特征提取，并利用支持向量機（SVM）實施分類，緊接著選用回歸模型對目標框實施微調，R-CNN 在PASCAL VOC 數據集上獲得了比較好的效果。SPP-Net［7］對R-CNN 算法進行了改進，引入了空間金字塔池化（Spatial Pyramid Pooling，SPP），促使網絡可以對任意尺寸的輸入圖像進行分類和檢測；對比R-CNN，SPP-Net 識別率更高且運行時間更短。Fast R-CNN［8］引入了ROI（Region of Interest Pooling）池化，使得網絡可以在整張圖像上進行前向傳播，并對每個候選區域進行分類和定位；相比R-CNN 和SPP-Net，Fast R-CNN 更快、更準確。2015 年，Ren［9］等提出了Faster RCNN 網絡，它引入區域建議網絡（Region Proposal Network，RPN）來生成候選目標框，然后再將這些框輸入到Fast R-CNN 中進行分類和定位。因其速度和準確率表現優秀，Faster R-CNN 是目前最常用的目標檢測算法之一。2016 年，Redmon［10］等提出YOLO（You Only Look Once）算法，YOLO 是一種One-Stage 的實時目標檢測算法，它將輸入圖像分成柵格，然后對每個柵格預測出多個目標框和類別概率，因此推理速度非常快。SSD［11］（Single Shot Multi-Box Detector）也是一種One-Stage 的目標檢測算法，它使用多尺度卷積特征圖來檢測不同尺度的目標，并在每個特征圖位置上同時預測多個目標框和類別概率；SSD 在速度和準確率方面都有較好的表現。2017 年，Lin［12］等提出RetinaNet 網絡，RetinaNet是一種基于Focal Loss 的目標檢測算法。Focal Loss 通過縮小易分類樣本的權重，加強難分類樣本的權重，解決了目標檢測中正負樣本不均衡的問題。相比較SSD 和YOLO，RetinaNet 的性能相對更好。Mask R-CNN［13］是對Faster R-CNN的改進，引入了Mask Head 進行實例分割，它能夠同時檢測物體的邊界框和生成物體的掩模，是目前應用較廣的實例分割算法之一。2018 年，Cai［14］等提出Cascade R-CNN 算法，它引入級聯結構進一步提升目標檢測準確率，每個級聯層都是一個獨立的分類器，用來篩選出更準確的目標框。2019 年，Zhou［15］等提出基于關鍵點檢測的ExtremeNet 網絡，它利用網絡模型檢測出目標物體上下左右方向的4 個極值點和一個中心點，并利用幾何關系找到有效點組，一組極點代表一個檢測結果，該模型有著較快的檢測速度。Li［16］等提出了多尺度目標檢測網絡TridentNet，它采用空洞卷積并設計了3 種不同尺寸感受野的并行分支，可以處理不同尺寸的物體；訓練時使用3 個分支，測試時使用1 個分支，有效解決了目標尺寸變化的問題。Zhu［17］等提出了可以根據目標尺寸自由選擇特征層的FSAF（Feature Selective Anchor-Free），針對每一個特征層，計算其損失值，使用損失值最小的特征層當作最好的特征層進行檢測，該模型較好地解決了目標尺寸變化的問題。2020 年，Tan［18］等提出了EfficientDet 網絡，它引入BiFPN（Bi-directional Feature Pyramid Network）進行多尺度特征融合，同時使用Compound Scaling 進行模型結構優化，EfficientDet 在速度和準確率方面都有很好的表現。YOLOv4［19］是在YOLOv3 的基礎上進行技術升級和迭代，包括利用SAM（Spatial Attention Module）來提升感受野響應，使用SPP（Spatial Pyramid Pooling）來增加網絡對目標的表達能力等，在COCO 數據集上的mAP50為43.5%。Sparse RCNN［20］采用一種稀疏注意力機制，目的是減少冗余計算和加速推理，在COCO 數據集上，Sparse R-CNN 在mAP50方面比Faster R-CNN 高2.5%，速度比它快5 倍以上。Beal［21］等提出了ViTFRCNN 網絡，它使用Transformer 替換骨干網絡，借助注意力機制對圖像全局特征進行編碼，基于Transformer 的ViT-FRCNN 網絡在標準數據集上獲得了出色的性能。另外，Qiu［22］等提出了BoderDet 網絡，它使用邊界對齊自適應地進行邊界特征提取，并將邊界對齊操作封裝成對齊模塊集成到FCOS（Fully Convolutional One-Stage）網絡，使用高效的邊界特征提高了重疊目標的檢測精度。Yang［23］等提出了基于邊界圓的無錨框檢測方法CircleNet，只需要學習邊界圓的半徑就可以實現目標檢測，與邊界框相比，具有優越的檢測性能和較好的旋轉一致性。2021 年，Chen［24］等提出RepPoints v2 算法，它基于Anchor-Free 的思想，利用學習目標的重心和特征點進行檢測；相比較RepPoints v1，RepPoints v2，它對網絡結構、特征提取和損失函數等實施了改進，進而提升了檢測精度和速度；在COCO 數據集上測試，RepPoints v2 的mAP50比RepPoints v1 高1.6%。Yao［25］等提出了一種端到端的檢測算法Efficient DETR，該算法利用密集先驗知識初始化檢測網絡，僅用3 個編碼器和1 個解碼器就達到了較高的檢測精度，而且提高了收斂速度。Lang［26］提出了無錨框檢測網絡DAFNe，結合中心點和角點間距預測邊界框，并將中心度感知函數擴展到任意四邊形，從而提高目標定位精度，對于旋轉目標效果更好。Ge［27］等提出了基于無錨機制的檢測方法YOLOX，它利用解耦頭將分類和回歸任務進行解耦，改善模型收斂速度的同時提高了檢測性能。2022 年，Yu［28］等使用三段級聯設計完善了目標檢測和重識別，實現每個階段注意力結構緊密特征交叉，進而使網絡從粗到細進行目標特征學習，能夠更加清晰地區分目標和背景特征。Cheng［29］等提出了AOPG（Anchor-Free Oriented Proposal Generator）網絡，它將特征圖映射到圖像上，把位于真實框中心區域的頂點作為正樣本，構建新的區域標簽分配模塊，緩解了正樣本所占比例小的問題，并且使用對齊卷積消除了特征和旋轉框之間的不對齊。Huang［30］等提出了一種無錨框自適應標簽分配策略，能夠從熱力圖中獲取任意方向和形狀的特征，自適應調整高斯權重來適配不同的目標特征，使用聯合優化損失完善非對齊優化任務，使檢測速度和檢測精度得到大幅提升。

深度學習目標檢測算法目前已初步應用在工業機器視覺中，比如制造過程中的產品缺陷檢測、工廠的異常行為檢測、工廠的安全隱患監測，指導機器人進行自動化加工、裝配等。然而，將它直接應用于零部件精準定位時存在一定的局限性：（1）經典的深度學習算法需要海量訓練數據，通常需要大量的標注數據，這對于工業零部件視覺精準定位數據采集來說是一個挑戰；（2）模型參數量大、對硬件資源要求高，經典的深度學習算法模型參數量偏大，如YOLOv3 模型參數量為162 MB，大模型意味著對硬件資源的占用也相對較多，從而需要大量的計算資源來進行訓練和推理，這對于一些小型或中小型企業來說是一個負擔；（3）穩定性問題，工業環境中極易存在噪聲和干擾，在復雜的光線和噪聲環境條件下，深度學習算法可能會出現性能下降或無法工作的情況；（4）工業零部件視覺定位精度要求高，針對零部件定位或插件、精密部件的螺孔定位等，有的定位精度要求在毫米量級，有的定位精度要求在百分之一毫米量級，在機器人、相機作用距離和相機分辨率固定的情況下對圖像的定位算法精度要求極高（2～5 pixel），而經典的深度學習算法會出現檢測框冗余及不精確，可能會導致其不能直接應用于工業零部件像素級精準定位。針對以上問題，本文構建了一種工業零部件精準定位的輕量化深度學習網絡（Industry Light Weight Localization Network，ILWLNet）。網絡整體結構采用Encoder-Decoder 架構，Encoder 采用多級bottleneck 模塊［31］，內部融入非對稱卷積和空洞卷積，可以有效降低特征提取參數，增大感受野；Decoder 中的上采樣卷積同樣融入和非對稱卷積和空洞卷積，恢復圖像的同時進一步降低模型參數；Encoder 與Decoder 對應特征層實施融合拼接，促使Encoder 在上采樣卷積時可以獲得更多的高分辨率信息，進而更完備地重建出原始圖像細節信息。最后，利用加權的Hausdorff距離構建了Decoder 輸出層與定位坐標點的關系。該輕量化深度學習定位網絡具有定位精度高、準確率高和抗干擾能力強等特性，基本滿足工業零部件精準定位的需求。

2 原理

2.1 零部件光學影像定位系統的硬件構成

圖1 為零部件光學影像定位系統的硬件組成。它主要由照明子系統、圖像采集子系統、機械運動子系統、機器人以及計算機組成。照明子系統由光源和光源控制器構成；圖像采集子系統由鏡頭、CCD 相機和圖像采集卡等構成；機械運動子系統由傳送帶、卡槽、支撐座和伺服運動系統等構成。

圖1 定位系統硬件組成Fig.1 Hardware components of localization system

2.2 工作原理

精準定位系統的基本工作原理如下：由運動控制系統對物件進行運動控制，配合卡槽位完成對物件的粗定位；光學子系統負責打光、由成像系統獲取圖像數據，經過圖像采集卡進行A/D 轉換，轉換成數字信號、送入至計算機進行零部件的像素級精準定位；將定位后的精準像素坐標經過坐標轉換為機器人的空間物理坐標，控制機器人進行精準打孔、插件等，如圖2 所示。

圖2 零部件光學影像定位系統Fig.2 Optical image localization system for industry component

3 輕量化深度學習定位網絡

3.1 網絡架構

ILWLNet 網絡結構如圖3 所示。網絡總體設計選用Encoder-Decoder 架構，Encoder 和Decoder 分別由三級Down_Block 和三級Up_Block級聯而成。每級Down_Block 由4 個配置不同的bottleneck 模塊串聯構成；每級Up_Block 對輸入數據進行上采樣卷積后與對應的Down_Block 輸出數據進行padding，并送入至conv_async 模塊，促使Encoder 在進行上采樣卷積時可以獲得更多的高分辨率信息，進而更完整地重建出原始圖像的細節信息。目標點的個數由Encoder 輸出特征圖與Decoder 輸出語義層經過全連接、拼接、全連接回歸獲得。最后，利用加權的Hausdorff 距離建立Decoder 輸出語義層與定位坐標點的關系，并結合回歸的目標點數量偏差構建最終的損失函數形成閉環訓練；推理階段，Decoder 輸出語義層經過Otsu 分割即可得到最終的零部件精準定位坐標。

圖3 輕量化深度學習定位網絡結構Fig.3 Lightweight deep learning localization network architecture

ILWLNet 網絡算法流程如圖4 所示，包括Encoder、Decoder、目標點數量回歸和目標點位置回歸。

圖4 輕量化深度學習定位網絡算法流程Fig.4 Flowchart lightweight deep learning localization network algorithm

Encoder 流程如下：輸入的圖像首先歸一化成3×256×256，經過conv_async 輸出16×256×256 的特征圖，記為X1，其中conv_async 內部進行了1×1 的投影卷積和3×1，1×3 的非對稱卷積，得到初級特征圖的同時，降低了直接卷積的運算量和模型參數；其次，經過Down_Block_1 模塊得到32×128×128 的特征圖，實現下采樣和進一步的深度特征提取，記為X2，其中Down_Block_1 內部包含bottleneck_1_0，bottleneck_1_1，bottleneck_1_2 和bottleneck_1_3 四個模塊，具備降采樣、低卷積運算量和拓展感受野的能力，多級串聯也提升了網絡整體的非線性擬合能力；再次經過Down_Block_2 模塊得到64×64×64 的特征圖，記為X3，其中Down_Block_2 內部包含bottleneck_2_0，bottleneck_2_1，bottleneck_2_2 和bottleneck_2_3 四個模塊，功能同Down_Block_1；最后，經過Down_Block_3 模塊得到64×32×32 的特征圖，記為X4，其中Down_Block_3 內部包含bottleneck_3_0，bottleneck_3_1，bottleneck_3_2 和bottleneck_3_3 四個模塊，功能同Down_Block_1。

Decoder 流程如下：首先，特征圖X4和X3作為參變量進入至Up_Block_1 模塊，得到32×64×64 的語義圖Y1，其中Up_Block_1 內部實現X4上采樣并與X3特征拼接、拼接后的特征圖進入conv_async 模塊，Up_Block_1 具備上采樣、低卷積運算和多特征融合能力，促使Encoder 在進行上采樣卷積時可以獲得更多的高分辨率信息；其次，語義圖Y1和特征圖X2作為參變量進入Up_Block_2 模塊，得到16×128×128 的語義圖Y2，功能實現同Up_Block_1；最后，語義圖Y2和特征圖X1作為參變量進入至Up_Block_3 模塊，得到8×256×256 的語義圖Y3。

目標點數量回歸：特征圖X4與語義圖P分別經過全連接得到Branch2 的B2和Branch1 的B1，經過特征拼接及全連接回歸得到最終的定位目標點數量。

目標點位置回歸：Decoder 得到的最終語義圖P可以體現每個坐標點的激活概率值，但是并不能直接返回預測目標點坐標；通過3.3 節構建的加權Hausdorff 距離損失函數，將預測點坐標與語義圖P進行關聯，再次融合目標點數量預測誤差，利用3.4 節構建的最終損失函數進行閉環訓練。模型閉環訓練收斂且達到指定誤差后，推理階段將語義圖P經過Otsu 分割即可得到最終的目標點位置。

3.2 模塊結構

圖5 介紹了ILWLNet 網絡的通用網絡模塊和外層網絡模塊。通用網絡模塊：conv_async 包含1×1 投影卷積、3×1 與1×3 的非對稱卷積（內置空洞卷積），實現淺層特征提取同時降低了直接卷積的運算量。外層網絡模塊：Down_Block_i包含bottleneck_i_0，bottleneck_i_1，bottleneck_i_2 和bottleneck_i_3 四部分，具備降采樣、低卷積運算量和拓展感受野的能力，多級串聯可提升網絡整體的非線性擬合能力；Up_Block_i 內部包含上采樣、特征拼接和conv_async 模塊，具備特征尺寸擴張、低卷積運算和多特征融合能力。

圖5 外層網絡模塊結構Fig.5 Structure of outer network module

圖6 介紹了ILWLNet 網絡的內層網絡模塊。bottleneck_i_0：左鏈路包括MaxPooling2D 和Padding 模塊，右鏈路包含2×2 卷積（步長為2）、3×3 卷積、1×1 擴張卷積和Dropout2d，兩條鏈路特征相加并經過PReLU 輸出，各個卷積模塊后面都追加BatchNorm 和PReLU 模塊用于提升非線性能力和降低過擬合風險。bottleneck_i_1：右鏈路包括1×1 投影卷積、3×3 卷積、1×1 擴張卷積和Dropout2d，直通的左鏈路與右鏈路特征相加并經過PReLU 輸出；各個卷積模塊后面都追加BatchNorm 和PReLU。bottleneck_i_2：右邊鏈路包括1×1 投影卷積、3×3 空洞卷積、1×1 擴張卷積和Dropout2d，直通的左鏈路與右邊鏈路特征相加并經過PReLU 輸出；各個卷積模塊后面都追加BatchNorm 和PReLU。bottleneck_i_3：右鏈路包括1×1 投影卷積、5×1 和1×5 的非對稱卷積、1×1 擴張卷積和Dropout2d，直通的左鏈路與右鏈路特征相加并經過PReLU 輸出；各個卷積模塊后面都追加BatchNorm 和PReLU。

圖6 內層網絡模塊結構Fig.6 Structure of inner network modules

3.3 加權Hausdorff 距離

本文的損失函數構建來源于Hausdorff 距離［32］。X，Y是兩個無序的點集，d(x，y)表示兩個點集X，Y之間的距離，其中，x∈X，y∈Y，本文采用歐氏距離。X，Y擁有的點的數量可以不同Ω?R2表示包含所有可能點的空間，則集合X?R 與集合Y?R 的Hausdorff 距離定義為：

其中：

Hausdorff 距離的最大短板是對輪廓上的點的距離計算相對敏感［33］。為了優化這個問題，通常采用加權的Hausdorff 距離，如下：

其中：|X|，|Y|分別為集合X，Y點的數量，在本文中，Y表示圖像目標定位點坐標標簽集合，X表示預測的圖像目標定位點坐標集合。

語義圖P可以得到每個點的激活概率值，但是并不能返回預測點的坐標。為了建立語義結果與坐標點最終的聯系，采用加權Hausdorff 距離（Weighted Hausdorff Distance，WHD）函數進行構建，即：

這里ε設定為10-6，Mα為廣義均值函數，px∈[0，1]為語義圖P中每個坐標對應的概率值。

3.4 損失函數

為了訓練整個ILWLNet，結合加權Hausdorff 距離函數和回歸的點的數量差，構建ILWLNet 整體損失函數如下：

其中：G為圖像的標簽包含目標點的坐標和目標數量，C=|G|，為預測的目標點數量。

Lreg(x)為回歸項，這里采用L1平滑函數。

4 實驗與結果分析

4.1 實驗數據集與訓練策略

為了充分驗證ILWLNet 的性能，本文選用3 組數據集。數據集一：筆記本螺孔定位數據集，原始數據共358 張，原圖與中心點坐標融合后的示例圖見圖7 的第一行。數據集二：筆記本螺孔定位數據集，原始數據共318 張，原圖與中心點坐標融合后的示例圖見圖7 的第二行。數據集三：紗車機定位數據集，原始數據共529 張，原圖與中心點坐標融合后的示例圖見圖7 的第三行。

圖7 數據集示例Fig.7 Dataset sample

ILWLNet 訓練和測試的模型均運行在Ubuntu16.04 操作系統的工作站上。硬件的具體配置如下：CPU，Intel Xeon（R）CPU E5-1650 V4 3.6 GHz 12 核；內存，32 GB，顯卡，Nvidia Ge-Force 1080Ti；軟件配置如下：CUDA，10.0；cuDNN，7.6.1.34；深度學習框架，PyTorch 1.0.0；Python，3.6 版本。選擇Loss 值最小的模型作為單次測試驗證的最優模型，實驗模型超參數配置如表1 所示。

表1 模型超參數設置Tab.1 Model super parameter setting

4.2 評價指標

為了充分驗證ILWLNet 的性能，本文利用Precision，Root Mean Squared Error（RMSE）和Mean Average Hausdorff Distance（MAHD）進行衡量。其計算公式如下：

其中：TP（True Positive）表示預測正確，實際為真；FP（False Positive）表示預測錯誤，實際為真；FN 表示預測錯誤，實際為假；TN 表示預測正確，實際為假；N表示測試集的數量，Ci表示第i 張圖片中實際目標的個數，表示預測的第i張圖片目標個數。

4.3 實驗結果與分析

4.3.1 對比分析

在本次實驗中，綜合考慮不同配比的訓練數據對模型定位性能的影響，對訓練數據、驗證數據和測試數據選用以下配比進行實驗，Train∶Val∶Test 分別設置為10%∶10%∶80%，20%∶10%∶70%，30%∶10%∶60%，40%∶10%∶50%，50%∶10%∶40%，60%∶10%∶30%，70%∶10%∶20%，80%∶10%∶10%，在圖8 和圖9 的Loss 曲線圖中分別對應loss_1～loss_9。使用ILWLNet 算法訓練，對8 種不同配比的數據訓練并將訓練過程Loss 值作可視化處理，以利于分析訓練過程中損失函數Loss 值的變化情況。

圖8 數據一訓練的loss 曲線Fig.8 Trainning loss curves of dataset one

圖9 數據二訓練的loss 曲線Fig.9 Trainning loss curves of dataset two

如圖8 和圖9 所示，兩種數據集在訓練中Loss 值的整體變化趨勢一致，隨著訓練數據量的增加，收斂速度越快。其中，訓練數據大于等于40%，200 次迭代后基本收斂，然后逐漸趨于穩定，但依然出現小幅震蕩；訓練數據大于等于20%且小于等于40%，600 次迭代后基本收斂，然后逐漸趨于穩定；訓練數據占比10%，1 000 次訓練后仍會收斂。結合表3 和表4，雖然訓練樣本集在20%比例時，推理結果可以得到98%以上，但是為了達到定位精度小于等于5 pixel 的識別率大于等于99.5%，訓練樣本比例建議大于等于50%。與深度學習所需要的海量數據相比，ILWLNet 只需要150 張左右相對較少的數據即可收斂到很好的效果，更適用于工業智能制造的實際應用場景。

本文以Precision，MSE 和MAHD 作為評價指標，計算不同配比的訓練數據在1 000 迭代后得到最優的收斂模型用于ILWLNet 推理，推理計算得到測試集的Precision 和RMSE 值；其中，訓練集、驗證集和測試集數據三者無交集。判定為定位準確的參數條件為：推理得到的中心點坐標與標簽的中心點坐標均方差誤差小于等于5，結果如表2 和表3 所示。

表2 ILWLNet 在數據集一中的定位測試結果Tab.2 ILWLNet localization test results on dataset one

表3 ILWLNet 在數據集二中的定位測試結果Tab.3 ILWLNet localization test results on dataset two

通過表3 和表4 可以看出，ILWLNet 網絡可以進行零部件的精準定位。當訓練數據占比在20%以上時，定位誤差小于等于5 pixel 可以取得至少98%的準確率，平均準確率高于99%；當訓練數據集在50%及其以上時，定位誤差小于等于5 pixel 的準確率可以達到100%。隨著訓練數據的增加，測試推理得到的RMSE 和MAHD 誤差值呈整體變小的趨勢。相比較經典的深度學習網絡（YOLO3，162 MB），ILWLNet 模型的參數量非常少，只有57.4 kB。這是由于ILWLNet 網絡的Decoder 和Encoder 的層級較少，均為3 層，利用Bottleneck 技術代替直接的卷積方式且內部融入了非對稱卷積和空洞卷積，因此模型參數量非常小。利用構建的加權Hausdorff 距離將輸出的語義概率圖與定位坐標點進行關聯并構建Loss 函數進行閉環回歸，ILWLNet 能夠用于零部件的精準定位。另外，ILWLNet 網絡采用Up_Block 與Down_Block 的對應特征層融合以及多級Bottleneck 級聯，不僅提升了整體網絡的非線性而且較好地恢復了原始圖像的細節信息，配合構建的加權Hausdorff 距離，表明ILWLNet得到了非常理想的定位精度。由于構建的ILWLNet 模型參數較小，僅需相對較少的樣本訓練即可取得比較好的結果，通過表2 和表3 的不同配比實驗定位結果得到證實；因此，ILWLNet 亦可適用于小樣本訓練，進而滿足工業光學影像定位的小樣本實際需求。

表4 ILWLNet 推理時間測試結果Tab.4 Test results of ILWLNet inference time（ms）

表4 展示了ILWLNet 推理時間測試結果，測試圖片共100 張；其中，ILWLNet 網絡前向推理平均時間為8.34 ms/frame，閾值分割的平均時間為86.58 ms/frame，ILWLNet 的整體運行時間平均為94.92 ms/frame，滿足工業光學影像精準定位的200 ms/frame 需求。

4.3.2 測試集定位結果與分析

在閉環1 000 次迭代訓練過程中，最小loss值對應的模型記為ILWLNet 在該次訓練過程的最優模型。為了檢驗ILWLNet 網絡的實際定位效果，利用3 組測試集數據進行驗證。圖10～圖12 分別顯示了數據集一、數據集二和數據集三的定位結果。其中，第一行顯示的是原始圖、第二行顯示的是語義概率圖P 經過歸一化得到的結果、第三行顯示的是語義概率圖P 經過Otsu 閾值分割后的二值圖、第四行顯示的是原圖加載預測中心點后的融合圖。

圖10 數據集一的測試定位結果Fig.10 Localization test results on dataset one

從第二行可以看出，ILWLNet 通過Encoder-Decoder 架構可以還原出原圖（圖像復原，用于缺陷檢測［34］）及其語義信息（語義分割［35］），Decoder的輸出語義概率圖P 呈現了完整的原圖信息；另外，ILWLNet 將預測語義概率圖P 與定位中心點坐標通過加權Hausdorff 距離進行了有效關聯，因此，概率圖中的螺孔中心點區域灰度明顯高于圖片中的任何其他區域，從而可以通過Otsu 自適應分割方法將中心點區域精準分割出來。第三行呈現了語義概率圖P 經過Otsu 自適應分割后的結果，可以看出除中心點區域為白外，圖片中的其他區域均為黑，因此得到的中心點坐標不會發散。

圖10 左一的螺孔內部受到光照（拍攝角度和光線）的影響，小部分區域呈現黑色；左二的外殼的最左邊沒有拍攝清楚，整體呈現黑色，與其他圖相差較大。圖11 右一和右二的螺孔最里面白色內圈明顯不圓（拍攝角度影響）。此類圖片如果采用傳統的圓擬合、模板匹配等方法，定位結果會大打折扣。仿真及實測結果表明，ILWLNet算法不僅可以對正常的零部件樣本進行精準定位，而且對受到光線干擾、部分缺損的零部件圖片的定位效果仍然很好。

圖11 數據集二的測試定位結果Fig.11 Localization test results on dataset two

圖12 為紗車機圖像定位結果。此組圖像受光照影響較為嚴重，四組圖像均出現明顯的反光，右二和右一的矩形中心孔周圍受到了強光干擾；另外，圖片中的矩形孔并不唯一，利用傳統模板匹配方法可能會出現誤匹配，再疊加光照的影響，傳統定位算法性能會受到嚴重影響。通過仿真及實測的結果可以看出，ILWLNet 算法不僅適用于圓形的零部件定位，而且適用于其他樣式的零部件精準定位，同時兼顧較好的抗干擾效果。

圖12 數據集三的測試定位結果Fig.12 Localization test results on dataset three

4.4 消融實驗

為了驗證 conv_async，Down_Block_1，Down_Block_2，Down_Block_3，Up_Block_1，Up_Block_2，Up_Block_3，特征拼接融合（Encoder 與Decoder 對應層padding 及融合，記為Fusion）以及WHD 對模型性能的影響，對ILWLNet進行消融研究，實驗結果如表6 所示。測試數據選用數據集一，其Train∶Val∶Test 數據集比例選用50%∶10%∶40%。

通過表5 可以看出：不包含WHD 模塊，ILWLNet 算法不收斂，表明WHD 模塊可以有效關聯輸出語義概率圖P 與定位坐標點的關系。配置一：只配置WHD 模塊，其他模塊中的卷積均采用經典的3×3 卷積，此時模型大小為85.1 kB，識別率為87.94%，說明本文架構不采用多級bottleneck 級聯仍可以收斂，不過相比較ILWL-Net，模型參數量增加了27.7 kB，定位準確率降低了12.06%。配置二：只配置Fusion 以及WHD 模塊，其他模塊同配置一，模型大小為109 kB，識別率為93.62%；相比較配置一，通過Encoder 與Decoder 對應層的融合使得識別率提升約5.68%，但是模型參數增加了接近24 kB，表明相對較大的模型在充分訓練后一定程度上可以取得相對較好的識別效果。配置三：配置conv_async，Down_Block_1，Down_Block_2，Down_Block_3，Fusion 和WHD 模塊，相比較配置一準確率提升4.97%，模型大小減小7.1 kB，表明bottleneck_i 模塊可降低模型參數量，同時多級bottleneck_i 模塊級聯增加了網絡的非線性，可提升識別率。配置四：采用conv_async，Up_Block_1，Up_Block_2，Up_Block_3，Fusion和WHD 模塊，準確率基本不變，略微下降，模型參數減小9.4 kB，表明Up_Block 中的非對稱卷積和空洞卷積起到了降低模型參數量的作用，但是沒有與Encoder 的對應層融合，對識別率提升沒有太大影響。配置五：ILWLNet 算法中去掉Fusion 模塊，其他模塊同配置一，模型參數量相比配置一降低了30.3 kB，但是識別率卻降低了2% 左右，表明Down_Block 的bottleneck_i 模塊以及Up_Block 融合的conv_async 模塊可有效降低模型參數量，Fusion 模塊對于網絡整體性能的提升起到了很大的作用；通過配置一和配置二的比較，Fusion 模塊提升4.97%的識別率（各模塊內部卷積均為常用的3×3 卷積），而相比較ILWLNet，配置五的識別率卻降低了14.2%左右，表明conv_async、Down_Block、Up_Block 和Fusion 模塊的級聯進一步提升了整體ILWLNet 的非線性及識別性能。

表5 不同策略對模型性能的影響對比Tab.5 Comparison of impact of different strategies on model performance

5 結論

本文根據現代工業光學影像定位精度高、占用資源小、抗干擾好、速度快的要求，構建了零部件視覺精準定位的輕量化深度學習網絡，并介紹了零部件光學影像定位系統的硬件結構和工作原理。然后，闡述了輕量化深度學習定位網絡的架構、模塊結構、加權Hausdorff 距離及其損失函數。實驗結果表明：輕量化深度學習定位網絡模型參數為57.4k；通過實際產線數據仿真，訓練數據集多于150 張，定位精度小于等于5 pixel 的識別率不小于99.5%，基本滿足工業零部件定位的精度高、準確率高和抗干擾能力強等要求。仿真測試表明，ILWLNet 已經在筆記本螺孔和紗車機實際工業產線數據中取得了較好的識別率和定位精度，可是后續將ILWLNet 進行產線實際應用，需要考慮數據的泛化性，即需要更多不同種類的產線定位數據集進行驗證以及上線測試。此外，ILWLNet 的推理時間大多消耗在Encoder-Decoder 階段后的Otsu 自適應分割流程中，因此后續會對其進行進一步優化，提升推理速度。