熊希曦, 王旭紅, 文藝
(長沙理工大學電氣與信息工程學院, 湖南 長沙 410004)
目前城市配電網的中低壓線路中(即10 kV 及以下電壓等級) 通常是架空絕緣電纜安裝。 但是在檢修電纜及設備時, 為了保障檢修人員的人身安全需要驗明線路無電后掛設接地保護線。 如果是配電網人工帶電將接地線掛上接地環, 工作人員往往需要穿上密不透風的絕緣服、 隨身攜帶各種設備工具, 在高空長時間作業, 危險性高且作業效率低[1]。 因此采用帶電作業機器人代替人工作業,而如何實現接地環的精準識別與定位是實現機器人作業的重點與難點。
基于深度學習的目標檢測方法在配電網金具識別領域應用越來越廣泛[2-3]。 王素珍等人采用改進后的YOLOv5 算法對絕緣子進行了識別[4]; 武建超等人在YOLOv4-tiny 的基礎上引入了空洞空間卷積池化金字塔模塊, 這種改進后的網絡實現了輸電線路典型目標的識別[5]; 戴永東等人將改進后的Faster-RCNN 網絡運用在均壓環和絕緣子識別范疇[6]。 以上這些目標檢測算法很難同時兼顧檢測的速度與精度。 本文提出一種改進的YOLOX-S 配電網接地環視覺識別方法, 在保留目標檢測算法速度的同時, 提高檢測的精度。
在目標測距與定位方面, 陳遠設計了基于超聲波傳感的目標定位系統[7]; 雷艷敏等人采用激光測距儀對動靜態目標進行了位置檢測[8]; 王澤民等人利用單目視覺進行目標測距并分析了影響精度的因素[9]。 這些基于超聲波技術、 紅外技術、 激光技術的測距方法魯棒性差且成本高。 采用單目視覺進行測距的條件過于理想, 不切合實際, 而雙目視覺就很好地解決了這一問題, 二者相比, 雙目視覺在測距定位領域的應用精度更高。 因此, 本文提出一種基于雙目視覺的配電網接地環定位方法。
本文提出的基于改進YOLOX-S 的接地環識別方法和基于雙目視覺的接地環定位方法, 可降低帶電作業的難度和安全風險, 提高配電網帶電作業的自動化水平。
2021 年, YOLOX 算法的提出, 將目標檢測領域的解耦頭、 無錨框、 數據增強及標簽分類等進行了巧妙的運用。 YOLOX 算法的輸入為640×640 的三通道圖像, 輸入圖像經過主干特征提取網絡(CSPDarknet) 進行淺層特征提取[10], 然后傳入到PAFPN 特征利用層, 由PAFPN 對三個維度的特征圖進行特征融合, 最后傳入到三個Decoupled Head, 置信度和回歸框都由Decoupled Head 實現,在預測時合成為一體, 將三個預測結果進行組合。各個特征層的輸出:h、w、x、y、Fobj、Fcls, 其中前四個參數用來確定每個特征點的回歸參數, 以便獲得預測框位置; 第五個參數用來判斷每個特征點是否包含物體; 最后一個參數用來判斷每個特征點所包含物體的類別[11]。 YOLOX 相比于之前的YOLO 系列最大的進步就是實現了anchorfree, 而這一突破得益于SimOTA, 即動態樣本匹配,SimOTA 為每個正樣本分配一個GT 框, 讓正樣本去擬合該GT 框, 起到替代anchor 方案去擬合anchor的作用。 圖1 為YOLOX 的網絡結構圖。 YOLOX 根據參數量的不同分為YOLOX-S、 YOLOX-M、YOLOX-L、 YOLOX-X, 其中YOLOX-S 由于參數量最少而被廣泛應用。

圖1 YOLOX 網絡結構圖
為提升YOLOX-S 模型的檢測速度和精度, 分別從網絡結構和損失函數兩部分對此模型進行改進。
1.2.1 網絡結構
為了充分利用圖像的底層信息, 將頸部的PAFPN 特征利用層用BiFPN 網絡替代, 以提高檢測精度。 PAFPN 是一種均衡對待各個尺度的特征融合方式, 但不同輸入特征的分辨率是不同的, 而且他們對輸出特征的付出也是不同的[12], 為處理好這種情況, BiFPN 為每個輸入引入了權重, 更好地協調不同尺度的圖像特征。
BiFPN 網絡結構如圖2 所示, 藍色箭頭代表下采樣, 紅色箭頭代表上采樣。P3—P7為五個輸入特征(在圖像矩陣中), 在進行下采樣、 上采樣和融合之后得到五個輸出特征。 BiFPN 網絡為每個特征分支提供一個權重值, 如式(1), 通過網絡的自學習得到最佳權重值。

圖2 BiFPN 網絡結構
式中,I、O分別表示輸入和輸出特征, 使用ReLU函數使得ωi≥0,ε取極小值0.000 1 來保證數值穩定。
因為YOLOX-S 的主干特征提取網絡是對中間層、 中下層和底層進行特征提取, 輸出為三個特征分支, 而BiFPN 網絡的輸入為五個特征層, 所以必須對BiFPN 網絡加以簡化。 經過改進后的BiFPN網絡結構如圖3 所示, 輸入為三個特征層, 輸出也是三個特征層[13], 這不但適應了YOLOX-S 網絡結構, 還降低了模型的計算量。

圖3 改進后的BiFPN 網絡結構
結合式(1) 可以得到各節點輸出特征的計算公式, 如式(2) — (5)。
式中,Conv為卷積和多項式乘法的函數; 下標u、d 分別為上采樣和下采樣操作;ω表示權重。 改進后的YOLOX 網絡架構如圖4 所示。

圖4 改進后的YOLOX 網絡整體結構圖
1.2.2 損失函數
使用GIoU 作為定位損失函數。 原YOLOX 是使用IoU 作為邊界框損失函數, 將IoU 同時作為度量和損失函數時, 會產生兩個問題。 第一, 若兩個目標之間沒有重合的部分, 這時IoU 就為0, 無法正確反映兩個目標之間的距離; 若將這種情況下的IoU 作為定位損失函數, 梯度就會為0, 因此無法實現優化訓練。 第二, 不同方向上有相同重合水平的兩個對象的IoU 會完全相同[14], 因此無法確定這兩個對象間的對齊方式。 為了處理這兩個問題,引入GIoU-Loss 作為定位損失函數。 GIoU 函數和GIoU-Loss 公式如式(6)、 (7) 所示。
圖5 為GIoU 示意圖, 其中,C表示能同時包住A和B的最小包圍框。 GIoU 作為度量時具備如下五個特性: 1) GIoU 作為距離時, GIoU-Loss 具有非負性、 對稱性、 三角不等性和不確定性;2) GIoU具有尺度不變性, 即對尺度不敏感[15];3) GIoU(A,B) ≤IoU(A,B) , 當A和B形狀相似且無限接近時,;4)-1 ≤GIoU(A,B) ≤1; 5) GIoU 函數不僅考慮了A和B不重疊的情況, 而且能夠體現A和B重疊時的方式[13]。

圖5 GIoU 示意圖
1.2.3 置信度預測損失函數
使用Focal Loss 作為置信度預測損失函數。 原YOLOX 利用二元交叉熵損失作為置信度預測損失,出現了正負樣本不均衡問題。 因此使用Focal Loss來達到兩階段檢測算法的精度并保留一階段檢測算法的速度。 Focal Loss 函數的表達式如式 (8)所示。
Focal Loss 就是在二元交叉熵損失的基礎上增加了αt和兩項,其中,用來調整難易分類樣本的比重,αt對經過系數衰減后的損失再進行調整。
數字圖像成像原理就是小孔成像。 任何一個點接收到光照以后就會向四周輻射光源, 當一條光線穿過一個擋板小孔時, 就會落在背面感光面的一點上。 如果觀測場景中的每個點都有一條光線穿過小孔落在感光面上, 那么感光面上就形成了一個和觀測世界完全對應起來的像。
雙目視覺是利用兩個攝像頭模擬人的雙眼對同一物體形成視差, 從而能夠感知到三維世界。 雙目立體成像的實現是基于視差原理, 模型如圖6所示。

圖6 三角測量原理
兩臺相機的像平面精確處于同一平面上, 且光軸嚴格平行, 間距一定, 焦距相同fx=fy, 并且左主點和右主點已經過校準, 即主點在左右圖像上像素、 坐標一致。 模型中的兩幅圖像是對準的, 并且每一行是嚴格對準的, 具有一致的方向和列坐標。假設物理世界中的點P在圖像上的成像點為Pl和Pr, 相應的橫坐標分別為xl和xr[16]。 兩個相機的投影中心的連線叫作基線, 用b表示。 根據三角形相似原理有式(9):
解得
式中,xl - xr稱為視差, 用d表示。 則式(10) 可改寫成:
由上式可知, 由于b、f是已知的, 只要求得某點的視差即可得到該點的深度信息。
相機的外參數是指相機坐標系相對于世界坐標系的一個旋轉平移矩陣參數, 包括三個自由度的旋轉矩陣和三個自由度的平移矩陣, 從世界坐標系到相機坐標系的轉換是一個三維空間到三維空間的轉換[17]。 內參數通常是指相機內部的參數, 包括主點、 主距、x軸和y軸方向的像素尺寸及畸變參數。 各坐標系之間的轉換關系如圖7 所示。

圖7 各坐標系及其轉換示意圖
世界坐標系到相機坐標系的轉換:M表示世界坐標系中的一點,m表示像平面坐標系中對應的點。 利用一個旋轉矩陣和一個平移矩陣可以實現三維空間的坐標變換, 即一個三維目標點在世界坐標系和相機空間坐標系下的轉換關系可以通過一個旋轉和一個平移矩陣運算得到。
式中,C為相機空間坐標系中的一個點;W為世界坐標系中的一個點;t=- RC。
暫時不考慮畸變因素的影響, 相機空間坐標系和像平面坐標系的關系存在一個相似性變換, 如式(12) 所示。
像平面坐標系到像素坐標系的轉換: 定義主點O的像素坐標為(u0,v0), 從像平面坐標系轉換到像素坐標系存在一個比例, 此比例和像素的物理尺寸相關。 世界坐標系到相機坐標系以及相機坐標系到像平面坐標系的轉換都是在物理坐標系[18](以m 或者mm 為單位) 下, 但是從像平面轉換到像素平面就存在一個像素對應多少單位長度的問題,px、py代表一個像素在物理尺寸上的寬和高,利用這兩個量可以把坐標值從物理尺寸過渡到像素整形尺寸, 如式(13) 所示。 像平面坐標系與像素坐標系之間的轉換如圖8 所示。 由于加工的問題, 感光元器件可能不是一個絕對的正方形, 而是一個平行四邊形。

圖8 像平面坐標系到像素坐標系的轉換示意圖
把上式簡化得:
式中,f為焦距;fx、fy是以像素為單位的在行和列方向上測量的焦距尺寸;s是由非矩形像素引起的傾斜因子, 由于傾斜角α很小, tanα接近于0, 通常s=0[19]。 上述的上三角矩陣稱為內參矩陣, 并使用符號K表示。
綜合公式(11) 和(14), 場景中的三維點M(XM,YM,ZM) 投影到二維像素平面上的點m(um,vm) 的投影方程可以表示如下:
即:
式中,K表示內參數矩陣;R表示外參數的旋轉矩陣;t表示外參數的平移矩陣;K(R t) 組合起來構成相機矩陣。
相機標定的目的是利用給定物體的參考點坐標(x,y,z) 和像素坐標(u,v) 來確定相機內部的幾何學結構和光學特征(內部參數), 以及相機的三維世界坐標關系(外部參數)。 最常見的相機標定方法是傳統的相機標定法, 在一定相機模型下, 基于特定的試驗條件(如形狀、 尺寸等已知的參照物進行圖像處理、 數學變換等) 求取內外參數的過程。 但是這種方法需要經常調整相機的需求和設置已知參照物, 存在不現實、 適應性差的缺點。 為克服傳統相機標定法的缺點, 張正友博士對這種方法進行了改進并提出了張正友標定法。 該方法介于傳統相機標定法和自標定法之間, 既解決了傳統相機標定法需要高精度三維標定物的不足, 又克服了自標定法魯棒性差的難點。 標定過程只需使用一個打印出來的棋盤格, 并在各個方位拍攝幾組照片即可, 不僅實用、 靈活、 方便, 而且精度更高、 魯棒性更強。 因為棋盤格相對于三維物體更容易處理, 從而選擇棋盤格作為標定物。 與此同時,相對于三維物體, 二維物體會缺少部分信息, 因此通過多次改變棋盤格的方位來捕獲圖像, 以獲得更豐富的位置信息。
完成相機內外參數求取后, 標定鏡頭畸變。 張正友標定法只考慮了畸變模型中有較大影響的徑向畸變, 根據最小二乘法求解徑向畸變系數[20]。 至此, 相機的內參、 外參和畸變系數已被全部求出,但直接求取結果只能作為初值。 接著, 根據實際的像素坐標和計算得到的像素坐標計算重投影誤差,最小化重投影誤差, 反復迭代相機的內外參數和畸變系數直至收斂。
立體匹配算法是通過最小化能量代價函數來估計像素點視差值。 按照采用的最優化理論方法的不同, 將立體匹配算法分為局部匹配算法和全局匹配算法、 半全局匹配算法。 局部匹配算法的匹配精度低但速度快, 全局匹配算法的匹配精度高但速度慢, 而半全局匹配算法正好介于二者之間。 半全局匹配算法的代表有雙目立體匹配 (semi-global block matching, SGBM) 算法, 本文采用此算法來完成雙目左右圖像的立體匹配。 半全局算法利用多個方向上的信息減少或消除視差突變處產生的錯誤信息干擾。 SGBM 算法通過圖像上多個方向的一維路徑約束來建立全局馬爾可夫能量方程, 從而獲得每個像素的匹配代價, 即所有方向路徑信息的總和。 SGBM 算法的匹配代價函數如下:
式中,L(p,d) 為當前路徑積累的代價函數;d為視差;c(p,d) 為像素點p以d為視差的代價;r為指向像素點p的路徑方向;P1是像素點與相鄰點視差存在較小差異時的平滑懲罰系數,P2是像素點與相鄰點視差存在較大差異時的平滑懲罰系數, 又因為P1 3.1.1 試驗環境 將改進后的YOLOX-S 模型部署在上位機上,從而控制帶電作業機器人對配電網接地環進行識別試驗, 試驗設備及型號見表1。 3.1.2 數據集與預處理 對于接地環識別方法, 為了使模型具有更好的效果, 采集1 083 張包含接地環的圖像作為數據集。 對數據集進行縮放、 旋轉、 翻轉、 平移等預處理, 如圖9 所示, 數據集擴充到5 415 張, 標簽為ground_ring。 對數據集按9 ∶1 的比例分配訓練集與測試集, 其中將訓練集的20%作為驗證集。 圖9 數據集擴充 3.1.3 訓練過程 為了節約時間和資源, 采取凍結訓練的方式,共迭代300 次, 訓練參數見表2。 表2 訓練參數 從表2 可以看出, 前100 次迭代采用凍結訓練, 批量樣本數為8, 學習率為10-3; 后200 次迭代采用解凍訓練, 批量樣本數為4, 學習率為10-4, 訓練的整個過程都采用Adam 優化器。 訓練過程的損失函數曲線如圖10 所示。 圖10 損失函數曲線 從圖中可以看到, 訓練集損失和驗證集損失在前25 次迭代都急劇下降, 在第25 次迭代到第100次迭代之間下降緩慢, 在第100 次迭代之后趨于收斂, 訓練集損失和驗證集損失都收斂于0.67。 3.1.4 試驗結果分析 為了評價改進后的YOLOX-S 網絡的性能優劣, 采用平均精度(AP)、 召回率(Recall)、 模型大小、 推理時間作為評價指標。 其中, 召回率(Recall) 表示被預測為正樣本的數量與所有正樣本數量的比值。 根據每個召回率可以獲得對應的最大精確率, 把所有正樣本的最大精確率取平均值就是平均精度(AP)。 圖11 (a) — (d) 4 組圖像分別是原圖及經過YOLOv5s 模型、 YOLOX-S 模型、 改進YOLOXS 模型測試的結果, 可以看出YOLOv5s 模型對于從側面傾斜拍攝的接地環出現了漏檢情況,YOLOX-S 模型對非接地環物體產生誤檢。 對表3分析可得, 改進后的YOLOX-S 模型的平均精度比改進前提升了約5%, 比YOLOv5s 模型提升了約6%, 達到了96.98%; 召回率亦是三種模型中最高的。 雖然改進后的YOLOX-S 模型比其他兩種模型略大, 但是每幀推理時間相當。 表3 模型性能分析 圖11 接地環識別結果 按照雙目測距原理、 坐標系轉換關系及相機標定、 畸變校正和立體匹配方法完成試驗, 其中世界坐標系與左相機坐標系重合, 雙目測距的流程如圖12 所示。 圖12 雙目測距流程 張正友標定法通過固定相機拍攝不同位置和姿態的平面標定板, 建立三維世界坐標與二維像素坐標之間的關系。 對線性求解的相機內外參數和畸變系數通過Levenberg-Marquardt (LM) 算法進行非線性參數優化, 理論精度高, 有利于提升定位精度。 因此, 選用張正友標定法對雙目相機進行標定, 建立相機成像幾何模型并校正鏡頭畸變。 表4、 表5 分別給出了雙目相機內參矩陣和畸變系數、雙目相機外參矩陣。 表4 雙目相機內參矩陣和畸變系數 表5 雙目相機外參矩陣 校正后的圖像利用SGBM 算法進行立體匹配,得到各個像素點的視差, 從而根據式(10) 得到各點深度。 對采集到的接地環圖像進行雙目測距試驗, 得到的結果如圖13 所示。 圖13 雙目測距試驗結果 本試驗將每個樣本的測量值與實際值進行對比得到誤差, 部分樣本結果見表6。 表6 雙目測距測量值與實際值對比 通過計算可得, 所有試驗樣本中最大測量誤差為2.1 cm, 最小測量誤差是0.4 cm, 樣本的測量誤差控制在3%以內, 滿足帶電作業機器人掛設接地保護線精準定位的要求。 針對帶電作業機器人掛線過程中對接地環的識別與定位, 提出一種改進的YOLOX-S 算法和雙目定位方法。 在改進的YOLOX-S 算法中, 為了充分利用圖像的底層信息, 將頸部的PAFPN 特征利用層用BiFPN 網絡來替代, 以提高檢測精度; 采用GIoU 函數作為定位損失函數有利于網絡的迭代優化; 利用Focal Loss 函數作為置信度預測損失函數解決正負樣本不均衡的問題。 采用雙目定位方法,首先對雙目相機采用張正友標定法進行標定, 獲得相機內外參數和畸變系數并進行立體校正; 再采用SGBM 算法對左右圖像進行立體匹配, 獲得視差;最后根據視差, 利用三角測量原理和重投影矩陣獲得接地環的坐標和距離。 將改進后的YOLOX-S 算法和雙目定位方法應用于帶電作業機器人進行識別和定位試驗, 試驗結果表明改進后的YOLOX-S 模型具有更高的識別精度且能實現精準定位。 本文所提出的識別和定位方法能完成帶電作業機器人掛設接地保護線的任務,并可推廣到電力機器人的其他作業領域。3 試驗分析
3.1 配電網接地環視覺識別試驗





3.2 配電網接地環定位試驗





4 結論