陳華超 李剛領 廖承就 張惠榮 張磊
1. 廣東電網有限責任公司惠州供電局 廣東 惠州 516000;2. 廣州中科智巡科技有限公司 廣東 廣州 510623
目前輸電線路防外破監(jiān)測的方式主要為視頻監(jiān)控,利用網絡攝像機實時回傳線路的監(jiān)控畫面,由工作人員判斷線路是否存在外力破壞隱患,可以實現(xiàn)了輸電線路狀態(tài)與外力破壞風險的集中監(jiān)測。但隨著電網規(guī)模的增加,視頻監(jiān)控系統(tǒng)的規(guī)模也不斷擴大,靠工作人員從監(jiān)控畫面中時刻判斷線路是否存在外力破壞隱患變得不太現(xiàn)實。在電網智能化的大背景下,利用無線視頻傳輸技術結合圖像處理算法,自動化分析監(jiān)控視頻中的輸電線路是否存在外力破壞隱患顯得十分必要。本文基于單目深度估計方法結合,實現(xiàn)自動化、高準確率、高實用性的輸電線路防外破監(jiān)測。
Transformer編碼器的作用是負責把自然語言序列映射稱為隱藏層(含有自然語言序列的數(shù)學表達),然后解碼器把隱藏層在映射為自然語言序列。Transformer編碼器由L層多頭注意力模塊和多層感知器模塊的組合組成,本文采用的多頭注意力模塊和多層感知器模塊均與常規(guī)的Transformer模型內的模塊結構一致[1]。
解碼器(Decoder)是負責將特征(Feature)轉化為目標(Target)的結構[2]。傳統(tǒng)的CNN解碼器為了將小尺寸多通道的特征圖解碼成大尺寸單通道的深度圖,大多采用如UNet模型解碼器一樣的逐層上采樣結構,通過多個上采樣操作和卷積操作,在特征映射過程中逐層擴大尺寸并縮小特征通道,直至獲取深度圖[3]。
本文設計一種深度-空間轉換模塊應用于CNN解碼器中實現(xiàn)高效率的特征映射:先使用兩個3×3卷積層依次將Transformer解碼器輸出的張量特征通道從768減少至256[4],卷積層濾波器的數(shù)量分別是512和256;其次深度-空間轉換模塊直接將28×28×256的張量按照行優(yōu)先的順序將不同深度的特征依次重排列成448×448×1的深度圖,像素重排列的過程可用公式表達為:
本文設計了一種結合Transformer編碼器和CNN解碼器的深度估計模型,所設計深度估計模型框架如下圖所示。
在推理前需對圖像進行預處理,首先,將輸入圖像縮放至448×448×3的尺寸后裁剪成784個長寬均為16的正方形圖塊(patch),得到784×16×16×3的張量;其次將這些圖塊逐個采用flatten()函數(shù)線性投影至一維向量,因此可以獲得784×768的二維特征圖,768代表每個圖塊的特征向量長度;最后,向特征圖增加1個1×768的可學習向量實現(xiàn)位置信息嵌入,使模型在訓練中學習到圖塊間的位置信息。圖像經過預處理后最終得到785×768的二維特征圖。
在推理時,將特征圖輸入Transformer編碼器進行特征編碼,通過一系列的多頭注意力(Multi-Head Attention)模塊和多層感知器(multi-layerperceptron,MLP)模塊提取魯棒性更高的特征,最終輸出大小為785×768的特征圖,刪除位置信息特征,得到大小為784×768的特征圖,并通過reshape()函數(shù)轉換為28×28×768的張量。將張量輸入CNN解碼器,通過兩個3×3卷積層和一個深度-空間轉換(Depth-to-Space)模塊實現(xiàn)特征映射,獲取448×448×1的深度圖,每個像素點上的值表示該點的深度信息。

圖1 深度估計模型結構
在深度估計模型部署進計算平臺前,需先進行模型訓練。由于獲取圖像深度圖的工作十分復雜,因此本文直接采用公共的深度估計數(shù)據(jù)集Cityscape對所設計的深度估計模型進行訓練。Cityscape數(shù)據(jù)集由2975組訓練圖像(RGB圖像及其相應的深度圖)和500對用于驗證的圖像組成。
在模型訓練階段,采用Huber()損失函數(shù)計算模型Loss值,計算公式如下:
在計算得到Loss值后,采用自適應矩估計優(yōu)化器作為模型的訓練優(yōu)化策略,通過反向傳播梯度優(yōu)化模型權重,共訓練100輪次。學習率從0.001開始動態(tài)調整,每一輪次更新完成后,學習率乘以0.9。觀察驗證集Loss值的變化,當Loss值連續(xù)5個輪次沒有下降的時候,停止訓練,獲取收斂效果最好(最終Loss值最低)的深度估計模型。
本文采用檢測效率高的YOLOX模型對圖像內施工機械目標進行檢測。在模型推理前先將圖像大小縮放為640×640以加快推理速度,之后圖像經過模型推理后得到一個規(guī)模為(R,4)的二維數(shù)組,數(shù)組行數(shù)R表示模型檢測出圖像內施工機械目標的數(shù)量,每一行表示圖像內一個施工機械目標的外接矩形框的位置信息是目標矩形框的左上角坐標的橫坐標和縱坐標,是目標矩形框的右下角坐標的橫坐標和縱坐標。
模型在部署前需進行訓練,模型訓練采用自適應矩估計優(yōu)化器作為網絡的訓練優(yōu)化策略,共訓練50輪次。學習率從0.0003開始動態(tài)調整,每一輪次更新完成后,學習率乘以0.9。模型采用原YOLOX模型的主干網絡和特征融合網絡權重作為預訓練模型權重,并初始化檢測頭網絡的權重參數(shù)。前25個輪次凍結主干網絡和特征融合網絡的權重參數(shù),僅對檢測頭網絡進行微調以加速訓練;后25個輪次則對模型整體進行訓練。每一輪訓練后計算模型在測試集上Loss值,當Loss值連續(xù)5個輪次沒有下降的時候,停止訓練,獲取收斂效果最好(最終Loss值最低)的YOLOX模型。
訓練所用的數(shù)據(jù)通過抽取輸電線路區(qū)域監(jiān)控視頻的畫面組成,并以人工分揀的方式,清洗亮度異常、噪聲較大和圖像模糊的數(shù)據(jù)。利用標注工具,對圖像中的施工機械目標進行標注,并以VOC數(shù)據(jù)格式保存成xml標簽文件。在本實施例中,施工機械目標主要包括吊車、挖掘機、推土機和塔吊。最后,將圖像數(shù)據(jù)和對應標注文件按照4∶1的數(shù)量比例劃分出訓練集和測試集用于訓練模型。檢測到的圖像內施工機械目標的檢測框位置信息,可以在深度圖的相同位置處獲取每一個施工機械目標的深度區(qū)域,并以該區(qū)域內所有像素的深度值的平均值作為該目標的參考深度值,設定告警閾值,若圖像內有任一施工機械目標的參考深度值大于告警閾值,則進行告警,提醒工作人員輸電線路區(qū)域存在外破隱患。
推理圖像利用模擬機械施工設備進入攝像頭,進行抓拍的方式進行,得到不同距離和不同設備類型的數(shù)據(jù)875張。標注此批數(shù)據(jù)之后,即可進行自動化的比對。
采用設備參數(shù)如下:CPU:主頻2.40GHz,8C/16T;顯卡:NVIDIA Geforce 3070ti;操作系統(tǒng):Redhat Centos 9.2207

表1 算法實驗結果
通過分析比較,基于單目深度估計的深度學習模型能夠有效地監(jiān)測現(xiàn)場是否存在施工機械,并且根據(jù)距離預警輸出,滿足現(xiàn)場實際應用的需要。
本文提出了一種結合Transformer編碼器(一種采用自注意力機制的深度學習模型)和CNN解碼器(一種采用卷積神經網絡的深度學習模型)的強大性能,直接建立RGB彩色像素與深度值之間的關系映射,在單一圖像上進行深度估計,獲取深度圖,最終根據(jù)目標檢測結果和深度圖進行告警判斷,實現(xiàn)自動化防外破監(jiān)測。