趙 迪,劉桂雄
(華南理工大學機械與汽車工程學院,廣東 廣州 510640)
電子設備、自動化裝備智能維護是信息技術、人工智能技術與高端制造業的交叉應用領域,是實現設備無人化、智能化監管的發展趨勢[1]。通信機房作為大規模通信網絡的中繼站,其電子設備安全性、可靠性十分重要,實現通信機房機柜的智能監管、維護、檢修是保障通信系統安全運作的核心[2]。
視覺檢測是實現設備智能維護的關鍵技術,設備圖像識別、故障位置檢測、檢修操作點確定均可由視覺方法實現[3]。文獻[4]通過視覺檢測方法進行輸電線路環境狀態檢測,設計研制一種輸電線智能維護機器人,實現輸電系統中斷股補修維護。文獻[5]通過分析機械手系統位姿偏差導致維修抓取過程誤差,提出全局相機測量維修工具位姿方法、引入視覺伺服控制策略,完成機械手系統較高精度定位與維修工作。近年出現的CNN端到端語義分割方法可以在像素尺度上識別多個對象,輸出無分辨率損失的多值圖,融入機器視覺中將可以在精密測量分析場合下形成泛用性強的人工智能方法[6-7]。語義分割方法可分為CNN端到端語義分割方法、編-解碼器架構語義分割方法、并聯多孔卷積架構語義分割方法,其中CNN端到端語義分割方法結合具體領域評價規則,可形成專用領域的智能機器視覺系統[8]。華南理工大學[9]在機箱裝配質量檢測中引入CNN端到端語義分割方法方法,實現機箱上COM、USB等多類零部件的像素級檢測,結合機箱裝配質量評判規則,為機箱誤裝配、漏裝配的檢修、維護提供技術支撐。文獻[10]針對傳統橋梁裂縫圖像檢測算法難以準確提取裂縫的問題,提出一種基于語義分割的橋梁裂縫檢測算法,實現裂縫位置高精度提取、橋梁狀態準確監測。通信機房機柜的圖像檢測與維護的基礎是大量重復的圖像背景中目標板卡識別、操作點檢測,語義分割技術的像素分割準確率是關鍵[11]。
本文將從深度學習語義分割技術入手,分析機房機柜圖像檢測與維護關注的關鍵特征,提出基于Mask R-CNN的機房機柜圖像語義分割技術。通過設置機房機柜語義分割對比試驗,驗證本文所提出方法的語義分割效果。
機房設備包括電子設備、數據通信設備、信息技術設備及防護結構。設備通過內部的支撐、支架、螺絲、卡子、扳手等固定電源、主機板、各種擴展板卡,形成一個整體,并提供便于使用的面板開關。
圖1為SCU主控板卡、擴展板卡模型。作為板卡維護過程中的重點拆卸部件,松不脫螺釘、鎖緊扳手在成像視野中的位置、開合狀態是圖像關鍵特征。同一機房設備不同類型板卡之間只存在結構參數差異,松不脫螺釘、鎖緊扳手與板卡的相對位置固定,有效縮小上述關鍵特征在設備圖像中的搜索范圍。

圖1 SCU主控板卡、擴展板卡模型
板卡在機箱中連接緊密,對特定故障板卡進行拆卸維護時,應對目標板卡進行精確定位,避免對其他板卡結構產生影響。因此,目標板卡在設備圖像中的邊界是圖像中另一關鍵特征。
基于上述分析,結合視覺成像、語義分割方法識別機房設備圖像關鍵特征是核心問題。1)在機房設備圖像中分割目標板卡范圍、確定操作邊界;2)根據螺釘、緊固扳手與板卡相對位置縮小特征搜索范圍;3)結合圖像分割識別結果得到維護操作點精確位置。
在執行機房機柜維護任務時,首先要確定維護對象。傳統方案多采用經典圖像處理算法,如通過CCD采集圖像,基于OpenCV實現圖像二值化、特征提取,根據目標面積、數量、位置、長度等特征信息完成目標識別。經典圖像處理方法對光源、背景等環境因素要求高,難以適應照度多變、背景雜亂的通信機房設備識別?;谏窠浘W絡強大的圖像表征能力、面對圖像背景噪聲的魯棒性,本文提出采用深度學習語義分割方法實現機房設備圖像識別與分割。表1為常用神經網絡識別性能對比表,表中數據為相應網絡模型在大型數據集上訓練得到的識別結果,分析表中數據可知Mask R-CNN[12]具有優異的識別、分割性能。

表1 常用目標識別神經網絡性能對比表
因此,本文采用Mask R-CNN語義分割模型對維護對象進行目標識別、語義分割,實現目標板卡、操作點的精準定位。圖2為基于Mask R-CNN的機房設備圖像語義分割技術流程,其詳細步驟包括:

圖2 機房設備圖像語義分割技術流程
1)通過相機獲取設備圖像信息。
2)繪制圖像目標矩形、多邊形標注框,將圖中目標點坐標信息保存為JSON文件。
3)將圖片輸入骨干網絡 (backbone network)中提取特征,得到特征圖(feature maps),以特征圖中像素點為中心,設定若干個感興趣區域(region of interest,ROI)。
4)候選區域生成網絡 (region proposal network,RPN)利用滑動窗口在特征圖上為每個像素點生成若干預設尺寸的錨點框(anchor),通過anchor、ground truth 間 的 IOU(intersection over union)數 值 判 斷anchor為目標或為背景,并為目標anchor進行坐標修正,具體為在x、y方向上平移修正量tx、ty,在長、寬方向乘以放大倍數th、tw,以去掉判斷為背景區域的ROI。
5)對RPN網絡篩選剩下的ROI執行ROI Align操作,通過雙線性插值法實現feature maps像素與原圖像素對齊。
6)分類器(Classifier)則分為目標分類、邊界框(bounding box,BB)回歸、掩膜 (Mask)生成,目標分類、BB回歸之前需經全連接層實現特征全連接計算;Mask生成分支則經圖像維度擴展,經全卷積網絡 (fully connection network,FCN)后完成目標像素級語義分割。
訓練RPN網絡的損失函數為




訓練Classifier網絡的損失函數為

式(6)分3個部分,Lc為 分類損失,Lb為邊界框修正損失,Lm為Mask損失,其中第3部分損失函數二分類均值交叉熵損失Lm=Sigmoid(Cls_k),僅在其對應的第K類ROI計算時有定義,其他K-1個Mask對整個損失函數不做貢獻;第一、第二部分字母含義與RPN網絡中相同,即:
由上得出Mask R-CNN的損失函數Lfinal為:

當損失函數Lfinal經過N次迭代訓練并收斂時,神經網絡訓練完成。此時,將測試圖像輸入神經網絡,網絡自動識別出圖像中維護目標,完成語義分割。
實驗采用Intel公司RealSense系列D435i深度相機 (分辨率 1 920×1 080、RGB 傳感器 FOV 69.4°×42.5°×77°(±3°)、幀率 30 f/s),在日光燈光照條件下,分別于距機柜2.2 m、0.5 m處對機柜設備進行圖像采集。為了驗證模擬智能維護效果,利用視頻圖像進行測試,并分析視頻每幀圖像的檢測效果。
圖3為模擬不同視野維護實驗結果,在距離較遠、視野較大情況下,體積較大的機柜、服務器識別置信度較高,體積較小的面板識別置信度則相較稍低;當距離不斷減小時,服務器的識別置信稍有降低、扳手面板的識別置信稍有提高,總體識別置信度均保持在0.99以上。

圖3 機柜服務器不同視野識別效果
圖4為模擬維護過程受玻璃、人體等遮擋試驗結果。目標機柜、機箱、面板識別受玻璃遮擋影響不大,在有人體遮擋的情況下機柜識別受影響較小,服務器、面板的識別幾乎不受影響,置信度保持在0.98以上。

圖4 機柜服務器受玻璃、人體遮擋識別效果
可以看出,采用語義分割網絡可以實現在背景、光源復雜環境下機柜設備準確識別、分割。
利用邊緣檢測網絡HED[12]與語義分割網絡DeepLab[13]、Mask R-CNN[14]進行對比實驗,圖5 為HED、DeepLab、Mask R-CNN 在模擬維護檢測中的實驗效果。HED能夠識別出機柜設備邊界及機箱,但檢測精度較低且沒有機柜標簽、尺寸信息,無法為后續維護操作提供精確位置信息;DeepLab能夠實現像素級分割,分割效果較好但存在分割邊界信息缺失問題;Mask R-CNN識別分割效果能夠達到檢測要求,并且能夠提取機柜、機箱及扳手等精確位置信息。

圖5 HED、DeepLab、Mask R-CNN在模擬維護檢測中的實驗效果
表2為語義分割網絡DeepLab與Mask R-CNN的模擬維護檢測性能對比表。DeepLab平均精確度 (mean average precision,mAP)、平均交并比 (mean intersection over union,mIOU)均達到較好水平[6],雖然時間性能滿足實時檢測要求,但準確性略有不足;Mask R-CNN在滿足實時檢測要求時,識別準確性、分割效果均比DeepLab佳。

表2 語義分割網絡DeepLab與Mask R-CNN的模擬維護檢測性能對比表
1)從面向智能維護的機房設備圖像關鍵特征分析入手,指出作為板卡維護過程中的重點拆卸部件,松不脫螺釘、鎖緊扳手在機器人成像視野中的位置、開合狀態、目標板卡在設備圖像中邊界是圖像關鍵特征。
2)通過對比神經網絡性能,提出基于Mask RCNN的機房設備圖像語義分割技術,基于神經網絡強大的圖像表征能力、面對圖像背景噪聲的魯棒性,彌補經典機器視覺方法對光源、背景、環境要求高的弱點,實現對機房設備圖像的語義分割,為指導機房機柜設備智能維護提供技術支撐。
3)構建機柜機箱服務器檢測試驗裝置,進行不同視野、不同遮擋條件試驗,以及不同檢測算法間對比實驗,結果表明基于Mask R-CNN的語義分割技術在不同成像條件下分割效果魯棒性佳、在分割準確性上具有較大優勢。
機房設備圖像語義分割技術是通信機房維護技術的核心,下一步將結合控制結構及算法、路徑規劃算法實現通信機房設備智能維護。