陳 墾,王世法,譚屈山,何富勇,王 俊,雷 達,焦育威,楊 嵐,楊 洋,李 偉,曹 堃,胡思源
(1.東南大學 信息科學與工程學院, 南京 210009;2.四川數字交通科技股份有限公司, 成都 610041;3.四川成綿蒼巴高速公路有限責任公司, 四川 綿陽 621099)
由于建筑項目的多樣性及其對終端客戶的重要性,建筑行業被認為是國民經濟基礎的重要組成部分[1]。電子設備可以在協助監測健康風險主體應用方面發揮關鍵作用。在建筑工地,使用常規方法很難跟蹤工人的狀態。為了減少與健康有關的事故和其他類型的事故,可以對工作人員和高速公路施工現場的建筑結構進行實時監測。傳感器節點的數量和位置會受到電源和布線的限制,這會提高數據收集的成本和復雜性,部署和維護的成本也可能上升。采用物聯網(internet of things,IoT)[2]并利用智能節點開發可適應和有效的基礎設施用于數據收集和分析是當前趨勢,包含傳感設備的物理設備連接到互聯網,允許數據在不同平臺之間交換,將系統實現技術與采集過程的特定階段分離以增加模塊化。
本文的主要貢獻包括:① 提出了一種高速公路施工現場智能監控系統,包括工人安全系統和結構完整性系統。通過與物聯網平臺進行信息交互,最終展示給用戶。② 提出一種基于輕量級網絡的低分辨率人臉檢測算法(light-weight object detection,LOD),用于檢測施工人員是否佩戴安全帽。LOD算法應用深度可分離卷積取代標準卷積,引入感受野模塊,使用LOD-NMS算法和Mish激活函數,針對亞洲人的頭部特征比例設置合適的先驗框,實現了精度和速度的平衡。③ 將所提算法在真實與公開數據集上結合起來訓練,進行對比,驗證了數據集擴充后模型的平均預測精度有所提升。
Fernández-Steeger等[3]介紹了無線傳感器網絡在地面改善區的部署方案。Yang等[4]提出一種使用攝像機跟蹤建筑工地多名工人的方案。Zhao等[5]提出一種在施工現場定位預制構件(prefabricated components,PC)并在安裝過程中監測其結構狀態的系統。Nawaz等[6]基于無線傳感器網絡監測地下箱中三塊連續墻板在開挖和施工過程中的變形情況。Xia等[7]提出一種多用途的施工區域監測系統。Laurini等[8]提出一種在施工現場使用RFID(radio frequency identification)標簽和電磁射頻支持的基于無線傳感器網絡的智能傳感器節點集成方法。Ragnoli等[9]提出一種基于LoRa的落石監測無線傳感器網絡。
Viola-Jones[10]算法是能夠實時處理且效果較好的人臉檢測算法。 Howard等[11]使用深度可分離卷積來構建輕量級深度神經網絡。Szegedy等[12]提出Inception的網絡結構。Bodla等[13]提出Soft-NMS(soft-non max suppression)算法,通過高斯函數接收2個目標檢測候選框的交并比IoU(intersection over union),并做出不同程度的懲罰。
系統硬件結構如圖1所示,經過LoRa傳輸以后,物聯網服務對網關所接收到的數據包進行管理。
所提系統的LoRa節點包括:① 用于結構的慣性測量單元(inertial measurement unit,IMU)節點,其實現了GPS(global positioning system)單元,便于定位,可以作為工人的跟蹤器;② 基于RFID的門訪問控制節點。結構節點每隔60 min通過LoRa 物理層向網關發送報文。跟蹤器節點是一個DraginoLGT-92設備,是一種基于LoRa技術的開源GPS跟蹤器,用于緊湊和低重量格式的數據傳輸。
為了監控高速公路施工現場的入口,基于超高頻RFID標簽開發了一個自主系統。每個工人的頭盔上都貼有合適的標簽,當經過大門下方時,系統會檢測到工人,并將人員信息添加到現場人員列表中。
所提LOD模型與Cayenne互聯網平臺進行信息交互,實時監控工人是否佩戴安全帽,以保障工人的生命安全。

圖1 系統硬件結構
無線傳感器網絡的結構節點安裝在腳手架桿和正在進行維護施工操作的房屋結構上,如圖2所示。

圖2 無線傳感器網絡的結構節點
結構節點是由協調微控制器、運動和環境傳感器、UART(universal asynchronous receiver-transmitter)到USB(universal serial bus)接口、GPS調制解調器、連接到5 V太陽能電池板的電池管理系統以及供電和配電網絡組成的電子系統。微控制器為STM32L,由于其低功率工作模式可達幾微安,特別適合電池供電的應用,因此也適用于基于采集的無線傳感器網絡。結構節點塊方案如圖3所示。

圖3 結構節點塊方案
Bq21040單電池充電集成電路通過太陽能收集或直接從USB連接為電池充電。與傳感器節點相關的電路由低降差穩壓器以3.3 V供電。半導體的運動傳感器,電源為3.3 V,通過I2C連接到微控制器。傳感器可以基于電源模式在不同的分辨率設置下工作。在正常模式下,分辨率為4 mg/位±2 g刻度。設備上安裝Ublox MAX-7Q GPS調制解調器獲取經緯度定位狀態,并通過UART與單片機相接。Semtech SX1276 LoRa模塊為使用擴頻通信的長程技術的收發器。串行外設接口用于將該單元連接到微控制器,電源為3.3 V,該模塊-148 dBm的高靈敏度允許在低鏈路強度應用中進行通信。ISM柔性天線2JF0115P用于LoRa通信。溫度和濕度以及氣壓也由結構節點通過I2C總線上的BME680進行測量。溫度測量是0~65 ℃±1 ℃,濕度測量精度為±3%相對濕度(relative humidity,RH),每年典型漂移0.5% RH;氣壓測量精度為±0.12 hPa,每年典型漂移±1 hPa。使用補償閥確保箱內氣壓與箱外氣壓在同一水平。
因為施工現場工人長期處于移動狀態,且施工現場環境復雜,所以圖片的分辨率往往不高。因此,提出一種基于輕量級網絡的低分辨率人臉檢測算法(light-weight object detection,LOD),其應用深度可分離卷積取代標準卷積,引入感受野模塊,使用LOD-NMS算法、Mish激活函數,針對亞洲人的頭部特征比例設置合適的先驗框,在小分辨率圖片輸入情況下,實現了精度和速度的平衡。本文中所使用的LOD算法是在SSD(single shot MultiBox detector)算法[14]的基礎上進行輕量化改進得到的。采用基于深度可分離卷積和輕量級人臉檢測算法,網絡結構如圖4所示。
輕量級網絡結構包含6組卷積塊,每組卷積塊均包含不同數量的卷積和一個注意力模塊。引入 RFB(receptive field block)模塊是為了增大特征的感受野;引入 CBAM 注意力模塊[13]可以有效利用網絡中的通道和空間上的注意力,將檢測分支由原始的6個降為4個,并根據亞洲人人臉的具體情況設計先驗框的形狀和大小,大幅減少先驗框的數量。
輸入的特征圖的大小為H×W×M,卷積核尺寸為DK×DK×M×N,標準卷積的計算量和參數量如式(1)、式(2)所示。
NDWS=H×W×M×DK×DK×N
(1)
PDWS=M×DK×DK×N
(2)
式(1)—(2)中:H為圖片高度;W為圖片寬度;M為輸入通道數;DK為卷積核尺寸;N為卷積核數量;NDWS為標準卷積的計算量;PDWS為標準卷積的參數量。
深度卷積和點卷積組合而成深度可分離卷積,其對常規卷積做了一個細微的改動,可以使參數數量下降。相當于用較小的精度損失換取內存使用量的減少,并降低計算量,從而使得標準卷積神經網絡能夠在大部分計算設備上運行。

圖4 LOD算法框架
如圖4所示,LOD算法首先使用深度卷積,逐個通道提取特征信息,經過深度卷積后,得到的特征圖的數量與輸入層通道數相同。分通道計算后,考慮不同通道之間的信息,需要進行點卷積來重新組合特征圖。點卷積的卷積核的尺寸為1×1×M,M表示輸入層的通道數,輸出特征圖和卷積核的數量是相同的。這一步驟進行的卷積運算會把前一步生成的特征圖在深度方向上作加權組合處理,生成新的特征圖。深度可分離卷積的計算量和參數量如式(3)、式(4)所示:
NDWS=H×W×M×DK×DK×N+
H×W×M×N
(3)
PDWS=M×DK×DK+M×N
(4)
使用深度可分離卷積之后的計算量與標準卷積的計算量的比值如式(5)所示。
(5)
式中:NDWS為深度可分離卷積計算量;NSTD表示標準卷積的計算量。
從式(5)可以發現,相同的輸入的情況下,使用深度可分離卷積所需的參數量和計算量更少,同時能得到相同數量的特征圖輸出,因此深度卷積計算效率遠遠優于普通卷積。
SSD通過設置不同尺度和形狀的先驗框,根據先驗框的偏移量得到物體位置,因此先驗框的數量會影響模型大小和計算量。先驗框用于標識人臉,通過調整先驗框的長寬比例減少檢測分支和先驗框數量。
RFB模塊通過設計一個新的結構來提升感受野,并將其嵌入到SSD網絡中,模擬人類視覺的感受野來增強網絡的特征提取能力。
Mish激活函數是一種自正則的非單調神經激活函數,其函數表達式及導數表達式如式(6)、式(7)所示。
f(x)=x×tanh[ln(1+ex)]
(6)

(7)
式中:ω(x)=4(x+1)+4e2x+e3x+ex(4x+6),δ(x)=2ex+e2x+2。相比ReLU函數,Mish 函數更加平滑,更有助于提高模型的泛化能力和模型收斂的速度,同時更好地傳播信息。其次,通過式(6)可以看出,Mish函數無上限有下限,不會出現梯度消失的問題,在訓練過程也不會使函數值封頂從而導致飽和。
NMS(multi-person pose estimation)算法直接將大于閾值的人臉框刪除,但是可能會導致檢測不夠準確。而LOD-NMS不是直接將其刪除,而是利用一個權重函數,對相鄰區域內(IoU超過閾值)的檢測框的分數進行調整,并做出不同程度的懲罰,結合懲罰的力度大小對目標物的置信度進行修改。這使得LOD-NMS可以取得更好的識別效果。
算法1LOD-NMS算法
輸入:B= {b1,…,bN},S= {s1,…,sN};B為初始檢測框列表;
S包含相應的檢測分數;
Nt為閾值
輸出:D,S.
begin
1.D← {};
2.whileB≠?do
3.m← argmaxS;
4.M←bm;
5.D←D∪M;
6.B←B-M;
7. forbi∈Bdo
8.ifIoU(M,bi)≥Ntthen
9.si←si*f(IoU(M,bi));
10.end
11.end
12.end
13.returnD,S;
end
LOD-NMS算法基本思想為:集合D用于保存經過LOD-NMS抑制建議的框,初始化為空集;然后,遍歷整個集合,當B不為空時,按照建議框得分從高到低進行排序,集合M是按照得分高低排列的建議框;依次取出去掉最高得分建議框的所有框,并分別計算這些框與M的IoU;如果IoU(M,bi) 得分大于閾值Nt,使用權重函數f(IoU(M,bi)) 對得分進行衰減。如果有其他檢測框與檢測框M有重疊情況,該重疊框的分數會衰減,重疊度越高,分數衰減越嚴重。根據判定條件IoU(M,bi)≥Nt,將得分較小的si去掉。最后,返回LOD-NMS算法得到的建議框及該建議框的得分。
算法復雜性分析:在算法1中,已知初始檢測框列表數量為n,則算法的整體時間復雜度為O(n2)。
3.3.1數據集
1) WIDER FACE數據集,包括32 203張圖片,標注393 703張人臉。根據事件場景的類型將數據集分為61個類別,對于每類事件,隨機選擇40%、10%、50%的比例劃分到訓練集、測試集和驗證集。
2) 在高速公路施工現場收集的1 030張工人施工時的人臉照片,此數據集在本文中命名為WORKER FACE。
3.3.2實驗設置
實驗軟硬件環境包括:操作系統為Ubuntu 16.04,CPU為Intel(R) Core(TM) i7-13700K CPU@3.40 GHz,GPU為NVIDIA RTX 3090,24 GB。深度學習框架選擇Pytorch,在網絡訓練過程中使用隨機梯度下降優化,動量設置為0.9,權重衰減為0.000 5。學習速率從0.001開始,經過5個輪次后上升到0.01。
3.3.3評價標準
人臉檢測任務中的精確率和召回率通過混淆矩陣計算得到,其中TP表示工人佩戴安全帽被檢測正確,檢測框的置信度大于設定的閾值;FP表示背景被當作工人佩戴安全帽檢測出來,屬于誤檢;FN表示工人佩戴安全帽被檢測為背景,檢測框的置信度小于設定的閾值,屬于漏檢;TN表示背景被檢測正確,一般不做考慮。
是否佩戴安全帽檢測的評價標準主要采用平均精度(averageprecision,AP)來評價。 精確率(precision)是被判斷為正例的樣本中,其真實值也為正例的概率;召回(recall)是真實值為正例的樣本中,預測正確的概率,如式(8)、式(9)所示:
precision=TP/(TP+FP)
(8)
recall=TP/(TP+FN)
(9)
3.3.4消融實驗
為了驗證RFB模塊、CBAM模塊、Mish激活函數和LOD-NMS對LOD模型性能的影響,在WIDER FACE數據集上設計消融實驗。實驗結果如圖5所示。

圖5 不同模型在WIDER FACE數據集上的AP性能
Baseline表示最基礎的人臉識別模型,也就是只調整了檢測分支和先驗框個數之后的模型。驗證集根據邊緣框的檢測情況劃分為 easy,medium和hard 3個難度等級。在easy子集中,Baseline取得不錯的預測性能,在新的模塊不斷加入之后,模型的平均精度越來越高,進一步驗證了每一個模塊的重要性。當RFB模塊加入后,平均精度漲幅較大,說明RFB模塊對模型性能的影響較大。隨著預測難度等級的不斷上升,模型的平均精度表現逐步變差,但是即使在hard子集中模型也能達到0.46左右的平均精度,這是非常理想的性能,即在高速公路的施工現場,完全能夠識別出工人是否佩戴安全帽,以保障他們的生命安全。
同時在WIDER FACE數據集上和主流算法性能進行對比,實驗結果如表1所示。

表1 不同模型平均預測精度
觀察得知,相比于模型規模相近的LFFD、SSD-Mobilenetv1[15]和RetinaFace[16],LOD的模型準確率更高。在easy子集中,LOD模型的表現非常好,平均精度達到80%以上。在medium子集上,LEFT[17]與LOD模型相差無幾,但LOD模型略微低于LEFT模型,這是因為LOD模型采用的骨干網絡比LEFT模型小一些,對內存的消耗也更小。在hard子集上,LOD模型展示出了性能優勢,平均精度高于其他3個模型,進而證明LOD模型在實際高速公路施工現場中的可行性更強。真實數據集與公開數據集結合訓練,LOD模型預測結果如圖6所示。
將WIDER FACE結合WORKER FACE數據集進行訓練,LOD模型取得了最佳的預測性能。因為WORKER FACE數據集中包含很多工人戴著安全帽的人像圖,用其對模型提前預訓練,使得LOD模型平均精度從0.478(WIDER FACE數據集)提升到0.493(WIDER FACE+WORKER FACE數據集)。

圖6 不同數據集結合的訓練預測性能曲線
使用Cayenne web服務實現了一個遠程監控web平臺,使高速公路施工現場管理人員能夠觀察工人和機器的運行狀態以及結構元件參數。結構節點報告GPS位置,傾斜角度是根據沿著3個空間軸的加速度測量數據計算得到的,如式(10)所示。
(10)
圖7顯示了4 d由結構節點的加速度計感應到的傾斜變化數據,相對于安裝在腳手架管道上的一個元件,腳手架管道已經改變了它的位置,沿著超過90°的軸旋轉。

圖7 利用腳手架元件測量的傾角變化
使用本文中所提系統,高速公路施工管理人員可以將真實場景傳感器數據集成到BIM(building information modeling)系統中,以獲得優化的投影操作、安全性增強和現場的總體改進。作業人員使用傾斜數據來監測腳手架設備和關鍵施工點的結構健康狀況。高速公路施工現場分為三片區域,便于出入管理和控制。每個區域都相對于一個定義良好的區域,RFID訪問監控節點位于各自的入口大門。圖8為RFID訪問監視儀表板主界面,扇區由不同顏色標識。

圖8 RFID節點監控儀表板
提出了一個遠程廣域網多技術融合的高速公路施工智能監控架構及系統,通過部署不同傳感器節點和電子設備,實現在真實獨立場景中對工作人員、工具、重型機械的自主監測和智能跟蹤。站點人員可以通過在線儀表板訪問數據,進行管理操作。此外,提出了LOD模型,用于檢測施工現場的工人是否佩戴安全帽,其結果與Cayenne互聯網平臺進行信息交互,實時監控工人是否佩戴安全帽,保障工人的生命安全。