











摘 要:文中介紹了基于邊緣計算的拖輪智能安全預警系統設計原理與實施方案。通過邊緣計算實時獲取部署在拖輪上的攝像頭數據,經視頻取流解碼后通過神經網絡進行檢測,實現駕駛員離崗預警、人員進入危險區域預警和人員定時巡查預警等。針對神經網絡檢測可能出現的誤檢問題,設計了一套推理均衡器算法和感興趣區域檢測算法,有效減少了因誤檢導致的系統誤報問題。所設計的系統最終在福州港務集團的拖輪上得到實際部署、測試和驗證。結果表明,設計的系統和算法運行可靠,可以有效實現拖輪智能安全預警功能。
關鍵詞:拖輪安全;YOLOv5s;嵌入式;推理均衡器;射線法;區域檢測
中圖分類號:TP37 文獻標識碼:A 文章編號:2095-1302(2025)08-00-06
0 引 言
拖輪作為港口船舶作業的重要輔助設備,其在船舶運輸中的作用越來越重要。在拖輪作業中,人工值守時經常會出現駕駛員離崗、人員進入危險區域和人員未定時巡查等問題,可能造成碰撞、環境污染、燃料泄漏以及由此引發的火災事故等,給港口作業安全和海洋環境安全帶來新的挑戰[1]。
近年來,隨著人工智能、物聯網、視覺識別等技術的飛速發展,拖輪智能化也成為航運業的熱點話題[2]。拖輪智能化可以提高拖輪的效率和安全性,減少人為錯誤,降低事故的發生率。拖輪智能化技術的應用已經成為拖輪行業內不可忽視的發展趨勢[3]。
在機器視覺領域,基于深度學習算法的YOLO系列算法可以識別圖像中的不同物體,并標記其位置和類別,常用于目標檢測任務,已經被逐步應用到船舶安全作業中。文獻[4]提出了一種基于嵌入式的船舶智能預警系統,介紹了船舶嵌入式智能預警系統的整體架構,采用YOLOv7網絡和多傳感器數據融合技術,有效對船舶面臨的潛在威脅做出綜合性判斷。文獻[5]提出一種智能化船舶航行安全風險預警與防控在油輪安全管理中的應用,基于油輪實測的大量正負樣本數據,包括人體行為(喝水、撓頭、抹臉、抬手等干擾項),訓練YOLOv5網絡模型,提高船員行為圖像識別模型的魯棒性。針對安全帽與反光衣檢測算法參數量大、計算量大和模型體積較大等問題,文獻[6]提出了一種基于YOLOv5s的輕量化改進檢測算法,該算法通過改變網絡結構中的卷積與C3模塊,既保證了檢測算法的識別準確率,又實現了檢測算法的輕量化。這些研究提供了一種基于YOLO系列算法的船舶安全預警系統設計方案,但針對多路檢測源在拖輪場景下可能出現的誤檢問題,仍缺少有效的解決方案。
本文詳細介紹了基于邊緣計算的拖輪智能安全預警系統設計原理與實施方案,通過邊緣計算實時獲取拖輪部署的攝像頭數據,經視頻取流解碼后通過神經網絡進行檢測,實現駕駛員離崗預警、人員進入危險區域預警、人員定時巡查預警,等等。本文針對神經網絡檢測可能出現的誤檢問題,設計了一套推理均衡器算法和感興趣區域檢測算法,有效減少了因誤檢導致的系統誤報問題。本文所設計的系統最終在福州港務集團的拖輪上得到實際部署、測試和驗證。結果表明,本文所設計的系統和算法可靠,可以有效實現對拖輪事故的預警。
1 系統的設計原理
系統分為邊緣側、云端和用戶端,系統原理如圖1所示。
邊緣側通過嵌入式AI設備進行部署,通過實時獲取拖輪上分別位于駕駛艙、集控室、機艙、左前舷、左后舷、右前舷、右后舷、前甲板、后甲板共9路網絡監控攝像頭數據,在邊緣側本地完成視頻解碼、AI檢測、推理資源分配、事件決策、事件預警、事件上云、結果顯示。
用戶端的9路視頻監控大屏實時顯示現場情況,當某一路視頻源畫面出現異常時,系統會在該畫面邊緣顯示閃爍的紅框,提供清晰、醒目的視覺動態提醒,同時觸發全船語音播報提醒。在用戶端還配有系統配置功能,可對視頻解碼的視頻源地址、決策中的感興趣區域和云服務器地址等進行配置。
云端負責存儲檢測結果、預警視頻、預警圖片、預警事件以及一些必要的配置信息。
1.1 監控視頻拉流解碼模塊設計
系統基于開源項目Live555創建RTSP客戶端,拉取攝像頭的RTSP視頻流進行緩存和解碼,其結構如圖2所示。Live555具有跨平臺性、穩定性、靈活性等特點,支持完整的RTSP協議,既可以作為服務器也可以作為客戶端,且支持多種音視頻編碼格式的多媒體數據的流化、接收和處理,包括H.265、H.264、MPEG、JPEG等視頻編碼格式和多種音頻編碼格式。由于Live555擁有良好的結構化設計,支持各類多媒體格式,適用于嵌入式設備或低成本流應用。
1.2 AI檢測模塊設計
系統通過在拖輪上部署固定攝像頭,實現對人員及其著裝的實時AI檢測。基于人工智能深度學習技術,通過自學習能力實現在場景中對人員的目標檢測,再將人員劃分為頭部和身體兩部分,用于檢測反光背心和安全帽。
部署攝像頭后,提前通過攝像頭獲取不同時間、不同場景下的人員照片和著裝照片,將這些照片進行不斷訓練與學習,得到模型后即可實現自動識別。
系統利用YOLOv5s網絡進行目標檢測[7],其結構主要分為Backbone(骨干網)、Neck(頸部)和Head(檢測頭),如圖3所示。其中,Backbone由CBS(Conv+BN+SiLU)、C3模塊和快速空間金字塔池化SPPF(Spatial Pyramid Pooling-Fast)構成,主要用于提取圖像特征;Neck由特征金字塔FPN(Feature Pyramid Network)和路徑聚合網絡PAN(Perceptual Adversarial Network)構成,主要進行特征融合;Head主要進行圖像的最終預測。
針對可能出現的誤檢情況,在訓練的數據集中摻入了一定比例的反例數據以及工作人員的各種姿態,例如蹲、趴、坐,等等,并將模型的預測框結合人體的長寬比和下文的感興趣區域進行過濾,從而大大降低誤檢率。
1.3 9路視頻源同屏推理顯示設計
本系統支持9路不同的視頻源在同一個嵌入式平臺上推理并顯示。由于嵌入式平臺的計算資源包括CPU、GPU和內存等通常較為有限,同時進行9路視頻源的YOLOv5s推理需要大量計算資源,因此需要合理分配和利用計算資源,確保推理和顯示畫面的流暢性和穩定性[8]。
為保證推理和顯示畫面的流暢性和穩定性,在軟件層面設計了一套均衡器。該均衡器每隔一段時間先更新所有推理引擎的狀態,例如使用率、極限推理幀數等;再更新所有視頻源的狀態,例如推理百分比、幀率等。按照如下原則計算每個源可分配的資源權重(即新的預期推理百分比):首先將每個引擎的資源均勻分配給每個源,若資源仍有盈余,則再次進行平均分配。例,現有2個引擎,引擎1的極限推理幀率為100幀/s,引擎2的極限推理幀率為60幀/s。視頻源1的幀率為25幀/s,視頻源2的幀率為60幀/s,視頻源3的幀率為120幀/s。先將總算力160幀/s平均分成3份,大約每路為53幀/s。由于視頻源1的需求是25幀/s,所以剩下的135幀/s算力再平均分成2份,大約每路為67幀/s。
由于視頻源2的需求是60幀/s,所以視頻源3分得75幀/s算力。綜上,視頻源1、2、3各自新的推理百分比應為100%、100%和62.5%。
根據新的推理百分比計算一組抽幀系數,抽幀系數是由0和1組成的一組數,每讀入一幀則對應一個數,1代表推理該幀,0代表忽略該幀。假設該組數列無限長,則其中1的個數占該組數總長度的百分比就是推理百分比,并且1要在這組數中均勻分布才能保證畫面的流暢性和穩定性。
由推理百分比計算一組抽幀系數的流程如下:首先,抽幀系數是離散的,百分比是連續的。定義百分比的倒數就是要出現一個1的碼量閾值,初始碼量為0。接著,在生成一個碼之前,碼量加1,判斷是否大于碼量閾值。若大于碼量閾值,則生成1,使用碼量減去碼量閾值;若小于碼量閾值,則生成0。計算流程如圖4所示。
該套算法理論上可以在有限的引擎資源下對任意個視頻源進行推理資源分配,保證用戶看到的推理畫面流暢且穩定。
1.4 感興趣區域選擇功能設計
本系統支持設置感興趣區域來判斷人員是否在有限區域內。例如在駕駛室內,檢測到有人員存在,但是無法確定人員是否是在駕駛座位上,由此就可以在駕駛座位上設置一個感興趣區域來篩選出有效的人員在崗情況[9]。
目標檢測到事件后會返回兩點坐標,分別為目標檢測框的左上點和右下點。借助兩點確定一個四邊形,用戶設置的感興趣區域是由多點組成的多邊形,可以使用射線法判斷四邊形的四個點是否都在多邊形內,若不是,則該目標檢測事件不是有效事件。
射線法原理[10]:當一個點在多邊形外時,作出的射線經過多邊形邊界時一定是穿入,而一次穿入對應一次穿出,所以最終的穿越次數是偶數。當該點在多邊形區域內時,第一次穿越邊界一定是穿出,下一次如果穿入就又會對應一次穿出,所以區域內的點會多出單獨的一次穿出,因此最終的穿越總數為奇數。
射線法結論:一點沿著任意一個方向的射線與多邊形的邊相交的點數若為奇數,則該點在此多邊形內,若為偶數,則該點不在多邊形內。
假設待判斷點為P(xp, yp),多邊形的某條邊為線段AB,A(x1, y1),B(x2, y2),如圖5所示。以從P點出發且平行于x軸并沿其正方向延伸的射線p作為參考。首先,判斷線段AB是否平行于射線p,即y1是否等于y2,若平行則不可能相交。接著,判斷AB兩點是否分別在射線p的兩側,不滿足條件:y1gt;yp,y2gt;yp或y1lt;yp,y2lt;yp即可。然后,根據公式(1)計算出過P點且平行于x軸的直線與線段AB的交點x:
若x≥xp,則射線p和線段AB存在交點,射線p與多邊形的交點數加1;否則射線p和線段AB不存在交點。
通過上述方法依次計算出射線和多邊形各邊的相交總點數,即可判斷該點是否在多邊形內,若目標檢測框的四個頂點均在多邊形內,則保留此目標檢測結果。
1.5 決策策略的設計
系統設計了一個可擴展的決策策略池,這是一種面向復雜場景和業務需求的柔性軟件開發方法。本系統策略池是一個自定義的規則系統,由一個通用決策需求派生得到,決策可以和具體的視頻源綁定,比如第1路視頻綁定A、B策略,第2路視頻綁定B、C、D策略。決策滿足軟件設計中的開閉原則,在增加新功能時不修改舊類。
針對拖輪的應用場景,設計了駕駛員離崗決策、人員進入危險區域決策、人員定時巡查決策,和視頻源的具體綁定關系如圖6所示。
通用決策遍歷所有檢測對象。首先,判斷目標是否在感興趣區域內。然后,在結果緩存隊列中檢查是否存在事件類型上下文。若存在,則更新計數器,并檢查事件是否已經消失一段時間,如果是,則創建一個CLEAR事件,并從結果緩存隊列中移除該事件上下文;若不存在,則更新計數器,并檢查事件是否已經出現了一段時間,如果是,則生成一個帶有唯一標識符的事件上下文。
1.6 語音播報模塊設計
本系統發現潛在危險時會自動發出聲光報警。嵌入式處理器將采集的視頻信息、位置信息、事件信息、發生事件的時間通過以太網發送到云平臺中,實現信息的存儲和記錄。發送控制指令給語音播報平臺,語音播報平臺采用無線電傳輸語音信號,實現拖輪的報警提醒。報警邏輯如圖7所示,該報警邏輯分為工作模式和停泊模式。在工作模式下主要針對駕駛艙離崗、機艙離崗和未安全著裝進行告警;在停泊模式下主要針對未按時巡檢和外部人員入侵進行告警。
2 系統測試與分析
本系統最終通過一個基于ARM的嵌入式Qt軟件呈現。
2.1 AI模型測試
測試數據集是在拖輪不同場景和不同時間下采集的監控圖片,共3 028張。YOLOv5s有5類,分別是0:人;1:安全帽;2:反光背心;3:頭部;4:身體。經統計,AI模型在不同場景和不同時間下的誤報率均在2.4%以下,其中安全帽和反光背心的誤報率在1.6%以下,與目標跟蹤SORT算法結合后,基本達到工程要求,測試結果見表1。不同類別違規操作識別結果的平均置信度如圖8所示。
2.2 感興趣區域選擇功能測試
在不同場景下,選取形狀各異的感興趣區域,將經過感興趣區域選擇前后的結果進行對比,如圖9所示,線包圍的區域即為感興趣區域。
2.3 視頻監控大屏
大屏平均分成9塊,用以實時顯示拖輪的9路監控視頻畫面,視頻分布位置同拖輪相對應,大屏畫面如圖10所示。位于大屏上方的三個畫面從左到右為左前舷、前甲板、右前舷;位于大屏中間的三個畫面從左到右為集控室、駕駛艙、機艙;位于大屏下方的三個畫面從左到右為左后舷、后甲板、右后舷。檢測框的左上角為目標跟蹤號。
當某一處監控畫面出現異常事件時,大屏上對應的畫面會顯示閃爍的紅框,并全船告警提示。
2.4 后臺設置界面
在監控視頻大屏頁面上,將鼠標上劃到屏幕頂部可引出隱藏菜單欄,點擊左側設置按鈕,全屏進入設置畫面,該畫面可進行視頻源RTSP地址設置、ROI區域設置、模型文件設置、事件上報的私有云服務器地址設置,如圖11所示。
3 結 語
本文以拖輪智能化安全預警為課題研究對象,介紹了基于邊緣計算的拖輪智能安全預警系統設計原理與實施方案。通過邊緣計算實時獲取拖輪部署的攝像頭數據,經視頻取流解碼后通過神經網絡進行檢測,實現駕駛員離崗預警、人員進入危險區域預警、人員定時巡查預警,等等。針對神經網絡檢測可能出現的誤檢問題,設計了一套推理均衡器算法和感興趣區域檢測算法,有效減少了因誤檢導致的系統誤報問題。本文所設計的系統最終在福州港務集團的拖輪上得到實際部署、測試和驗證。結果表明,本文所設計的系統和算法可靠,可以有效實現拖輪的安全預警功能。
參考文獻
[1]趙晶,雷凌云.海上船靠船的常見事故分析及其安全操作措施[J].青島遠洋船員職業學院學報,2019,40(1):39-43.
[2] CHOI J H, JANG J Y, WOO J. A review of autonomous tugboat operations for efficient and safe ship berthing [J]. Journal of marine science and engineering, 2023, 11(6): 1155.
[3]焦爽. 拖輪智能化發展探討與展望[J]. 高科技與產業化,2023,29 (6):66-69.
[4]裴宇.船舶嵌入式智能預警系統設計[J].艦船科學技術,2023,45(17):178-181.
[5]劉文寶.智能化船舶航行安全風險預警與防控在油輪安全管理中的應用[J].中國船檢,2023(11):19-23.
[6]張學立,賈新春,王美剛,等.安全帽與反光衣的輕量化檢測:改進YOLOv5s的算法[J].計算機工程與應用,2024,60(1):104-109.
[7] LI S Y, LV Y C, LI X Y, et al. Detection of safety helmet and mask wearing using improved YOLOv5s [J]. Scientific reports, 2023, 13(1): 21417.
[8]張俊杰. 基于嵌入式AI處理器的安全場景人工智能應用[D].西安:西安電子科技大學,2022.
[9]莊建軍,徐子恒,張若愚.基于改進的YOLOv5模型和射線法的車輛違停檢測[J].南京信息工程大學學報(自然科學版),2024,16(3):341-345.
[10]章磊,何芬,李鴻赟.一種基于奇異射線法檢測點在多邊形內的方法[J].計算機應用研究,2020,37(z2):133-135.