徐守坤,吉晨晨,倪楚涵,李 寧
(常州大學 信息科學與工程學院 數理學院,江蘇 常州 213164)
圖像描述生成是圖像理解領域的研究熱點,而對圖像場景空間關系的準確描述在圖像理解中至關重要。化工廠、建筑工地等施工場景環境多變,存在多種不安全因素,其中人和危險物的空間關系是一個重要方面,例如人站在腳手架上或塔吊機的機臂下方時就存在安全隱患。對圖像施工場景中空間關系的準確描述可為施工管理提供理論指導和技術支持,也有助于提高施工現場安全管理水平,防范和降低安全隱患,保證現場的安全性。因此,研究施工場景中空間關系的圖像描述具有重要意義。目前,關于建筑施工的研究主要側重于對不安全行為的潛因分析和施工現場的安全行為檢測,關于建筑施工場景圖像描述的研究較少。
本文提出一種基于施工場景的圖像描述生成模型。針對施工場景需要檢測施工人員的安全狀態、人員與危險物的空間位置關系,以及最終生成描述語句的特殊性,進行目標檢測與關系檢測,基于模板和規則相結合的方法構建針對施工場景的圖像描述模型,重點研究對象之間的空間關系,并融合目標檢測、空間關系語義建模、基于規則和模板的文本生成技術對多個場景進行實驗驗證。
傳統目標檢測方法大部分基于低層圖像特征,如圖像對比度[1-2]、顏色[3-4]和紋理[5-7]等。近年來,基于深度學習的目標檢測方法,特別是基于卷積神經網絡(CNNs)的目標檢測方法,較傳統目標檢測方法取得更優異的效果。文獻[8]提出兩種深度神經網絡融合局部估計的像素和全局建議搜索區域可實現突出目標檢測。文獻[9]使用多個通用的CNN多尺度特征預測各像素的顯著程度。雖然上述方法具有較好的效果,但是沒有很好地處理底層細節,而且采用的模型包含了多個完全連接層,這些連接層計算量較大,且易丟失輸入圖像空間信息。為解決該問題,文獻[10]提出深層次顯著性網絡來學習全局結構,通過整合上下文信息逐步細化顯著性映射細節。文獻[11]開發出深度遞歸的全卷積神經網絡,將粗預測作為顯著先驗知識,并逐步細化生成的預測。
在關系檢測方面,文獻[12-13]通過網絡學習上面、下面、里面和周圍4種空間關系以改善圖像分割精度。文獻[14-15]提出一種檢測相鄰物體間物理支撐關系的方法。文獻[16-17]通過研究對象間語義關系(例如動作或交互),將每種可能的語義關系組合作為一個可視短語類進行關系檢測,該方法采用手工標注且只能檢測到少量常見的視覺關系。近年來,基于深度學習的視覺關系檢測體系結構引起研究人員的關注[18-20]。文獻[18]加入參與對象信息或字幕的語言線索進行關系檢測。文獻[19]將關系作為連接場景圖中兩個對象節點的有向邊,通過迭代構造場景圖推導出對象間關系。文獻[20]采用邊界框方法標注出主體對象和相關對象,并通過網絡學習邊界框內的視覺特征。
在圖像字幕生成方面,基于模板的方法是使用預先定義模板生成語句,并用模板中的插槽填充圖像實體[21-23]。采用該方法將可視化內容表示為一個三元組,其生成的描述語句雖然語法正確但是語言僵化不靈活。基于合成的方法是將檢索到的文本片段或者實體拼接成一個圖像描述語句[24-26]。該方法通過復雜的預定義規則來檢索文本片段或實體以生成完整的圖像標題[27]。與基于模板的方法相比,基于合成的方法生成的圖像描述更具有表現力,但是其參數個數具有不確定性,因而測試時計算量較大。基于語言模型的方法是將圖像和語言結合到一個多模態嵌入空間中,使用基于神經網絡的語言模型生成圖像標題[28-30]。文獻[28]使用循環神經網絡(Recurrent Neural Network,RNN)對不同長度的標題進行解碼。文獻[29]采用LSTM解碼器對上下文的圖像描述進行解碼。文獻[31]提出一種多模態對數雙線性神經語言模型,該模型通過圖像特征的偏置來解碼圖像標題。文獻[32]將CNN編碼的圖像和分析標準正則學習到的語義嵌入作為LSTM解碼器的輸入。文獻[33]將注意力機制與LSTM解碼器結合,在字幕生成過程中注重圖像的各部分。
建筑施工場景環境具有多變性。施工現場通常存在多種不安全因素,包括施工人員未按規定佩戴安全帽導致被墜落物體擊傷,以及腳手架、塔吊等因局部結構工程失穩造成機械設備傾覆、結構坍塌或人員傷亡等,因而本文主要研究以下場景:1)安全防護場景,如施工人員佩戴安全帽的狀態;2)高空作業場景,如施工人員在腳手架上;3)地面作業場景,如施工人員在塔吊下方。在安全防護場景中檢測施工人員是否佩戴安全帽,在高空作業場景和地面作業場景中檢測人與腳手架、塔吊的空間位置關系,并最終生成空間關系圖像描述語句。
本文生成空間關系圖像描述的模型包括3個階段,如圖1所示。第1階段是采用YOLOv3網絡進行目標檢測;第2階段是采用關系檢測模型結合對象坐標框信息進行關系檢測,從待測圖像中檢測所有對象之間的空間關系;第3階段是基于規則和模板的方法生成關于空間關系的圖像描述。
本文使用YOLOv3網絡進行目標檢測,這是因為該網絡融合分辨率不同的特征圖,具有較高檢測精度和效率。對于分離式模型,目標檢測網絡性能越好,關系檢測結果越優。YOLOv3網絡包含Darknet-53特征提取層和3層輸出層,其中Darknet-53特征提取層由DBL層和res_unit構成,YOLO輸出層由尺度為13×13×255、26×26×255、52×52×255的3種特征圖譜構成,如圖2所示。該網絡結構可提高對不同尺寸物體和遮擋物體的檢測精度。YOLOv3網絡以躍層連接的方式進行,收斂效果優異,且采用多尺度訓練策略增強了該網絡的魯棒性。

圖2 YOLOv3網絡結構
圖2中DBL層為YOLOv3網絡的基本組件,由卷積層、BN層和Leaky relu激活函數組成,BN層、Leaky relu激活函數和卷積層不可分離(最后一層卷積除外)。Resn(n為數字,表示res_block中含有n個res_unit)為YOLOv3網絡的大組件,通常有res1、res2、…、res8等。張量拼接(Concat)是將darknet中間層和后面某一層的上采樣進行拼接。拼接操作和殘差層的add操作不同,拼接操作會擴充張量維度,而add操作只直接相加不會改變張量維度。
YOLOv3網絡采用多尺度輸出并大量使用殘差的躍層連接,是一個全卷積網絡。這種殘差結構使得YOLOv3網絡在結構很深的情況下仍能正常收斂,從而實現模型的正常訓練。在通常情況下,網絡結構越深,其提取的特征越好,且分類和檢測效果越佳。殘差網絡中的1×1卷積使用了網絡的思想,通過減少參數數量一定程度上減少了計算量。
YOLOv3網絡檢測的每個對象均有一個邊界框代表其空間信息和對象分類概率,表示為:
Po={Pi}i=1,2,…,N+1
(1)
其中,Pi為待測物體屬于類別i的概率,N為對象類別總數,N+1是作為背景的對象個數。每個被檢測對象的位置記為(X,Y,W,H),其中,(X,Y)為圖像平面上邊框左上角點的歸一化坐標,(W,H)為邊界框的標準化寬度和高度。
YOLOv3網絡目標檢測過程具體如下:
1)輸入自制目標檢測數據集(以下稱為自制數據集)并將其預處理為YOLO格式數據集。
2)送入YOLOv3網絡訓練模型,網絡將圖片分成S×S個網格,每個單元格用來檢測中心點在單元格內的目標,并通過非極大值抑制篩選出最終目標檢測框。
3)測試圖像,若檢測目標得分大于閾值則標注出圖像中對象及輸出對象得分,否則將顯示無法檢測出圖像中的對象。
自制數據集標注了對象和場景類別,在此數據集上訓練模型參數,可使得模型能捕捉圖像中的物體信息,同時包含許多場景先驗信息用于捕捉圖像中的場景信息。在一般情況下,將對象及其特定空間關系抽象為一種場景,該場景包括3個方面:1)場景中行為主體表現出不同的行為特征,如施工人員是否佩戴安全帽;2)場景基本不變或者變化很小,如施工樓層等;3)在同一空間中,對象之間的不同位置關系形成不同場景,如腳手架和塔吊等。自制數據集通過收集施工現場圖片,按照上述場景的定義進行標注以支持安全防護、高空作業、地面作業等場景分析。
視覺關系的一般表達式為<主語,謂語,賓語>,組件謂語為一個動作(如戴著),或者為相對位置(如左邊、右邊)。關系檢測的任務是檢測和定位圖像中出現的所有對象,并預測任意兩個對象之間所有可能的空間關系。關系檢測過程如下:
1)輸入自制關系檢測數據集和由目標檢測模型訓練得到的權重文件,對數據集進行預處理。
2)送入關系檢測模型進行訓練,采用轉換嵌入(TransE)算法學習主語到賓語之間的轉換嵌入,通過特征提取層提取對象的類別信息、位置和視覺特征,預測對象之間的關系。
3)測試圖像,若檢測到對象對關系的得分大于閾值則標注出圖像中成對的對象及輸出對象間關系的三元組,否則無法檢測出圖像中對象之間的關系。
2.2.1 空間關系上下左右的定義
定義對象oi的幾何中心,其中(xi1,yi1)和(xi2,yi2)分別是對象oi左上角和右下角的坐標:
center(oi)=[centerx(oi),centery(oi)]=
(2)
定義lx(oi) 和lx(oj)分別為對象oi和oj邊界框在x方向上的長度,如果
|centerx(oi)-centerx(oj)|<ε(lx(oi)+lx(oj))
(3)
則定義在x方向上兩個對象位于同一位置,否則,如果:
center(oi)
(4)
則認為對象oi在oj的左邊,否則認為對象oi在oj的右邊。
定義ly(oi) 和ly(oj)分別為對象oi和oj邊界框在y方向上的長度,如果:
|centery(oi)-centery(oj)|<ε(ly(oi)+ly(oj))
(5)
則定義在y方向上兩個對象位于同一位置,否則,如果:
center(oi)
(6)
則認為對象oi在oj的上邊,否則認為對象oi在oj的下邊。
2.2.2 關系檢測模型
本文使用TransE算法作為關系檢測模型的基礎,并加入特征提取層,其中TransE算法通過在低維空間中映射對象和謂語特征對可視化關系建模,特征提取層以全卷積方式實現目標關系知識的遷移。該模型融合了語言先驗知識并提高了關系檢測準確率,其建立在傳統對象檢測模型基礎上,可以與YOLOv3網絡很好地銜接,從而預測出對象之間的空間關系。空間關系采用廣泛使用的形式,其中s和o分別表示主語和賓語類別,p表示關系謂語。關系檢測模型的網絡結構如圖3所示,其中Ws、Wo是特征空間到關系空間映射的矩陣。

圖3 關系檢測網絡結構
網絡結構的相關定義為:
定義1(轉換嵌入) 通過在低維空間里將目標和謂語進行建模生成視覺關系,低維空間里的關系三元組被認為是一種向量轉換,如“人+上方≈危險源”。通過減少變量可避免學習大量主語、謂語、賓語的表示關系,即使主語或者賓語有較大變換,只需學習空間關系里的“上方”轉換向量。
定義2(關系中的知識轉換) 網絡中對象和謂語之間的知識轉移結合。通過一種特征提取層提取轉換嵌入中對象的三種類型特征:分類(類概率)、位置(邊界框坐標和比例)和視覺特征。
定義3(類別信息) 一個目標檢測網絡中的(N+1)維向量,用來表示目標的類概率。類別信息在各種視覺任務中被廣泛用作語義屬性。
定義4(位置) 一個表示邊界框參數的四維向量。前兩個參數表示比例不變的平移,后兩個參數表示相對于主體或者目標其在對數空間的高或寬的變換。以主體為例:
(7)
其中,(x,y,w,h)和(x′,y′,w′,h′)分別是主體和目標的坐標。位置特征用于檢測空間關系和動詞。
定義5(視覺特征) 一個從空間卷積特征轉換而來的d維向量。物體的視覺特征通過使用線性插值從卷積特征映射提取出來,因而對象和關系之間的信息、位置、視覺特征可以單一的前向或后向傳遞。
2.2.3 坐標信息確認
關系檢測模型可檢測出圖像中對象與對象、對象與場景之間的空間關系,對于同一類對象間的關系無法區分,例如關系檢測模型檢測的關系包含“人在人的左邊”“人戴著安全帽”“人在人的右邊”,但是無法區分圖中戴著安全帽的人在左邊還是右邊,因而還需利用坐標信息進一步區分對象間的關系。
南通集裝箱多式聯運尚處于起步階段,絕大多數企業不具備策劃、組織、協調多式聯運的能力和經驗,整體服務水平處于較低層次。各企業間沒有統一的信息協調平臺,各企業系統各自獨立運行,還處于一種分割的各自為戰的狀態,這也不利用構建完善的、通暢的集裝箱聯運體系,無法實現無縫鏈接,聯運效率難以提升。
關系檢測模型中存在對象坐標框信息,利用該信息可區分同類對象之間的空間關系,即對象1位于對象2的某個位置。關系檢測模型輸出關系短語由主語、謂語和賓語組成,本文將關系檢測模型檢測到的多個關系短語通過以下方式來確認對象間的關系:關系檢測模型預測出第一個關系短語,定義一個存放對象邊界信息的列表并建立索引,將主語的坐標框信息存放于列表中,獲取該坐標框信息的索引并添加到主語后,將賓語的坐標框信息與列表中存儲的坐標框信息進行對比,如果無相同的坐標框信息就重新存放于列表中,獲取該坐標信息的索引并添加到賓語后。其他關系短語的主語與賓語對象按照上述方式進一步區分,每次向列表中存放對象坐標框信息時,都必須與列表中的邊界框坐標信息進行對比,確保存放在列表中的坐標框信息不重復,以保證每個對象有唯一的下標。經實驗驗證,該方法具有較好的實驗效果,可以區分戴著安全帽的人在左邊還是右邊。
2.3.1 空間關系描述的規則
根據關系檢測模型的檢測結果,制定空間關系描述規則:從上下關系考慮,根據人是否在危險源的上方或者下方來確定施工場景中是否存在安全隱患;從左右關系考慮,由于單人情況下無需判斷左右關系,所以只制定了兩人和多人情況下的規則,根據各對象之間的左右關系以及目標對象是否佩戴安全帽來確定左邊、右邊的人是否佩戴安全帽。空間關系描述規則的具體內容如表1所示。

表1 空間關系描述規則
2.3.2 空間關系描述的生成
在采用模板生成空間關系描述過程中,可采用模板生成技術根據需求設計出可能出現的語言情況,并制定相應情況的模板,模板中有常量也有變量。空間關系描述的表達具有一定規律,可根據人們描述空間關系的固有規律來制定描述的固定模板為:“<變量1>位置的人<變量2>安全帽。”該固定模板以檢測到的信息作為字符串嵌入模板中替換變量。
一幅圖像生成一個包含空間關系語句(字幕)的過程如圖4所示。關系檢測模型檢測的關系短語、根據圖像字幕數據集生成的語句模板與制定的規則三者結合生成圖像字幕。

圖4 圖像字幕生成過程框架
空間關系描述是將圖像中對象之間存在的空間關系以自然語言的形式進行描述,其中空間關系既包括人戴安全帽的隱性空間關系,也包括人處于參考對象某個位置的顯性空間關系。通常只有將隱性和顯性的空間關系相結合,才能貼切、詳細地描述一幅圖像。下面以關系檢測模型得到的空間關系示例圖(見圖5)為例來說明如何進行有空間關系的圖像描述。

圖5 空間關系示例圖
空間關系描述的語句通常為固定句式,例如“<變量1>位置的人<變量2>安全帽”等,所以空間關系描述可由模板生成技術生成。由圖5可以看出,檢測的空間關系包含了“人1戴安全帽2”“人3戴安全帽4”“人1在人3的左邊”“人3在人1的右邊”4種關系,再采用基于規則的方法匹配滿足4種關系條件的結果,將<變量1>替換成“左邊”、<變量2>替換成“戴”,最終采用基于規則和模板的方法生成空間關系的自然語言描述為:“左邊的人戴安全帽并且右邊的人戴安全帽”。
實驗采用GeForce GTX 1080 Ti軟件、CUDNN6.0軟件、CUDA8.0軟件和Ubuntu16.04軟件作為圖形處理器(Graphics Processing Unit,GPU),內存為12 GB。本文基于tensorfow框架進行實驗操作,該框架支持GPU運算。
目前在國內外尚未發現公開的施工現場工人作業圖像標準數據集,實驗所用的3 050張圖片通過從公共數據集篩選、從“視覺中國”網站收集和自行拍照等方式獲得,其中包含了具有不同施工背景和不同質量施工場景的圖片。根據目標檢測實驗需求,將上述圖片標注為VOC2007數據集格式,用labelimg進行標注,保存后生成與所標注圖片文件名相同的xml文件,如圖6所示,分別對每一類圖片進行人工標注。

圖6 圖片標注示例圖
3.2.2 關系檢測數據集
視覺關系檢測(Visual Relationship Detection,VRD)數據集[17]:使用VRD數據集進行關系檢測模型的訓練,模型在參數調整完成后進行再遷移,替換為自制數據集進行訓練。VRD數據集共有5 000張圖像,包含100個對象類別和70個關系。具體而言,VRD數據集包含37 993個關系三元組注釋,每個對象類別包含6 672個唯一三元組注釋和24.25個關系。實驗從VRD數據集取4 000張圖像作為訓練樣本、1 000張圖像用于測試。其中,1 877個關系只存在于零樣本評估的測試集中。
自制數據集:將目標檢測數據集中收集的圖片按照VRD數據集的格式制作用于關系檢測實驗,標注“人在危險物的上方或下方”“人和人的左右關系”“人是否佩戴安全帽”以及各個對象的坐標信息,最終生成json格式文件。
3.2.3 圖像字幕生成數據集
用于研究圖像字幕生成的公共數據集有COCO數據集、Flickr30k數據集等,但上述公共數據集中均沒有基于施工場景的圖像字幕數據集,因而本文實驗使用的圖像字幕生成數據集是由目標檢測實驗中收集的3 050張圖片按照COCO數據集格式制作得到。通過自編程實現圖片統一命名和統一格式處理,具體流程為:編寫一個腳本程序自動獲取圖片文件名、高度、寬度信息,并將其寫進json文件,為每張圖片人工標注五句話。標注流程為:對每句caption進行中文描述→翻譯成英文→檢查時態(現在時或現在進行時)→檢查語法→復制到captions_train2018.json文件對應的字幕中→檢查整句話→完成全部圖片標注后將captions_train2018.json文件內容復制到https://www.bejson.com/網址中檢查是否為規范的json文件。
3.3.1 數據集預處理
自制數據集為VOC2007格式,目標檢測實驗使用YOLOV3網絡,因而需先將VOC格式的標注轉換為YOLO格式的txt標注,并對YOLOv3網絡配置文件的參數進行修改,具體包括:修改filters參數(該參數為輸出特征圖的數量;其值取決于類別、坐標和masks的數量);修改anchors參數(該參數值由kmeans聚類算法得到,分別為27、17、52、128、53、34、85、56、88、189、134、223、152、120、205、257、374、588)。
3.3.2 網絡訓練與測試
目標檢測實驗分為網絡訓練和網絡測試2個階段。
1)網絡訓練階段:先初始化網絡訓練參數:batch參數(一批樣本數量)設置為64;動量參數設置為0.9,使用小批量隨機梯度下降進行優化;權重衰減參數設置為0.005,設置該值是為防止過擬合;學習率由原來算法中的0.005變為0.001。YOLOv3網絡采用多尺度進行網絡訓練,增強了網絡對不同尺寸圖像的魯棒性,圖片尺寸為320×320~608×608,采樣間隔為32。實驗中網絡結構部分參數如表2所示。

表2 YOLOv3網絡結構部分參數
2)網絡測試階段:輸入一張待檢測圖片到YOLOv3網絡,輸出一張檢測到目標對象的圖片。
3.3.3 評估指標
目標檢測有多種評價指標,例如目標檢測精度、檢測效率和定位準確性等,每種評價指標的性能側重點不同。本文實驗側重于考察目標檢測精度,因此采用多個類別平均精度的平均值(mean Average Precision,mAP)作為描述目標檢測精度的評估指標。mAP取值范圍為[0,1],mAP值越大表示目標檢測精度越高。精確度的計算公式如下:
(8)
其中,TP(True Positive)為被模型預測為正值的正樣本;FP(False Positive)為被模型預測為負值的正樣本。
3.3.4 結果與分析
由圖7可以看出,當YOLOv3網絡開始訓練時,損失值高達6 000;隨著YOLOv3網絡訓練迭代次數的增加,損失值逐漸降低;當YOLOv3網絡訓練迭代次數達到5 000次時,損失值趨于恒定約為0.1。從損失值的收斂情況看,YOLOv3網絡的訓練結果較理想。

圖7 YOLOv3網絡訓練過程中損失值隨迭代次數 的變化曲線
目標檢測實驗的部分檢測結果如圖8所示。可見通過目標檢測實驗檢測出人、安全帽和腳手架等對象,這表明YOLOv3網絡可實現對目標對象較準確地定位。

圖8 目標檢測實驗的部分檢測結果
3.4.1 數據集預處理
訓練用圖使用一個“主謂賓”三元組來標記,其中每個不同的主體或者目標用邊界框進行注釋。
3.4.2 網絡訓練與測試
關系檢測實驗分為網絡訓練和網絡測試2個階段。
1)網絡訓練階段:圖像尺寸設置為600像素(最大不能超過1 000像素),一個圖像和128個隨機選擇的三元組作為每個批次的輸入。首先在VRD數據集上訓練模型,模型訓練完畢后再用自制數據集進行訓練。采用Adam優化器計算各參數的自適應學習率。初始學習率均設置為0.000 01,batch參數設置為50,每測試50個樣本更新一次參數。在每次學習過程中,將學習后的權重衰減按照固定比例降低,權重衰減參數設置為0.005。關系檢測網絡結構的部分參數如表3所示。

表3 關系檢測網絡結構部分參數
2)網絡測試:輸入一張未標注的圖片到關系檢測模型,輸出一個檢測到不同目標的集合,并且輸出每一對目標之間關系的預測評分。
3.4.3 評估指標
實驗使用召回率(Recall@N)評估關系檢測模型對空間關系檢測的有效性[34],Rec@N用來計算每個圖像前N個預測中所包含正確關系實例的比例,計算公式如下:
(9)
其中,FN(False Negative)表示被模型預測為負值的正樣本。
3.4.4 結果與分析
關系檢測實驗的部分檢測結果如圖9所示。可見通過關系檢測實驗檢測出單人場景中人與物之間的關系、多人場景中人與人間的關系,這表明關系檢測模型可較準確地檢測對象之間的空間關系。

圖9 關系檢測實驗的部分檢測結果
利用坐標信息區分同類對象的關系檢測實驗部分檢測結果如圖10所示。可見通過實驗檢測出人1在人3的左邊,這表明加入坐標信息后關系檢測模型可區分出同類對象間的空間關系。

圖10 利用坐標信息的關系檢測實驗部分檢測結果
除了本文采用的關系檢測方法(以下稱為本文方法)外,常用的關系檢測方法還有Lu’s系列方法和STA方法。Lu’s系列方法采用單獨預測對象和關系謂語,結合語言先驗知識進行關系預測。STA方法采用訓練前重組策略,降低關系對于對象的依賴性再進行關系預測。本文方法以TransE算法和特征提取層為基礎結合坐標信息檢測對象間的關系。分別采用Lu’s-V方法[18]、Lu’s-VLK方法、STA方法[35]和本文方法在VRD公共數據集和自制數據集上進行實驗,結果如表4所示。可見采用Lu’s-V方法和Lu’s-VLK方法得到的召回率較低;采用STA方法得到的召回率略有提升;采用本文方法得到的評估指標分數較高,在VRD公共數據集和自制數據集上采用本文方法得到的召回率比采用STA方法得到的分別提高18.63%和20.03%,這表明本文方法更適用于檢測對象之間的空間關系。

表4 不同關系檢測方法在不同數據集 上得到的召回率
3.5.1 數據集預處理
將圖像字幕數據集分割為單詞,按單詞出現的頻率進行篩選后建立詞匯字典,詞匯字典里包含單詞、詞頻、單詞編號,出現頻率低于4次的單詞不被收入詞匯字典。
3.5.2 圖像字幕生成的過程
關系檢測模型檢測的空間關系為“人1戴著安全帽2”“人1在人3的左邊”“人3在人1的右邊”,根據定義的規則,可得到關系檢測結果為“左邊的人戴著安全帽”。句子模板為The
3.5.3 評估指標
本文采用雙語評估替補(Bilingual Evaluation Understudy,BLEU)方法和METEOR方法對生成的語句進行整體評估[36-37]。BLEU方法將候選翻譯結果的N-gram算法與參考結果的N-gram算法匹配的個數進行對比。這些匹配與位置無關,匹配個數越多說明候選翻譯越好。BLEU方法是一種改進的精度度量方法,缺點為語句簡短,其計算值為不同長度N-gram算法的加權幾何平均值。METEOR方法通過將翻譯假設與參考譯文對齊并計算語句相似度評分來評估翻譯假設。對于一個假設引用對,可能的對齊空間通過詳盡地確定語句之間所有可能的匹配而構建。如果單詞的表面形式相同,則表明單詞匹配;如果詞干相同,則表明詞干匹配;如果短語在適當的釋義表中被列出,則表明短語匹配。
3.5.4 結果分析
將本文模型與m-RNN、NIC、Soft-Attention、Hard-Attention等主流模型在自制數據集上的精度進行對比,結果如表5所示。可見與m-RNN模型和NIC模型相比,本文模型在BLEU-3、BLEU-4、METEOR等評價指標上分數較高(評估指標值越高,說明模型性能越好),其中本文模型的BLEU-4值比NIC模型提高7.3%。這是因為NIC模型是較早提出的端到端模型,采用CNN網絡和LSTM網絡生成圖像描述,因而本文模型的性能整體優于NIC模型的。與Soft-Attention模型和Hard-Attention模型相比,本文模型的METEOR值略低,但是反映句子連貫性和準確率的BLEU-4值較高,其中本文模型的BLEU-4值比Soft-Attention模型提高7.1%,比Hard-Attention模型提高6.3%。這是因為Soft-Attention模型雖然在NIC模型的基礎上增加了注意力機制,但是沒有考慮描述圖像中對象之間的空間關系,所以本文模型的性能比Soft-Attention模型更優。

表5 本文模型與其他模型在自制數據集上的 評價指標情況
由表6可以看出,與NIC模型相比,本文模型生成的語句具有更好的空間關系語義表達,能更準確地描述施工場景中包含的空間位置關系。在建筑施工場景中,當兩個人都戴了安全帽時,本文模型描述為“左邊的人戴著安全帽并且右邊的人戴著安全帽”;當兩個人中只有一個人戴了安全帽時,本文模型明確描述出是左邊的還是右邊的人戴著安全帽。

表6 本文模型與NIC模型生成的圖像描述對比
本文提出一種融合施工場景及空間關系的圖像描述生成模型。通過使用YOLOv3網絡目標檢測模型訓練得到權重文件,將其與數據集輸入到關系檢測模型,基于規則和模板的方法生成圖像描述。實驗結果表明,本文模型較m-RNN、NIC、Soft-Attention、Hard-Attention模型在圖像描述生成任務上取得更好的效果,能很好地解決施工現場中人的安全性推斷和描述問題。但是本文模型生成的描述語句句式較單一,內容上缺乏細節描述,下一步將對此進行研究以生成更生動的圖像描述語句。