趙 一,段 興,謝仕義,梁春林
(1.廣東海洋大學數學與計算機學院,廣東湛江524000;2.湛江灣實驗室南海漁業大數據中心,廣東湛江524000)
截止2015 年,北京市已經安裝100 多萬個攝像頭,對2 174 多萬人口及700 多萬車輛實施交通監控[1],交通監管部門需要從海量交通監控圖像中檢索出違反交通規則的圖像。這些道路交通監控圖像并沒有描述文本,無法利用現有的文本檢索方法,如果僅通過人工去識別圖像所包含的語義,則費時費力,因此,交通圖像語義檢索工具的支持是非常必要的。
圖像語義檢索框架主要包括兩大模塊:語義分析模塊和語義檢索模塊[2]。語義分析模塊將圖像中的底層特征抽取出來,并與高層的本體概念系統進行匹配。圖像的底層可視特征與高層語義特征之間存在著一道鴻溝,在將可視化數據(visual data)導入語義分析模塊進行檢索之前,必須要將可視化數據轉換成為語義檢索模塊能接受的本體實例及實例間關聯。語義圖像檢索的性能極大地依賴于可視化數據特征的提取和描述。基于內容的圖像語義檢索面臨14 個語義鴻溝,包括圖像內容、圖像特征、圖像語義等[3]。這些鴻溝將人類對圖像的高層場景理解和底層的計算機像素分析分割開來,圖像處理技術是彌補語義鴻溝的手段。關于語義檢索模塊,目前已有將顏色、位置、形狀等底層次圖像特征和圖像中二維區域的空間位置關系特征,映射到本體概念及本體概念間關聯的方法[4]。在抽取圖像內容(visual content)方面,可以通過尺寸不變特征變換(Scale-Invariant Feature Transform,SIFT)技術來抽取視覺內容并轉成為矢量模型,然后通過對矢量聚類得到視覺詞匯(visual word),并映射到領域本體中,從而實現對圖像的檢索[5]。然而,對道路交通圖像的語義檢索主要關注的是特定的交通目標,而非提取圖像中所有目標,關注的也不是圖像的紋理、顏色等底層特征。
基于領域本體搜索是利用語義檢索模塊和語義分析對圖像內容標注,然后進行內容關系推理得出檢索結果。本體經常用于信息系統中,作為一種有效的語義表征(semantic representation)[6]。在知識結構體中,本體也常用于圖像檢索系統,支持精確地發現、分類、檢索以及標注圖像[7]。當前,已有不少利用本體來輔助圖像檢索的相關工作。比如:本體結合物種分類知識圖譜已用于動物圖像的語義檢索[8];同時,本體結合情感表征也已用于藝術圖像[9]及博物館圖像的語義檢索。實驗表明,通過本體,可以檢索到一些語義相似的圖像,從而提高圖像檢索的查準率和查全率。本體還被用于圖像查詢的擴展,提高圖像檢索的精度。目前,本體圖像檢索較新的研究方向為多模式本體(Multi-Modal Incompleteness Ontology,MMIO)模型,它既包含了某領域核心詞匯,也包含了文本描述概念和視覺特征概念,通過多元信息融合提高檢索精度[10]。
然而,已有方法在使用本體進行圖像語義檢索時,主要還是利用本體概念間繼承關系進行的推理,如果圖像目標之間存在更加復雜的語義關聯,如在確定圖像目標中的空間位置關系時,若仍然使用當前的語義圖像檢索方法,便無法自動檢索到更加完整的圖像與目標之間的空間位置關系。
針對這些問題,本文提出了一種改進目標自識別的交通圖像語義檢索方法。該方法能根據交通違規查詢請求,自動識別出交通圖像中的特定圖像目標及目標間的空間位置關系,并通過語義推理得到違反道路交通的查詢結果。本文的主要工作包括:
1)基于卷積神經網絡(Convolutional Neural Network,CNN)抽取圖像特征,然后利用模擬退火結合遺傳算法(Simulated Annealing Genetic Algorithm,SA+GA)改進的支持向量機決策樹(Support Vector Machine based Decision Tree,SVM-DT)算法對特征進行分類,最后利用生成的決策樹對交通圖像中的特定目標進行自動識別,并映射到相應領域本體中的實例。與其他分類器相比,通過改進算法得到的SVMDT對交通目標進行自動識別時,具有更高的精確度。
2)在描述目標之間空間位置關系時,利用了基于方向關系矩陣模型和一階邏輯(first-order logic)的本體規則進行建模和推理,使得邏輯推理能力更強,檢索結果更加準確。
3)構建了原型系統,實現了本文所述的目標自識別的道路交通圖像語義檢索方法。
近年來,圖像的關系語義識別主要包括如下方面的研究:
1)基于神經網絡[11]的圖像語義識別。神經網絡最初應用在圖像的情感語義識別上,它利用底層特征映射到情感語義空間,在構建的二維圖像情感因子空間,通過機器學習的BP神經網路實現了圖像的底層特征的語義因子空間的映射。
2)基于特征融合[12]的圖像語義識別。文獻[12]采用了一種加權值的圖像特征融合算法,并應用于圖像情感語義識別,該方法根據不同特征對情感語義的影響提取顏色、紋理和形狀特征后通過加權融合為新特征輸入量,并用SVM 來實現情感語義的識別。
3)基于本體的圖像情感語義識別[13]。文獻[13]針對人類在圖像情感語義理解過程中存在的個性化和群體化現象,系統使用多層次的情感推理模型來分析圖像情感語義。
4)基于Zernike 矩陣的圖像識別[14]。文獻[14]針對圖像的旋轉、尺度和平移不變性識別問題,采用了一套旋轉不變特征。使用正則幾何矩陣圖像的比例和平移參數不變特征,重新利用Zernike 矩陣的正交性,簡化了圖像重建的過程,使圖像的特征選擇方法切實可行。
5)基于卷積網絡的圖像識別[15]。文獻[15]采用了一個深入的評估網絡精度的方法,構建了ConvNet 模型,用于解決計算機視覺中深層視覺表象的研究。
6)基于非線性圖像變形模型的圖像識別[16]。文獻[16]采用了經常出現在圖像對象變化時存在相似的模塊,并結合模型定位局部變化點,從而提高了MNIST標準的識別效果。
7)基于多方式局部集中的圖像識別方法[17]。研究針對目標識別系統中集中的特征向量空間的局部不變的特征,提出了一種空間金字塔框架(spatial pyramid framework)來提高圖像識別效率。
目前,利用分類模型對圖像關系語義進行識別的研究,主要有基于Nasent(Neural analysis of sentiment)[18]改進的各種模型。首先,Nasent 模型在深度學習的基礎上開發了一種無監督情況下運行的模型,但是它針對圖像的感知分析主要聚焦于模型本身,忽略了詞序,并且只適合用于簡單的例句,還遠達不到人類的理解能力。
其次,利用Nasent模型對圖像進行語義分析時,所描述的語義會隨圖像中各種參照物的不同而變化,Nasent 模型雖然會為每個圖像的描述構造語法樹,但是在分析描述圖片的語句時,根據的是關系樹構造圖像之間的語義聯系。Nasent 的準確率達到了85%,但遇到沒有被統計的圖像描述詞匯或短語時,這個系統就會失效。
基于傳統的SVM 決策樹多分類的圖像目標語義識別方法是一種啟發式搜索算法,因此,不能保證在任何情況下生成的決策樹一定是最優。而本文所提出的SVM-DT 是基于測度的一對多比較,能確保每次比較都是最優,而且能夠按照測度最優值分配決策樹劃分結構。通過對傳統的SVM 一對多(one-versus-rest)分析與比較:我們發現傳統的一對多分類算法訓練時依次把某個類別的樣本歸為一類,其他剩余的樣本歸為另一類,這樣k個類別的樣本就構造出了k個SVM。其優點是訓練k 個分類器,個數較少,分類速度相對較快;缺點是每個分類器的訓練都是將全部的樣本作為訓練樣本,這樣在求解二次規劃問題時,訓練速度會隨著訓練樣本的數量的增加而急劇減慢。
本文改進的SVM-DT 分類因為采用了分離性測度,所以其分類判斷的最壞情況等于算法所需的SVM 個數,則需要訓練SVM 個數為k-1;且每一次利用測量函數后,就會得到一個最優解,即:兩個分類所需要遍歷SVM 個數小于等于k(k-1)(k+2)/2(k+1)。
本文關注的圖像關系語義挖掘與已有圖像語義識別方法關注點不同,在于詳細分析圖像中各實例的位置關系,并利用SWRL 規則準確判定語義規則。且已有的算法研究并沒有充分考慮到圖像的實例關系,而是統一將整幅圖像進行分析,這將不能對圖像中各個實例的關系進行解釋,無法實現像人腦那樣對一幅圖像進行深層次的理解。本文利用相應的工具對圖像進行實例化標注,以有效地挖掘出視頻圖像中實例的位置關系,能較完整地解決機器自動判斷道路上機動車、非機動車及行人違法的問題。
道路交通監管部門需要從海量的交通圖像中檢索出違反交通規則的圖像,如果用人工對海量交通圖像進行甄別,則十分費時費力。根據道路交通監管部門的查詢請求,本文方法首先利用機器學習方法識別出特定目標,將其標注成為交通領域本體中的實例,繼而分析得到特定目標之間的空間位置關系;然后,通過語義推理技術,判斷自動標注出來的本體實例之間是否滿足交通規則的約束;最后,將違反交通規則的圖像返回給交通監管部門。本文方法可實現完全自動化,為交通監管部門節省大量人力,且提供更加直觀的執法依據。本文提出的目標自識別的交通圖像語義檢索方法包括三個主要步驟:
1)道路交通領域知識構建。領域專家構建道路交通領域本體,包括概念、實例、繼承、實例化、屬性關聯等,并構建基于一階邏輯的道路交通規則公式。
2)圖像目標自動挖掘。從圖像數據中自動識別出查詢請求的特定目標,并得到目標之間的空間位置二元關系。
3)基于領域本體推理的圖像檢索。根據步驟1)建立的領域知識和步驟2)中自動挖掘出的特定目標及其關聯進行邏輯推理,得到圖像檢索結果。
方法總體框架如圖1所示。

圖1 基于領域知識的交通圖像語義檢索框架Fig.1 Traffic image semantic retrieval framework based on domain knowledge
道路交通領域知識的構建,包括構建道路交通領域層次概念結構的本體以及道路交通規則公式。通過圖像目標自動識別算法,識別出的目標映射為交通領域本體的實例,圖像目標之間的空間位置關系對應于交通領域本體中實例間的對象關聯屬性。
道路交通領域本體提供了道路交通領域詞匯和背景知識,如:行人、交通標識及各種機動車等。本體中的類(Class)和關聯關系(Relationship)的定義以及交通領域法規,來自于《中華人民共和國道路安全交通法》(http://www.bjjtgl.gov.cn/jgj/fl/205308/index.html)。該法規提供了我國道路交通安全領域標準術語及其基本的道路安全交通法規。道路交通法規例子如表1 所示。本文使用語義網規則語言(Semantic Web Rule Language,SWRL)來描述交通法規。圖2 示例了道路交通領域知識,包括道路交通領域本體和SWRL 描述的道路交通法規公式,其中:橢圓形表示本體概念,矩形表示本體實例,本體實例間有對象屬性關聯相連。

表1 道路交通領域法規Tab.1 Rules in the domain of road traffic

圖2 道路交通領域知識Fig.2 Road traffic domain knowledge
圖像目標自動識別的目的,是從圖像的可視化數據(Visual data)中識別出用戶查詢請求中規定的特定交通目標,如:機動車、非機動車、行人或斑馬線等。交通圖像中目標識別是一個典型的高維數、小樣本問題。文獻[20]卷積神經網絡-支持向量機(Convolutional Neural Networks-Support Vector Machine,CNN-SVM)在解決高維數、小樣本識別問題中表現出特有的優勢。文獻[21]基于訓練樣本分布定義了類分離度量,并引入到SVM-DT 構成的過程中,得到了一種改進的SVM-DT 訓練算法,再將該方法用于雷達目標的高分辨一維距離圖像的目標識別中。文獻[22]以最大分類間隔為準則,利用遺傳算法對傳統的SVM-DT 進行優化,提出了一種最優(或近優)決策二叉樹訓練算法,且實驗證明了該方法有更高的分類精度;但是遺傳算法存在“過早收斂”的問題,導致迅速收斂的結果未必是全局最優。本節提出了一種基于模擬退火遺傳算法的SVM-DT 多分類策略,使得收斂結果能更好地接近全局最優解,具體如下所述:
為了自動從圖像中識別出特定目標,首先,進行圖像預處理,將圖像轉換成為特征向量。本文選擇CNN 卷積神經網絡對待識別交通目標作為特征提取,然后全鏈接層得到圖像特征通過一種改進的SVM-DT 構建算法訓練出最(近)優決策樹進行分類。最后獲取了決策二叉樹對圖像進行測試,挖掘出被測試圖像中的特定交通目標。
本文所使用的CNN 提取交通圖像特征借鑒了經典的R-CNN 算法[19],在此基礎上改進了SVM 分類器,提高了分類精度。圖像特征抽取是通過CNN 局部連接網絡的特性,將圖像分成小的連通區域,然后根據自然圖像的統計特性,某個區域的權值也可用于另一區域(權值共享性),權值共享表征為卷積核共享,對于一個卷積核將其與給定的圖像做卷積,就可得到一種圖像的特征,不同的卷積可以提取不同的圖像特征。具體流程為:
1)輸入一張圖片,通過生成候選窗口(selective search)算法定位2 000 個物體候選框(bounding box),這些框中有本文需要的物體特征。
2)非極大值抑制(Intersection Over Union,IOU)。由于選定框是矩形,而且大小各不相同,而CNN 要求輸入圖片的大小是固定值,所以必須對矩形候選框作縮放處理,本文選取的是各向同性縮放處理。接著對候選框進行非極大值抑制處理,目的是為了對候選框與真實框(ground truth)進行回歸,校正微調提取框(region proposal)的大小,以提高最終的樣本檢測精度。
3)CNN 特征提取。本文選取的神經網絡架構是經典的Alexnet,其特點是卷積核比較小、跨步小、精度較高。Alexnet特征提取部分包含了5 個卷積層、2 個全連接層,其每層神經元個數都是4 096,保證最后提出每個候選框圖片都有4 096維特征向量。首先進行網絡有監督的預訓練階段,得到一個初始模型;然后對初始模型進行fine-runing 訓練,其目的是針對特定的任務來縮小訓練的數據集,以提高SVM訓練精度;最后假設要檢測的物體類別有N 類,將預訓練階段的CNN 模型的最后一層替換成N+1個輸出的神經元(“+1”表示還有一個背景),直接采用參數隨機初始化的方法,其他網絡層的參數不
變,開始隨機梯度下降(Stochastic Gradient Descent,SGD)訓練。開始時,SGD 學習率選擇0.001,在每次訓練的時候,batchsize大小選擇128,其中32個是正樣本,96個是負樣本。
4)把CNN 提取的特征輸入到本文改進的SVM 中進行分類,如果這個特征向量feature vector 所對應的候選框是需要的物體則分為同一類,否則分為其他類別。
CNN獲取圖像實例特征的算法流程如下:
輸入 樣本圖像數據;理想輸出;
輸出 實際輸出:
1) 取得卷積核個數:ConvolutionLayer::fprop(input,output)
2) For(int i=0;i <n;i++)
3) 用第i個卷積核和輸入層第a個特征映射做卷積
4) convolution=Conv(input[a],kernel[i]);
5) 把卷積結果求和:sum[b]+=convolution;
6) End For
7) for(i=0;i <(int)bias.size();i++)
8) 加上偏移量:sum[i]+=bias[i];
9) 調用Sigmoid函數:output=Sigmoid(sum);
10) 梯度通過DSigmoid反傳
11) sum_dx=DSigmoid(out_dx);
12) 計算bias和coeff的梯度 //coeff是回歸系數,bias是偏置
13) coeff_dx[i]+=sub[j][k]*sum_dx[i][j][k];
14) bias_dx[i]+=sum_dx[i][j][k]);
15) 調整權矩陣
16)End For
采用基于模擬退火遺傳算法改進的SVM-DT 分類方法生成決策二叉樹,并對CNN 傳入的圖像特征進行改進的SVMDT分類,這樣做的目的是為了解決CNN 的Softmax層訓練時,正負樣本閾值無法調整的問題。因為理想狀態是:當候選框把整輛車都包含在內,稱為正樣本;候選框沒有包含到車輛,就稱為負樣本。如果遇到候選框部分包含車輛的情況,就可以通過調整IOU 閾值來獲取最好的分類效果。本文通過實驗發現,設定IOU 為0.4 劃分汽車效果最好。通過設定的值訓練出來的SVM分類器能夠比Softmax層分類的結果更準確。
本文的目標是在每個決策節點將原始多類訓練樣本集劃分為兩類,并且使分類間隔最大,所以選擇SVM 分類算法的分類間隔作為模擬退火遺傳算法適應度函數。引入模擬退火算法的控制參數T 來控制變異時子結點染色體替換父節點染色體的概率,優化了遺傳算法中生存策略,從而能找到接近全局最優解,得到一棵分類間隔最大的決策二叉樹。
線性分類器的學習目標便是要在n 維的數據空間中找到一個超平面:H(xi,yi),i=1,2,…,n,x ∈Rn,y ∈(+1,-1),i 為樣本數,Rn為輸入維度,若是線性可分情況,將兩樣本完全分開的超平面為H:

若使分類間隔最大的超平面為最優分類面,則


s.t.yi(wHxi+b)≥1-ξi,ξi≥0;i=1,2,...,n
其中:C為懲罰系數,表示對分錯的點加入懲罰。C越大,錯分點更少,但是過擬合的情況可能會更嚴重;當C 很小時,分錯點會越多,所以得到的模型也會不正確,因此們引入拉格朗日乘子,用條件極值求解最優分界面。

根據SVM理論,兩類樣本的最大分類間隔是:

其中:

本文提出的基于模擬退火遺傳算法改進的SVM-DT 多分類策略的步驟描述如下:
步驟1 將全部訓練樣本集所屬類別按實值編碼策略進行編碼,決策樹根節點的染色體的編碼為{1,2,…,N},其中N ≥3為原樣本訓練集的類別總數,染色體中每個基因對應原訓練樣本集的類別編號;并在根節點調用GA 將原始訓練樣本所屬類別劃分為兩類。
步驟2 判斷各子節點是否只包含一類樣本,若是轉步驟4,反之轉步驟3。
步驟3 設新產生的適應性(flexibility)函數為f(ai),ai為個體。變動的閾值為,當f(ai)>(ai)時,接受新個體;否則,以一定概率接受新個體P=exp((f(ai)-(ai))/T)(T 是控制參數,即模擬退火中的熱力學溫度);從群中選擇n 對個體,作為父類,對每一父類,由父類p1、p2使用交叉、突變算子生成子代a1、a2,計算a1、a2的適應性。
步驟4 設群平均適應性為f(aavg),最低適應性為f(aweakest),則(a)=f(aavg)-f(aweakest)。對于每個新產生的個體f(ai)>,則在群隨機選擇一個適應性低于的個體替換;否則,以概率替換其父樣本。
步驟5 結束循環,生成接近全局最優決策樹。
最后,使用上述步驟生成的SVM-DT 對道路交通圖像進行測試,識別出圖像中相應交通目標,并返回目標對應的視覺詞匯。
本節將闡述如何進一步識別出交通目標之間的空間位置關系,并映射到領域本體實例之間的對象屬性關聯關系上;最后,基于道路交通領域知識進行推理,得出結論。
在圖像中識別出交通目標實例后,應用Python 工具中matplotlib 庫(http://matplotlib.org/)給出目標實例的邊界區域,然后,調用minSize函數給出了每個目標實例活動窗口的4個參數,分別為:四邊形X 軸、Y 軸位置、寬度W 和高度h。通過以上4 個參數調用rectangle 函數得到該目標實例的活動窗口。與此同時,調用minNeighbors 函數找到當前目標實例鄰近的其他目標實例,并同理得到其他目標實例的活動窗口。
窗口位置關系判斷算法:假設圖像中兩個目標實例的活動窗口為四邊形R1、R2,分別對應于交通領域本體中的本體實例A、B,且A和B滿足方向位置矩陣模型時,則返回關聯關系。具體例子根據圖3(a)所示,行人B 相對于參考目標斑馬線A的方向關系:Dir(A,B)={O,E}。若是交通燈為紅燈時,行人B 與 斑 馬 線A 的 位 置 關 系 只 有 滿 足Dir(A,B)={NW};Dir(A,B)={N};Dir(A,B)={NE};Dir(A,B)={SW};Dir(A,B)={S};Dir(A,B)={SE}時,表示行人在斑馬線的兩邊站立或行走,沒有闖紅燈違規現象,其余的關系都判定為違規。
圖4 描述的是道路交通圖像“行人闖紅燈”中目標和目標間關系與圖2 所示的道路交通領域本體的映射。如圖4 左方所示,“紅燈01”“張三”和“斑馬線01”是該圖像中識別出來的目標實例,這些目標分別映射到圖4 右方所示道路交通領域本體中的實例“紅燈01”“張三”和“斑馬線01”。目標實例“張三”和“斑馬線01”對應的活動窗口的重合區域可映射到道路交通領域本體中實例“張三”和“斑馬線01”之間的對象屬性關聯“相交”。
最后,將映射到道路交通領域本體中的實例及實例間關聯代入道路交通法規公式中,如果每項原子公式都為真,則推出違反道路交通法規的結論。如圖4 下方道路交通法規公式所示,可推出成年人“張三”違反交通法規,并根據行人、紅燈、方向位置矩陣計算結果,輸入SWRL 三元組規則編輯器中進行推導,得出推導后的最終結果,然后查詢表1 中列出的規則關系,最終結論“行人違規闖紅燈”。該圖像滿足檢索條件。
如圖5所示,汽車與雙黃線之間的關系為Dir(A,B)={O}表示在圖5 中,機動車輛違反了交通規則Rule5,機動車壓在雙黃線上行駛,則判定機動車違規。汽車實例與雙黃線實例的位置關系示意圖如3(b)所示,可以得知汽車B 與雙黃線A之間的關系為典型的相交例子,這種關系就可以判斷出汽車是否壓了雙黃線,為以后的圖像搜索提供了依據。

圖3 交通圖像實例的位置關系Fig.3 Local relationship of traffic graph instance

表2 圖像目標實例與本體關聯屬性的映射Tab.2 Mapping of image object instances and ontology-related attributes

圖4 圖像目標及其關聯與領域本體的映射Fig.4 Mapping of image objects and their associations with domain ontologies

圖5 汽車與雙實線之間位置關系實例Fig.5 Example of positional relationship between cars and double solid lines
基于前述理論和方法,設計并實現了目標自識別的圖像語義檢索原型系統,該系統由以下幾個模塊組成(如圖6所示):
1)領域知識構建模塊:道路交通領域專家可通過該模塊提供的可視化本體建模工具對交通領域本體和交通規則公式建模,建立OWL 描述的道路交通領域本體和SWRL 描述的交通規則公式,并存儲在SPARQL數據庫中。
2)圖像目標識別模塊:該模塊基于模擬退火遺傳SVMDT 多分類策略識別圖像中特定交通目標。該模塊的輸入是待識別的交通圖像及特征訓練集;輸出是目標實例(如:行人、斑馬線、交通信號燈)已標注的道路交通圖像。
3)目標間空間位置關聯識別模塊:該模塊通過圖像中目標對應活動窗口挖掘出目標對應的空間位置關系。
4)Hermit 推理機模塊:該模塊基于交通領域知識,結合識別出的圖像目標實例和目標間關聯關系進行推理。它的輸入是道路交通領域本體、道路交通規則公式、圖像中的目標實例和目標間關聯關系,輸出是該圖像的檢索結果。

圖6 目標自識別的交通圖像語義檢索工具框架Fig.6 Traffic image semantic retrieval tool framework based on target self-recognition
在自動識別出圖像中的交通目標后,結合領域專家建立的道路交通領域知識,系統將讀取標注并對應生成類和實例,按著點擊“規則”按鍵進入規則推導。系統通過載入語義標注的圖像,自動生成由所識別特定目標的本體實例和領域專家所構建的交通領域本體所結合而成的本體OWL 文件。在讀取該文件后,使用Hermit推理機對實例之間的關系進行分析,得到最終的判定結果,從而智能地判斷圖像有無涉及違反交通規則的內容。
實驗分析采用三種數據集的圖像數據:
1)CVC 數據(http://www.cvc.uab.es/adas/site/)的CVC-02-Classification數據集。
2)google交通圖庫。
3)ImageNet 交通類數據集。它是一個擁有超過1 500 萬張帶標簽的高分辨率圖像的數據集,這些圖像分屬于大概22 000 個類別。這些圖像是從網上收集的,并使用Amazon Mechanical Turk 眾包方式進行人工貼標簽。本文選擇其中與道路交通相關的圖像,共有8 300 個訓練樣本,6 640 張測試樣本。第一類圖像是二分類(其中訓練樣本1 900 張,測試樣本1 520 張),有行人和交通信號燈;第二類圖像是三分類(其中訓練樣本為1 700張,測試樣本為1 360張),有行人、交通信號燈和斑馬線;第三類圖像是四分類(其中訓練樣本為2 200張,測試樣本為1 760張),有行人、交通信號燈、斑馬線和汽車;第四類圖像是五分類(其中訓練樣本為2 500 張,測試樣本為2 000張),有行人、交通信號燈、斑馬線、汽車和自行車。
本節通過實驗對SVM的1對1分類(記作1-a-1)、1對多分類(記作1-a-r)、基于遺傳算法的SVM-DT(記作GADT)多分類及本文提出的SVM-DT 方法進行對比。當測試圖像數量分別為1 000、2 000、3 000、4 000 時,比較關鍵字搜索方法、本體搜索方法和本文所提的SWRL+本體搜索方法在圖像搜索的準確率、召回率等兩個維度上性能進行分析與比較,實驗結果如圖7所示。
由圖7(a)可見,本文方法的查詢準確率要高于其他方法,準確率相對于關鍵字搜索提高了約19 個百分點;相對于MMIO 本體搜索提高了約12 個百分點,這是因為本文“SWRL+本體”推理不僅能就視覺詞匯的上下位關系推理,還能結合空間位置關系的描述進行規則推理。而MMIO 等本體檢索方法沒有使用規則判斷,因此在準確率上比本文采用方法低。如圖7(b)所示,在召回率上,本文方法相較于關鍵字搜索提高了約3 個百分點,與MMIO 等本體檢索算法基本相同。然而,可以從圖7(b)得知,當測試圖像數量在1 000 到3 000 時,本文方法都是略優于本體搜索的,但是當樣本數變為4 000 時,本文方法檢索的召回率略低于本體搜索,其原因是新加入的樣本中含有使用SWRL 規則較難判斷的圖像,如汽車紅燈時只是壓線,但并沒有越過線,在標準集中判斷為沒有違規,而使用本文方法判定為違規,所以檢索結果中把正樣本預測為負類的數量變多,從而導致召回率偏低。

圖7 不同方法搜索交通違規圖像的結果Fig.7 Results of different methods for searching traffic violation images
目標實例的分類準確率如圖8(a)所示。可以看出,隨著分類類別數的增加,所有SVM 多分類方法的分類精度都呈下降趨勢。基于模擬退火遺傳算法改進的SVM 最優決策樹在2分類、3分類、4分類時,分類精度高于經典的1-a-1、1-a-r方法,略高于GADT方法的分類精度;在5分類時分類精度明顯高于其他的三種方法。實驗證明本文方法隨著分類類別增多精度增高。
分類耗時如圖8(b)所示:1-a-r 由于每次訓練都需要所有的樣本參與,故其訓練時間最長;1-a-1 雖訓練復雜,但每次訓練只需要兩類樣本參與,相較于前者耗時最短,且與類別的變化關系不大;本文方法訓練時間僅次于1-a-1,略快于GADT。

圖8 各算法在不同指標上對比結果Fig.8 Result comparison of each algorithm on different indicators
從四個規則搜索的返回結果圖9 可以看出,本文方法返回結果的圖像都是違規的,說明準確率較高,因此該方法可以應用于司法部門處理交通違法、刑事偵查、司法調查等,并能為其提供準確和可靠的執法依據。

圖9 四個規則搜索的返回結果示例Fig.9 Results of retrieval by four rules
本文針對道路交通領域,提出了一種基于目標自識別的圖像語義檢索方法。首先,建立道路交通領域知識;然后,通過模擬退火遺傳算法訓練出SVM-DT,對道路交通圖像中的特定目標進行識別,并映射為領域本體實例;再進一步識別出特定目標之間的空間位置關系,并映射為領域本體實例間的對象屬性關聯關系;最后,利用規則推理判斷圖像是否滿足查詢條件。實驗結果表明,當處理多目標時,因為本文使用了改進的空間位置識別算法,所以可以準確地檢測出多目標在復雜空間中的位置關系,通過運用本文的方法進行語義圖像檢索,在圖像目標自識別和語義推理兩階段的性能均有所提升,并能得到更加精確的檢索結果。未來工作包括嘗試其他更加高效的機器學習的方法來自動識別圖像目標,以及通過時序邏輯算子描述更加復雜的道路交通語義場景。