薛 搏,李 威,宋海玉,方安琪,彭京濤,王鵬杰,郭宏燁
(大連民族大學計算機科學與工程學院,遼寧 大連 116605)
交通標志識別(traffic sign recognition,TSR)是無人駕駛汽車和智能汽車等領域的基礎性技術,也是自動輔助駕駛系統的關鍵技術[1]。交通標志的檢測與識別最早開始于20世紀70年代,但發展比較緩慢,到20世紀80年代時,日本開始了道路交通標志檢測和識別的研究,并在 1987年研發出了針對限速TSR的系統[2],而到2010年左右,一些汽車已經安裝了交通標志檢測和識別系統。近年來,受智能汽車和無人駕駛汽車技術的推動,TSR不僅成為交通學科和計算機學科的研究熱點[3],也是汽車產業界的研究應用熱點。TSR系統主要分為2個階段:①交通標志檢測階段,主要利用交通標志的顏色和形狀等信息的特殊性,從原始圖像中提取出感興趣區域(region of interest,ROI);②交通標志識別階段,TSR本質上是圖像分類問題,包括特征提取和分類 2部分,其中,圖像特征提取是重點和難點。
很多學者圍繞 TSR的特征提取開展了大量工作,所完成工作的主要貢獻是特征提取,但由于采用不同數據集(大部分是研究者自己采集的數據集)、不同的分類方法和不同評價體系,所采用特征向量的貢獻無法直接量化對比,不利于該領域后續的進一步研究。本文聚焦于TSR領域的特征提取方法,首先介紹該領域常用方法,然后,在同一個數據集上選擇有代表性的特征進行提取,采用相同的評價指標進行對比,以便為從事該領域研究的相關學者提供一個清晰的對比,為該領域特征向量的選擇提供依據。
長期以來,制約TSR研究的一個問題是缺少領域內廣泛接受的通用數據集,很多成果所完成的實驗是在研究者自己搜集的數據集上驗證完成。僅有的幾個數據集包括德國的GTSRB數據集[4-5]、瑞典的STS數據集[6]、比利時的KUL數據集[7]和法國的Stereopolis數據集[8]。其中STS數據集包括7種類別交通標志、4 000幅圖像樣本,KUL包括100多種交通標志、9 000幅圖像樣本,Stereopolis只有10個類別、847幅圖像樣本。以上3種數據集規模較小、交通標志種類少,且圖像場景的多樣性不夠。GTSRB是2011年在國際會議IJCNN2011上由德國學術界和產業界聯合舉辦的交通標志檢測與識別大賽所構建的TSR數據集[9],該數據集由5萬多幅圖像樣本組成,包括了 43種交通標志,包含大量低分辨率、不同光照強度、部分遮擋、傾斜、運動模糊等各種不利條件下的圖像,能夠反映交通真實場景,且識別難度較大[10]。
Tsinghua-Tencent 100 K數據集是清華大學和騰訊公司于2015年聯合發布的一個交通標志檢測數據集,也是國內僅有的公開交通標志數據集。該數據集總共包含10萬幅圖像,其中大約有1萬幅圖像包含有交通標志,圖像分辨率高[11]。Tsinghua-Tencent 100 K數據集出現較晚,目前采用該數據集的實驗結果偏少,該數據集清晰,實現難度要低于GTSRB數據集[12]。
圖1顯示的GTSRB數據集中的圖像來源于真實場景,經檢測并保存為獨立的交通標志圖像。該數據集中圖像的質量區別很大,而且大部分圖像清晰度很差,以至于很多圖像即便交通專家也無法識別,其是TSR技術應用的真實場景,準確識別難度較大,本文實驗部分會給出采用不同特征的識別效果。

圖1 GTSRB數據集中的交通標志樣例
盡管 2011年之后,GTSRB已經成為國內外TSR領域應用最廣泛的TSR數據集,但由于多種原因,該領域已發表成果所使用實驗數據集依然呈現多樣性,或采用較小規模數據集,或研究者自己搜集數據集,因此,不同方法之間很難直接比較性能。基于GTSRB數據種類多、樣本規模大、包含各種復雜場景、識別難度大等特點,本文所完成的實驗均采用該數據集完成。
現有文獻中,TSR評價指標有3種評價指標體系:①采用查準率(Precision)、查全率(Recall)、F1-measure和 N+[13];②采用均值平均精度(mean average precision,MAP);③采用精度(Accuracy)。因為TSR本質上是圖像分類問題,而以上3種評價指標均為分類評價指標,所以,理論上這 3種評價指標均可采用。但第①種評價指標更適合于多標簽圖像分類、圖像標注和圖像檢索等領域;第②種評價指標較多應用于信息檢索領域,定量分析了同一個對象多個標簽的相關性的次序;第③種評價指標計算的是測試樣本的正確分類率(correct classification rate,CCR),適用于單標簽對象分類,如深度學習網絡模型默認的功能是單標簽對象分類問題,因此,目前的深度學習模型所提供的性能評價指標往往都是精度(accuracy)。
TSR在檢測之后,每個識別對象都是單標簽對象,TSR問題屬于單標簽多類分類問題,因此,盡管前2種也可以分析 TSR性能,但更能準確刻畫TSR性能的指標是精度(accuracy)。IJCNN2011所舉辦的交通標志數據集識別競賽中所采用的評價指標為樣本的 CCR,即分類精度(accuracy)。但由于目前文獻更多選用第一種評價指標體系,本文所完成的實驗同時給出這2種評價指標結果。
影響TSR效果的除了特征向量外,就是分類/識別模型,但不同方法往往采用不同的分類技術,甚至有的方法采用多種分類技術分階段完成。如支持向量機(support vector machine,SVM)[14]、AdaBoost[15]、隨機森林(random forest,RF)[16]等。TSR性能是對特征向量和分類模型的綜合性能評價,分類方法不同,則難以量化特征向量的貢獻。為定量分析特征向量對TSR的貢獻,對于任何特征向量,本文均采用完全相同的分類模型。
本文統一采用模型復雜度較低的 K近鄰(K nearest neighbor,KNN)分類方法,旨在突出特征向量對最終性能的影響,但圖像相似度計算可以選用L1距離(街區距離)、L2距離(歐式距離)或余弦距離,對于每種特征向量均選擇效果最優的距離公式。
TSR是在交通標志檢測后得到的交通標志感興趣區域 ROI的分布和定位的基礎上,通過識別算法來進一步確定標志的具體類型。識別過程一般包括 2部分:①特征提取,即提取交通標志感興趣區域的特征信息;②交通標志分類,即將交通標志感興趣區域的類別信息進行判斷。在自然場景中,光照、天氣、背景干擾、運動模糊、遮擋和標志不全等問題,給TSR系統的研究帶來了非常大的挑戰。
近年來研究者提出了很多TSR方法,傳統的方法主要是采用人工特征和機器學習相結合的方法。采用的人工特征有各種顏色特征[17],尺度不變特征變換特征(scale-invariant feature transform,SIFT)[18]、方向梯度直方圖特征(histogram of oriented gradient,HOG)[19-20]、Haar-like 特征[21]、Gabor小波特征[22]、不變矩[23-24]等。
盡管TSR領域已經嘗試了各種人工特征,但大多數成果是在改進特征的同時也改進了分類模型[18,20,24-25],或多種特征融合[18-19,26],或多種特征級聯[27-28]。
以上特征都是人工提取的底層特征直接表示圖像。2003年后,在計算機視覺領域,在底層特征基礎之上視覺詞袋(bags of words,BOW)稀疏編碼方法給計算機視覺領域各種應用帶來了不同程度的性能提升,此后近10年里,以BOW為代表的稀疏編碼表示方法表現出了明顯的優越性,直到2012年深度學習的出現之前基于SIFT的BOW模型一直被視為最優秀的特征表示方法[29]。也有很多學者嘗試把BOW模型用于TSR[30]。還有一些學者把塔式詞袋直方圖(pyramid historgram of visual words,PHOW)、塔式邊緣方向梯度直方圖(pyramid histogram of oriented gradient,PHOG)等與其他底層特征相結合用于交通標志識別[31]。
TSR領域是較早使用深度學習技術的領域之一,雖然2012年提出的通用圖像分類模型AlexNet被公認為是最早取得成功的深度學習模型,但事實上,早在一年前的IJCNN2011的TSR競賽中,很多排名靠前的方法均采用了卷積神經網絡方法,其中就包括因深度學習而獲得 2018年圖靈獎的LeCun及其團隊的成果,其提出了多尺度卷積神經網絡用于識別交通標志并取得了很大成功[32],但目前該領域所提出或采用的大多數深度學習模型往往都是其他特征向量或復雜的分類模型相結合[32-33]。
區域選擇方法包括全局特征、區域特征、局部特征,提取內容包括顏色信息、紋理信息和形狀信息,區域和局部特征所提取的原始特征往往還要通過稀疏編碼方法表示。本文淡化各種特征向量的原理和提取方法,而聚焦于在相同數據集上不同特征向量在TSR效果上的對比。
不論國內還是國外的交通標志,一般都具有特定的醒目的顏色,因此基于顏色的特征是交通標志的重要特征,也被很多研究者所使用。彩色圖像中顏色信息最豐富、提取方法最簡單,而且,由于顏色直方圖等特征具有縮放、旋轉和平移不變性的特點,因此,成為計算機視覺領域最常用的特征之一。顏色信息可以在不同的顏色空間中表示,如RGB空間、HSV空間和Lab空間,其中,RGB更加適合于硬件設備表示場合,而 HSV和Lab更適合于人的視覺感知描述場合[34]。由于顏色直方圖對觀察視角和縮放變換有很強的健壯性[35],已成為計算機視覺領域最常用的視覺特征向量之一。在RGB、HSV和Lab3種顏色空間上提取顏色直方圖,每個通道提取16維直方圖,每種顏色空間形成48維的顏色直方圖。此外,提取3種顏色空間每個通道的均值和方差,每種顏色空間形成6維的特征向量。
SWAIN和BALLARD[35]于1991年首次把顏色直方圖用于圖像檢索中,認為顏色直方圖對觀察視角變化和縮放也有很強的健壯性。表1的實驗結果表明,盡管顏色直方圖簡單且有很好的健壯性,但其特征往往受到了成像環境的影響,如光照變化等,在TSR中顏色直方圖效果并不理想。而全局顏色統計量由于統計信息過于簡單,其效果明顯低于顏色特征向量。
從表1的實驗結果看出,在對全局顏色特征向量進行提取的情況下,采用3種顏色空間中的任意一種,得到的各項評價指標的值的差別很小,為了進一步驗證顏色空間對識別結果的影響,本文將交通標志中的43個子類別在3種顏色空間下分別進行顏色直方圖特征的提取,得到其 F1值對應的柱狀圖如圖2所示。

表1 全局顏色特征向量實驗結果

圖2 3種不同顏色空間下顏色直方圖特征向量的性能比較
圖2表明,在交通標志領域,顏色直方圖向量特征提取過程中,不同顏色空間特征向量的總體性能差異很小,在不同子類型上也沒有明顯的規律。因此,顏色特征空間的選擇不應該成為特征提取階段重點考慮因素。
基于全局特征存在的不足,在TSR中更多學者采用分塊方法,本文把圖像等分為 16塊,提取各個圖塊特征向量,然后拼接成整幅圖像的特征向量,所完成的TSR效果見表2。表2中各特征提取方法與表1中對應方法相同,區別在于表2為分塊處理。無論直方圖方法還是顏色統計量方法,分塊提取效果均優于全局特征提取方法,特別是分塊顏色統計量方法明顯優于全局顏色統計量特征提取方法。

表2 分塊顏色特征向量實驗結果
最早期的計算機視覺領域研究中,往往采用全局描述子作為圖像特征表示,此后,針對存在的不足,相繼提出了區域描述和局部描述等[35]。當通過交通標志檢測后,TSR往往是單對象分類問題,因此,理論上采用全局描述子作為特征向量進行交通標志分類是可行的。但通過對比表2和表1不難發現,基于分塊的區域特征描述方法效果遠優于全局特征,主要是由于GTSRB在多種不同天氣、速度、光照等實際場景中成像,成像效果受清晰度、遮擋等影響,因此,全局描述子的實際效果往往不如區域描述子效果。
紋理是在對象的表面表示、區域區分和對象識別等應用中最重要的屬性,因此,在計算機視覺領域,紋理是僅次于顏色的最常用的特征表示,最常用的紋理特征表示包括 Gabor小波和 SIFT(scale-invariant feature transform)。Gabor小波特征提取方法為,首先使用12個Gabor濾波器(濾波器因子在3個尺度、4個不同方向變化)完成整幅圖像的濾波,然后,把圖像等分為 16個圖塊,計算每個圖塊濾波結果的均值和方差,從而形成 24維的Gabor小波特征向量。SIFT特征提取方法為,首先把原始圖像柵格化等分為 16個圖塊,提取每個圖塊的中心點作為種子點,統計每個中心點8個方向的向量信息,從而每個圖塊提取出一個128維度特征向量,整幅圖像的SIFT特征向量為2 048維。基于BOW方法在計算機視覺領域的巨大成功,在提取SIFT基礎之上,采用SIFT向量聚類等方法構造視覺詞典,從而把每幅圖像表示成BOW所表示的稀疏特征向量,其效果見BOW(SIFT)效果。
形狀是描述對象最重要的特征,高質量的形狀特征依賴于高質量的圖像分割,受制于當前圖像分割質量制約,無論基于邊界的形狀信息描述質量往往不高,因此,在計算機視覺領域往往采用基于圖像分割后的區域特征的形狀信息,本文比較了交通標志識別領域應用較多的 Canny形狀特征、HOG特征、Hu矩。Canny形狀特征,首先使用 Canny算子進行邊緣檢測,然后,把圖像16等分,計算每個圖塊內容邊緣方向信息(角度步長為 45°,共8個角度),統計邊緣方向每個生成一個8維的直方圖,整幅圖像形成128維的特征向量。HOG特征采用 GTSRB數據集附帶的特征向量,維數為1 568維[36]。Harr-like特征采用GTSRB數據集附帶的特征向量,維數為 11 584[36]。不變矩(invariant moments)是一種高度濃縮的圖像特征,具有平移、灰度、尺度、旋轉不變性,Hu矩是不變矩的代表性方法。其提取方法,首先把原始圖像柵格化等分為16個圖塊,然后,計算每塊的7階矩,從而形成112維的特征向量。
表3中,SIFT特征并未采用傳統的高斯微分方法(difference of Gaussian,DoG)[34]等方法檢測顯著點(saliency),而是選取各個圖塊中心點作為顯著點,歸功于SIFT特征具有縮放、平移和旋轉不變性,而且具有光照和拍照視角的部分不變性等[37-40],SIFT描述子的效果明顯優于其他方法。但與傳統的計算機視覺領域應用不同的是,采用BOW編碼的表示方法并未在SIFT基礎上提升性能反而明顯降低,究其原因在于每幅圖像柵格化后圖塊個數過少,主要由于 BOW 方法表示的特征向量過于稀疏造成的。
基于SIFT特征的TSR的總體性能明顯優于其他手工特征,圖3進一步比較了SIFT和另外2種性能較好的手工特征HOG和Haar-like在各個子類別上的性能。如圖3所示,在GTSRB交通標志數據集中,除第22類外,在其他42個類別中,SIFT特征明顯優于其他 2種特征,說明SFIT特征對各種視覺特征均具有較強的描述能力和區分能力。另外,SIFT特征的縮放、平移和旋轉不變性,以及具有光照和視角的部分不變性,使其能夠適應于各種復雜實際場景。因此,在諸多手工特征中,基于SIFT的特征應該是重點研究和應用對象。

表3 紋理和形狀特征向量實驗結果

圖3 基于SIFT、HOG和Haar-like特征提取方法的性能比較
2012年后,基于深度學習的特征在計算機視覺領域的多種應用中取得突破性進展,本文使用深度學習領域最有代表性的 AlexNet、VGG16和Inception 3個模型完成交通標志的特征提取及識別。AlexNet是第一個在通用數據集中取得顯著效果的深度學習模型,VGG16是目前為止圖像分類等領域使用最頻繁的模型,盡管其模型復雜度并不高,但實際效果往往好于很多復雜度高的深度學習模型,Inception網絡是一種更復雜的網絡模型,可以在同一層中學習不同大小的卷積特征。對于每種深度學習模型,分別采用種不同方式完成特征提取和分類:①端到端的方式,通過訓練好的深度學習模型直接得到圖像的分類結果(網絡模型給出accuracy性能指標),即端到端分類;②提取訓練好的深度學習模型的全連接特征,而不是直接得到分類結果,并采用KNN方法完成交通標志候選區域的識別。
本文所采用的 3個深度學習網絡模型都在ImageNet2012上進行過預訓練,然后,采用GTSRB的訓練數據集完成了模型微調,表4中任何一個模型均提取2種特征,如AlexNet為采用AlexNet提取特征,并完成端到端的分類(方法為Softmax),而AlexNet-FC7表示采用 AlexNet模型的全連接層(FC7)的生成圖像的特征向量,然后再使用KNN完成測試圖像的分類。Inception-FC表示Inception網絡的最后一個全連接層(FC)作為特征向量。

表4 深度特征向量實驗結果
如表4所示,得益于高質量的深度特征,即是采用最簡單的KNN分類模型,也可以取得較好的識別效果。若進一步設計針對性強的復雜的分類模型等,基于通用深度學習模型的TSR效果有望取得較理想效果。
從表5的第1~7行可以看出,即使在光線強度和成像角度變化較大,以及噪聲顯著的場景中,VGG16的總體性能依然很高,表現出較強的魯棒性,其識別性能已經超過了人類專家。但在個別類型的圖像中,如最后一行,SIFT特征依然能優于VGG16等深度特征,說明盡管深度特征總體上明顯優于手工特征,但高質量手工特征可以有較強的針對性。因此,如何設計統一框架使深度特征和手工特征相結合,使 2類特征優勢互補,以便應用于復雜應用場景,將成為今后TSR領域的研究重點。

表5 針對不同特征的檢測結果比較
TSR是單對象識別,理論上全局特征描述是可行的,但實際交通環境成像存在光照、形變遮擋等情況,從而導致全局特征健壯性較差。因此,人工特征的設計應該更傾向于區域特征。在通用圖像分類等領域取得較大成功的BOW模型,并未在TSR中表現出明顯優勢,反而低于底層的SIFT特征。人工特征中,SIFT特征明顯優于其他底層特征,與SIFT的一些通用優點有關,也與交通標志數據集特點有關,SIFT更善于刻畫和區分交通標志的關鍵特征。針對交通標志數據集的特點,聚焦局部顯著點,設計具有更強的表現能力和區分能力的顯著點特征表示方法,可以成為今后人工特征研究的重點。
在GTSRB數據集上的實驗表明,很多學者在基于深度學習的TSR研究方面做了有益探索,或提出了新的模型,或改進了原有通用模型,或人工特征和深度特征相結合,或在深度特征基礎之上采用復雜分類方法,但實際效果并未取得明顯優于VGG16等通用模型的結果。因此,在研究通用模型基礎之上,融合多種現有經典網絡模型,或基于通用模型的深度特征設計合適的分類模型等,都可以成為該領域的研究內容。
本文采用相同數據集、相同分類模型、相同評價指標完成了主要特征向量的實驗對比,為今后該領域研究者的特征選擇提供了依據,也希望能夠對該領域相關學者的后續深入研究提供參考。在后續的相關工作中,將對多個手工特征的組合進行實驗,并試圖提取更深層次的深度特征,以期得到綜合的分析比較數據,再結合時間因素進行總體分析。