張陽陽,詹 煒,孫晨帆
(長江大學(xué)計(jì)算機(jī)科學(xué)學(xué)院,湖北荊州 434023)
本文基于深度學(xué)習(xí)方法,通過無人機(jī)采集城市建筑圖像,經(jīng)過篩選和標(biāo)注構(gòu)造數(shù)據(jù)集,在tensorflow 深度框架下構(gòu)建神經(jīng)網(wǎng)絡(luò)對建筑圖像數(shù)據(jù)集進(jìn)行訓(xùn)練,得到高魯棒性的檢測模型,從而實(shí)現(xiàn)對目標(biāo)建筑物的實(shí)時檢測。
在深度學(xué)習(xí)技術(shù)出現(xiàn)以前,傳統(tǒng)的建筑監(jiān)測方法主要是利用遙感影像數(shù)據(jù)檢測[1],由人工對遙感影像[2]進(jìn)行解釋。對違建問題由群眾監(jiān)督舉報(bào),再由主管執(zhí)法部門到現(xiàn)場確認(rèn),其缺點(diǎn)顯而易見:①取證難;②成本高,巡查速度慢、效率低;③發(fā)現(xiàn)、過程處理及事后監(jiān)管難,易反復(fù)。識別違章建筑的關(guān)鍵是檢測建筑物的變化情況。早期建筑物變化檢測大都通過人工解釋,效率較低且存在建筑物遺漏問題。
20 世紀(jì)90 年代以來,學(xué)者通過遙感影像數(shù)據(jù)檢測城市建筑物變化。通過分析在相同地區(qū)不同時間段所獲取的遙感圖像中光譜的變化情況,比較不同時間段圖像的差異從而檢測發(fā)生變化的地物并區(qū)分變化類別[3]。該方法實(shí)現(xiàn)路線是:首先計(jì)算同區(qū)不同時段兩期影像的變化矢量,然后利用直方圖閾值、貝葉斯最小錯誤率、經(jīng)驗(yàn)公式、人工判別等閾值法設(shè)置變化量閾值,將遙感影像分為變化區(qū)域和未變化區(qū)域兩部分,最后通過分析變化區(qū)域內(nèi)像素的變化方向?qū)ψ兓悇e進(jìn)行區(qū)分。基于遙感影像的城市建筑物變化檢測方法缺點(diǎn)是:①該方法是一種對比方法,需要規(guī)劃部門提供原始的建筑物規(guī)劃數(shù)據(jù)用于對比,規(guī)劃數(shù)據(jù)難以獲得;②遙感影像成本高,分辨率低;③對比算法的很多參數(shù)和閾值需要人工定義,影像檢測效果較差。
近年無人機(jī)航測航拍科技、深度學(xué)習(xí)和計(jì)算機(jī)視覺技術(shù)的蓬勃發(fā)展,為建筑的快速準(zhǔn)確識別提供了新的檢測和監(jiān)控技術(shù)手段[4],提高了城市建筑的識別效率[5],降低了管理成本,提升了城市建筑管理水平,為構(gòu)建智慧城市提供了理論和技術(shù)支持。
本文針對傳統(tǒng)的城市建筑物檢測方法缺陷,創(chuàng)新性提出城市管理中應(yīng)用無人機(jī)視覺數(shù)據(jù)深度學(xué)習(xí)識別技術(shù)的新方法,利用最前沿的深度學(xué)習(xí)算法[6]實(shí)時分析無人機(jī)拍攝的視頻流,自動識別目標(biāo)區(qū)域各種建筑物或城市中的特定目標(biāo),為城市管理提供一種全新的技術(shù)手段[7]。該方法實(shí)施步驟如下:①編程操控?zé)o人機(jī)飛控平臺API 接口,設(shè)定飛行區(qū)域及參數(shù),根據(jù)設(shè)定的參數(shù)引導(dǎo)無人機(jī)至目標(biāo)區(qū)域內(nèi)采集訓(xùn)練所需要圖像數(shù)據(jù),篩選有用的圖像數(shù)據(jù)建立深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練所需的數(shù)據(jù)集;②設(shè)計(jì)合適的網(wǎng)絡(luò)結(jié)構(gòu),通過第①步制作的“城市管理平臺”數(shù)據(jù)集訓(xùn)練深度神經(jīng)網(wǎng)絡(luò);③深度學(xué)習(xí)算法訓(xùn)練的檢測器自動識別目標(biāo)區(qū)域內(nèi)的建筑物并標(biāo)記,為后續(xù)城市管理提供決策支持,提高城管執(zhí)法精準(zhǔn)性和效率。
目前,計(jì)算機(jī)視覺已廣泛覆蓋工業(yè)、醫(yī)療、軍事、農(nóng)業(yè)、商業(yè)等領(lǐng)域,與人們的社會活動緊密相連。作為基礎(chǔ)的技術(shù)支持,深度學(xué)習(xí)和計(jì)算機(jī)視覺與人工智能的發(fā)展緊密相關(guān)。
深度學(xué)習(xí)和計(jì)算機(jī)視覺技術(shù)是人工智能技術(shù)的重要分支。計(jì)算機(jī)視覺用計(jì)算機(jī)模擬人視覺神經(jīng)處理圖像,通過計(jì)算機(jī)設(shè)備實(shí)現(xiàn)人的視覺功能,從而認(rèn)識、分析外界環(huán)境。簡而言之,物體識別、物體定位以及對于物體運(yùn)動狀態(tài)進(jìn)行判斷是深度視覺系統(tǒng)主要解決的3 個問題。計(jì)算機(jī)視覺作為計(jì)算機(jī)的眼睛,是機(jī)器認(rèn)識外部環(huán)境、分析外部環(huán)境的一種方式。而認(rèn)識、分析外部環(huán)境是實(shí)現(xiàn)人工智能不可或缺的重要部分。看見是第一步,只有看見才能進(jìn)一步去分析然后做出判斷,進(jìn)而代替人類完成各種任務(wù)。它與語音識別一起構(gòu)成人工智能的感知智能,賦予機(jī)器探測外部世界的能力,進(jìn)而做出判斷,采取行動,讓更復(fù)雜層面的智慧決策、自主行動成為可能。
深度學(xué)習(xí)視覺算法在檢測精度方面可以做到傳統(tǒng)視覺識別方法無法企及的高度。不同于傳統(tǒng)的機(jī)器學(xué)習(xí),深度學(xué)習(xí)網(wǎng)絡(luò)包含了更多的隱層結(jié)構(gòu),通過多層隱層網(wǎng)絡(luò)的復(fù)雜連接,不斷加深網(wǎng)絡(luò)層數(shù),可更加深入地挖掘訓(xùn)練數(shù)據(jù)之間的內(nèi)在聯(lián)系,實(shí)現(xiàn)復(fù)雜函數(shù)的近似逼近,通過建立魯棒性更高的模型對非標(biāo)簽數(shù)據(jù)進(jìn)行預(yù)測。深度網(wǎng)絡(luò)往往擁有比淺層網(wǎng)絡(luò)更好的擬合能力,其原因在于每個隱層都對上一層輸出進(jìn)行了非線性變換,多次非線性變換使模型找到一個合適的表達(dá)。深度學(xué)習(xí)通過多種基礎(chǔ)的函數(shù)組成更加復(fù)雜的函數(shù)關(guān)系,以表達(dá)較為復(fù)雜的問題。
深度學(xué)習(xí)的出現(xiàn)大大提高了視覺識別準(zhǔn)確率。計(jì)算機(jī)視覺[8]技術(shù)發(fā)展大致經(jīng)歷兩個階段:①人們通過經(jīng)驗(yàn)歸納提取,進(jìn)而設(shè)定機(jī)器識別物體的邏輯,通過人為設(shè)計(jì)合適的特征識別算法讓機(jī)器識別物品。由于認(rèn)識物體的邏輯是人為設(shè)定的,不能窮舉各種復(fù)雜的情境,因而魯棒性較差,識別準(zhǔn)確率較低;②深度學(xué)習(xí)的出現(xiàn)讓識別邏輯由人為設(shè)定變?yōu)榉答伿阶詫W(xué)習(xí)狀態(tài),數(shù)據(jù)量的爆發(fā)式增長和計(jì)算機(jī)算力的大幅提升驅(qū)動了物體識別率提升。目前深度學(xué)習(xí)持續(xù)突破性發(fā)展,尤其在計(jì)算機(jī)視覺領(lǐng)域有重大突破。
得益于深度學(xué)習(xí)算法模型、數(shù)據(jù)量增加以及CPU、GPU等計(jì)算硬件支撐[9],計(jì)算機(jī)視覺技術(shù)得以更加高效地實(shí)現(xiàn),并最終集成于多類產(chǎn)品和應(yīng)用場景之中(如機(jī)器人、無人駕駛等)。當(dāng)下,結(jié)合人工智能的深度學(xué)習(xí)技術(shù),無人機(jī)越來越廣泛地應(yīng)用于農(nóng)業(yè)、商業(yè)、軍事、工業(yè)等行業(yè)[10],人們將其統(tǒng)稱為專業(yè)應(yīng)用級無人機(jī)[11],該類無人機(jī)已經(jīng)被應(yīng)用在一些行業(yè),如對城市建筑進(jìn)行合理監(jiān)控。該方法首先通過無人機(jī)獲取建筑圖像并進(jìn)行數(shù)據(jù)處理,然后設(shè)計(jì)深度學(xué)習(xí)算法及網(wǎng)絡(luò)模型,最后運(yùn)用建筑圖像的檢測模型對需要檢測的建筑物體進(jìn)行識別和分類。這項(xiàng)技術(shù)可應(yīng)用于高層建筑的違建檢測[12]、建筑的破損程度檢測、高層建筑火災(zāi)檢測等眾多領(lǐng)域。這項(xiàng)技術(shù)的研究重點(diǎn)是對建筑進(jìn)行快速有效識別,其難點(diǎn)在于:一是動態(tài)視頻識別過程中對光線變化、遮擋等干擾難度更大,這對機(jī)器實(shí)現(xiàn)圖像識別、濾除干擾提出了很高要求;二是動態(tài)視頻識別對機(jī)器識別速度要求較高。一些公司通過智能前端化方式來提升分析速度,即在智能前端攝像頭搭載強(qiáng)并行計(jì)算能力處理器,以提供更實(shí)時、更高效、不依賴無線網(wǎng)絡(luò)傳輸?shù)闹悄芊?wù)。
深度學(xué)習(xí)具有較強(qiáng)的泛化能力和遷移能力[13],通過遷移學(xué)習(xí)保留其他數(shù)據(jù)集的有效特征,并對原始數(shù)據(jù)集采用翻轉(zhuǎn)、旋轉(zhuǎn)、縮放、隨機(jī)拼接等數(shù)據(jù)增強(qiáng)操作擴(kuò)展數(shù)據(jù)集的豐富性,同時強(qiáng)化對建筑物特征的學(xué)習(xí)能力,提高神經(jīng)網(wǎng)絡(luò)模型的魯棒性,從而使其有效克服光線的明暗變化、建筑物之間的遮擋等場景變化的差異所帶來的影響;數(shù)據(jù)集中無人機(jī)拍攝的高分辨率圖像樣本輸入神經(jīng)網(wǎng)絡(luò)之前,先將像素縮小為224*224 大小,這一操作雖然損失了原始圖片中的部分特征,但大大減少了神經(jīng)網(wǎng)絡(luò)的計(jì)算量。為了保證建筑物的檢測精度,在設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)時采用5 層卷積層的設(shè)計(jì)方式,有效提高了模型的檢測速度。
本文采用最前沿的人工智能及深度學(xué)習(xí)技術(shù)[14]建立模型。深度學(xué)習(xí)(Deep Learning)能夠自主地從訓(xùn)練數(shù)據(jù)集上學(xué)習(xí)已有數(shù)據(jù)集的有用特征(Feature),特別是在一些不知道如何設(shè)計(jì)特征的場合,如建筑物特征等。深度學(xué)習(xí)本質(zhì)上是通過構(gòu)建具有多隱層的神經(jīng)網(wǎng)絡(luò)模型,對海量訓(xùn)練數(shù)據(jù)自主學(xué)習(xí)并從數(shù)據(jù)中提取出能夠描述被檢對象的主要特征,從而大幅增加模型的識別準(zhǔn)確率。和傳統(tǒng)的機(jī)器學(xué)習(xí)相比,深度學(xué)習(xí)網(wǎng)絡(luò)模型最大的特點(diǎn)是多層網(wǎng)絡(luò)結(jié)構(gòu)。
本文提出一種無人機(jī)視覺數(shù)據(jù)深度學(xué)習(xí)識別技術(shù)模型,模型實(shí)現(xiàn)框架如圖1 所示。

Fig.1 Implementation framework圖1 實(shí)現(xiàn)框架
基于上述框架實(shí)現(xiàn)步驟如圖2 所示。

Fig.2 Implementation route圖2 實(shí)現(xiàn)路線
(1)基于無人機(jī)平臺建立訓(xùn)練圖像數(shù)據(jù)集。對飛控平臺API 編程,設(shè)定目標(biāo)飛行區(qū)域和參數(shù);無人機(jī)圖像采集;按照統(tǒng)一格式提取每張圖像的關(guān)鍵信息并打標(biāo)簽;按照規(guī)則建立圖像訓(xùn)練及測試數(shù)據(jù)集以備用。
(2)訓(xùn)練深度學(xué)習(xí)網(wǎng)絡(luò)。采用現(xiàn)有深度學(xué)習(xí)算法框架Tensorflow[15]設(shè)計(jì)深度學(xué)習(xí)網(wǎng)絡(luò);將第(1)步建立的圖像數(shù)據(jù)集輸入到深度學(xué)習(xí)算法的訓(xùn)練模塊中,進(jìn)行大量有效的算法訓(xùn)練。
(3)無人機(jī)采集待分析區(qū)域里的圖像數(shù)據(jù)。基于第(1)步的數(shù)據(jù)集和第(2)步的深度訓(xùn)練網(wǎng)絡(luò),自動檢測并識別目標(biāo)區(qū)域中建筑物的變化情況并做標(biāo)記,供管理部門參考。
2.2.1 建立城市建筑圖像數(shù)據(jù)集
(1)無人機(jī)飛行區(qū)域及參數(shù)API 編程。為避免無人機(jī)無規(guī)則“亂飛”(采集的圖像數(shù)據(jù)無效),采用大疆飛控平臺,調(diào)用大疆官方提供的飛控API 參數(shù),通過程序設(shè)計(jì)設(shè)定飛行參數(shù),劃定無人機(jī)飛行區(qū)域,設(shè)定高度、飛行速度、相機(jī)云臺傾斜角度、相機(jī)拍照頻率等關(guān)鍵數(shù)據(jù)采集,讓無人機(jī)按照既定參數(shù)飛行,采集有效圖像數(shù)據(jù)。
(2)如圖3 所示,按照樹結(jié)構(gòu)建立可擴(kuò)充的圖像數(shù)據(jù)集作為算法的訓(xùn)練數(shù)據(jù)集。樹根分為違章建筑和占道經(jīng)營兩個一級分支:①違章建筑分支下根據(jù)建筑物高度分為20m 以下、50m 以下和100m 以下3 個二級分支;②占道經(jīng)營分支下建立一個二級分支;③每個二級分支下存儲500~1 000 張相關(guān)航拍圖像;④為保證算法的訓(xùn)練效果,每張存入數(shù)據(jù)集的圖像都經(jīng)過人工篩選和打標(biāo)簽,否則不能入庫;⑤該數(shù)據(jù)集的各級分支都是可擴(kuò)充的,方便項(xiàng)目延伸到其他應(yīng)用。

Fig.3 Branch structure of urban management image dataset圖3 城市管理圖像數(shù)據(jù)集分支結(jié)構(gòu)
(3)標(biāo)記數(shù)據(jù)集。用程序或人工為圖像集打標(biāo)簽,為網(wǎng)絡(luò)訓(xùn)練做數(shù)據(jù)準(zhǔn)備,如圖4 所示。

Fig.4 Annotation process of deep learning city management image dataset圖4 深度學(xué)習(xí)“城市管理”圖像數(shù)據(jù)集標(biāo)注流程
2.2.2 深度學(xué)習(xí)網(wǎng)絡(luò)
采用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Nets,CNNs/ConvNets)進(jìn)行數(shù)據(jù)集網(wǎng)絡(luò)訓(xùn)練,提取圖像特征,其數(shù)據(jù)集網(wǎng)絡(luò)訓(xùn)練過程如圖5 所示。

Fig.5 Network training process圖5 網(wǎng)絡(luò)訓(xùn)練過程
深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)按不同的方向分為以下幾類:①典型生成型深度結(jié)構(gòu),其主要代表有深度置信網(wǎng)絡(luò)[16](DBN)。DBN 通過一系列限制型玻爾茲曼機(jī)組成,用來處理深度多層神經(jīng)網(wǎng)絡(luò)架構(gòu)在進(jìn)行特征學(xué)習(xí)過程中產(chǎn)生的標(biāo)簽數(shù)據(jù)需求量大、模型收斂速度較慢以及陷入局部極值等問題。DBN 可以同時對先驗(yàn)概率和后驗(yàn)概率進(jìn)行估計(jì),因?yàn)槠渚W(wǎng)絡(luò)是對訓(xùn)練數(shù)據(jù)以及標(biāo)簽進(jìn)行聯(lián)合學(xué)習(xí)得到的概率;②區(qū)分型模型。典型代表是CNNs,其結(jié)構(gòu)不同于DBN,CNNs 只能對后驗(yàn)概率進(jìn)行估計(jì),所以CNNs 多用來解決神經(jīng)網(wǎng)絡(luò)的目標(biāo)識別和分類問題;③混合型結(jié)構(gòu)。當(dāng)生成型深度結(jié)構(gòu)用于分類模型問題時,網(wǎng)絡(luò)后期利用分區(qū)結(jié)構(gòu)進(jìn)行參數(shù)優(yōu)化,所以稱作混合型結(jié)構(gòu)。
通過上述分析可知,在圖像識別和目標(biāo)檢測領(lǐng)域中卷積神經(jīng)網(wǎng)絡(luò)(CNN)是最適合于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),CNN 卷積神經(jīng)網(wǎng)絡(luò)比普通神經(jīng)網(wǎng)絡(luò)增加了隱藏層,其間包含了多個卷積層和下采樣層的組合。首先,卷積層能夠通過卷積核較好地提取輸入圖片的局部特征,卷積層具有進(jìn)行權(quán)值共享的特性,能大大減少神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中所需參數(shù)計(jì)算的數(shù)量;其次,下采樣層可以忽略目標(biāo)的傾斜。旋轉(zhuǎn)之類的相對位置變化在不改變特征圖大小的同時還可進(jìn)一步減少特征圖的分辨率,幫助神經(jīng)網(wǎng)絡(luò)提取高層次的語義特征,提升檢測精度,避免過閉合情況發(fā)生。該卷積神經(jīng)網(wǎng)絡(luò)主要層次結(jié)構(gòu)如圖6 所示。

Fig.6 A typical convolution neural network structure圖6 典型的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
在深度學(xué)習(xí)網(wǎng)絡(luò)中,通過大小不同的卷積核對上一層特征圖依次進(jìn)行卷積操作可提取不同的目標(biāo)局部特征,同時這些不同的局部特征圖共同作為神經(jīng)網(wǎng)絡(luò)下一層采樣輸入數(shù)據(jù)。卷積l中第j個神經(jīng)元公式如下:

其中,k表示卷積核,M表示輸入層的感受野,b為偏置,f(·)表示卷積網(wǎng)絡(luò)的激活參數(shù)。一個卷積層設(shè)計(jì)由多個特征圖構(gòu)成,且各個特征之間權(quán)值共享,這樣可以顯著降低網(wǎng)絡(luò)中自由參數(shù)的數(shù)量。
下采樣層(又稱池化層)一般設(shè)計(jì)在卷積層的后面,可以采取最大池化和平均池化等算法將多個像素值壓縮成一個,其功能是提取特征以減少數(shù)據(jù)規(guī)模,降低網(wǎng)絡(luò)分辨率,從而實(shí)現(xiàn)畸變、位移穩(wěn)健性,避免網(wǎng)絡(luò)過擬合發(fā)生。下采樣計(jì)算公式如下:

其中,pooling(·)代表池化函數(shù),β代表權(quán)重系數(shù)。
卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程由前向傳播和反向傳播兩個階段組成。在前向傳播階段,信息從輸入層開始向前逐層傳播,經(jīng)過多個卷積、池化、連接操作和全連接層直至網(wǎng)絡(luò)最后的輸出層,前向傳播過程中網(wǎng)絡(luò)通過下式計(jì)算:

其中,yi表示卷積網(wǎng)絡(luò)第i層的輸出,fi(·)表示卷積網(wǎng)絡(luò)第i層激活函數(shù),wi為第i層卷積核的權(quán)值向量。
反向傳播過程中,計(jì)算實(shí)際輸出(預(yù)測值)與標(biāo)簽信息(真實(shí)值)之間的差值,然后按照極小化誤差策略設(shè)計(jì)模型的誤差函數(shù),反向傳播調(diào)整網(wǎng)絡(luò)各層參數(shù)的權(quán)值,采用隨機(jī)梯度下降法[17]等優(yōu)化函數(shù)進(jìn)行參數(shù)調(diào)整。
采用卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型具有權(quán)值共享[18]、模型復(fù)雜度低和權(quán)值參數(shù)少的優(yōu)點(diǎn)。相較于傳統(tǒng)圖像識別算法[19],該模型能夠避免復(fù)雜的人工手動特征提取以及數(shù)據(jù)重建過程,可通過深度神經(jīng)網(wǎng)絡(luò)的正向和反向傳播過程自動學(xué)習(xí)特征[20],在數(shù)據(jù)集規(guī)模較大的目標(biāo)檢測及識別項(xiàng)目中具有顯著優(yōu)勢。
2.2.3 城市建筑圖像數(shù)據(jù)自動識別
建立樣本數(shù)據(jù)集和模型后即可自動識別,本文深度學(xué)習(xí)網(wǎng)絡(luò)如圖7 所示。
輸入層:輸入224×224×3 的圖像,其原因是彩色圖像有3 個通道。
卷積層1+下采樣:由96 個11×11×3 的濾波器、步長為4對輸入層進(jìn)行卷積,卷積后得出96 個55×55 大小的特征圖。接著采用Maxpooling 方法進(jìn)行特征圖下采樣,其下采樣窗口為3×3,步長Stride 設(shè)計(jì)為2,最終得出96 個27×27 大小的特征圖像。
卷積層2+下采樣:首先由256 個5×5×48 的濾波器對卷積層1 下采樣,需要注意的是該層為圖像兩邊各補(bǔ)充2 個像素點(diǎn),所以按照公式(27-5+2×2+1)/1 的數(shù)據(jù)進(jìn)行卷積,得出256 個27×27 的特征圖。然后采用Maxpooling 方法進(jìn)行特征圖下采樣,其下采樣窗口為3×3,步長Stride 設(shè)計(jì)為2,最終得出256 個13×13 大小的特征圖像。

Fig.7 Deep learning network model圖7 深度學(xué)習(xí)網(wǎng)絡(luò)模型
卷積層3:用384 個3×3×256 的濾波器對卷積層2 下采樣后的特征圖像進(jìn)行卷積操作,注意為圖像兩邊各補(bǔ)充1個像素點(diǎn),采用公式(13-3+2×1+1)/1 得出384 個13×13 的特征圖,結(jié)果在兩個GPU 共同存儲,這是兩個GPU 進(jìn)行的唯一一次數(shù)據(jù)交流。
卷積層4:除了卷積對象是卷積層3 的數(shù)據(jù)GPU 不進(jìn)行數(shù)據(jù)交流,其余步驟和卷積層3一樣,得384個13×13特征圖。
卷積層5:用256 個3×3×192 的濾波器對卷積層4 的數(shù)據(jù)進(jìn)行卷積,同時在這一步驟中會對圖像進(jìn)行Padding 操作,為圖像兩邊各補(bǔ)充1 個像素點(diǎn),得到256 個13×13 特征圖。然后采用Maxpooling 方法進(jìn)行特征圖下采樣,其下采樣窗口為3×3,步長Stride 設(shè)計(jì)為2,最終得出256 個6×6 的特征圖。
全連接層1:將卷積層5 下采樣后的256 個6×6 特征圖的像素排成一列,即共有9 216 個元素作為輸入,然后調(diào)用神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)全連接層的參數(shù)將之維度下降到4 096 維。
全連接層2:將全連接層1 的特征數(shù)據(jù)通過全連接神經(jīng)網(wǎng)絡(luò)后,輸出得到4 096 維特征數(shù)據(jù)。全連接層3:將全連接層2 的特征數(shù)據(jù)經(jīng)過全連接神經(jīng)網(wǎng)絡(luò)降維后,輸出得到1 000 維特征數(shù)據(jù)。
實(shí)驗(yàn)平臺見表1,預(yù)測類別準(zhǔn)確率見表2,訓(xùn)練和驗(yàn)證損失函數(shù)曲線見圖8,檢測結(jié)果見圖9。

Table 1 Experimental platform表1 實(shí)驗(yàn)平臺

Table 2 Accuracy of prediction categories表2 預(yù)測類別準(zhǔn)確率(%)

Fig.8 Training and validation loss function curve圖8 訓(xùn)練和驗(yàn)證損失函數(shù)曲線

Fig.9 Test results圖9 檢測結(jié)果
實(shí)驗(yàn)使用烏班圖16.04 操作系統(tǒng),tensorflow-GPU 版本深度學(xué)習(xí)開發(fā)環(huán)境,CPU 采用英特爾9900K,GPU 采用11G顯存的Nvdia RTX2080Ti,如表1 所示。經(jīng)過30 個epoch 訓(xùn)練之后檢測模型對所有類別的檢測平均準(zhǔn)確率可以達(dá)到94%,尤其是對建筑的檢測率最高,達(dá)到98%,可以滿足建筑物檢測需求,但是對樹的檢測準(zhǔn)確率只有92%,如圖8 所示。經(jīng)過實(shí)驗(yàn)數(shù)據(jù)分析,數(shù)據(jù)集中建筑物樣本分布更加平均,樣本數(shù)量更加豐富;樹樣本分布集中在部分圖片中,樣本分布密集且數(shù)量較少,所以導(dǎo)致樹的檢測率較低,這是后期數(shù)據(jù)集需要改進(jìn)的地方。
本文創(chuàng)新性地將“無人機(jī)”和“深度學(xué)習(xí)”兩大新興熱門技術(shù)應(yīng)用到城市管理工作中。通過無人機(jī)飛控API 函數(shù)設(shè)計(jì)并編程實(shí)現(xiàn)劃定無人機(jī)飛行區(qū)域、高度、圖像數(shù)據(jù)采集頻率,避免“亂飛”,采集有效的無人機(jī)視覺數(shù)據(jù);拓展深度學(xué)習(xí)應(yīng)用領(lǐng)域,建立城市管理深度學(xué)習(xí)圖像數(shù)據(jù)集;設(shè)計(jì)適合城市管理需要的深度訓(xùn)練和識別網(wǎng)絡(luò),建立城市管理深度學(xué)習(xí)模型;利用無人機(jī)的飛行優(yōu)勢,對城市中特定區(qū)域內(nèi)的建筑進(jìn)行識別,及時、準(zhǔn)確、直觀地掌握城區(qū)建筑物現(xiàn)狀,有效拓展城市建筑管理執(zhí)法視野和效率,使城市建設(shè)監(jiān)管更加科學(xué)有效。
本文提出的設(shè)計(jì)框架和實(shí)施路線具有極強(qiáng)的通用性,除了檢測建筑,該技術(shù)還可以拓展到其他領(lǐng)域,如基于無人機(jī)平臺的城市交通擁堵自動識別;基于無人機(jī)航拍的人體異常行為檢測;基于無人機(jī)的農(nóng)業(yè)病蟲害預(yù)防應(yīng)用等。通過對不同場景下的數(shù)據(jù)進(jìn)行訓(xùn)練,實(shí)現(xiàn)無人機(jī)在不同場景的識別功能,發(fā)揮該模型豐富的應(yīng)用潛能。