茹鮮古麗·蘇來滿,吾爾尼沙·依米提,涂偉滬
(哈密開放大學 新疆 哈密 839000)
隨著無人機技術的快速發展,無人機在軍事、民用和商業領域的應用逐漸成為研究和關注的焦點。在無人機的廣泛應用中,圖像識別技術扮演著至關重要的角色,為無人機系統提供了豐富的信息和智能決策支持[1-2]。為了提高無人機圖像識別的準確性和效率,深度學習技術中的卷積神經網絡(convolutional neural network, CNN)[3-4]被廣泛應用。本文旨在深入研究卷積神經網絡在無人機圖像識別中的應用,聚焦于輕量化卷積神經網絡MobileNet-V1[5-6]的結構與實際應用。本研究期望為無人機圖像識別技術的不斷優化和發展貢獻新的見解,推動無人機系統在各個領域的更廣泛而深入的應用。
MobileNet-V1 是一種輕量級卷積神經網絡,其基本結構采用了深度可分離卷積的設計思想,整體結構包括深度可分離卷積和逐點卷積兩個關鍵步驟。如圖1 所示,該網絡的核心結構包括圖像輸入層,3 個3×3×1 的卷積核產生的特征圖,輸出通道數為3,以及5 個1×1×3 的卷積核產生的特征圖,輸出通道數為5。

圖1 輕量化卷積神經網絡MobileNet-V1
MobileNet-V1 的第一步是應用3 個3×3×1 的卷積核對輸入圖像進行卷積操作,從而生成3 個特征圖。這一步驟旨在通過小型卷積核捕捉圖像中的局部特征,有助于提高網絡的感知力和表達能力。接下來,通過應用5 個1×1×3 的卷積核對前一步驟產生的特征圖進行卷積操作,生成5 個輸出通道的特征圖。這一步驟稱為逐點卷積,其目的是通過使用較小的卷積核減少計算復雜度,同時在特征圖之間引入非線性變換,增強網絡的表達能力。
MobileNet-V1 的重要特點之一是采用深度可分離卷積,該卷積操作分為深度卷積和逐點卷積兩個步驟。深度可分離卷積首先通過3×3 的深度卷積對輸入特征圖的每個通道進行處理,然后再通過1×1 的逐點卷積進行通道間的整合。這一設計有效地降低了參數數量,減小了計算負擔,使得MobileNet-V1 適用于計算資源有限的場景,為無人機圖像識別等應用提供了高效的解決方案。
為了應對無人機圖像的特征,本研究提出了一種基于直方圖均衡(histogram equalization)[7-8]和高斯濾波(Gaussian smoothing)[9-10]的圖像增強方法,以優化圖像的對比度和降低噪聲。
首先,考慮到無人機圖像可能存在部分區域亮度過低或過高的問題,本研究采用直方圖均衡化來調整圖像的灰度分布,提高圖像的整體對比度。直方圖均衡的基本思想是通過拉伸原始圖像的灰度級別,使得灰度值均勻分布,從而增強圖像的細節。具體而言,對于一幅無人機圖像的灰度直方圖,其離散形式可以表示為式(1):
式(1)中,Pr(rk) 是灰度級別rk的概率密度函數,nk是灰度級別rk的像素數量,N是總像素數量。通過對累積分布函數進行線性映射,可以獲得均衡化后的灰度級別,如式(2)所示:
通過對整個圖像應用T(rk) 可以實現直方圖均衡化,從而改善圖像的對比度。其次,為了減小無人機圖像中可能存在的噪聲,本研究引入高斯濾波進行平滑處理。高斯濾波的離散形式可以表示為式(3):
式(3)中,G(x,y) 是高斯核,σ是高斯濾波器的標準差。通過卷積原始圖像與高斯核,可以實現對圖像的平滑處理,抑制噪聲的影響。綜合考慮直方圖均衡化和高斯濾波,本研究提出的圖像增強方法可以表示為式(4):
式(4)中,Ioriginal是原始無人機圖像,T是直方圖均衡化的變換函數,G是高斯濾波核,Ienhanced是圖像增強結果。通過這一方法,本研究旨在優化無人機圖像的質量,為后續基于MobileNet-V1 的圖像識別方法提供更具有魯棒性的輸入。
使用MobileNet-V1 進行圖像識別的方法涉及圖像的前向傳播和特征提取過程。設輸入圖像為Ienhanced,MobileNet-V1 的前向傳播過程可以描述為式(5):
式(5)中,Fmnv1是MobileNet-V1 的前向傳播函數,Θ 表示網絡參數,?是網絡輸出的特征圖。MobileNet-V1 的結構包括深度可分離卷積和逐點卷積,通過這些卷積層逐漸提取圖像的抽象特征。
首先,輸入圖像經過深度可分離卷積層,該卷積操作分為深度卷積(depthwise convolution) 和逐點卷積(pointwise convolution)兩個步驟。深度可分離卷積的數學表示為式(6)、式(7):
式(6)、式(7)中,DWConv 表示深度卷積,PWConv 表示逐點卷積,Θdw和Θpw分別是深度卷積和逐點卷積的參數。這兩個步驟將輸入圖像分別進行通道內和通道間的信息提取,生成特征圖。接下來,通過多個這樣的深度可分離卷積層的堆疊,逐漸提高特征的抽象層次,形成更高級別的特征表示。最終的特征圖?可以通過逐點卷積操作輸出:
得到特征圖后,可以應用全局平均池化(global average pooling)操作將特征圖轉換為定長的特征向量,如式(9)所示:
式(9)中,GAP 表示全局平均池化操作。這一步驟有助于減少參數數量,降低過擬合的風險。最后,通過連接全連接(fully connected, FC)層和Softmax 層,可以得到圖像的類別概率分布如式(10)所示:
式(10)中,FC表示全連接操作,Softmax 表示激活函數,Θfc和Θsoftmax分別是全連接層和Softmax 層的參數。
綜合而言,使用MobileNet-V1 進行圖像識別的過程經過一系列卷積、池化和全連接操作,將輸入圖像轉換為類別概率分布。通過訓練網絡參數Θ,可以實現對無人機圖像的高效分類。
AU-AIR 數據集[11]是一個廣泛應用于無人機圖像處理和機器學習算法驗證的開放數據集。該數據集由澳大利亞國立大學制作,包含了多個場景下的高分辨率無人機圖像,涵蓋了城市、農田、森林等不同地貌。AU-AIR 數據集的圖像標注包括了多個類別,如建筑物、道路、車輛等,使其適用于各種無人機應用領域的研究。另外,本實驗的硬件和軟件環境配置分別如表1、表2 所示。

表1 硬件環境配置

表2 軟件環境配置
本實驗的實驗方案包含以下幾個部分:
(1)數據準備。下載AU-AIR 數據集,并將其70%和30%分別劃分為訓練集和測試集。然后,對訓練集進行隨機旋轉、翻轉、縮放等操作,以擴充訓練數據。
(2)數據增強。對數據進行直方圖均衡和高斯濾波。
(3)網絡模型構建。基于TensorFlow 和Keras 構建MobileNet-V1 模型,包括深度可分離卷積和逐點卷積層;添加全局平均池化和全連接層,以生成類別概率分布。
(4)模型訓練。使用訓練集對MobileNet-V1 進行端到端的訓練。
(5)模型評估。使用測試集對訓練好的MobileNet-V1進行評估,計算分類準確度等指標。
本實驗的部分目標識別結果如圖2 所示,可以看出所提方法準確地識別出圖片中的車輛和行人等目標,其中,汽車被標為紅色方框,行人被標為紫色方框,摩托車或電動車被標為綠色方框。

圖2 部分目標識別結果
表3 展示了在AU-AIR 數據集上使用所提方法訓練的MobileNet-V1 模型的性能指標實驗結果。綜合而言,所提方法訓練的MobileNet-V1 模型在AU-AIR 數據集上表現良好。準確度、精確度、召回率和F1 分數表明模型在無人機圖像識別任務中取得了較好的綜合性能。然而,具體分析中還需要考慮不同類別的性能,以進一步優化模型的特定識別能力。進一步的實驗和分析可以幫助深化對模型性能的理解,并為進一步改進提供有針對性的方向。

表3 實驗結果
綜上所述,本文通過深入研究卷積神經網絡在無人機圖像識別中的應用[12],提出了一種基于輕量化網絡MobileNet-V1 的方法,并在AU-AIR 數據集上進行了實證驗證。實驗結果表明,所提出的方法在無人機圖像識別中表現出色,為輕量級網絡在實際應用中的有效性提供了有力支持。通過本研究為無人機圖像識別領域的進一步探索和優化提供了新的思路和方法。