



















摘 要:隨著計算機技術和機器視覺技術的迅速發展與應用, 探索基于“人工智能+”模型的未爆子彈藥搜尋技術受到了廣泛關注。 但是, 由于未爆子彈藥具有一定的危險性和受軍事應用的特殊性影響, 數據集構建是目前亟待解決的瓶頸問題。 本文由此出發, 分別論述了真實實物圖像數據集和利用實物圖片進行三維重建數據集的構建方法及流程, 重點分析了兩種數據集構建過程中的相關關鍵技術及其優缺點, 并給出了一種利用多目相機采集目標圖像和地理坐標信息, 然后利用深度學習算法進行目標特征提取、 生成三維點云和融合三維圖像。 試驗結果表明, 采用該方法構建的三維數據集可以有效解決未爆子彈藥現有數據集數據量不足的問題, 最后展望了數據集構建方法的未來發展方向。
關鍵詞:未爆子彈藥; 圖像數據集; 深度學習; 三維重建; 圖像處理
中圖分類號:TJ760
文獻標識碼: A
文章編號:1673-5048(2024)04-0021-12
DOI: 10.12132/ISSN.1673-5048.2023.0233
0 引 言
從世界上近幾場局部沖突中, 可以發現子母彈已經被各軍事強國研發并使用, 由此必將產生大量的未爆子彈藥。 地表未爆子彈藥是未爆彈藥的一種, 由于其在下降過程中的穩定性且有降落傘、 飄帶等裝置進行增阻、 減旋, 使其在戰斗部飛越過彈道頂點后緩慢降落, 落在地面上未發生爆炸且暴露在地球表面。 如果這些未爆子彈藥未及時被發現和處理, 將對該地域內的人員安全造成極大的威脅。
隨著人工智能技術迅猛發展, 深度學習網絡在各個領域的應用日益廣泛, 尤其在機器視覺領域, 已經取得了顯著的進展。 在檢測未爆炸物方面, 采用基于深度學習網絡的無人機載平臺對地面目標圖像進行識別的方法是當前研究的熱點。 胡聰等[1]利用基于Faster R-CNN網絡結構的計算機視覺算法與無人車結合, 提出了排爆無人車自主檢測未爆彈的預想。 單成之等[2]提出了一種基于關鍵點的未爆彈圖像目標檢測算法與機器人相結合的解決方案, 該方案對未爆彈圖像進行初步特征提取, 爾后再利用特定網絡進行特征增強, 最后采用頭部預測模型對熱力圖、 中心點及尺寸大小分別進行預測, 檢測結果較好。 曾俊等[3]設計了一種融合了無人機自主導航、 深度學習和YOLOv5目標檢測算法的空基智能排爆系統, 提高了區域范圍內整體的檢測速度。 采取“無人+智能”的方法無需操作人員與未爆子彈藥接觸, 因此被認為是目前最安全、 最有效的檢測方法。 然而圖像識別的過程必然需要構建含有多種類型未爆子彈藥在不同環境條件下的數據集, 為深度學習網絡提供數據支撐。 圖像數據集的來源主要包括基于真實實物的圖像采集數據集、 基于實物圖片的三維重建數據集和基于虛擬仿真的虛擬數據集, 由于虛擬數據集必然存在域偏移問題[4], 因此在構建數據集時通常優先考慮采集大量真實實物圖片或者利用少量實物圖片進行三維重建, 圖像數據集構建流程如圖1所示。
1 真實實物數據集的構建方法及關鍵技術
由于真實實物能夠全面反映目標的形狀、 顏色、 結構等外觀狀態, 使用真實實物數據集進行預測或者目標識別效果較好, 也一直廣受學者的青睞。 而由于自然環
境的影響, 對真實實物進行圖像采集或者從開源數據中進行挖掘, 圖像中必然會摻雜一些背景噪聲或其他影響因素, 并且很多時候難以窮盡目標可能處在的環境或狀態, 因此在構建真實實物數據集的過程中往往會使用一些圖像處理的相關技術。 如圖2所示, 真實實物數據集構建的一般過程主要包括圖像數據采集、 圖像數據清洗、 圖像數據預處理、 圖像數據標注和圖像數據劃分等, 其中圖像數據清洗和圖像數據預處理是完成數據集構建的關鍵技術。 1.1 圖像數據清洗技術
從廣闊的互聯網上抓取數據[5]或者在真實實物圖像采集的過程中由于錄入錯誤、 背景變化、 物體遮擋等原因將使得初始數據集中存在同一事物的圖像多次出現、 同一事物的圖像被標注為不同的名稱、 不同事物圖像不完整等問題, 影響數據可靠性。 簡而言之, 數據清洗就是采用人工或技術手段將數據集中的“臟數據”清洗為“干凈數據”的過程[6]。
1.1.1 重復數據清洗
數據清洗的關鍵環節是對重復數據進行清洗, 其主要采取“排序-合并”的思想, 常用的方法有排序鄰居方法、 優先權隊列方法和哈希清洗方法[7]。
(1) 排序鄰居方法(Sorted Neighborhood Method, SNM)是一種常用的重復數據清洗算法[8], 首先采用近鄰排序算法, 根據選擇的屬性作為關鍵字進行全排序; 其次, 使用固定大小的滑動窗口進行聚類以識別相似或重復的數據。 該方法在時間復雜度上進行了優化, 經過實驗表明, 改進的排序鄰居方法在相同召回率的情況下, 其時間復雜度優于傳統的算法, 且清洗后的數據更符合實際情況, 能夠提高數據集的準確性和可靠性, 還能節省時間和資源; 但是該方法對參數較為敏感, 不同的參數可能會導致不同的清洗結果, 由于是基于局部信息進行判斷, 可能會誤刪某些非重復數據, 并且該方法不適合處理數據量較大的數據集。
(2) 優先權隊列方法(Priority Queue Strategy, PQS)是Monge等[9]提出的一種基于Union-Find數據結構的重復數據清洗算法, 其基本思想主要是基于優先級隊列的數據結構, 優先隊列是一種特殊的隊列, 每個元素都有一個優先權, 其不同于先進先出隊列, 每次從隊列中取出的是具有最高優先權的元素。 其清洗過程主要有三步: 第一步, 初始化一個空的優先隊列; 第二步, 遍歷數據集的所有數據, 將每個數據元素添加到優先隊列中; 第三步, 依次從優先隊列中取出元素, 即完成了數據的清洗。 該方法時間復雜度較小, 排序比較穩定, 其算法思想比較簡單易于編寫, 并且能夠有效降低作業的平均等待時間, 從而可以提高系統的吞吐量; 但是該方法也存在對長作業不利, 可能會導致長作業的等待時間過長, 其需要對所有數據進行遍歷, 未考慮作業的緊迫程度, 可能導致某些緊迫作業延遲。
(3) 哈希清洗方法是利用哈希算法的特性來檢測和處理數據中的重復項, 該方法將數據集的每個元素都轉換為一個唯一的哈希值, 然后將這些哈希值用來檢測, 如果兩張圖像的哈希值相同或在設定的閾值內, 就認為這兩張圖像為重復圖像, 將會被清除掉[10]。 該方法能夠將數據運用哈希值高效表達, 可以快速檢測和分類數據, 同時其可以將多個不同的數據映射到同一個哈希值上, 從而減少存儲空間的占用, 且準確性高; 但是該方法也存在不同數據映射到同一個哈希值會出現沖突問題, 且需要計算哈希值, 從而增加計算時間。
1.1.2 缺失數據填充
因為數據未被記錄、 遺漏或丟失, 以及數據采集過程中采集設備故障、 存儲介質、 傳輸媒體故障等因素可能造成數據丟失, 在對缺失數據處理前, 了解數據缺失的機制和形式是十分必要的, 常用的數據填充方法有邏輯回歸填充方法、 KNN填充方法和均值填充方法等。
(1) 邏輯回歸填充方法。 對缺失數據進行預測, 并利用現有完整數據建立回歸算法, 從而確定不同類別的分界線, 并根據該分界填充缺失的數據。 該邏輯回歸模型是一種經典的分類模型, 可用于二分類和多分類任務[11]。 該方法計算簡單, 且易于實施并行化計算; 但是該方法過于依賴完整數據, 并且只能用于數值填充。
(2) K最近鄰方法(K-Nearest Neighbor, KNN)是一種經典的機器學習分類算法[12], KNN是根據“物以類聚”的思想進行分類填充的算法, 其原理是利用樣本集中的訓練數據對特征空間進行有監督學習的劃分, 而后計算預測數據與樣本集不同特征值之間的距離, 距離越小, 代表他們之間的差別越小, 屬于同一簇類的概率越大, 選擇距離缺失元最近的同簇數據對其進行填充[13]。 常用的距離量度方式有閔可夫斯基距離、 歐式距離、 曼哈頓距離等。 該方法簡單直觀, 無需估計參數, 訓練時間較短, 其次, 其既可以處理分類問題, 也可以處理回歸問題, 甚至適合對稀有事件進行分類; 但是該方法計算量大, 尤其是對于特征數非常多的數據, 再者當樣本不平衡的時候, 對稀有類別的預測準確率較低。
(3) 均值填充方法[14]是一種比較常用的缺失數據填充方法, 其基本原理是用數據集的列或行的均值來填充該列或行中的空值。 例如, 如果某一列中存在空值, 那么可以用該列所有非空值的平均值來填充這些空值。 該方法不但實現簡單、 計算高效和容易理解, 而且其不僅可以用于填充數值型數據, 還可以用于填充非數值型數據, 但其缺點也比較突出, 首先, 其對異常值比較敏感, 如果數據集中存在極端值或離群點, 使用均值填充可能會引入偏差, 其次, 其可能會改變原始數據的分布和信息, 最后, 其可能會導致估計出的平均值偏離真實值, 從而影響后續的數據分析和建模。 如圖3~5所示, 采用均值填充法對地表未爆子彈藥圖像進行降噪、 去霧和填充處理, 效果較好。
1.1.3 基于深度學習網絡的圖像數據清洗
圖像數據清洗中常用的深度學習網絡主要有AlexNet網絡和GoogLeNet網絡兩種。
(1) 基于AlexNet的圖像數據清洗[15]。 AlexNet是由Hinton教授及其團隊在2012年的ImageNet大規模圖像
識別挑戰賽(ILSVRC)上提出的一種卷積神經網絡結構, 在圖像分類任務中一騎絕塵, 以超過第二名非深度學習方法10%+的成績震驚了整個業界。 其清洗步驟是: 第一步, 獲取目標標簽的至少一個標準圖像; 第二步, 確定所述至少一個標準圖像的聚類中心; 第三步, 提取多個待清洗圖像中每一個待清洗圖像的特征; 第四步, 在提取了特征之后, 根據這些特征和聚類中心, 確定每一個待清洗圖像與所述至少一個標準圖像的相似度值; 第五步, 基于所確定的相似度值, 從所述多個待清洗圖像中選取若干個待清洗圖像以形成所述目標標簽的圖像集。 在AlexNet模型中, 共有5個卷積層和3個全連接, 選擇ReLU作為激活函數, 可以加速網絡收斂, 有助于在大型數據集上訓練大型模型, 綜合采用重疊的池化和dropout的方法將隨機神經元置零, 可以一定程度上減少了過擬合的發生。
(2) 基于GoogLeNet的圖像數據清洗。 GoogLeNet[16]是谷歌團隊為了參加2014年ILSVRC比賽而精心準備的卷積神經網絡結構, 也是該挑戰賽冠軍。 其主要思想是通過構建密集的塊結構來近似最優的稀疏結構, 從而達到提高性能而又不大量增加計算量的目的, 其進行圖像清洗的步驟與AlexNet相同。 在GoogLeNet模型中, 共有22 層, 但沒有全連接層, 其參數個數可以達到6 000萬個, 是AlexNet模型的12倍, 且采用Inception模塊的創新結構, 可以有效地減少參數數量, 降低過擬合的風險, 同時也能保持網絡的深度和寬度。
1.1.4 小 結
數據清洗要根據數據形式及其類型(各種清洗方法及其優缺點如表1所示), 綜合分析后選擇一種或多種數據清洗方法對數據集中的缺陷數據進行處理使其變成規范的干凈數據, 從而消除缺陷的過程, 其目的主要是為了提高數據質量, 使其更適合做挖掘、 展示、 分析等后續工作。
1.2 圖像數據預處理
圖像數據清洗后得到的數據集相較于原始圖像數據更加規整有序, 但是仍會存在圖像分辨率有大有小、 圖像格式不統一、 圖像變形等問題, 此時還需對數據集中的數據進行預處理, 使其質量進一步提高。
1.2.1 數據標準化
圖像數據標準化是指為了獲取的圖像數據能夠滿足實際應用需求, 對不同程度差異的圖像數據進行灰度校正、 濾波去噪、 格式轉換和幾何變換等, 以提高圖像數據的質量, 得到符合規定要求的圖像數據[17]。 通過互聯網開源數據爬蟲抓取到的圖像數據格式多種多樣, 圖像像素大小也五花八門, 而通過實物成像采集到的數據往往是.JPG格式, 同一成像設備采集的圖像像素相對固定, 為了便于數據集的處理, 首先要將數據集中的數據進行標準化處理, 其主要由三步來完成:
第一步: 通過裁剪或填充技術, 將像素大小不同的圖像數據統一為同一像素大小的數據。
第二步: 使用格式轉換工具, 將格式不一樣的圖像數據轉換為同一格式類型的數據。 數據格式的選取要根據用戶實際需求確定, 傳統的圖像數據格式有JPG、 GIF、 PNG和HLM等, 一般獲取到的數據都是這些格式, 但是這些圖像數據格式的數據占用的內存非常大, 且無法存儲影像信息, 極大地延長了下步圖像處理的時間。 而一些專業圖像格式卻有很好的表現, 例如HDF(Hierarchical Data Format)圖像數據格式, 其是由美國的NCSA研發的一種高效的存儲和分發科學數據的新型數據格式[18], 相較于傳統的圖像存儲格式, HDF優點有: 能夠存儲不同類型的圖像與影像信息, 不同的機器之間可以相互傳輸, 共享資源, 擁有統一處理 HDF 文件格式的函數庫, HDF 的特性主要包含: 自述性, 通用性, 靈活性, 擴展性和跨平臺性等[19]。 如圖6所示, 對采集的圖像進行尺寸和格式批量處理。
第三步: 采用min-max標準化或z-score標準化模式對圖像數據進行縮放, 使其數值落在某個區間內或按某種規律分布, 為后續進行模型學習時, 加快收斂, 提高模型精度[20]。
1.2.2 圖像仿射變換
采用無人機載平臺采集到的地表未爆子彈藥實物圖像通常是從上向下垂直視角拍攝的, 難以獲得不同方位、 俯仰角下的未爆子彈藥的圖像數據, 此時需要對已采集的圖像數據進行仿射變換, 將垂直視角下的圖像擴展為不同視角下的圖像, 以豐富數據集的數量, 提高檢測的準確率。 仿射變換是線性變換的一種, 通過一系列的平移變換、 尺度縮放變換和旋轉變換獲得, 并且能夠保持二維圖像的平直度和平行度[21]。 如圖7所示, 對地表未爆子彈藥區域圖像進行仿射變換處理。
平移變換的公式為
x′y′z′=10tx01ty001xyz(1)
式中: tx, ty為平移距離。
尺度縮放變換的公式為
x′y′1=sx000sy0001xy1(2)
式中: sx, sy為縮放尺度。
旋轉變換的公式為
x′y′1=cosθ-sinθ0sinθcosθ0001xy1(3)
式中: θ為旋轉角度。
1.2.3 圖像數據分割
圖像分割方法是根據圖像的基本特征(紋理、 顏色、 形狀等)之間的差異將其劃分為多個互不連通的區域, 從而實現分割。 常見圖像分割方法主要有邊緣法、 閾值法和區域法等。
(1) 基于邊緣檢測的圖像分割算法是通過檢測目標邊緣的方式來解決分割問題[22]。 不同區域之間邊緣像素變化較大, 若使用傅里葉變換, 將圖片從空域轉換到頻域, 則在空域中表現為邊緣的部分被變換為高頻。 常見的邊緣檢測算法有Sobel邊緣檢測、 Canny邊緣檢測、 Prewitt邊緣檢測等[23]。 雖然通過檢測目標邊緣的方式來實現分割目的速度快、 邊緣定位準確; 但是邊緣的連通性無法保證, 細節部分存在大量碎邊緣。
(2) 基于閾值的圖像分割算法[24], 是一項實現簡單、 效率高的傳統分割技術。 其實現原理是基于設定的閾值, 將像素點的像素值和閾值進行一一比較, 把圖像中所有像素點劃分到不同的類別, 從而實現醫療圖像像素級分類, 即分割。 因此分割閾值的選擇直接影響著分割結果的好壞。 其中比較具有代表性的閾值分割算法是大津算法(OTSU), 又稱最大類間方差法。 其根據灰度級將圖像灰度值分成兩個區域, 使得區域之間差異最大, 區域內差異最小, 然后計算前景、 背景兩類間方差, 找到一個使類間方差最大化的灰階, 將此灰階設置為分割閾值, 從而實現醫療圖像分割; 然而, 基于閾值的醫療圖像分割算法, 分割效果取決于閾值的設定, 僅考慮了像素值, 忽視了圖像的空間特征, 對噪聲敏感, 分割魯棒性不高。
(3) 基于區域的圖像分割算法[25]基本原理是通過尋找圖像區域, 進而實現圖像分割, 一般分為區域生長法、 區域分裂和合并。 區域生長法原理是: 首先設置代表不同生長區域的隨機像素種子, 然后計算相鄰生長區域像素之間的相似度, 并將像素合并到對應的區域, 最后計算新的種子像素, 開始新一輪的合并, 不停的迭代輪次一直到所有像素點被合并[26]。 算法的關鍵在于種子像素的選擇、 區域合并的相似度準則、 區域生長停止的條件。 區域生長法適用于分割區域連通、 特征分布均勻的圖像; 然而其對噪聲較為敏感, 且需要人為設定種子像素, 加入主觀因素的干擾, 因此該方法普適性不高。
基于以上分析, 針對邊緣性比較明顯的未爆子彈藥通常采用邊緣分割方法, 采用Sobel算子的邊緣分割法對未爆子彈藥圖像進行邊緣分割獲得的圖像結果如圖8所示。
1.2.4 小 結
圖像數據預處理的目的主要是消除圖像中無關的信息, 恢復有用的真實信息, 增強有關信息的可檢測性、 最大限度地簡化數據, 以提高數據分析和建模的準確性、 可靠性和效率。 經過預處理后獲得的部分未爆子彈藥圖像數據如圖9所示。 在進行圖像數據預處理時, 并非把所有的數據都進行標準化、 仿射變換和分割, 也不是把所有數據按照上述步驟走一遍就足夠了, 而是要根據數據集中數據的情況合理選擇方法和步驟, 有些還可能用到均值濾波、 高斯濾波或中值濾波等方法進行去噪和平滑處理。
2 三維重建數據集的構建方法及關鍵技術
地表未爆子彈藥往往出現在交戰地域或進行實彈射擊后的落彈區內, 獲得未爆子彈藥的數據一般比較困難。 因此從互聯網開源數據中得到的未爆子彈藥的圖像數據只有很少的一部分, 而采用實物成像獲得的圖像又會耗費大量的人力物力和時間, 并且動用武器彈藥存在一定的安全風險, 因此使用未爆子彈藥的真實實物采集大量的圖片數據非常不明智。 此時為了保證數據集的穩定性和魯棒性, 還要保證作業人員的安全, 一些學者把目光鎖定在了利用少量實物圖片進行三維重建還原成實物, 再利用還原的三維圖像轉化為二維圖片, 從而可以得到大量的接近真實實物的圖片數據實現構建數據集, 其流程如圖10所示。 這個過程中最為關鍵的一步就是把二維圖片恢復成三維的實物模型。
根據接收設備接收到的信號源不同, 可將三維重建技術分為基于主動視覺的三維圖像重建技術、 基于被動視覺的三維重建技術和基于深度學習的三維重建技術。
2.1 基于主動視覺的三維圖像重建技術
主動視覺就是利用特殊的光學儀器向視覺場景中投射特殊的結構光, 然后通過檢測這些投射光在目標表面的圖像, 或者計算回收反射信號的時間來進行深度信息獲取的三維重建技術, 當前常見的主動視覺三維重建方法主要有結構光法、 激光掃描法、 飛行時間法和陰影法。
2.1.1 結構光法
結構光法是根據三角測量原理, 投影儀向目標物體投射特定的結構光照明圖案, 由相機攝取被目標調制后的圖案, 再通過圖像處理和視覺模型求出目標物體的三維信息[27]。 結構光是一種可進行編碼的光束, 包括各種特定的點、 線、 面等樣式。 該方法常用的結構形式有單投影儀-單相機、 單投影儀-雙相機[28]、 多投影儀-單相機[29]、 多投影儀-多相機[30]等。 該方法簡單方便, 且精度高; 但是由于易受自然光照影響, 只適合在黑暗的室內場所使用, 而且隨著檢測距離的增加, 重建精度也會變差。
2.1.2 激光掃描法
激光掃描法, 也被稱為實景復制技術, 是一種高速、 大面積、 高分辨率的三維信息獲取方法。 其主要是利用激光測距的原理, 具體過程是利用激光測距儀向物體表面發射激光束, 經反射后, 激光接收設備可以接收到從物體表面各點反射回來的激光束, 通過記錄激光發射和接收之間的時間差, 可以計算出目標物體表面大量密集點的深度信息, 再根據各設備之間的相對位置, 可以計算出物體各點在垂直平面的相對位置, 綜合后可以得到物體的三維點云, 從多個角度進行掃描可以得到不同角度的三維點云, 再根據圖像中的特征點配準技術, 從而可以重建出物體的三維結構[31]。 該方法能夠重建各種表面不規則的物體, 且具有較高的重建精度; 但是由于需要處理大量的點云數據, 需要較大的計算資源和存儲空間, 且重建速度較慢, 同時激光發射和接收設備成本較高。
2.1.3 飛行時間法
飛行時間法是一種用于精確測量目標距離的方法, 其主要是通過向目標發送一定頻率的光脈沖, 然后用傳感器接收從物體表面反射回來的光脈沖, 通過記錄這些發射和接收光脈沖的飛行時間來計算與目標的距離, 其原理如圖11所示。 根據光源發射器調制光脈沖方法的不同可以分為脈沖調制法和連續波調制法[32]。 該方法可以實時地測量物體的距離, 從而可以快速地進行三維重建。 其次, 其具有強大的抗干擾能力, 不僅能夠在無光照的環境中使用, 而且還能在低光照、 多光譜和復雜背景環境下使用, 具有較高的穩定性; 但是由于對光線傳播路徑的依賴性, 如果光線被遮擋或者發生反射, 可能會影響精度, 測量的結果誤差相對較大。
2.1.4 陰影法
陰影法[34]是一種用于重建三維模型的簡單、 可靠且低功耗的方法。 其是一種基于弱結構光的方法, 與傳統的結構光相比, 這種方法的要求比較低, 只需將一臺相機面向被燈光照射的物體, 通過移動光源前面的物體來捕獲移動的陰影, 再觀察陰影的空間位置, 從而重建出物體的三維結構。 該方法設備需求相對簡單, 操作直觀, 且由于其能夠獲取到模型相對于空氣高速運動時周圍激波和尾流中旋渦的清晰圖像, 該方法在空氣動力學、 爆炸沖擊動力學等方面有廣泛的應用價值; 但是由于光線與被測對象表面不垂直, 可能會導致測量結果誤差較大。
2.1.5 小 結
以上基于主動視覺的三維重建技術普遍具有高精度、 高分辨率以及強大的抗干擾能力, 均可以進行非接觸式測量, 且適用于各種光照環境條件。 但是, 由于其采用主動光照射目標, 無論是結構光還是光脈沖對光線傳播路徑的依賴性較強, 可能會影響其精度。
2.2 基于被動視覺的三維圖像重建技術
被動視覺是指不需要額外的設備發射可見光、 電磁波或聲波等形式的波能量, 而是直接利用視覺傳感器從客觀外界獲取物體反射的自然能量信息, 通過信息處理算法計算出目標的三維坐標信息。 由于其不需要其他能量設備的輔助, 因此其更輕巧, 成本也低很多。 當前常用被動視覺三維重建主要有單目視覺重建技術、 雙目視覺重建技術和多目視覺重建技術等三類。
2.2.1 單目視覺重建技術
單目視覺重建技術是指只使用一個視覺傳感器采集目標的圖像信息, 可以使用單張圖像進行重建, 也可以使用多張序列圖像組合進行重建, 主要是通過提取圖像中的灰度、 紋理、 輪廓及特征點等信息, 計算出圖像的深度信息, 其原理如圖12所示。 一般使用的單目視覺重建技術主要有紋理恢復形狀法、 明暗恢復形狀法和運動恢復形狀法等。
(1) 紋理恢復形狀法[31]是由于物體表面一般會具有各種各樣的紋理結構, 這些表面結構由紋理元組成, 通過紋理元的變化可以確定表面結構的方向, 從而得到三維的表面結構。 其基本原理是表面布滿紋理元的三維物體被投射到平面上時, 其表面的紋理元會發生彎曲變化, 通過觀察和分析這些因透視等變形后產生的圖像上的紋理變化, 通過逆向計算出深度數據, 從而恢復出物體的三維表面。 該方法能夠根據單張二維圖像重建出物體的三維形狀, 其重建精度高、 速度快, 并且原二維圖像的光照和噪聲對重建效果沒有影響; 但是其實用性不高, 僅能用于重建具有表面紋理特征的物體。
(2) 明暗恢復形狀法是利用單目圖像中的圖像強度信息進行重建的方法, 該方法主要是利用單目圖像中物體表面的明暗變化來恢復其表面各點的相對高度或表面法方向等參數值, 以此對目標表面三維信息進行估計, 從而得到圖像的深度信息。 該方法是1970年由Minsky提出的, 經過發展演化, 現在有最小化方法、 演化方法、 局部分析法和線性化方法等分支方法[36]。 該方法也僅需一張二維圖像即可進行, 其適用范圍比較廣泛, 且計算復雜度較低; 但是由于其主要利用圖像的亮度值進行計算, 對自然光照和噪聲干擾非常敏感, 且不適合在室外進行重建技術。
(3) 運動恢復形狀法是利用不同視角下采集的圖像, 通過提取特征點及特征點匹配, 計算出特征點間對應關系, 根據三角測量原理, 依據采集相機的姿態和特征點間的對應關系計算出各特征點的深度, 從而生成三維點云, 經過多次計算融合得到不同視角下的三維點云, 形成三維圖像[37]。 該方法使用不同視角下的多張圖像進行相互匹配融合, 重建的三維圖像比較精確, 且能夠處理動態場景; 但是經過多次計算導致計算量增大, 重建速度較慢。
2.2.2 雙目視覺重建技術
雙目視覺重建技術主要是采用兩個相機從不同的視角獲取同一目標的兩個圖像, 通過匹配兩張圖像中對應點的像素, 計算出匹配像素的位置差, 獲得視差圖像, 根據三角測量原理計算出各像素點的空間位置, 生成三維點云, 從而得到三維目標信息[38], 其原理如圖13所示。 該技術進行三維重建是通過模仿人眼視覺系統對物體進行三維感知, 基本原理是從兩個或多個視點觀察同一景物, 以獲取在不同視角下的感知圖像, 通過計算圖像像素間的位置偏差來獲取景物的三維信息[39], 其計算過程主要有圖像獲取、 相機標定、 圖像校正、 立體匹配和三維重建計算五個步驟[40], 其中圖像獲取是使用兩個相機同時從不同的方向獲取被測物體的兩幅圖像; 相機標定的目的是通過計算兩個相機的相對位置信息將二維圖像信息轉化為三維空間信息; 圖像校正的目的是在圖像匹配過程中使兩幅圖像對應的極線位于同一條線上, 只需單向進行匹配計算, 以減少匹配次數; 立體匹配的目的是在兩幅圖像中找到匹配的像素點, 通過計算匹配像素點的位置差得到像素點的深度值; 三維重建計算的目的是根據三角測量原理計算出各像素點的空間位置。 該方法具有設備簡單, 重建效率高等優勢; 但也存在人工參與監督, 經過多次計算會將誤差逐級放大, 影響重建的準確度等不足[41]。
2.2.3 多目視覺重建技術
多目視覺重建技術源于雙目視覺重建技術, 其是采用三個或者更多的相機同時從不同方向采集目標圖像, 獲取更豐富的深度信息, 實現對實際物體或場景的準確重建和建模, 其原理如圖14所示。 多視圖的三維重建技術, 類似人的雙目定位, 相對比較容易, 其方法是先對多個視角的二維圖像進行匹配, 然后通過三角測量等方法計算出每個像素點的深度信息, 最后得到目標的三維點云數據。 該方法大大地減少了測量盲區, 可以獲取更多的細節信息, 并能減小雙目視覺重建技術中誤匹配的影響; 但同時也會使計算量大大增加, 消耗更長的時間。
2.2.4 小 結
單目視覺、 雙目視覺和多目視覺都是三維重建技術的常用方法, 其在處理圖像以恢復深度信息時有各自的優勢和挑戰。 單目視覺的本質是二維的, 其主要根據相機的成像模型和物體的真實大小來獲取距離信息, 依賴于對物體的實際大小的預先知識, 可能會受到光照條件的影響; 雙目視覺通過比較兩個攝像機所拍攝的圖像來計算視差, 從而得到深度信息, 其難點在于光照敏感以及三維點云精準匹配問題; 多目視覺類似于人的雙目定位, 其通過利用多個攝像機采集到的圖像來重建出三維信息, 可以提供更豐富的視角和更精確的深度信息, 但同時也需要處理更多的數據和更復雜的計算。
2.3 基于深度學習的三維重建技術
基于深度學習的三維重建技術是將深度學習方法引入傳統的三維重建算法中進行改進, 或者將深度學習重建算法和傳統三維重建算法進行融合。 這種技術利用大量數據建立先驗知識, 將三維重建轉變為編碼與解碼問題, 從而對物體進行三維重建。 在深度學習背景下, 圖像三維重建方法能夠在無需復雜的相機校準的情況下從單張或多張二維圖像中重建物體的三維模型。 常用的深度學習算法主要有PointNet算法、 PointCNN算法、 DGCNN算法和VGAE算法等。
2.3.1 PointNet算法
PointNet算法[43]由斯坦福大學于2016年提出, 主要用于處理點云數據的分類和分割, 其能夠直接輸入三維點云數據并輸出分割結果, 開創了直接將點云作為輸入的算法模型, 結構如圖15所示。 其原理與傳統的點云處理算法相比, PointNet能夠處理點云中的無序點集, 不受點的排列順序影響, 能通過使用最大池化操作, 捕捉點云數據中的局部和全局特征信息; 能夠處理不同數量和不同分布的點云數據, 具有較強的泛化能力; 但該算法對于點云數據的局部特征提取能力不足。 后來提出的PointNet++算法是一種分層次的結構, 采用下采樣和區域劃分的方法, 在局部區域內可以進行特征提取[44], 但其仍然是獨立進行的, 忽略了點對的關聯關系。
2.3.2 PointCNN算法
PointCNN算法[45]仍是對點云數據進行處理, 并不是將點云數據轉化為其他形式的數據, 而是直接對無序點云進行一個X操作, 將其轉化為規則的數據集。 其主要包括特征提取和X矩陣訓練。 在特征提取階段, 利用空間-局部關聯的方式, 通過X-Conv操作符對輸入點和特征進行加權和置換, 將輸入點轉換為規范的順序。 然后在X矩陣訓練階段, 該網絡利用K近鄰的方法實現結構化, 并在X操作后處理整個數據集。 此外, 該算法還采用了分層卷積和X卷積算子來提高模型的性能, 可以在保留點云數據的局部信息的同時, 有效地減少了模型的參數數量, 從而可以提高模型的訓練效率和泛化能力; 但是該方法在處理數據時可能會丟失位置信息, 其排列后的點云順序存在誤差。
2.3.3 DGCNN算法
DGCNN算法, 全稱為Dynamic Graph CNN算法[46], 其主要思想是每一層圖結構均是采取距離計算來確定節點的近鄰, 從而可以動態建立點云圖結構, 以便更好地捕獲點云間的幾何關系。 其次, 該算法引入了Edge Conv模塊, 其融合了局部鄰居信息, 通過堆疊或循環使用, 來建立點與點之間的拓撲關系, 從而提取到全局的形狀信息, 可以增強表征的能力, 同時該算法可以端到端地處理點云數據, 直接對原始點云數據進行學習, 并能夠捕獲局部幾何特征, 能更深入地理解點云數據的內在特性; 但是該方法也存在計算量大、 占用內存等問題。
2.3.4 VGAE算法
VGAE算法, 即變分圖自編碼器算法[47], 其是為了解決標準自動編碼器無法直接處理低維向量圖的問題, 在變分自編碼器的基礎上改進而來, 主要思想是將圖卷積神經網絡與變分自編碼器相結合, 優勢互補, 其模型訓練的步驟主要有編碼、 變分自編碼和解碼。 其中編碼是將低維向量圖中的每個節點和邊的特征向量通過多層GCN來傳遞和聚合信息, 以學習其潛在特征; 變分自編碼是將每個節點及其鄰邊的特征向量映射到潛在空間中, 并在其中進行采樣, 以獲取節點和邊的嵌入特征; 解碼是將每個節點和邊的嵌入向量通過多層GCN進行信息傳遞和聚合, 從而生成重構的圖像。 該算法可以通過調整超參數以適應不同類型的圖像重建, 且在不完整的數據集上進行訓練仍具有較好的魯棒性; 但是該方法也存在模型相對較為復雜, 需要更多的計算資源和時間進行訓練, 同時對具有復雜拓撲結構的圖像處理能力不足。
2.4 基于多目視覺的未爆子彈藥智能三維重建技術
通過對主動視覺、 被動視覺和深度學習的三維重建技術進行梳理對比(如表2所示), 發現其在對目標進行三維重建時均存在一定的不足, 為了彌補其不足, 提高三維重建的效率, 本文采取多目視覺與深度學習算法相結合, 通過對五種視角對目標進行成像, 爾后利用深度學習算法對目標進行特征提取, 生成三維圖像點云, 最后將點云融合生成三維圖像, 其流程如圖16~17所示。
基于深度學習的三維重建技術是將深度學習算法與三維重建技術相結合, 充分利用深度學習算法分析提取圖像的深層特征, 再利用三維重建技術將圖像特征進行聚合, 從而生成完整的圖像。 雖然對圖像信息提取特征的算法有很多, 也都能直接將圖像作為輸入, 直接進行計算, 但是在進行圖像操作之前仍要根據需求及特點, 結合各種算法使用對象、 運行環境及性能合理選擇, 確保所使用的算法能夠完成特定任務。
3 結論及展望
數據集是深度學習網絡進行訓練、 驗證、 評估的基礎, 網絡模型通過對目標數據集的訓練可以有效地提取出目標的深層特征, 通過對深層特征的學習來調整模型中各變量之間的權重系數以達到最優組合, 從而實現精確檢測與定位目標的目的。 目標數據集的優劣直接關系到深度學習模型檢測識別的效率和精度, 由于沒有通用的未爆子彈藥數據集, 互聯網上的相關開源數據也比較少, 因此構建數據充足的、 精確的、 規范的未爆子彈藥專用數據集對于進行未爆子彈藥快速智能檢測與定位具有十分重要的意義。
隨著大數據時代的不斷發展演進, 數據量將會呈指數級增長, 同時數據的價值和保護也會引起越來越多的重視, 未來對于數據集的構建方法會根據數據量的增長而變得越來越復雜多樣。
一是互聯網爬蟲算法會更加智能高效。 面對互聯網上龐大的數據量, 僅靠固定的搜索策略爬蟲不但抓取的數據數量較小、 形式單一, 而且會耗費大量的時間, 并且有些爬蟲對搜索的關鍵詞比較敏感, 不能從語義的角度靈活改進關鍵詞, 這將使得其查準率和查群率都比較低, 未來將會開發出能夠根據語義靈活改進主題關鍵詞且能夠兼容抓取各種數據類型的算法, 并且能夠根據用戶需求直接生成規范化的數據集。
二是三維虛擬數據集將會更加豐富全面。 由于通過真實實物圖像采集獲得的數據量比較少, 數據及其所處環境比較單一, 且會耗費大量的人力、 物力和時間用于數據采集, 而采用真實實物圖片進行三維重建可以獲得與真實實物一樣包含大量詳細特征的數據, 能夠保證數據質量的同時不需要構建龐大的采集系統, 還可以根據自身需求進行形狀變換和更換數據背景, 數據內容會更加充足精確。
三是虛擬仿真數據集將會更加安全高效。 隨著對數據價值的重視越來越高, 數據的安全保密要求也會越來越高, 數據產權的保護也會得到重視, 通用開源數據集雖然仍然可以使用, 但是越來越多的將會是構建專用數據集, 為了能夠快速構建所需的數據集, 將會激發學者研究虛擬仿真的方法, 虛擬的數據也將會越來越逼真高效, 數據的質量也將會越來越高。
參考文獻:
[1] 胡聰, 何曉暉, 邵發明, 等. 基于Faster R-CNN的未爆彈檢測[J]. 機電產品開發與創新, 2021, 34(5): 105-107.
Hu Cong, He Xiaohui, Shao Faming, et al. Unexploded Ordnance Detection Based on Faster R-CNN[J]. Development & Innovation of Machinery & Electrical Products, 2021, 34(5): 105-107. (in Chinese)
[2] 單成之, 張健. 基于關鍵點的未爆彈圖像目標檢測算法[J]. 現代計算機, 2023, 29(1): 39-44.
Shan Chengzhi, Zhang Jian. An Algorithm for Object Detection in Unexploded Bombs Images Based on Key Points[J]. Modern Computer, 2023, 29(1): 39-44. (in Chinese)
[3] 曾俊, 盧瑞濤, 楊小岡, 等. 六旋翼無人機空基智能排爆系統設計與實現[J]. 電光與控制, 2023, 30(5): 61-65.
Zeng Jun, Lu Ruitao, Yang Xiaogang, et al. Design and Implementation of Air-Based Intelligent EOD System Based on Six-Rotor UAV[J]. Electronics Optics & Control, 2023, 30(5): 61-65. (in Chinese)
[4] 彭亞茹. 基于深度學習的零件表面缺陷檢測圖像增強技術研究[D]. 武漢: 華中科技大學, 2022: 3-6.
Peng Yaru. Research on Image Enhancement Technology of Parts Surface Defect Detection Based on Deep Learning[D]. Wuhan: Huazhong University of Science and Technology, 2022: 3-6. (in Chinese)
[5] 潘曉英, 陳柳, 余慧敏, 等. 主題爬蟲技術研究綜述[J]. 計算機應用研究, 2020, 37(4): 961-965.
Pan Xiaoying, Chen Liu, Yu Huimin, et al. Survey on Research of Topic Crawling Technique[J]. Application Research of Computers, 2020, 37(4): 961-965. (in Chinese)
[6] Wang H Z, Li M D, Bu Y Y, et al. Cleanix[J]. ACM SIGMOD Record, 2016, 44(4): 35-40.
[7] 劉峰. 智慧校園背景下的數據清洗關鍵技術研究[D]. 杭州: 杭州電子科技大學, 2022: 13-23.
Liu Feng. Research on Key Technologies of Data Cleaning in the Background of Smart Campus[D]. Hangzhou: Hangzhou Dianzi University, 2022: 13-23. (in Chinese)
[8] 沈沛, 毛海濤, 胡文林, 等. 面向時序的相似重復數據清洗算法優化[J]. 計算機時代, 2022(9): 68-72.
Shen Pei, Mao Haitao, Hu Wenlin, et al. Time-Series-Oriented Duplicate Data Cleaning Algorithm Optimization[J]. Computer Era, 2022(9): 68-72. (in Chinese)
[9] 周世杰, 婁淵勝. 基于字段過濾和伸縮窗口的SNM算法優化[J]. 計算機工程與科學, 2022, 44(4): 699-706.
Zhou Shijie, Lou Yuansheng. SNM Algorithm Optimization Based on Field Filtering and Scaling Window[J]. Computer Engineering & Science, 2022, 44(4): 699-706. (in Chinese)
[10] 羅正東. 大規模食品圖像數據集構建及識別方法研究[D]. 北京: 中國科學院大學, 2020: 18-19.
Luo Zhengdong. Research on Large-Scale Food Image Dataset Construction and Recognition[D]. Beijing: University of Chinese Academy of Sciences, 2020: 18-19. (in Chinese)
[11] Midi H, Sarkar S K, Rana S. Collinearity Diagnostics of Binary Logistic Regression Model[J]. Journal of Interdisciplinary Mathematics, 2010, 13(3): 253-267.
[12] Guo G D, Wang H, Bell D, et al. KNN Model-Based Approach in Classification[C]∥OTM Confederated International Conferences “On the Move to Meaningful Internet Systems”, 2003: 986-996.
[13] Song J Y, Yu Q, Bao R Y. The Detection Algorithms for Similar Duplicate Data[C]∥6th International Conference on Systems and Informatics (ICSAI), 2019: 1534-1542.
[14] 熊中敏, 郭懷宇, 吳月欣. 缺失數據處理方法研究綜述[J]. 計算機工程與應用, 2021, 57(14): 27-38.
Xiong Zhongmin, Guo Huaiyu, Wu Yuexin. Review of Missing Data Processing Methods[J]. Computer Engineering and Applications, 2021, 57(14): 27-38. (in Chinese)
[15] 余華擎. 基于深度學習的圖像數據清洗方法研究[D]. 北京: 北京工業大學, 2018: 8-22.
Yu Huaqing. Research on Cleaning Image Data Based on Deep Learning[D]. Beijing: Beijing University of Technology, 2018: 8-22. (in Chinese)
[16] 梁雪慧, 程云澤, 張瑞杰, 等. 基于卷積神經網絡的橋梁裂縫識別和測量方法[J]. 計算機應用, 2020, 40(4): 1056-1061.
Liang Xuehui, Cheng Yunze, Zhang Ruijie, et al. Bridge Crack Classification and Measurement Method Based on Deep Convolutional Neural Network[J]. Journal of Computer Applications, 2020, 40(4): 1056-1061. (in Chinese)
[17]湯國安, 張友順, 劉詠梅. 遙感數字圖像處理[M]. 北京: 科學出版社, 2004: 12-20.
Tong Guoan, Zhang Youshun, Liu Yongmei. Remote Sensing Digi-tal Image Processing[M]. Beijing: Science Press, 2004: 12-20. (in Chinese)
[18] 陳長吉. 適用于深度學習的數據預處理并行算法實現及性能優化[D]. 上海: 上海海洋大學, 2018: 20-21.
Chen Changji. Data Preprocessing Parallel Algorithm Implementation and Performance Optimization for Deep Learning[D]. Shanghai: Shanghai Ocean University, 2018: 20-21. (in Chinese)
[19] 郭經. 國外遙感數據格式標準及啟示[J]. 航天標準化, 2011(4): 29-31.
Guo Jing. Foreign Remote Sensing Data Format Standards and Its Enlightenment[J]. Aerospace Standardization, 2011(4): 29-31. (in Chinese)
[20] 呂念祖. 基于深度學習的醫學圖像分割算法研究[D]. 綿陽: 西南科技大學, 2021: 9.
Lü Nianzu. Research on Medical Image Segmentation Algorithm Based on Deep Learning[D]. Mianyang: Southwest University of Science and Technology, 2021: 9. (in Chinese)
[21] 張玉蓮. 光學圖像海面艦船目標智能檢測與識別方法研究[D]. 長春: 中國科學院大學(中國科學院長春光學精密機械與物理研究所), 2021: 44-47.
Zhang Yulian. Research on Intelligent Detection and Recognition Methods of Ship Targets on the Sea Surface in Optical Images[D]. Changchun: Changchun Institute of Optics, Fine Mechanics and Physics, Chinese Academy of Sciences, 2021: 44-47. (in Chinese)
[22] 黃成, 王紅梅. 干擾條件下的紅外目標檢測方法研究[J]. 航空兵器, 2017(5): 31-36.
Huang Cheng, Wang Hongmei. Research on Infrared Target Detection Method under Jamming Condition[J]. Aero Weaponry, 2017(5): 31-36. (in Chinese)
[23] 胡學龍. 數字圖像處理[M]. 4版. 北京: 電子工業出版社, 2020: 5, 23-33.
Hu Xuelong. Digital Image Processing[M]. 4th ed. Beijing: Publishing House of Electronics Industry, 2020: 5, 23-33. (in Chinese)
[24] 盧建宏, 劉海鵬, 王蒙. 改進海鷗算法的多閾值圖像分割算法[J]. 光電子·激光, 2022, 33(9): 932-939.
Lu Jianhong, Liu Haipeng, Wang Meng. Multi-Threshold Image Segmentation Based on Improved Seagull Optimization Algorithm[J]. Journal of Optoelectronics·Laser, 2022, 33(9): 932-939. (in Chinese)
[25] 張婷, 秦涵書, 趙若璇. 基于多尺度注意力融合網絡的胃癌病理圖像分割方法[J]. 電子技術應用, 2023, 46(9): 46-52.
Zhang Ting, Qin Hanshu, Zhao Ruoxuan. Gastric Cancer Pathological Image Segmentation Method Based on Multi-Scale Attention Fusion Network[J]. Application of Electronic Technique, 2023, 46(9): 46-52. (in Chinese)
[26] 汪凌艷, 徐貴力, 王彪, 等. 基于機器視覺的無人機紅外合作目標分割方法研究[J]. 航空兵器, 2011(5): 32-35.
Wang Lingyan, Xu Guili, Wang Biao, et al. Research on Segmentation of UAV’s IR Cooperative Target Based on Machine Vision[J]. Aero Weaponry, 2011(5): 32-35. (in Chinese)
[27] 盧榮勝, 史艷瓊, 胡海兵. 機器人視覺三維成像技術綜述[J]. 激光與光電子學進展, 2020, 57(4): 040001.
Lu Rongsheng, Shi Yanqiong, Hu Haibing. Review of Three-Dimensional Imaging Techniques for Robotic Vision[J]. Laser & Optoelectronics Progress, 2020, 57(4): 040001. (in Chinese)
[28] Zhong K, Li Z W, Zhou X H, et al. Enhanced Phase Measurement Profilometry for Industrial 3D Inspection Automation[J]. The International Journal of Advanced Manufacturing Technology, 2015, 76(9): 1563-1574.
[29] Servin M, Padilla M, Garnica G, et al. Profilometry of Three-Dimensional Discontinuous Solids by Combining Two-Steps Temporal Phase Unwrapping, Co-Phased Profilometry and Phase-Shifting Interferometry[J]. Optics and Lasers in Engineering, 2016, 87: 75-82.
[30] Servin M, Garnica G, Estrada J C, et al. Coherent Digital Demodulation of Single-Camera N-Projections for 3D-Object Shape Measurement: Co-Phased Profilometry[J]. Optics Express, 2013, 21(21): 24873-24878.
[31] 鄭太雄, 黃帥, 李永福, 等. 基于視覺的三維重建關鍵技術研究綜述[J]. 自動化學報, 2020, 46(4): 631-652.
Zheng Taixiong, Huang Shuai, Li Yongfu, et al. Key Techniques for Vision Based 3D Reconstruction: A Review[J]. Acta Automatica Sinica, 2020, 46(4): 631-652. (in Chinese)
[32] 段志堅. 基于3D-TOF圖像傳感器采集系統的設計與實現[D]. 湘潭: 湘潭大學, 2015: 7-10.
Duan Zhijian. The Implementation and Design of Acquisition System Based on 3D-TOF Image Sensor[D]. Xiangtan: Xiangtan University, 2015: 7-10. (in Chinese)
[33] 劉志海, 代振銳, 田紹魯, 等. 非接觸式三維重建技術綜述[J]. 科學技術與工程, 2022, 22(23): 9897-9908.
Liu Zhihai, Dai Zhenrui, Tian Shaolu, et al. Review of Non-Contact Three-Dimensional Reconstruction Techniques[J]. Science Technology and Engineering, 2022, 22(23): 9897-9908. (in Chinese)
[34] 沈劉晶, 梅海平, 任益充, 等. 激光陰影法探測大氣湍流中二維風矢量的可行性[J]. 中國激光, 2021, 48(13): 1304004.
Shen Liujing, Mei Haiping, Ren Yichong, et al. Feasibility of Laser Shadow Method to Detect Two-Dimensional Wind Vector in Atmospheric Turbulence[J]. Chinese Journal of Lasers, 2021, 48(13): 1304004. (in Chinese)
[35] 徐麗學. 基于機器學習的水下單目視覺感知技術研究[D]. 哈爾濱: 哈爾濱工程大學, 2019: 11-12.
Xu Lixue. Research on Perception of Underwater Monocular Vision Based on Machine Learning[D]. Harbin: Harbin Engineering University, 2019: 11-12. (in Chinese)
[36] Zhang R, Tsai P S, Cryer J E, et al. Shape-from-Shading: A Survey[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1999, 21(8): 690-706.
[37] 陳輝, 王婷婷, 代作曉, 等. 基于運動恢復結構的無規則植物葉片面積三維測量方法[J]. 農業機械學報, 2021, 52(4): 230-238.
Chen Hui, Wang Tingting, Dai Zuoxiao, et al. 3D Measurement Method for Area of Irregular Plant Leaf Based on Structure from Motion[J]. Transactions of the Chinese Society for Agricultural Machinery, 2021, 52(4): 230-238. (in Chinese)
[38] 劉歡. 基于雙目視覺立體匹配算法的研究與應用[D]. 哈爾濱: 哈爾濱工業大學, 2018: 8-10.
Liu Huan. The Research and Application of Stereo-Matching Algorithm Based on Binocular Vision[D]. Harbin: Harbin Institute of Technology, 2018: 8-10. (in Chinese)
[39] 張文明, 劉彬, 李海濱. 基于雙目視覺的三維重建中特征點提取及匹配算法的研究[J]. 光學技術, 2008, 34(2): 181-185.
Zhang Wenming, Liu Bin, Li Haibin. Characteristic Point Extracts and the Match Algorithm Based on the Binocular Vision in Three Dimensional Reconstruction[J]. Optical Technique, 2008, 34(2): 181-185. (in Chinese)
[40] 丁蘇楠. 基于雙目視覺的散亂工件識別與定位技術研究[D]. 無錫: 江南大學, 2020: 26-28.
Ding Sunan. Research on Recognition and Orientation Technology of Scattered Workpieces Based on Binocular Vision[D]. Wuxi: Jiangnan University, 2020: 26-28. (in Chinese)
[41] 李明陽, 陳偉, 王珊珊, 等. 視覺深度學習的三維重建方法綜述[J]. 計算機科學與探索, 2023, 17(2): 279-302.
Li Mingyang, Chen Wei, Wang Shanshan, et al. Survey on 3D Reconstruction Methods Based on Visual Deep Learning[J]. Journal of Frontiers of Computer Science and Technology, 2023, 17(2): 279-302. (in Chinese)
[42] 沙歐. 基于雙目線結構光的三維重建及其關鍵技術研究[D]. 長春: 中國科學院大學(中國科學院長春光學精密機械與物理研究所), 2022: 24.
Sha Ou. Research of 3D Reconstruction and Its Key Technologies Based on Binocular and Linear Structured Light[D]. Changchun: Changchun Institute of Optics, Fine Mechanics and Physics, Chinese Academy of Sciences, 2022: 24. (in Chinese)
[43] 王紅霄. 基于深度學習的點云場景分割方法研究[D]. 西安: 西安理工大學, 2022: 2-3.
Wang Hongxiao. Research on Point Cloud Scene Segmentation Method Based on Deep Learning[D]. Xi’an: Xi’an University of Technology, 2022: 2-3. (in Chinese)
[44] 楊璽, 雷航, 錢偉中, 等. 基于深度霍夫優化投票的三維時敏單目標跟蹤[J]. 航空兵器, 2022, 29(2): 45-51.
Yang Xi, Lei Hang, Qian Weizhong, et al. Time-Sensitive 3D Single Target Tracking Based on Deep Hough Optimized Voting[J]. Aero Weaponry, 2022, 29(2): 45-51. (in Chinese)
[45] 白靜, 邵會會, 姬卉, 等. 面向三維點云的端到端細粒度分類網絡[J]. 計算機輔助設計與圖形學學報, 2023, 35(1): 128-134.
Bai Jing, Shao Huihui, Ji Hui, et al. An End-to-End Fine-Grained Classification Network for 3D Point Clouds[J]. Journal of Computer-Aided Design & Computer Graphics, 2023, 35(1): 128-134. (in Chinese)
[46] Wang Y, Sun Y B, Liu Z W, et al. Dynamic Graph CNN for Learning on Point Clouds[J]. ACM Transactions on Graphics, 2019, 38(5): 146.
[47] 胡堅. 基于圖神經網絡的虛擬網絡嵌入模型與算法研究[D]. 昆明: 云南財經大學, 2023: 20-22.
Hu Jian. Research on Virtual Network Embedding Model and Algorithm Based on Graph Neural Network[D]. Kunming: Yunnan University of Finance and Economics, 2023: 20-22. (in Chinese)
Research on the Construction Method and Key Technologies of
Unexploded Submunition Image Dataset
Yan Xiaowei, Chen Dong*
(Laboratory of Guidance Control and Information Perception Technology of High Overload Projectiles,
PLA Army Academy of Artillery and Air Defense, Hefei 230031, China)
Abstract:
With the rapid development and application of computer technology and machine vision technology, the exploration of unexploded submunition search technology based on “artificial intelligence +” model has received extensive attention. However, due to the danger of unexploded submunitions and the particularity of military applications, data set construction is a bottleneck problem that needs to be solved urgently. Based on this, the paper discusses the construction methods and processes of real physical image data sets and three-dimensional reconstruction data sets using physical images. It focuses on the analysis of the key technologies and their advantages and disadvantages in the construction process of the two data sets. A multi-camera is used to collect the target image and geographic coordinate information, and then the deep learning algorithm is used to extract the target feature, generate the three-dimensional point cloud and fuse the three-dimensional image. The experimental results show that the three-dimensional data set constructed by this method can effectively solve the problem of insufficient data volume of the existing data set of unexploded submunitions. Finally, the future development direction of the data set construction method is prospected.
Key words: unexploded submunitions; image dataset; deep learning; three-dimensional reconstruction; image processing