999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于壓縮表示的實例分割方法

2023-04-29 00:00:00李文舉李文輝
吉林大學學報(理學版) 2023年4期

摘要: 針對目前實例分割領域掩膜表示高復雜度的問題, 提出一種新的圖像實例掩膜表征方法, 使用3個不依賴于任何先驗信息的表征單元表示并預測掩膜, 且以非線性解碼的形式復原掩膜," 該方法可顯著降低圖像實例掩膜的表示復雜度和推理運算量. 基于這種表示方法, 構建一個高效的單階段實例分割模型, 實驗結果表明, 相對于其他單階段實例分割模型, 該模型在保證時間開銷基本相同的情況下能獲得更好的性能. 此外, 將該表征方法以最小改動嵌入經典模型BlendMask以重建注意力圖, 改進的模型相對于原模型的推理速度更快, 掩膜平均精度提升1.5%, 表明該表征方法通用性較好.

關鍵詞: 深度學習; 實例分割; 壓縮表示; 表征單元

中圖分類號: TP391.4文獻標志碼: A文章編號: 1671-5489(2023)04-0883-07

Instance Segmentation Method Based on" Compressed Representation

LI Wenju, LI Wenhui

(College of Computer Science and Technology, Jilin University, Changchun 130012, China)

Abstract: Aiming at the problem of high complexity in mask representation in the field of instance segmentation, we proposed a new mask representation method for instance segmentation, which used three repsesentation units that did not rely on any prior information" to represent and predict mask, and restored the mask in the form of nonlinear decoding. This method could significantly reduce the representation complexity and inference computation of image instance masks."" Based on the representation method, we constructed an efficient single-shot instance segmentation model. The experimental results show that compared to other single-shot instance segmentation models, the model can achieve better performance while ensuring that the" time cost is basically the same. Additionally, we embed the representation method with minimal modifications into the classic model BlendMask to reconstruct attention maps. The improved model has a" faster inference speed compared" to the original model, and the average accuracy of the mask is improved by 1.5%, indicating that the" representation method has good universality.

Keywords: deep learning; instance segmentation; compressed representation; representation unit

實例分割是計算機視覺領域最重要、 最復雜和最具挑戰性的任務之一, 其對圖像中的每個實例做像素級分割, 難度遠高于目標檢測. 近年來, 實例分割技術獲得了快速發展[1-3]. 隨著一階段目標檢測模型的日漸完善, 實例分割模型大多數基于一階段目標檢測器[4-6]構建, 并取得了較好的效果. 同時, 一階段目標檢測也推動了另一類實例分割架構的發展, 這類架構僅憑對目標檢測模型的最小化改動即可實現實例分割, 通常被稱為單階段(single-shot)實例分割[7-8].

對于單階段實例分割架構, 實例掩膜的表示信息直接從頂層分支輸出, 如果沒有合適的掩膜信息表示方法, 該架構將會產生巨大的計算開銷且無法獲得好的性能. 文獻[9-11]將二維掩膜預測任務轉換為實例輪廓預測任務, 從而用實例輪廓上的點集表示實例信息, 這種轉換極大減少了掩膜表示的復雜度, 但由于這種方法為每個實例只預測一個輪廓點集, 其無法處理掩膜被截斷或實例存在空洞部分的情況. 為解決上述問題, MEInst[8]采用壓縮表示方案, 頂層分支預測二維實例掩膜的低維表征信息. MEInst為每個實例預測一個緊湊的向量, 然后通過一個輔助變換矩陣將向量重建為二維掩膜. 這種方法效率很高但嚴重依賴于變換矩陣, 而變換矩陣是來自于數據集的先驗信息. 先驗信息使得這種表示方法不具備通用性, 無法遷移應用到其他實例分割架構中.

針對上述問題, 本文提出一種簡單通用的壓縮表示方案, 其能使表征過程準確、 高效而不依賴于任何先驗信息. 在本文方法中, 每個掩膜用3個緊湊的表征單元表示, 這些表征單元可通過一個無參解碼器組裝為掩膜. 這種方法在重建過程中不依賴于任何先驗信息, 也不引入任何需要學習的參數, 可直接嵌入到一些實例分割架構中獲得更好的性能.

基于這種表示方法, 本文構建一個單階段實例分割模型CRMask. CRMask在FCOS[5]的基礎上添加了一個負責預測表征單元的掩膜分支, 實例掩膜由解碼器對表征單元解碼得到. 通過實驗考察CRMask的性能, 在數據集COCO(common objects in context)上的實驗結果表明, CRMask與具有相似架構的實例分割模型相比性能提升明顯. 在不做任何特殊處理的情況下, 使用ResNet101-FPN作為骨干網絡的CRMask掩膜的AP(average precision)能達到35.4%, 在相同條件下比MEInst提高1.5%. 由于本文表示方法的特性, 其可以靈活嵌入到一些實例分割架構[12-13]中, 為考察其通用性, 本文嘗試將其嵌入到BlendMask[13]中, 只對BlendMask做最小改動, 用表征單元替換模型中的注意力圖. 實驗結果表明, 相對于原始模型, 嵌入后的模型具有更快的推理速度和更好的性能.

1 本文方法設計

1.1 總體架構

考慮到FCOS簡潔、 高效和便于拓展的特點, 本文模型以FCOS為基礎構建. 先在FCOS已有的分類和邊界框回歸分支的基礎上, 并行添加一個掩膜分支以預測表征單元, 然后應用解碼器用于組裝表征單元以得到最終的掩膜. 模型的總體架構如圖1所示, 其中左側表示骨干網絡和FPN(feature pyramid network)結構, 中間上部是FCOS中的預測頭結構, 下部是本文的掩膜預測部分, 右側是可視化結果.

1.2 壓縮表示

注意到矩陣運算形式簡潔、 運算高效且能在一定程度上重建高維信息, 如在維度衰減中矩陣運算被廣泛用于特征分解和重建. 同時, 注意到一個矩陣可通過奇異值分解(SVD)分解為3個組件矩陣, 即奇異值矩陣、 左奇異矩陣和右奇異矩陣, 而僅使用組件的部分結構即可基本重建原始矩陣. 基于此, 本文設計一個具有類似結構的表示方法.

1.5 BlendMask++

本文表示方法不依賴于任何先驗信息, 基于該方法的模型直接從預測頭輸出緊湊的表征單元, 并由解碼器將其組裝成為預測結果, 使得其可被即插即用地應用于其他需要生成密集二維信息的實例分割模型. 考慮到BlendMask[13]融合了自底向上和自頂向下方法, 其頂層分支為每個樣本點預測多個注意力圖, 本文將壓縮表示方法嵌入到BlendMask的頂層分支以探究其通用性能, 被嵌入改進的模型稱為BlendMask++.

為獲得可信的結果, 嵌入過程中遵循最小改動原則. 為與BlendMask一致本文取消了掩膜分支, 表征單元和原模型中的邊界框回歸、 中心度預測等子分支一同直接從回歸分支獲得, 然后用解碼器組裝表征單元獲得注意力圖取代原注意力圖. 嵌入結構如圖3所示, 底層特征來自于底層分支的預測結果.

在默認情況下, BlendMask++所有超參數及設置與原始的BlendMask保持一致, 即特征圖的分辨率設置為56, 注意力圖的分辨率設置為14, 特征數量設置為4, 在特征數量不為1時取消Sigmoid非線性. 為適應更小的注意力圖, 設置K=3. 在訓練時除本文設備使用兩塊顯卡外, 其他所有訓練細節均與BlendMask完全一致, 實驗結果列于表1, 其中AP表示平均準確度, AP50和AP75分別表示IoU閾值為05和075時的AP, APS,APM和APL分別表示像素面積小、 中、 大時的AP. 由表1可見, 相對于BlendMask, BlendMask++不僅有更好的性能, 而且推理速度也比BlendMask更快, 表明壓縮表示方法的通用性能更好.

2 實 驗

本文在數據集MS-COCO[14]上評估模型的性能, 數據集COCO是由微軟出資標注的大型數據集, 其中train2017中包含約11.5萬張圖像, val2017中包含5 000張圖像. 本文實驗中的全部模型均在train2017上訓練, 在val2017上做評估, 最終結果在test-dev上測試獲得.

2.1 訓練設置

本文使用ResNet50-FPN[15]作為骨干網絡并使用其在ImageNet[16]上的預訓練權重, 模型使用隨機梯度下降(SGD)優化器, 設置Momentum超參數為0.9, 權重衰減超參數為0.000 1[17-18]. 訓練在2塊2080Ti顯卡上進行, 設置批處理數量為8, 對模型進行5.4×105次迭代, 即約36個epoch. 初始學習率為0.005, 在到達3.6×105次迭代和4.8×105次迭代時分別將其衰減10倍, 其他所有參數都與FCOS保持一致. 此外, 設式(5)中的λ1=1, λ2=2.

2.2 消融實驗

2.2.1 表征單元的維度

單元維度K表示表征單元的信息容量. 更大的K能確保表征單元學到更多的信息, 從而表示更復雜的掩膜, 但也會導致擬合更困難. 通常情況下, 標簽掩膜都接近于滿秩, 但表征單元的重建掩膜秩為K. 更低的秩阻礙了模型的表示能力, 從而導致不準確的重建掩膜.

本文在模型中嘗試了一系列K值, 實驗結果表明CRMask具有很好的健壯性, K并未顯著影響模型的性能. 實驗結果列于表2. 由表2可見, 當K=5時模型取得最佳性能, 表明本文的架構能學習到如何以有限的信息容量最大化地利用表征單元以表示掩膜的主要信息. 在本文模型默認情況下設K=5.

2.2.2 非線性解碼

解碼器中在矩陣相乘之后應用了Sigmoid函數以引入非線性. 為分析非線性的作用, 本文在模型中部署了一個線性解碼器用于對比. 首先, 去掉解碼器中的Sigmoid函數, 然后使用均方誤差(MSE)損失函數代替交叉熵(BCE)損失函數, 優化目標是用線性解碼后的掩膜在數值上逼近M, 實驗結果列于表3. 由表3可見, 引入非線性解碼器相對于線性解碼器能實現0.8%的AP提升, 顯然非線性具有更大的優勢. 因此, 實例分割本質上是像素級別的類別預測問題, 更適合作為分類任務, 而編碼器-解碼器架構能很好地適應這種需求.

2.2.3 更大的感受野

通過在預測頭部分引入可變性卷積(DCN)[19]考察增大感受野對CRMask的影響. 與MEInst一致, 將預測頭的最后一層卷積層替換為可變性卷積層, 實驗結果列于表4. 由表4可見, 相對于原始模型, 使用DCN的模型AP提升了0.6%, 并在除APS外的指標上均實現了更高的性能. 與MEInst應用DCN實現了1.5%的AP提升相比, 本文模型中應用DCN只實現了有限的性能提升. 表明CRMask能高效地保留和融合特征信息, 從而不依賴于顯式的大感受野.

2.2.4 精度和速度平衡

對模型輸入更大的圖像尺寸能得到更準確的結果, 同時計算速度也更慢. 在測試時通過限制圖像短邊的尺寸獲取不同的圖像輸入尺寸, 每個輸入尺寸都用相同的模型運行, 運行的FPS(frame per second)在單塊TITAN Xp上測量, 運行結果列于表5. 由表5可見, 在輸入尺寸為400時本文模型能實現26.9%的AP同時達到實時的速度. 隨著輸入尺寸的減小, APS迅速減小而APL基本不變, 這也證明了小物體的分割效果對圖像輸入尺寸更敏感.

2.3 性能對比

本文在數據集COCO test-dev上評估CRMask和BlendMask++的性能, 并分別與其他采用相似方法的模型進行對比. 考慮到MEInst在預測頭的最后一層應用了DCN, 為方便比較, 本文在CRMask的基礎上用相同方法部署了CRMask-dcn, 實驗結果列于表6, 其中R101-FPN表示使用特征金字塔的ResNet-101架構, RX101-FPN表示使用FPN的ResNeXt-101架構, R101-FPN-DCN表示使用FPN并嵌入可變性卷積結構的ResNet-101架構, R50-FPN表示使用特征金字塔的ResNet-50架構.

未經過任何特殊處理, CRMask相對于其他框架具有較好的性能結果. 在骨干網絡為ResNet-101-FPN時, CRMask-dcn的AP達到362%, 遠超出同類方法的結果. 相對于BlendMask, BlendMask++實現了顯著的性能提升, 總體性能基本與SOLOv2一致. 此外, 本文方法對小物體的分割效果較好, BlendMask++在小物體上的掩膜AP可達22.4%, 但對于大物體的分割效果相對較差.

綜上所述, 針對目前實例分割領域掩膜表示高復雜度的問題, 本文提出了一種新的掩膜壓縮表示方法. 該方法使用3個緊湊的表征單元表示掩膜, 并使用一個無參解碼器重建掩膜. 基于這種方法, 本文構建了一個實例分割架構CRMask, 盡管架構簡單, 但CRMask達到了較好的性能, 在單塊TITAN Xp顯卡上, CRMask可以在推理速度達到16.4幀/s的情況下實現33.0%掩膜AP. 此外, 本文將表示方法嵌入到BlendMask中重建注意力圖, 改進的模型相對原始模型獲得了更快的推理速度和更高的性能. 在使用ResNet101-FPN的情況下, BlendMask++掩膜AP達到了39.7%, 性能和SOLOv2一致, 是在同等條件下實例分割模型的最高性能.

參考文獻

[1]HE K M," GKIOXARI G," DOLLAR P, et al. Mask R-CNN [C]//2017 IEEE International Conference on Computer Vision (ICCV). Washington D.C.: IEEE Computer Society, 2017: 2961-2969.

[2]LIU S, QI L, QIN H F, et al. Path Aggregation Network for Instance Segmentation [C]//2018 IEEE International Conference on Computer Vision (ICCV). Washington D.C.: IEEE Computer Society, 2018: 8759-8768.

[3]HUANG Z J, HUANG L C, GONG Y C, et al. Mask Scoring R-CNN [C]//2019 IEEE International Conference on Computer Vision (ICCV). Washington D.C.: IEEE Computer Society, 2019: 6409-6418.

[4]LIN T Y, GOYAL P, GIRSHICK R B, et al. Focal Loss for Dense Object Detection [C]//2017 IEEE International Conference on Computer Vision (ICCV). Washington D.C.: IEEE Computer Society, 2017: 2980-2988.

[5]TIAN Z, SHEN C H, CHEN H, et al. FCOS: Fully Convolutional One-Stage Object Detection [C]//2019 IEEE International Conference on Computer Vision (ICCV). Washington D.C.: IEEE Computer Society, 2019: 9627-9636.

[6]REDMON J, DIVVALA S K, GIRSHICK R B, et al. You Only Look Once: Unifed, Real-Time Object Detection [C]//2016 IEEE International Conference on Computer Vision (ICCV). Washington D.C.: IEEE Computer Society, 2016: 779-788.

[7]LONG J, SHELHAMER E, DARRELL T. Fully Convolutional Networks for Semantic Segmentation [C]//2015 IEEE International Conference on Computer Vision (ICCV). Washington D.C.: IEEE Computer Society, 2015: 3431-3440.

[8]ZHANG R F, TIAN Z, SHEN C H, et al. Mask Encoding for Single Shot Instance Segmentation [C]//2020 IEEE International Conference on Computer Vision (ICCV). Piscataway, NJ: IEEE, 2020: 10223-10232.

[9]XU W Q, WANG H Y, QI F B, et al. Explicit Shape Encoding for Real-Time Instance Segmentation [C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV). Piscataway, NJ: IEEE, 2019: 5167-5176.

[10]XIE E Z, SUN P Z, SONG X G, et al. PolarMask: Single Shot Instance Segmentation with Polar Representation [C]//2020 IEEE/CVF International Conference on Computer Vision (ICCV). Piscataway, NJ: IEEE, 2020: 12193-12202.

[11]PENG S D, JIANG W, PI H J, et al. Deep Snake for Real-Time Instance Segmentation [C]//2020 IEEE/CVF International Conference on Computer Vision (ICCV). Piscataway, NJ: IEEE, 2020: 8530-8539.

[12]WANG Y Q, XU Z L, SHEN H, et al. CenterMask: Single Shot Instance Segmentation with Point Representation [C]//2020 IEEE/CVF International Conference on Computer Vision (ICCV). Piscataway, NJ: IEEE, 2020: 9313-9321.

[13]CHEN H, SUN K Y, TIAN Z, et al. Blendmask: Top-Down Meets Bottom-Up for Instance Segmentation [C]//2020 IEEE/CVF International Conference on Computer Vision (ICCV). Piscataway, NJ: IEEE, 2020: 8570-8578.

[14]LIN T Y, MAIRE M, BELONGIE S J, et al. Microsoft Coco: Common Objects in Context [C]//European Conference on Computer Vision. Berlin: Springer, 2014: 740-755.

[15]HE K M, ZHANG X Y, REN S Q, et al. Deep Residual Learning for Image Recognition [C]//2016 IEEE International Conference on Computer Vision (ICCV). Washington D.C.: IEEE Computer Society, 2016: 770-778.

[16]DENG J, DONG W, SOCHER R, et al. Imagenet: A Large-Scale Hierarchical Image Database [C]//2009 IEEE International Conference on Computer Vision (ICCV). Washington D.C.: IEEE Computer Society, 2009: 248-255.

[17]WU Y X, KIRILLOV A, MASSA F, et al. Detectron2 [CP/OL]. (2019-09-05)[2022-02-12]. https://github.com/facebookresearch/detectron2.

[18]TIAN Z, CHEN H, WANG X L, et al. AdelaiDet: A Toolbox for Instancelevel Recognition Tasks [CP/OL]. (2020-01-23)[2022-02-12]. https://github.com/aim-uofa/AdelaiDet.

[19]DAI J F, QI H Z, XIONG Y W, et al. Deformable Convolutional Networks[C]//2017 IEEE International Conference on Computer Vision (ICCV). Washington D.C.: IEEE Computer Society, 2017: 764-773.

[20]BOLYA D, ZHOU C, XIAO F Y, et al. Yolact: Real-Time Instance Segmentation [C]//2020 IEEE/CVF International Conference on Computer Vision (ICCV). Piscataway, NJ: IEEE, 2019: 9157-9166.

[21]WANG X L, KONG T, SHEN C H, et al. SOLO: Segmenting Objects by Locations [C]//European Conference on Computer Vision. Berlin: Springer, 2020: 649-665.

[22]WANG X L, ZHANG R F, KONG T, et al. SOLOv2: Dynamic and Fast Instance Segmentation [C]//Advances in" Neural Information Processing Systems. [S.l.]: Curran Associates, 2020: 17721-17732.

(責任編輯: 韓 嘯)

收稿日期: 2022-03-07.

第一作者簡介: 李文舉(1997—), 男, 漢族, 碩士研究生, 從事計算機視覺的研究, E-mail: liwj237@163.com. 通信作者簡介: 李文輝(1961—), 男, 漢族, 博士, 教授, 博士生導師, 從事計算機圖形學、 圖像處理和多媒體技術的研究, E-mail: liwh@jlu.edu.cn.

基金項目: 吉林省科技發展計劃項目(批準號: 20230201082GX).

主站蜘蛛池模板: 免费不卡在线观看av| 国产福利在线观看精品| 国产91精选在线观看| 乱人伦视频中文字幕在线| 风韵丰满熟妇啪啪区老熟熟女| 国产凹凸视频在线观看| 亚洲国产成人综合精品2020| 日韩国产精品无码一区二区三区| 亚洲三级片在线看| 99在线观看精品视频| 国产精品区视频中文字幕| 国产精品网拍在线| 欧美一级大片在线观看| 国产夜色视频| 亚洲美女一级毛片| 亚洲aaa视频| 一本大道在线一本久道| 91精品国产一区自在线拍| 人妻中文字幕无码久久一区| 亚洲精品日产AⅤ| 国产在线观看成人91| 免费又黄又爽又猛大片午夜| 成人自拍视频在线观看| 亚洲小视频网站| 亚洲精品无码日韩国产不卡| 成人韩免费网站| 黄色片中文字幕| 亚洲日韩第九十九页| 久草热视频在线| 亚洲天堂久久久| 国产欧美日韩在线一区| 欧美福利在线| 午夜日本永久乱码免费播放片| 亚洲欧美不卡视频| 91美女视频在线| 国产在线精品美女观看| 亚洲精品成人片在线观看 | 99国产在线视频| 午夜综合网| 久久亚洲AⅤ无码精品午夜麻豆| 国产成人8x视频一区二区| 亚洲精品国产乱码不卡| 全部免费毛片免费播放| 亚洲人成网址| 国产99视频免费精品是看6| 欧美成人午夜影院| 亚洲无码视频一区二区三区| 亚洲人成网站在线观看播放不卡| 好吊色妇女免费视频免费| 国产va在线观看| 免费一极毛片| 日本免费a视频| 国产av色站网站| 欧美激情综合一区二区| 内射人妻无码色AV天堂| 日本成人一区| 色有码无码视频| 久久久黄色片| 欧洲精品视频在线观看| 亚亚洲乱码一二三四区| 91无码国产视频| 国产99久久亚洲综合精品西瓜tv| 白浆免费视频国产精品视频| 亚洲精品成人片在线播放| 日韩精品专区免费无码aⅴ| 3D动漫精品啪啪一区二区下载| 成人精品在线观看| 午夜一区二区三区| 精品久久久久久成人AV| 超碰91免费人妻| 亚洲精品动漫在线观看| 欧美国产综合色视频| 亚洲国产在一区二区三区| 国产在线观看高清不卡| 亚洲av无码牛牛影视在线二区| 91成人在线观看| 亚洲国产成熟视频在线多多 | 国产午夜精品鲁丝片| 国产九九精品视频| 在线亚洲精品自拍| 婷婷伊人久久| 婷婷色婷婷|