陳錦 等
蔣錦華? 莊麗萍? 姚洪澤? 蔡志明
摘? 要:輕量級人體姿態估計網絡使得網絡的參數量和計算量大大減少,使其能夠在計算資源有限的設備上進行快速推理。如何在保持模型輕量化的同時提高人體姿態識別網絡的性能是當前重要的研究課題。文章基于Dite-HRNet,提出融入部分卷積和解耦全連接注意力機制的LPFANet網絡,將部分卷積與動態分離卷積相結合,構建了一個強化特征提取結構,同時使用了全局特征建模和密集特征建模進行特征再提取。在MPII數據集上測試,實驗表明,與Dite-HRNet相比,LPFANet在少量增加參數量和計算量的情況下,平均準確率提升了1.2%。文章網絡在輕量化的同時有效提升了識別精確度。
關鍵詞:輕量級;部分卷積;解耦;注意力機制
中圖分類號:TP391.4;TP18? 文獻標識碼:A? 文章編號:2096-4706(2023)23-0093-07
Lightweight Human Pose Estimation of Incorporating Partial Convolution and Decoupled Fully Connected Attention
CHEN Jin, JIANG Jinhua, ZHUANG Liping, YAO Hongze, CAI Zhiming
(Fujian University of Technology, Fuzhou? 350118, China)
Abstract: Lightweight human pose estimation networks greatly reduce the number of parameters and computational resources, enabling fast inference on devices with limited computing resources. How to improving the performance of human pose recognition networks while keeping the model lightweight is currently an important research topic. Based on Dite-HRNet, this paper proposes LPFANet network which incorporates partial convolution and decoupled fully connected attention mechanism. It constructs a strong feature extraction structure by combining partial convolution with dynamic separable convolution, and uses both global feature modeling and dense feature modeling for feature re-extraction. It tests on the MPII dataset, and the experiments show that LPFANet improves the average accuracy by 1.2% compared to Dite-HRNet, with a small increase in the number of parameters and computational resources. The proposed network effectively improves the recognition accuracy while maintaining lightweightness.
Keywords: lightweight; partial convolution; decoupled; attention mechanism
0? 引? 言
人體姿態估計是計算機視覺中的一項重要任務,它的目標是從圖像或視頻中自動檢測出人體的姿態,即人體的關節位置和相對角度。這個任務對于許多應用非常關鍵,如人機交互、人體動作分析、游戲、體育運動等領域。
在深度學習中,2D人體姿態估計的兩類主要方法是自頂向下和自底向上方法。自頂向下方法將人體姿態估計分為兩個步驟。首先,檢測出所有人的位置,然后為每個檢測到的人獨立地估計他們的姿態信息。自底向上方法首先使用CNN或其變體從輸入圖像中提取特征,然后使用密集的關鍵點檢測器來檢測出所有的關鍵點。最后,根據關鍵點之間的關系,利用圖像中所有關鍵點的組合來估計人體的姿態信息。
隨著深度學習的發展,人體姿態估計網絡也出現了很多優秀的研究成果[1],Papandreo等[2]提出了一種高效的自頂向下的多人姿態估計方法,首先使用Faster R-CNN預測可能包含人體目標的邊界框的位置和大小,并對其進行裁剪。然后采用全卷積ResNet網絡預測每個關鍵點的密度熱圖和偏移量,最后通過融合關鍵點和偏移量以確定人體關鍵點的準確位置。Chen等[3]提出了一種級聯金字塔網絡(Cascaded Pyramid Network, CPN),由GlobalNet和RefineNet兩個子網絡組成。GlobalNet利用特征金字塔網絡提取不同尺度的特征,以獲得包含簡單關鍵點的特征表示。但是,該子網絡無法準確地識別被遮擋或不可見的關鍵點。而RefineNet則將GlobalNet不同分辨率下的特征表示融合在一起,利用融合后的上下文信息,以使被遮擋的關鍵點能夠被準確定位。Sun等[4]提出了一種名為HRNet(High-Resolution Network)的新型網絡結構,該方法始終保持主干網絡為高分辨率進行特征提取,以提高預測關鍵點的準確性。Wang等[5]提出了一種用于增強多尺度特征融合的注意力改進網絡HR-ARNet,其中采用了通道和空間注意機制,以增強重要特征并抑制不必要的特征,并解決了關鍵點之間不一致的問題。
Tang等人[6]通過提出類似于沙漏網絡的密集連接U-Nets網絡,實現了高精度的關鍵點定位。Debnath等人[7]受沙漏網絡啟發,通過在MobileNets的最后兩層引入了一種新穎的分流體系結構,減少了模型的參數和緩解了過擬合,從而提高了精度。Zhang等人[8]引入全局注意力機制并提出輕量級的瓶頸塊來替換ResNet中的瓶頸塊,構造了結構與SimpleBaseline相似的LPN。Yu等人[9]提出采用通道加權的形式來替換ShuffleNet中的通道清洗模塊的點卷積,并構建了高分辨率特征表示的Lite-HRNet網絡。Li等人[10]提出了動態輕量級高分辨率網絡Dite-HRNet,可以有效地提取多尺度上下文信息和建模長距離空間依賴性,從而更好地進行人體姿勢估計。
本文基于以上研究,采用與Dite-HRNet相同的結構框架,提出了一個融入部分卷積(Partial Convolution, PConv)[11]和解耦全連接(Decoupled Fully Connected, DFC)[12]注意力機制的輕量級的人體估計網絡——LPFANet(Lightweight Partial Convolution and Decoupled Fully-connected Attention Network)。
基于以上描述,本文提出的網絡主要貢獻有以下幾點:
1)將PConv應用于Dite-HRNet網絡,保持網絡輕量化的同時提升網絡性能。
2)使用了DFC注意力機制,在幾乎不增加模型復雜度的條件下,提升網絡性能。
3)提出了一種改進的高效網絡LPFANet。在實驗中,LPFANet在MPII人體姿態估計數據集的網絡性能和復雜性之間取得了很好的平衡。
1? 相關工作
1.1? 高分辨網絡
高分辨率網絡(HRNet)是一種用于人體姿態估計的網絡,它是其他相關問題的基礎,例如多人姿勢估計、視頻姿勢估計和跟蹤。HRNet背后的主要思想是在整個過程中保持高分辨率的表示,從而有可能獲得更準確、空間上更精確的關鍵點熱圖預測。該網絡通過反復進行多尺度融合來實現這一目標,在整個過程中通過并行多分辨率子網一遍又一遍地交換信息。
HRNet分為四個階段。高分辨率階段:該階段的輸入圖像分辨率最高,通常為原始分辨率,以保留盡可能多的圖像細節。拓展階段:在該階段,HRNet對圖像進行下采樣,以減少特征圖的空間尺寸,并增加特征圖的通道數。這有助于提高網絡的感受野,從而更好地捕獲全局特征。融合階段:在該階段,HRNet將不同分辨率的特征圖進行融合。這可以幫助網絡同時捕獲低級別和高級別的特征。重建階段:最后一個階段使用高分辨率的特征圖來重建輸出。這有助于提高最終結果的精度,并減少信息的丟失。
1.2? 自注意力機制
自注意力機制[13]不是輸入語句和輸出語句之間的注意力機制,而是輸入語句內部元素之間或者輸出語句內部元素之間發生的注意力機制。典型的自注意力模塊對特征形狀的大小具有二次復雜度,計算復雜度較高,不太適合計算。此外,為了計算注意力圖,需要進行大量的特征拆分和重塑操作。盡管它們的理論復雜度是可以忽略不計的,但這些操作在實踐中會增加內存使用量和延遲時間。因此,在輕量級模型中使用原始自注意力對移動部署不太友好。
2? 本文模型
2.1? LPFANet網絡
如圖1所示,LPFANet是一個4級網絡,由一個分辨率最高的主分支和三個高分辨率到低分辨率的分支組成,這些分支在每個新階段開始時被逐一并入網絡。與之前添加的分支相比,每個新添加的分支具有一半的分辨率和兩倍的通道數量。在LPFANet的所有四個階段中,第一階段,也被認為是主干,包含一個3×3卷積和主分支上的DGF模塊。隨后的每個階段由一系列跨分辨率模塊組成,這些模塊由兩個DMF模塊和一個多尺度融合層組成,在所有分支之間交換信息。具有最高分辨率的主分支保持著高分辨率的表示,這為后續的姿勢估計提供了骨干網絡的最終輸出。為了進行公平的比較,本文提出了LPFANet網絡的兩個實例,LPFANet-18和LPFANet-30,它們的網絡寬度和深度分別對應于Dite-HRNet-18和Dite-HRNet-30。
如圖2所示,本文的動態多尺度特征模塊(Dynamic Multi-scale Feature, DMF)和動態全局特征模塊(Dynamic Global Feature, DGF)具有相似的總體結構,應用了ShuffleNetV2中的通道分割(channel split)、特征拼接(concatenation)和通道洗牌(channel shuffle)操作,以匯集不同層提取的不同特征。兩個塊之間的一個區別是DMF模塊在一半的通道上應用一系列層,而DGC模塊在所有兩個通道組上應用兩個不同的層序列。DMF塊中的層序列包含一個Dense Feature Modeling(DFM)操作、一個DFSC和一個全局特征建模(GFM)。DFM和GFM都是AFM方法的實例化。在DGF塊中,對一個通道組執行一個3×3步幅深度可分離卷積、一個GFM和一個1×1卷積,而對另一個通道組執行一個3×3深度可分離卷積、一個GFM、一個1×1卷積和一個3×3步幅深度可分離卷積。DGC塊中的每個卷積和DFSC層通過動態內核聚合(Dynamic Kernel Aggregation,DKA)生成卷積核。
2.2? 動態快速分離卷積
如圖3所示,在動態快速分離卷積(Dynamic Fast Split Convolution, DFSC)模塊中,基于FasterNet[11]的思想,使用了相比常規conv,擁有著更少的內存訪問量的PConv來加強特征圖的提取。
因為網絡的中間層特征圖存在高度冗余,所以可以使用PConv減少這種冗余。
對于輸入I ∈ Rc×h×w,卷積核W ∈ Rk×k,輸出O ∈ Rc×h×w的常規的conv的FLOPs和內存訪問量分別為:
PConv典型的部分比率r = cp / c = 1/4,FLOPs和內存訪問量分別為:
PConv的FLOPs僅為常規Conv的1/16,內存訪問量僅為常規Conv的1/4。
為了充分有效地利用來自所有通道的信息,在PConv層之后添加了兩層逐點卷積層,并在兩層逐點卷積層直接添加了BN歸一化層和GELU激活函數。
通道分割(channel split)和特征拼接(concatenation),通過多個不同大小的內核提取上下文信息,并將它們集成在一個卷積層中。
首先將通道平均分成多個組,并將具有不同DWConv(Ki×Ki | C = G)(·)內核大小的深度可分離卷積并行應用于每組通道。
每組卷積的輸出正式定義如下:
其中Xi和Yi分別表示第i組通道上的深度可分離卷積的輸入和輸出。是深度可分離卷積,核大小為Ki×Ki,通道維度為C = G,其中C表示組間通道總數,G表示組數。
在深度可分離卷積之后,分組的特征被連接在一起。為了進一步整合不同尺度的分離信息,在DFSC模塊的底部使用了通道洗牌操作[14]。DFSC模塊不會擴展網絡的寬度,它只是將通道分成不同的組,并對它們并行執行不同的卷積操作。
動態內核聚合(DKA)[10]。DKA通過基于輸入圖像的核注意權重,動態聚合多個核來增強卷積核的輸入依賴性,DFSC模塊即使使用小卷積核也能學習豐富的上下文信息。
標準卷積核由具有4個維度的權重矩陣w定義,這些維度分別決定了核大小和輸入/輸出通道。本文沒有將不同卷積的輸出特征拼接起來,而是在計算卷積結果之前聚合核權重矩陣{wi},從而為不同的輸入動態生成不同的卷積核。DKA操作計算不同卷積核的注意力權重,然后將逐元素乘積應用于注意力權重和核權重。本文定義的DKA操作如下:
其中ai(X)是第i個卷積核的注意力權重,W(X)是N個卷積核的聚合權重矩陣。輸入相關的注意力權重a(X)是根據輸入X計算如下:
其中GAP(·)代表全局平均池化,FC(·)代表全連接層。兩個函數Sigmoid(·)和ReLU(·)在兩個全連接層之后用于非線性激活。
由于DKA操作發生在計算卷積結果之前,因此聚合核只對每個輸入特征圖進行一次卷積操作,而不會擴展網絡寬度。
2.3? 自適應特征建模
解耦全連接(DFC)[12]注意力機制。基于卷積的輕量模型在建模長程相關性方面較弱,這限制了性能的進一步提高。對于注意力來增強表征能力,捕獲長程空間信息至關重要。
雖然自注意力操作可以很好地模擬長程相關性,但是典型的自注意力并不太適用于移動部署。與之相比,固定權重的全連接(FC)層更簡單,更容易實現,生成的注意圖還具有全局感受野。詳細的計算過程如下所示。
給定一個特征Z ∈ RH×W×C,可以看作是HW個向量zi ∈ RC,即Z = {z11,z12,…,zHW}。FC層生成注意力圖的直接實現被公式化為:
F是全連接(FC)層的可學習權重, 是逐元素乘法,A = {a11,a12,…,aHW}是生成的注意力圖。通過將所有標記與可學習的權重結合起來以捕獲全局信息,這比傳統的自注意力更簡單。
因為CNN中的特征圖一般情況下是低秩的[15],所以無須密集地連接不同空間位置的所有輸入和輸出標記。該特征的二維形狀自然地提供了一個減少全連接層計算的角度,即分解等式。式(1)分成兩個FC層,并分別沿水平和垂直方向聚集特征。它可以表述為:
其中FH和FW表示變換權重,Z表示原始特征輸入。DFC注意力可以在水平和垂直方向上對像素進行聚合,式(2)和式(3)表示DFC注意力的一般公式。由于共享一部分變換權重,可以通過卷積方便地實現,因此避免了影響實際推理速度的張量重塑和轉置操作。為了處理具有不同分辨率的輸入圖像,濾波器的大小可以與特征圖的大小解耦,即在輸入特征上依次應用兩個深度可分離卷積,兩個卷積核的大小分別為1×KH和KW×1。
DFC注意可以捕獲長程空間信息,同時保持輕量級卷積神經網絡的實現效率。在DFC中,只有全連接(FC)層參與生成注意力地圖。具體地,將FC層分解為水平FC和垂直FC,以聚合CNN的2D特征圖中的像素。這兩個FC層涉及沿著它們各自方向的長距離中的像素,并且堆疊它們將產生全局感受野。由于水平和垂直變換的解耦,可以有效地降低注意力模塊的計算復雜度。
本文基于DFC創建了自適應特征建模(Adaptive Feature Modeling, AFM)的兩個實例,分別是密集特征建模和全局特征建模。
2.3.1? 密集特征建模
密集特征建模(Dense Feature Modeling, DFM)密集地模擬來自一個階段的所有分辨率分支的特征的空間上下文關系。
在第n階段,來自所有n個分支的輸入特征被匯集到最低分辨率Hn×Wn。然后,將所有合并的特征連接在一起,以便可以對并行上下文特征進行密集的上下文轉換。
將移位后的上下文特征上采樣到相應的分辨率,并分配回相應的分支,用于后續的上下文加權。此實例實現為:
其中ACPool(Hn, Wn)(Xk)表示自適應上下文池,它將輸入特征Xk池化為特定輸出大小Hk×Wk,Shift(·)表示上下文平移,Weight(·)表示上下文權重,Cat(·)和Upsamp(·)表示特征分別是連接和上采樣。Xk表示具有第k個最高分辨率的輸入張量。 表示來自第k個分支的池化張量。 表示移位的張量,該張量以? 的形式分布到第k個分支。Yk表示相應的第k個輸出張量。最后加入DFC注意力機制,增強特征提取。
2.3.2? 全局特征建模
全局特征建模(Global Feature Modeling, GFM)。為了在每個分辨率下單獨建模全局空間依賴性,本文在網絡的每個分支上應用GFM操作。當自適應上下文池的輸出大小為1×1時,它是AFM的實例。第k個分支上的GFM操作的輸出特征定義如下:
最后加入DFC注意力機制,增強特征提取。
GFM操作在包含豐富上下文特征信息的全局方面捕獲所有具有相同分辨率的特征的空間關系,而DFM操作在包含更多像素特征信息的適度方面捕獲所有具有不同分辨率的特征的空間關系。同時,這兩種操作都增加了特征之間的信息交換并捕獲長程空間信息,增強了表征能力,因此可以更好地替代shuffle塊中的1×1卷積[14],而不是Dite-HRNet中的單純信息交換。
3? 實驗及結果分析
3.1? 數據集和評價指標
本文使用MPII數據集,該數據集包含約2.5萬張圖像,約有4萬個均被標注了16個識別關鍵點的個體目標,其中2.8萬個作為訓練集,1.1萬個作為測試集。MPII數據集將PCK(Percentageof Correct Keypoints)作為人體關鍵點估計的標準。PCKh以人體頭部作為歸一化指標計算預測正確的關鍵點比例,即預測關鍵點距離標注關鍵點之間的歸一化距離小于設定閾值的比例,本文選用閾值為0.5的PCKh@0.5作為評估標準,評估的指標還包括運算速度(GFLOPs)和模型復雜度(Params)。
3.2? 實驗環境配置
本文實驗環境為Windows 10,GPU為NVIDIA RTX 2080Ti,顯存為11 GB,使用的PyTorch版本為1.8.0,Python版本為3.6,網絡使用的優化器為Adam,設置的訓練周期為260輪,初始學習率設置為2×10-3,在訓練170輪后為2×10-4,在訓練210輪后為2×10-5。本文采用和Dite-HRNet網絡相同的數據預處理,將所有人體檢測框擴展到固定的寬高比4:3,然后裁剪帶有檢測框的圖像,對于MPII數據集,這些檢測框的大小調整為256×256。所有圖像都使用數據增強,包括隨機旋轉(系數為30)、隨機縮放(系數為0.25)和隨機翻轉。測試時,采用兩階段自頂向下的范式進行測試,該范式首先生成人物檢測框,然后預測人物關鍵點。對于MPII數據集,標準測試策略使用提供的人物框。通過2D高斯來估計熱圖,然后對原始圖像和翻轉圖像進行平均。熱圖中具有最高熱值的位置在從最高響應到第二高響應的方向上進行四分之一偏移,以獲得關鍵點位置。
3.3? 實驗結果
本文對LPFANet網絡進行了實驗驗證,使用MPII數據集進行了測試,并將結果與Dite-HRNet以及其他先進的方法進行了對比,以平均精度(PCKh@0.5)作為評價標準,并比較了運算速度(GFLOPs)和模型復雜度(Params)。
表1展示了本文網絡與其他輕量級網絡相比的結果,本文的LPFANet-18在略微提升模型復雜度的情況下,比Dite-HRNet-18[10]提高了1.2個PKCh@0.5分數,與Dite-HRNet-30[10]相比,具有相當的模型復雜度和GFLOPs的分數但提高了0.4個PKCh@0.5分數。與Lite-HRNet-18[9]和Lite-HRNet-30[9]相比,分別提高了1.9個和1.1個PKCh@0.5分數。本文網絡比MobileNetV2[16]、MobileNetV3[17]和ShuffleNetV2[14]具有更低的參數和GFLOPs,并且表現更好。在與最先進的輕量級網絡Dite-HRNet-30相比中,本文的LPFANet-30取得了最佳結果,PKCh@0.5為88.4。
值得注意的是,LPFANet-18相對于Dite-HRNet-18的精度改進要比LPFANet-30相對于Dite-HRNet-30更顯著。因此,本文提出的方法對于小型網絡更加有效,而且比增加網絡深度要高效得多。
訓練過程中損失值變化如圖4所示,曲線趨于平緩,證明模型已經擬合到最佳效果區域,對應的PKCh@0.5變化如圖5所示。
3.4? 消融實驗
本文在MPII數據集上進行消融實驗,首先分別將部分卷積(PConv)和DFC注意力單獨用在本文方法,以此來驗證各個模塊對LPFANet網絡的影響,隨后將兩個模塊同時用在本文的方法進行驗證。實驗結果如表2所示。
結果表明,PConv和DFC注意力都對LPFANet網絡有著重要的的作用,都能提升模型的性能,其中Fast模塊對本文網絡模型的性能提升占主導地位。
4? 結? 論
為了保持網絡的輕量化,在盡可能低的參數量和計算量情況下,提升網絡的性能,本文結合部分卷積和解耦全連接注意力機制兩種方法提出了LPFANet網絡。由于DFSC和AFM模塊的有效性,即通過融入PConv和DFC增強了網絡的特征提取,使得網絡能夠在保持輕量化的條件下,大幅提高了網絡的整體性能。最終,本文網絡的最終預測精度在MPII人體姿態估計數據集上能與現有的優秀的輕量級網絡相媲美。在接下來的研究中,需要重點考慮如何在進一步減少網絡參數量和計算量的同時提高現有網絡的性能,并通過優化模型結構來實現在真實場景中的應用。
參考文獻:
[1] 張國平,馬楠,貫懷光,等.深度學習方法在二維人體姿態估計的研究進展 [J].計算機科學,2022,49(12):219-228.
[2] PAPANDREOU G,ZHU T,KANAZAWA N,et al. Towards Accurate Multi-person Pose Estimation in the Wild [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Honolulu:IEEE,2017:3711-3719.
[3] CHEN Y L,WANG Z C,PENG Y X,et al. Cascaded Pyramid Network for Multi-person Pose Estimation [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:7103-7112.
[4] SUN K,XIAO B,LIU D,et al. Deep High-Resolution Representation Learning for Human Pose Estimation [C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Long Beach:IEEE,2019:5686-5696.
[5] WANG X Y,TONG J W,WANG R. Attention Refined Network for Human Pose Estimation [J]. Neural Processing Letters,2021,53(4):2853-2872.
[6] TANG Z Q,PENG X,GENG S J,et al. Quantized Densely Connected U-Nets for Efficient Landmark Localization [C]//ECCV 2018: Computer Vision – ECCV 2018.Munich:Springer,2018:348–364.
[7] DEBNATH B,O'BRIEN M,YAMAGUCHI M,et al. Adapting MobileNets for mobile based upper body pose estimation [C]//2018 15th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS). Auckland:IEEE,2018:1-6.
[8] ZHANG Z,TANG J,WU G S,et al. Lightweight Human Pose Estimation under Resource-Limited Scenes [C]//ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP).Toronto:IEEE,2021:2170-2174.
[9] YU C,XIAO B,GAO C X,et al. Lite-HRNet: A Lightweight High-Resolution Network [J/OL].arXiv:2104.06403 [cs.CV].(2021-04-13).https://arxiv.org/abs/2104.06403.
[10] LI Q,ZHANG Z Y,XIAO F,et al. Dite-HRNet: Dynamic Lightweight High-Resolution Network for Human Pose Estimation [J/OL].arXiv:2204.10762 [cs.CV].(2022-05-24). https://arxiv.org/abs/2204.10762.
[11] CHEN J R,KAO S H,HE H,et al. Run, Don't Walk: Chasing Higher FLOPS for Faster Neural Networks [J/OL].arXiv:2303.03667 [cs.CV].(2023-05-21).https://arxiv.org/abs/2303.03667.
[12] TANG Y H,HAN K,GUO J Y,et al. GhostNetV2: Enhance Cheap Operation with Long-Range Attention [J/OL].arXiv:2211.12905 [cs.CV].(2022-11-23).https://arxiv.org/abs/2211.12905.
[13] 劉圣杰,何寧,于海港,等.引入坐標注意力和自注意力的人體關鍵點檢測研究 [J].計算機工程,2022,48(12):86-94.
[14] MA N N,ZHANG X Y,ZHENG H T,et al. ShuffleNet V2: Practical Guidelines for Efficient CNN Architecture Design [C]//ECCV 2018: Computer Vision – ECCV 2018.Munich:Springer,2018:122–138.
[15] TAI C,XIAO T,ZHANG Y,et al. Convolutional neural networks with low-rank regularization [J/OL].arXiv:1511.06067 [cs.LG].(2016-02-14).https://arxiv.org/abs/1511.06067.
[16] SANDLER M,HOWARD A,ZHU M L,et al. MobileNetV2: Inverted Residuals and Linear Bottlenecks [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:4510-4520.
[17] HOWARD A,SANDLER M,CHEN B, et al. Searching for MobileNetV3 [C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV).Seoul:IEEE,2019:1314-1324.
作者簡介:陳錦(1998—),男,漢族,福建福州人,碩士研究生在讀,研究方向:人體姿態估計;蔣錦華(1997—),女,漢族,福建龍巖人,碩士研究生在讀,研究方向:人體姿態估計;莊麗萍(1998—),女,漢族,福建漳州人,碩士研究生在讀,研究方向:人體姿態估計;姚洪澤(2001—),男,漢族,安徽蚌埠人,碩士研究生在讀,研究方向:人體姿態估計;通訊作者:蔡志明(1977—),男,漢族,福建漳州人,教授,博士,研究方向:機器人與機器識別。
收稿日期:2023-05-06
基金項目:福建工程學院橫向科研項目(GY-H-22190);校科研啟動基金(GY-Z21064)