王 凱,陳麗萍
(1.廈門醫學院,福建 廈門 361000;2.包頭醫學院 衛生健康學院,內蒙古 包頭 014030)
全監督學習的快速發展為深度學習的可靠性奠定了基礎,然而全監督學習方法面臨著數據需求量過大的挑戰。具體來說,對于密集預測任務,如目標檢測和語義分割需要大量的標記數據,同樣,人體姿勢估計任務也需要很昂貴的標注成本。給定大量的標注訓練數據對于訓練姿勢估計以及各種識別深度學習模型(例如,對象識別[1]和人臉識別[2])極其關鍵。盡管用于人體姿勢估計的數據集的規模一直在增加(如圖像解析數據集中有305 張圖像[3],LSP 數據集中有2 000 張圖像[4],MPII 人體姿勢數據集中有25 000 張圖像[5]),但是與目標識別任務相比,人體姿勢估計的大型數據集仍然遠遠不足(如ISVRC[6]中超過1 430 000 張圖像)。這是因為人體姿勢標注比目標識別以及語義分割任務的窗口標注和區域標注復雜得多[7]。為了解決標注數據不足的問題,在結合半監督學習(SSL)的姿態估計方法中,通過使用未標記數據得到了較好的姿態估計效果。
最初的半監督學習工作主要集中在分類任務上[8]。一般來說,通過偽標簽的方法來探索未標記的圖像,首先使用有監督學習方式僅在已標注的圖像上學習初始模型。然后,對于未標記的數據,應用初始模型來獲得表示其類別的硬或軟偽標簽。最后,在混合標記數據和偽標記數據的組合數據集上學習最終模型。其中尤為經典的是自學習半監督模型[9]。
半監督學習方法雖然在部分研究任務中取得了較好的效果,但是仍然存在問題,偽標簽的選擇對后續模型的持續性訓練影響很大,選擇置信度低的偽標簽將降低模型的效果。基于這一問題,該文提出了一種將真實標簽與偽標簽進行混合自學習的方法,稱之為基于半監督學習的運動員姿態提取技術(Athlete Pose extraction technology based on Semi-Supervised Learning,AP-SSL),并進行了一系列實驗驗證,實驗結果表明,該方法能夠達到最佳的半監督姿態估計效果。
該文提出的自監督姿態估計網絡使用了兩個不同的訓練集。自監督姿態估計網絡模型如圖1(a)所示,首先基于真實標簽數據集進行姿態估計訓練網絡模型的初始化訓練,其姿態估計網絡結構如圖1(b)所示。模型構建過程中為了增強模型對有效區域特征的獲取能力,在編解碼主干姿態估計網絡結構中使用了該文提出的硬注意力機制(Hard Attention Mechanism,HAM),其整體結構如圖2所示。

圖1 自監督姿態估計網絡結構圖

圖2 硬注意力機制流程圖
硬注意力機制的構建可以對有效特征進行篩選,從而能夠準確獲取有效特征的激活權重。
該文提出的硬注意機制的實現策略如下:
式中,Ws表示輸出權重大小。其具體實現流程如下:對于輸入數據,首先基于全局最大池化MaxPool和全局平均池化AvgPool 進行全局通道歸一化,再通過雙隱層的MLP 將數據縮放為描述符,并通過Sigmoid 進行激活,最后設定閾值為0.5 對特征權重進行深度篩選。獲取的權重與原輸入數據相乘后即可獲取硬注意力特征數據。
在編解碼網絡結構中,添加硬注意力機制能夠促使網絡不斷關注有效特征,進而提升整體模型的姿態提取效果。對添加了硬注意力機制的姿態估計訓練網絡結構在訓練過程中的部分特征進行了可視化展示,如圖3 所示。圖3 中自左向右是隨著網絡層次的加深,硬注意力機制的輸出特征圖。亮度值高的區域代表網絡的關注區域。

圖3 硬注意力機熱力圖
從圖3 可以看出,隨著網絡層次的加深,硬注意力機制能夠促進網絡逐漸關注人體姿態的關鍵節點部位。
損失函數的構建能夠提升網絡結構的性能,使得網絡模型在訓練過程中快速收斂。文中構建了聯合損失函數,并且在訓練過程中創新性的提出了自適應損失擬合策略(Adaptive Loss Fitting strategy,ALF)來充分挖掘偽標簽數據的信息。基于真實標簽的損失函數Lloss如下:
式中,Ll1[10]和Ll2[11]損失函數定義如下:
式中,Yi為真實目標值,f(Xi)為估計值。當偽標簽數據與真實標簽數據進行混合時,由于偽標簽的存在,無法有效評估損失函數的與實際損失的差距。為了解決這個問題,首先構建了聯合損失函數Ltotal,其定義如下:
式中,Lloss為真實標簽的損失函數,Uloss為偽標簽損失函數,λ為偽標簽權重。自適應損失擬合策略的實現方式如下:在訓練過程中,Uloss是非可靠因子,因此,將Lloss設置為標準損失,當Lloss不斷降低時,認為當前的訓練迭代是向著正確的方向擬合,此時λ設置為1;當Lloss增加時,將λ設置為0。
實驗驗證部分在裝有NVIDIA 2080TI 顯卡的服務器上進行,其學習率設置為0.000 1。為了快速收斂,該文還使用Adam 優化器[12]來訓練模型,損失函數的設置將很大程度上影響模型的性能,該文選擇提出的Ltotal作為損失函數,訓練迭代次數為100,并且選擇姿態估計精度AP(Average Precision)為評價指標對所提方法進行評估。
實驗過程中使用公共可用的LSP 擴展數據集并對所提方法進行了訓練。LSP 數據集中的圖像使用了八個動作標簽(即與每個圖像相關的文本標簽),包含田徑、羽毛球、棒球、體操、跑酷、足球、網球和排球等八個不同的運動姿態。LSP 的訓練集共計1 200張圖像,其中,500 張作為真實標簽數據進行有監督訓練獲取初始化姿態估計網絡模型,另500 張無標簽圖像獲取偽標簽后,與真實標簽數據進行混合訓練,選剩余200 張圖像作為測試集。
選擇不同的網絡結構包括ResNet50[13]、ResNet 101[14]、ResNet152[15]和HRNetW48[16]作為主干網絡,基于LSP 數據集對比全監督姿態估計方法與該文提出的半監督姿態估計方法,實驗結果如表1 所示。此外,對部分實驗結果進行了可視化,如圖4 所示。其中,圖4(a)代表單獨使用真實標簽的全監督運動員姿態估計方法的實驗結果,圖4(b)代表基于半監督學習的運動員姿態估計方法的實驗結果。

表1 姿態估計結果數據對比

圖4 實驗結果可視化展示圖
對表1 以及圖4 中的數據進行分析可以得出,基于偽標簽與真實標簽相結合的半監督學習方式,能夠有效使用偽標簽數據,與單獨使用真實標簽數據的全監督學習方式相比較,在不同主干網絡結構下,姿態提取精度最高提升了3.2%,充分驗證了該文提出的基于半監督學習的運動員姿態提取方法的有效性。
為了進一步驗證該文提出的硬注意力機制的有效性,以ResNet50 為主干網絡結構,在跳躍連接層分別添加硬注意力機制和不添加硬注意力機制,作為一組對比實驗,并基于LSP 數據集進行了半監督姿態估計效果驗證。其實驗結果如表2 所示。

表2 硬注意力機制的有效性驗證結果
表2 實驗結果表明,硬注意力機制的添加能夠增加1.4%的姿態估計精度,充分驗證了硬注意力機制的有效性。
文中還分別對比了單獨的L1、L2損失函數和該文提出的聯合損失函數對網絡模型的影響,將不同損失函數應用于該文提出的半監督學習的運動員姿態提取網絡中,隨著網絡訓練次數增加,相應的姿態估計精度和損失函數如圖5 所示。對圖5 中的折線圖進行對比分析可以看出,該文提出的聯合損失函數能夠加快模型收斂,進一步驗證了聯合損失函數的有效性。
該文提出了一種基于半監督學習的運動員姿態提取方法,該方法通過混合學習的方式有效利用了未標注數據。與傳統半監督學習方式相比較,該方法構建了自適應損失擬合策略,能夠更加合理地對偽標簽數據的訓練損失權重進行調整。并且還提出了硬注意力機制,以更加有效地提取上下文語義信息。最后,基于公開的LSP 數據集,對該方法進行了一系列實驗驗證。
基于半監督學習的運動員姿態提取方法雖然取得了較好的運動員姿態估計效果,但是其模型計算量較大,接下來的研究工作將致力于構建輕量級的半監督學習模型,以更好地應用于實際任務中。