999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于樣本相似度信息挖掘的人體姿態估計

2023-03-17 07:28:14劉智威李群智
無線電工程 2023年3期
關鍵詞:特征優化方法

周 偉, 劉智威, 李群智

(1.中金甲子 (北京) 私募投資基金管理公司, 北京 100020;2.中國科學院 自動化研究所, 北京 100190;3.北京空間飛行器總體設計部, 北京 100094)

0 引言

人體姿態估計通常可分為單人人體姿態估計和多人人體姿態估計2 種任務。 其中多人人體姿態估計任務一般在實際中應用更為廣泛。 該任務指在無約束場景下同時完成人體目標的檢測以及人體關節點的定位,可為諸如行為識別[1-3]、姿態跟蹤[4-5]、行人重識別[6-7]和人機交互等計算機視覺任務提供重要的先決條件或先驗信息。 近年來,基于自頂向下方法的多人人體姿態估計算法[8-11]取得了較為領先的性能。 該類方法分為2 步:第1 步采用人體檢測器檢測出圖片中所有人的檢測框;第2 步將每個檢測框內的人體圖像分別送入單人人體姿態估計網絡中進行姿態估計。 因此算法的最終性能取決于人體檢測器和單人人體姿態估計算法2 個模塊。 目前,人體姿態估計算法的提升空間遠大于人體檢測器。

在無約束場景下的人體姿態估計任務中,多變的人物服飾、復雜的場景和高靈活度的姿態等因素導致樣本的分布極為復雜,給算法帶來了極大的挑戰。 具體來說,2 個樣本在擁有相似的服飾和背景等表觀的情況下,其人體姿態仍可能存在很大的差別,同時,2 個樣本在擁有差距較大的服飾和背景等表觀的情況下,其人體姿態也可以保持一致。 由此可知,現實中的任何訓練集都無法為每種姿態涵蓋所有諸如服飾、皮膚、背景和遮擋等因素造成的表觀變化。 然而,當今主流的人體姿態估計方法通常采用坐標響應圖回歸的框架,其優化目標是建立每個訓練樣本的人體表觀信息與相應關節點坐標之間的對應關系,因而對訓練數據的多樣性有較強的依賴。由于訓練集中的樣本存在同表觀姿態不足或同姿態表觀不足的現象,回歸網絡在學習中容易將姿態的判別與姿態無關的表觀信息關聯起來,從而難以訓練出能夠有效提取人體姿態特征的特征提取器。 該問題最終也影響了算法在未知樣本上的泛化性能。

為了解決上述問題,針對人體姿態估計算法提出了新的設計維度:通過建模并引入樣本間的姿態相似度信息,根據該信息用度量學習方法對網絡進行優化,使得高層特征具有對姿態的強判別能力,從而增強網絡在未知測試樣本上的泛化性。 實現該方法需要設計的2 個核心環節為樣本間姿態相似度的建模以及優化目標函數的選取。 其中,目標函數可選用判別學習任務中常見的分類損失或度量學習損失,其優化目標是對于2 個姿態相似度高的樣本,網絡對其提取的高層特征也應該接近。 反之,對于2個姿態相似度低的樣本,網絡對其提取的高層特征也應該相差較遠。 由于人體姿態空間較為復雜,樣本類別的邊界難以人工界定,簡單地對數據集通過現有姿態聚類的方式進行劃分,容易產生樣本分布不均衡以及“長尾”現象等常見的優化問題[12]。

為了解決上述問題,本文結合人體姿態任務的特點對上述特征判別性學習方法進行了更合理的設計,提出了一個基于點特征優化的局部樣本關系模型(Local Sample Relation Module,L-SRM)。 該模型在回歸網絡的高層將整體姿態特征分解成逐點特征,并將對整體姿態的分類問題轉化為每個關節點各自的分類問題。 該方法可根據不同樣本中對應關節點所處的圖像空間位置信息來近似計算樣本間的相似度。 最終,L-SRM 在增強網絡高層特征對人體姿態的判別性的同時,也避免了在復雜的姿態空間中進行樣本間相似度定義所帶來的問題。 除此之外,為了進一步提升點特征優化的優化質量,同時在L-SRM 中提出了Multi-Context Uncertainty Module(MCUM)。 綜上,本文的貢獻總結如下:

① 針對人體姿態估計算法提出了新的設計維度:通過建模樣本間的姿態相似度關系對網絡進行優化,增強網絡對人體姿態的判別能力及在未知測試樣本上的泛化能力。

② 對基于姿態相似度度量學習的人體姿態估計算法的設計進行了深入的研究。 通過分析人體姿態空間存在的類別難界定以及樣本姿態分布不均等問題,提出了局部樣本關系模型對姿態相似度進行建模并用于網絡優化。

③ 所提出的方法不僅在人體姿態估計主流數據集上的精度超過了所有同期方法,同時有效提升了算法在跨域數據集上的泛化性能。

1 相關工作

人體姿態估計作為一個具有學術和實際雙重價值的經典計算機視覺任務,已有數十年的研究歷史。在手工特征時代,其中一類代表性的方法是將圖像中的人體姿態描述為一個全局的特征,并通過該全局特征直接進行分類或回歸從而得到估計結果[13-14]。 由于通過手工形式直接設計出的人體姿態全局特征表達能力較弱,該類型方法只可在約束場景下得以應用。 另一類代表性方法為基于圖結構(Pictorial Structure,PS)[15-18]的方法,其通過設計手工特征對圖像中人體部件可能的位置進行檢測,再通過建模部件間的空間位置關系對部件的位置加以約束,最終推理得到人體的整體姿態。 得益于訓練數據規模的增大以及深度學習方法的引入,人體姿態估計取得了重要的突破,基于深度學習的方法在性能上也遠遠超越了基于手工特征的方法。 而其中自頂向下的人體姿態估計方法在多人人體姿態估計任務取得了主導地位,該類型方法的研究重點為人體姿態估計網絡結構設計。 現有人體姿態估計網絡主要包括多尺度上下文融合、人體骨架結構先驗以及級聯回歸3 個代表性的設計思路,以下分別對其進行介紹。

多尺度上下文融合:Newell 等[19]提出了一個對稱的沙漏結構網絡用于人體姿態估計任務。 設計時采用前半段連續降采樣,后半段上采樣的形式,使得整體網絡結構類似一個沙漏。 同時通過跨層連接將網絡前半段的底層特征與網絡后半段的高層特征在相同分辨率上進行融合。 跨層連接的過程可看作對不同尺度上下文的融合,最終保證了網絡的輸出既具有通過大感受野學習到的高層語義信息,也保存了底層特征中的細節信息。 Chen 等[8]提出的級聯金字塔網絡則借鑒了目標檢測任務中特征金字塔網絡[20]所使用的多尺度上下文融合方法,并設計了一個全局網絡和一個校正網絡分別在不同層級對多尺度上下文進行融合。 Sun 等[11]則提出了一個高分辨率網絡,其在網絡的所有層級均保持著一個高分辨率的特征圖。 并通過并行結構逐漸將主網絡中的高分辨率特征圖與子網絡中的低分辨率特征圖進行融合,該網絡的性能也超越了當時的人體姿態估計方法。

人體骨架結構先驗:人體骨架結構的先驗知識可作為輔助人體姿態估計網絡進行學習的重要手段。 其中一類代表性的方法[21-23]利用人體關節點中已知的連接關系,在網絡訓練中加入了人體部件響應圖的回歸。 相比單獨回歸關節點響應圖的方法,該方法引入了關節連接關系作為額外的約束,從而提升了性能。 然而該類型方法僅僅利用了單個人體樣本內部的關節點連接關系,尚未考慮不同樣本間的關系。

級聯回歸:通過級聯回歸逐漸校正預測結果的思想最早在圖像分類任務中以網絡深層監督的方式出現。 Szegedy 等[24]提出了在分類網絡中間層加入輔助分類器的方法,從而有效地幫助了深層網絡的優化。 在人體姿態估計任務中,級聯回歸通常表現為多個子網絡堆疊而成的網絡結構。 其中堆疊結構中的每一級根據前一級提取出的圖像特征及其預測結果,預測出更加精準的響應圖。 級聯回歸的思想在許多人體姿態任務[19,25-26]中都得到了成功的應用并有效地提升了性能。

總的來說,上述人體姿態估計算法在設計中均只考慮了單個人體樣本的信息,而本文提出在網絡訓練中從多個人體樣本的角度出發,對人體樣本間的關系進行建模并以此通過判別性學習優化網絡。其對于避免網絡過擬合以及提升網絡在未知樣本上的泛化能力等方面具有重要的意義。

2 基于樣本相似度信息挖掘的人體姿態估計方法論

2.1 基礎算法框架

考慮到自頂向下方法在性能上的優勢,本文選用自頂向下的多人人體姿態估計算法進行研究,并選取了其中代表性的SimpleBaseline[10]方法作為研究的基礎算法框架。 為此對SimpleBaseline 算法進行簡要的介紹。 首先,基于深度學習的人體姿態估計算法的目標是尋找一個非線性映射:

式中,I∈RH×W×3表示輸入姿態估計網絡的人體圖像,該圖像由前一階段的人體檢測器檢測得到;y∈R2N表示網絡預測出的人體關節點坐標;fW為對應參數為W的卷積神經網絡。 在SimpleBaseline 算法中,fW為一個全卷積網絡,該網絡可分為前后2 個部分。前半部分為主干網絡,通過逐層下采樣的方式來提取用于表達圖像中人體姿態的高層特征,該主干網絡的結構采用視覺任務中常用的殘差網絡[27]。

為了便于理解,將殘差網絡中不同階段輸出的特征圖分別定義為C2,C3,C4,C5。 整個基礎框架的后半部分由建立在殘差網絡的頂層輸出C5上的3 個連續反卷積層所組成,其通過連續上采樣和一個1×1 的卷積層將高層特征解碼成空間響應圖用于提取關節點坐標。 響應圖上的峰值位置即為網絡預測的關節點坐標位置。 該部分所使用的反卷積個數以及核大小等參數均為實驗所得的最優參數。圖1 為所采用的基礎網絡框架SimpleBaseline 的結構示意。

圖1 SimpleBaseline 的網絡結構示意Fig.1 SimpleBaseline network structure

2.2 全局樣本關系模型

在無約束場景下的人體姿態估計任務中,無規則變化的人物服飾、復雜的場景和高靈活度的姿態等天然存在的數據特點使得該任務有著極為復雜的樣本分布。 舉例來說,2 個樣本在擁有相似的服飾和背景等表觀的情況下,其人體姿態仍可能存在很大的差別,如圖2 中樣本一和樣本二所示。 同時,2 個樣本在擁有差距較大的服飾和背景等表觀的情況下,其人體姿態也可以保持一致,如圖2 中樣本二和樣本三所示。 因此訓練集通常遠遠無法涵蓋所有可能的變化情況,存在由于一些樣本不足的少見姿態形式所導致的樣本不均衡現象。 該現象最終也導致了回歸網絡難以魯棒地提取人體姿態特征,且未知樣本上的泛化能力不足。 為了應對上述問題,提出判別學習是在訓練數據有限的情況下增強網絡對姿態識別魯棒性的一個有力方法。 具體來說,通過建模并引入樣本間的姿態相似度信息,根據該信息用度量學習方法對網絡進行優化,從而增強網絡對人體姿態的判別能力。 如圖2 所示,當網絡在優化過程中將樣本一、樣本二和樣本三之間的姿態相似度作為已知先驗時,很容易在特征提取階段將服飾顏色等姿態無關的表觀信息進行去除,并選擇學習對姿態更有判別力的特征提取方式。 因此,如何更好地將判別學習與人體姿態任務相結合是本研究的重點。 通過介紹一種直觀的判別學習方法來對該問題進行更為深入的分析。

圖2 關鍵點語義不確定性帶來的優化難問題Fig.2 Optimization problem related to the semantic uncertainty of landmark

在人體姿態任務中,判別學習的目的在于約束網絡對2 個具有相似姿態的樣本所提取出的高層特征盡可能接近,同時,對2 個姿態相差較大的樣本所提取的高層特征相差較遠。 為了找到較好的樣本姿態相似度建模方式,首先使用代表性的無監督聚類方法k-means 對訓練集中所有樣本的姿態進行聚類,此時屬于同一簇的姿態即可看作相似姿態。 以下詳細闡述姿態聚類的過程。

在聚類過程中,每個樣本的姿態被表示為關節點坐標串聯而成的2N維向量,其中N代表人體中的關節點個數。 由于人體姿態估計數據集通常包含許多部件被遮擋或超出圖像邊界的人體樣本。 因此該類樣本部分關節點的標注也相應缺失,從而由于向量維度不一致而無法直接參與聚類。 為了解決該問題,提出了一個人體姿態重建(Human Pose Restoration,HPR)算法對姿態標簽中缺失的關節點坐標進行估計,從而保證每個樣本的姿態標簽都可參與到無監督聚類過程之中。 HPR 算法的流程如算法1所示。 使用HPR 方法估計出所有樣本中缺失的標注后,對所有樣本的姿態進行面內幾何變化的數據增廣,再通過k-means 進行聚類。 由于聚類的類別個數屬于超參數。 實際使用中,分別實驗了聚類中心個數設置為500,1 000,2 000 時算法的性能表現,并從中選取最優的結果作為最終結果。

算法1 人體姿態重建算法輸入: 原始訓練集中所有的姿態標簽G、原始訓練集中所有標注完整無缺失點的姿態標簽Ga輸出: 姿態重建后的所有姿態標簽Gr 1.Gr=Ga 2.找出訓練集中所有包含缺失點的姿態標簽Gm ←G-Ga 3.在Ga 上使用k-means 聚類出典型的姿態模板集合(聚類中心集合):Ta=kmeans(Ga)4.for Gm 中每個姿態標簽向量p do 5. 初始化最小距離:dmin=inf 6. for Ta 中每個姿態標簽向量pt do 7. 使用常規普氏分析法求解從Gr 變換到p 的相似度變換矩陣8. 計算變換后的pt 與p 的歐氏距離:d=‖M(pi)-p‖2 2 9. if d

接下來,為了根據上述定義好的樣本間的姿態相似度關系進行優化,使網絡的高層特征具有對姿態的強判別性。 在基礎架構SimpleBaseline 中殘差網絡的頂層輸出C5之上加入了一個新的分支,該分支包含2 個連續的全連接層和一個Softmax 分類器,根據當前樣本所屬的姿態類別對高層特征進行分類。 在網絡的訓練過程中,該分支所引導的姿態分類任務和原有解碼器分支引導的響應圖回歸任務協同進行。 從而使網絡的高層特征C5既具有對人體姿態所屬類別的判別性,也包含了用于判別關節點位置的細節信息。 由于該方法在定義樣本間姿態相似度時將每個樣本的姿態看作一個整體。 本文將該算法框架稱之為全局樣本關系模型(Global Sample Relation Module,G-SRM)。 G-SRM 的 算 法 框 架 如圖3 所示。

圖3 全局樣本關系模型的算法框架Fig.3 Global sample relation module

根據后續實驗所示,在SimpleBaseline 的基礎架構下加入G-SRM 雖可在一定程度上提升人體姿態估計的精度。 然而,G-SRM 為算法性能帶來的增益較為有限,仍未達到理想的效果。 通過分析可知,導致其性能受限的原因可分為以下幾點:① 由于現實中任何訓練集都無法為每種姿態涵蓋大量諸如服飾、皮膚、背景和遮擋等因素造成的表觀變化,部分少見的姿態缺少足夠的樣本,使得姿態分類任務存在樣本分布不均衡以及“長尾”現象等常見的分類優化難問題。 ② k-means 聚類方法對類別個數較為敏感,手動調節的姿態類別數難以保證聚類結果的可靠性。 ③ 圖像空間中復雜的姿態形式會加大聚類中不同類別各自的類內方差,最終影響了聚類的質量。

2.3 局部樣本關系模型

總的來說,G-SRM 的主要缺點在于聚類得到的典型姿態模板(類中心)難以真正對樣本間的姿態相似度(樣本關系)進行可靠的建模。 為了解決上述問題,將上述對姿態特征的判別學習任務分解成多個對人體關節點特征的判別學習子任務,從而簡化對樣本間姿態相似度的定義。 具體地,將新的樣本間姿態相似度定義為:對于人體結構中任意位置的關節點,若2 個樣本中該關節點所處的圖像空間位置接近,則網絡對上述樣本提取的關節點高層特征也應該接近;否則,提取的關節點高層特征應該相差較遠。 在該定義中,每個樣本的狀態空間大小為N×Hg×Wg,其中N為人體結構中的關節點總數,Hg×Wg代表圖像空間中劃分的網格個數。 相比G-SRM所定義的樣本間姿態相似度,上述新的相似度定義方法在有效描述姿態間相似度的同時,大大減少了樣本分布的復雜性。 從而避免了直接建模復雜的全局姿態間關系時所遇到的問題。 據此,將G-SRM 進行改進并提出了一個基于關節點特征分布優化的L-SRM。 下文對L-SRM 的算法細節進行介紹。

2.3.1 解離的關節點表達學習

為了在網絡高層分別優化每個人體關節點的特征分布,首先需要獲取獨立的關節點特征。 為此在局部樣本關系模型中提出了一個關節點解離表達模塊 ( DisentangledJointRepresentationModule,DJRM),該模塊替換了基礎框架SimpleBaseline 中原有的解碼器部分,在把高層特征解碼成關節點坐標響應圖的同時將整體姿態特征解離成每個關節點獨立的特征。 考慮到整體姿態特征會包含關節點連接關系等人體結構先驗信息,且該信息對于推斷遮擋點等方面具有重要的作用。 L-SRM 的算法框架如圖4 所示。 因此,DJRM 在SimpleBaseline 網絡的大部分層中都保留了整體姿態特征,其僅在C5之后的層將其解離成不同人體關節點各自獨立的特征。 具體地,DJRM 首先在共享特征C5的基礎上增加了一個3×3 的卷積層用于建立共享特征到關節點獨立特征的映射,即圖4 中C5層到DF層的過程。

圖4 局部樣本關系模型的算法框架Fig.4 Local sample relation module

之后在DF層之上通過4 個組數為N的分組反卷積來回歸出N個關節點的響應圖。 由于所有分組反卷積層的組數均被設置為關節點個數,因此對不同關節點坐標的解碼是個完全獨立的過程。 即從DF層開始,任意一個關節點的位置信息只與每層特定的幾個通道中的特征有關。 DJRM 在訓練時采用均方誤差(Mean Squared Error,MSE)損失來監督坐標高斯響-應圖的回歸。 其公式如下:

2.3.2 樣本局部關系的定義與優化

如上所述,關節點解離表達模塊可在網絡高層將原有的全局姿態特征解離成每個關節點的專屬特征。 由此可通過分別優化每個關節點特征的方式來提升網絡高層特征對姿態的判別性,以減少姿態無關表觀信息對算法魯棒性造成的潛在影響。 為了實現對每個關節點特征的判別性學習,首先要從關節點的角度對樣本間姿態相似度進行定義。 對于人體結構中第k個位置的關節點來說,L-SRM 首先將尺度為H×W像素大小的輸入圖像分為Hc×Wc個空間網格。 并將每個網格看作分類任務中的一個類別。如果在某一樣本中,該關節點的標注位置落入了第i個網格中,L-SRM 即在優化時將第k個關節點所屬的類別視為第i類。 為了根據該相似度信息對關節點特征進行優化,L-SRM 在DF層的基礎上額外增加了N個分支網絡。 其中N代表關節點個數,每個分支網絡包含3 個連續的全連接層和一個Softmax分類器,且只與DF中特定關節點對應的特征相連。在網絡訓練時,每個分支根據其對應的關節點的所屬類別進行分類學習,從而使每個關節點的高層特征具有對該點所在空間位置的判別性。 分類的損失函數公式為:

式中,DFk表示DF層中第k個關節點對應的特征部分;gk表示與DF相連的第k個分支網絡所對應的映射;i和j分別為圖像空間中網格的索引,即關節點類別的索引,其中i表示第k個關節點真實位置對應的網格索引。 從整體姿態的視角來看,2 個樣本中的人體擁有相似的姿態可以近似等價于大部分關節點在2 個樣本中所處的空間位置都比較接近。 此時L-SRM 可通過拉近大部分關節點的高層特征使得整體特征也擁有了對人體姿態的判別性。

對于優化目標函數的選取,除了Softmax 分類損失,三元組損失(Triplet Loss)[28]也是增強特征判別性的有效方法,該損失直接優化高層特征間的歐式距離。 在L-SRM 中對基于三元組損失的優化方式也進行了實驗,具體公式如下:

2.4 基于多尺度上下文的不確定度預測模塊

不同樣本中的不同人體關節點由于其內在屬性或所處外在環境的不同,人類對這些人體關節點位置的認知難度也有所不同。 舉例來說,相比膝蓋、胯等處于身體中央且易被服飾遮擋的人體關節點,處于人體頭部的關節點通常擁有更易于辨別的表觀信息。 不同標注人員對該類點標注位置的方差也較小。 該現象可稱為不同關節點內在屬性的不同所導致的認知難度差異,MS-COCO[29]數據集在其評測規則中也考慮了該現象。 另一方面,在較復雜的擁擠或遮擋場景下,被遮擋的關節點由于其周邊表觀信息的反常變化,相比其他可見的關節點也具有更大的認知難度。 已有人體姿態估計算法通常在優化目標中將人體結構中的每個關節點等同看待。 由于不同關節點的認知難度有所不同。 對所有關節點等同優化時,部分本身難以優化且誤差過大的關節點會影響其他易優化關節點的學習。 基于上述問題,本文將不確定度估計的思想[30-33]引入L-SRM 中以解決人體姿態估計任務的相關問題。 具體地,提出了MCUM 用于L-SRM 中的關節點回歸學習。 MCUM根據當前輸入圖片,通過無監督學習的方式為每個關節點預測出一個不確定度。 該不確定度可用于度量圖片中每個關節點的認知難度。 在學習不確定度的同時,MCUM 在訓練中自適應地降低了認知難度較大關節點的學習權重,以便網絡將學習能力集中在更容易收斂的關節點上。 MCUM 對不確定度的預測過程可表示為:

式中,σ=[σ1,σ2,…,σn]∈RN表示MCUM 對當前樣本中每個關節點預測出的不確定度;M代表MCUM 所對應的映射函數;N代表關節點個數;C2,C3,C4,C5作為殘差網絡中不同層級的特征,也對應著不同尺度的上下文信息,將其結合有助于對關節點不確定度進行更好的預測。 圖5 所示為MCUM的網絡結構。

圖5 基于多尺度上下文的不確定度預測模塊結構Fig.5 Multi-context uncertainty module

為了通過預測不確定度的方式對樣本中每個關節點的學習進行自適應加權。 將預測出的關節點坐標和不確定度分別看作一個高斯分布的均值與方差,并將原有的坐標響應圖回歸問題替換為一個后驗概率最大化問題。

式中,y∈RN×2為網絡預測出的關節點坐標響應圖通過Softmax[34]層計算得到的關節點坐標;∈RN×2為標注的關節點坐標位置。 采用極大似然估計的思想求解上述后驗概率最大化問題,并通過負對數似然損失對其求解,該損失如下:

不難看出,上述損失函數的理想目標要求σ與同時趨近于0。 實際訓練中,如果網絡對于某個關節點位置的認知難度較大,則項的值一般較大。 為了降低整體的損失值,MCUM 可預測出更大的不確定度σ來降低該關節點的學習權重。 總的來說,MCUM 的使用有利于緩解網絡在訓練過程中難以優化某些離群樣本點以及認知較難樣本點時所帶來的問題,從而有效提升局部樣本關系模型L-SRM 的性能。

綜上所述,L-SRM 所使用的整體損失函數可定義為:

式中,λ1,λ2,λ3為超參數,分別表示各項子損失函數的學習權重;LRSM表示判別學習任務的優化目標;LMSE和LReg表示回歸任務的優化目標。 后續實驗表明,當λ1設置為10-4,λ2及λ3設置為1 時,算法取得了最理想的性能。

3 實驗結果與分析

3.1 數據集與實驗設置

為了從多方面驗證上述方法的有效性,在實驗階段使用了MS-COCO[29]和CrowdPose[35]兩個均具有挑戰性且數據分布差異較大的數據集。

MS-COCO:MS-COCO[29]是一個具有挑戰性的無約束場景多人人體姿態估計數據集,共包含了200 000 余張圖片和250 000 余個人體實例。 該數據集為每個人體實例標注了最多17 個關節點。 其中很多人體實例由于遮擋,超出邊界等原因只含有部分關節點的標注。 這也大大增加了該數據集的挑戰性。 所有的實驗均按照MS-COCO 標準協議所規定的訓練集和測試集進行訓練和測試。 在分析實驗中使用val2017 測試集進行算法性能測試并最終在test-dev2017 測試集上與其他主流方法進行了公平的性能對比。 按照MS-COCO 的測試協議,實驗采用目標關鍵點相似度(Object Keypoint Similarity,OKS)來計算對每個人體實例姿態估計的誤差。 并通過為OKS 設置10 個不同的閾值,來計算算法的平均準確率(mean Average Precision,mAP)用于最后的評測結果。

CrowdPose:CrowdPose[35]數據集是一個面向擁擠場景的人體姿態估計數據集。 該數據集為圖像中的每個人體實例標注了最多14 個關節點,且14 個關節點中的絕大部分關節點對應的語義位置均在MS-COCO 的標注范圍之內。 值得注意的是,該數據集中人與人之間的交互重疊率遠大于MS-COCO 數據集,因此使用該數據集驗證算法在跨域數據上的泛化能力。 CrowdPose 共標注了20 000 張圖片中的80 000 個人體實例。 該數據集所使用的評測指標同樣為不同OKS 下的mAP。

實驗設置細節:本方法在實驗中使用殘差網絡作為主干網絡,該主干網絡的初始模型參數由ImageNet上預訓練得到。 而全局樣本關系模型和局部樣本關系模型中新加入的網絡層均采用0 均值,方差為0.01的高斯分布進行初始化。 在局部樣本關系模型中的關節點解離表達模塊中,所有分組反卷積中每組的輸出通道個數均設置為32,即每個分組反卷積層的通道總數為32×N,N為每個人體關節點的個數。DF層的通道個數同樣被設置為32×N。 同時,全局樣本關系模型和局部樣本關系模型中所有用于分類的分支網絡均將隱含層的輸出維度設置為1 024。

數據增廣方面,采用與基礎架構SimpleBasline[10]一樣的參數設置。 具體地,在訓練時所使用的面內幾何變換操作包括水平翻轉、-40°到40°的面內旋轉以及70%到130%的包圍盒尺度變換等操作。 對于增廣后的訓練圖片,在實驗中根據不同需求將其縮放到256 pixel×192 pixel 與384 pixel×288 pixel 兩種尺度作為網絡的輸入。 訓練的初始學習率為0.001,訓練總epoch 數為140。 訓練過程中分別在90 和120 個epoch 時將學習率下降10倍。 實驗所用的優化器為Adam[36]。 訓練所使用的硬件計算資源為8 塊NVIDIA Titan X (Pascal)GPU。

在測試階段,由于本文所提出的方法屬于自頂向下的多人人體姿態估計方法,因此需要先對原始圖像進行目標檢測以提取每個人體的檢測框。 公平起見,實驗采用SimpleBasline[10]所使用的人體檢測結果作為人體檢測結果。

同時為了與已有方法保持一致[8,10,19],測試時對輸入的測試圖片進行鏡像翻轉,并將原圖和鏡像圖的人體姿態估計結果求平均作為最終結果。

3.2 算法各模塊分析

為了驗證本文提出的L-SRM 中各個模塊發揮的作用,通過控制變量配置了5 組不同的實驗并在MS-COCO 的val2017 測試集上進行了測試和分析。為了公平對比各個方法,實驗中所使用的主干網絡均為50 層的殘差網絡,輸入圖片的尺度均為256 pixel×192 pixel。

首先,為了驗證在人體姿態估計網絡原有的回歸任務中引入判別性學習的作用,在基礎框架SimpleBasline 上加入基于整體姿態判別性學習的G-SRM 進行實驗,評估采用MS-COCO 的val2017 測試集。 如表1 所示,加入G-SRM 將算法的mAP 從70.4 提升到了71.4。 該現象證明了判別學習在人體姿態估計任務中對性能提升的有效性。 為了對比L-SRM 中的關節點特征優化方法與G-SRM 中的整體姿態特征優化方法,使用不包含基于MCUM 的L-SRM 進行實驗。 對比表1 中第2 行和第4 行的結果可知,L-SRM 將G-SRM 的性能從71.4 進一步提升到了72.0。 該現象證明,關節點特征判別學習可以克服整體姿態判別學習的缺點,帶來更多的性能增益。

表1 各模塊對整體算法性能的影響Tab.1 Influence of different modules on the overall algorithm performance

除此之外,判別學習中優化方式,即損失函數的選取也是一個關鍵的環節。 進一步對L-SRM 中不同損失函數的表現進行了對比,并分別選取Softmax分類損失和三元組損失2 種損失函數進行了實驗和分析。 為了使三元組損失達到更好的效果,在對其實驗中加入了困難樣本挖掘以及超參數搜索等策略。 然而,如表1 中第3 行和第4 行所示,三元組損失僅達到了70.1 mAP,該結果顯著低于Softmax 分類損失72.0 mAP 的結果。 可見Softmax 分類損失相比對采樣策略等其他因素要求較為嚴格的三元組損失,更適用于人體姿態估計任務中的判別性學習。

最后,對L-SRM 中使用的MCUM 的有效性進行了驗證。 如表1 中第4 行和第5 行的實驗結果所示,將MCUM 引入L-SRM,使得mAP 性能從72. 0提升到了73.2。 該結果說明,MCUM 與L-SRM 中判別學習任務之間存在較好的互補性,可以顯著地提升網絡的優化質量。

3.3 分析實驗

各項優化目標的權重平衡:如式(10)所示,本方法的整體優化目標主要由2 部分所組成,是一個多任務學習的過程。 多任務學習中每個任務的學習權重往往對算法的最終性能有著重要的影響。 對此,進一步研究了為判別學習和回歸2 個任務設置不同學習權重比時算法整體性能的差異。 具體地,本實驗將式(10)中的λ2與λ3設置為1,并通過調節λ1/λ2的值來進行該實驗,實驗選用50 層的殘差網絡作為主干網絡,選用尺度為256 pixel×192 pixel的輸入圖片。 如表2 所示,當判別學習任務即Softmax 分類損失的學習權重被設置為10-4時,算法的性能達到了最優。 此時可認為判別學習任務和回歸任務達到了一個較好的平衡。

表2 式(10)中分類任務與回歸任務不同學習權重比所帶來的影響Tab.2 Different learning rates in equation (10)

基于誤差分布的算法泛化性分析:為了分析判別性學習在提升人體姿態估計算法泛化性方面發揮的作用,本實驗對不同方法在測試集不同樣本上的誤差分布進行了觀察和分析。 由于已有人體姿態估計算法通常對訓練數據的依賴性較強,可以認為算法在測試集中預測誤差較大的樣本往往和訓練樣本之間有一定的分布差異。 因此該預測誤差較大的難測試樣本可用于分析算法的泛化性能。 具體來說,本實驗首先采用基準算法SimpleBaseline 對測試集中的所有樣本進行預測,之后根據SimpleBaseline 在每個測試樣本上預測得到的OKS 大小將測試樣本分成10 組。 此時可認為對應OKS 值較小(預測誤差較大)的組中的樣本與訓練樣本之間有一定程度的分布差異。 如圖6 所示,當使用不包含MCUM 的L-SRM 方法時,算法在原本測試誤差較大的樣本上有著顯著的性能提升。 該現象可說明本方法引入的判別性學習更關注提升人體姿態估計算法在未知樣本上的泛化性能和魯棒性,而不是進一步提升簡單樣本的回歸精度。 當進一步加入MCUM,即使用標準的L-SRM 方法進行測試時,算法的整體性能雖然從72.0 提升到了73. 2,然而從圖6 中無法觀察到MCUM 對算法測試誤差分布的改變。 可見MCUM并沒有對算法泛化性能的提升起到明顯的促進作用。

圖6 對比不同方法在MS-COCO 測試集上的誤差分布變化Fig.6 The deviation distribution on the MS-COCO test set

跨數據集的算法泛化性分析:為了從跨數據集的角度驗證L-SRM 對提升算法泛化性方面發揮的作用。 本實驗使用MS-COCO[29]訓練集對網絡進行訓練,并在與該訓練集分布差異較大的Crowd-Pose[35]測試集上對算法性能進行測試,實驗選用50 層的殘差網絡作為主干網絡, 選用尺度為256 pixel×192 pixel 的輸入圖片。 如表3 所示,引入L-SRM 在跨域的CrowdPose 測試集上取得了7. 8%的性能提升。 該結果遠高于在同域的MS-COCO val2017 上2.3%的性能提升。 由于CrowdPose 相比MS-COCO 更有挑戰性,該現象也進一步說明了L-SRM 在提升算法泛化性上的作用。

表3 L-SRM 在跨域數據集上對SimpleBaseline性能提升發揮的作用Tab.3 Performance improvement of L-SRM to the SimpleBaseline on trans-domain datasets

網格數目分析:如2.3.2 節所述,L-SRM 在優化關節點特征時,將輸入圖像空間分成Hc×Wc個網格,并根據樣本中每個關節點在圖像中所處的網格對其特征進行分類。 以此實現關節點特征的判別性學習。 因此,分類網格的劃分密度是該優化過程中的一個重要超參數。 過于稀疏的分類網格會導致類內樣本的空間差異過大,而過于稠密的分類網格可能存在由于約束過于嚴格而導致的優化難問題。 本實驗對比了不同網格密度下L-SRM 的算法性能,實驗選用50 層的殘差網絡作為主干網絡,選用尺度為256 pixel×192 pixel 的輸入圖片,網格密度代表類別數與坐標響應圖尺度的比值。 如表4 所示,當網格密度為1 時,算法的性能達到最優。

表4 不同密度分類網格下L-SRM 的性能對比Tab.4 Performance of L-SRM in different densities of grid

3.4 可視化分析

為了從定性的角度驗證局部樣本關系模型通過優化使網絡的高層特征對人體姿態具有了更強的判別性。 通過實驗對不同方法中網絡提取的高層特征進行了可視化分析。 實驗步驟如下,首先使用2.2 節所提到的聚類方法對全部樣本的姿態進行了聚類,并從聚類結果中隨機選取了6 個簇,其中每個簇可代表一組有相似姿態的樣本。 之后分別采用基準方法SimpleBaseline 與所提出的L-SRM 提取所有樣本的特征。 對于每個樣本,本實驗提取其在網絡C5層的特征,并采用t-SNE 算法[37]將所有的特征降到二維進行可視化。 如圖7 所示,顯而易見,相比SimpleBaseline 提取的特征,L-SRM 提取的特征擁有對姿態更強的判別性,從而證實了判別性學習對于人體姿態估計算法的重要意義。

圖7 不同方法的高層特征降維可視化對比Fig.7 Visualization of the high-level features of different methods

3.5 對比實驗

驗證集結果分析: 本實驗在 MS-COCO 的val2017 驗證集上將本文所提出的方法與現有主流方法進行了性能對比,如表5 所示。 為了公平,所有方法的主干網絡均采用50 層的殘差網絡[27]。 本實驗選取了256 pixel×192 pixel 和384 pixel×288 pixel兩種尺度的輸入圖片,以進行更全面的對比。 由表5可以看出,在基準方法中加入G-SRM 可在256 pixel×192 pixel 的輸入圖片尺度下將mAP 從70.4 提升到71.4,在384 pixel×288 pixel 的輸入圖片尺度下將mAP 從72.2 提升到72.9。 該現象證實了引入判別學習對于算法性能提升的有效性。 當使用L-SRM替換G-SRM 時,在256 pixel×192 pixel 輸入圖片尺度下算法的mAP 從71.4 進一步提升到了73.2,在384 pixel×288 pixel 輸入圖片尺度下算法的mAP 從72.9 進一步提升到了74.5。 該結果說明,基于關節點特征的優化方案克服了基于整體姿態特征優化方案的缺點,從而得到了更高的性能增益。 最終本方法在該驗證集上取得了所有同期方法中的最佳性能。

表5 不同方法在MS-COCO 驗證集(val2017)上性能對比Tab.5 Performance on the MS-COCO evaluation set (val2017)

測試集結果分析:除了在上述驗證集上的性能對比實驗以外,同樣在MS-COCO 測試集上對本方法與更多不同類型的方法進行了全面的性能對比。為了公平,本實驗只對比了僅使用MS-COCO 標準訓練集進行訓練的方法。 為了驗證本方法在更強主干網絡下的有效性,實驗將主干網絡替換為特征表達能力更強的152 層殘差網絡,并使用尺度為384 pixel×288 pixel 的輸入圖片用于訓練和測試。 如表6 所示,即使152 層的殘差網絡已經擁有很強的特征表達能力和魯棒性,本文所提出的L-SRM 仍然將其mAP 性能從73.7 提升到了75.3。 最終,本方法在性能上顯著超越了所有以殘差網絡為主干的現有方法。

表6 不同方法在MS-COCO 測試集(test-dev)上性能對比Tab.6 Performance on the MS-COCO test set (test-dev)

4 結束語

在人體姿態估計領域中,基于響應圖回歸的深度學習方法雖占據主導地位,但其優化方式對訓練數據多樣性有較強的依賴。 真實世界中的訓練集遠遠無法為每種姿態形式都涵蓋表觀變化豐富的樣本,影響了網絡在未知樣本上的泛化能力。 基于上述問題,為了利用有限的訓練數據增強網絡對姿態識別的魯棒性,在現有回歸任務訓練方法的基礎上,進一步對樣本間的姿態相似度信息進行挖掘,并提出在回歸網絡中引入度量學習方法來優化高層特征對人體姿態的判別性。 同時,為了更好地在人體姿態估計的框架下建模該判別學習任務,進一步提出了基于點特征優化的L-SRM。 通過在公開人體姿態數據集MS-COCO 和CrowdPose 上的實驗驗證,本文所提方法在相同主干網絡下取得了所有算法中最好的性能,且有效提升了在跨域數據集上的泛化性能。

猜你喜歡
特征優化方法
超限高層建筑結構設計與優化思考
房地產導刊(2022年5期)2022-06-01 06:20:14
民用建筑防煙排煙設計優化探討
關于優化消防安全告知承諾的一些思考
一道優化題的幾何解法
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 亚洲第一综合天堂另类专| 久久国语对白| 国产三级韩国三级理| 刘亦菲一区二区在线观看| 国产精品观看视频免费完整版| 国产精品综合色区在线观看| 亚洲午夜片| 国产精品亚洲专区一区| 亚洲女同一区二区| 日韩中文字幕亚洲无线码| 国产精品区视频中文字幕| 亚洲视频在线网| 国产女人综合久久精品视| 一区二区三区精品视频在线观看| 中文字幕第1页在线播| 99精品在线看| 国产精品久久久久无码网站| 四虎成人精品在永久免费| 精品伊人久久久久7777人| 无码网站免费观看| 亚洲av片在线免费观看| 国产精品55夜色66夜色| 国产欧美日韩另类精彩视频| 亚洲免费黄色网| 国产永久免费视频m3u8| 亚欧美国产综合| 国产精品白浆在线播放| 久久黄色免费电影| 被公侵犯人妻少妇一区二区三区| 亚洲一区二区三区国产精品| 午夜福利视频一区| 91青青在线视频| 日韩欧美视频第一区在线观看| 国产一级一级毛片永久| 伊人久久婷婷| 亚洲性日韩精品一区二区| 中文字幕丝袜一区二区| 久久久久国色AV免费观看性色| 国产H片无码不卡在线视频 | 久久综合一个色综合网| 亚洲六月丁香六月婷婷蜜芽| 久一在线视频| 午夜视频日本| 国产丝袜第一页| 拍国产真实乱人偷精品| 久久久四虎成人永久免费网站| 日本在线国产| 亚洲成aⅴ人片在线影院八| 成人夜夜嗨| 一本色道久久88综合日韩精品| 手机在线看片不卡中文字幕| 国产91视频免费| 日本a级免费| 国产综合欧美| 国产第四页| 亚洲区视频在线观看| 91视频青青草| 99re在线视频观看| 欧美a√在线| 国产精品亚洲天堂| 亚洲色图欧美视频| 国产精品13页| 亚洲IV视频免费在线光看| 免费亚洲成人| 亚洲欧洲综合| 色一情一乱一伦一区二区三区小说| 欧美a级完整在线观看| 亚洲第一色网站| 国产91精品调教在线播放| 中文字幕丝袜一区二区| 国产精品福利导航| 好吊日免费视频| 中日韩欧亚无码视频| 日韩天堂视频| 91精品国产综合久久不国产大片| 丰满的熟女一区二区三区l| 亚洲中文字幕日产无码2021| 91在线国内在线播放老师| 五月激情综合网| 国产精品浪潮Av| 粗大猛烈进出高潮视频无码| 极品av一区二区|