謝歡,劉純平,季怡
(蘇州大學計算機科學與技術學院,江蘇 蘇州 215006)
足球是全世界最受歡迎的運動之一,三維(3D)轉播給觀眾提供了更好的觀賽體驗。2010 年,天空電視臺使用三維專業攝像機拍攝并進行轉播,但觀眾需要戴上特殊的三維眼鏡來觀看比賽,而且利用當時的技術僅能生成一個固定視角的小范圍的三維立體效果。若要帶給觀眾更好的觀賽體驗,則需要對整個場景進行三維重建,從而使觀眾能任意切換視角,不遺漏每一個精彩瞬間。因此,隨著計算機視覺三維重建技術的發展,實現足球比賽的三維重建是一個具有重要意義的研究方向。在足球比賽場景中球員是非常重要的目標,足球球員的三維姿態和體型估計是關鍵環節。
人體三維姿態和體型估計在增強現實和計算機游戲中有著廣泛的應用。人體三維姿態和體型估計根據是否使用參數化人體模型可劃分為兩類,即非參數化人體模型和參數化人體模型,其中,非參數化人體模型使用體素占用柵格[1-2]或者三維網格[3-4]來表示人體,參數化人體模型是近年來的研究熱點。ANGUELOV等[5]提出數據驅動方法(SCAPE)用于人體體型建模,SCAPE 學習了兩個單獨的模型,一個對人體表面的非剛性形變建模,另一個對體型的變化建模。隨后,許多在SCAPE 的基礎上的改進方法被提 出,例 如S-SCAPE[6]和Breath-SCAPE[7]。LOPER等[8]提出一個蒙皮多人線性(SMPL)模型,SMPL 模型使用一個函數來表示人體的各種體型和姿態,其中表示體型的參數和表示姿態的參數是可以分離的。PAVLAKOS等[9]將SMPL 擴展到SMPL-X,通過增加手部、腳部和臉部的特征點來細化手腳和臉部的表示。在SMPL 模型的基礎上,大量基于學習的方法[10-12]被提出。基于學習的方法具有以下特點:具有較好的性能,推理速度較快,但是依賴于大型的三維人體數據集;精度受數據集的影響較大,在數據集中的姿態和體型的多樣性直接影響模型所產生結果的精度;使用深度神經網絡來預測參數化人體模型的相關參數。在基于學習的方法中的一些方法使用整個彩色圖像作為輸入[13-15],另一些方法使用從圖像中生成的中間表示作為輸入,例如人體關節點[16]、稠密相關關系[17-18]、剪影[19-20]、人體部件[21-22]和紋理坐標[23]。此外,還有一些研究人員提出了基于優化的方法,將人體模型投影到二維(2D)平面,并與所觀測到的二維特征進行擬合,其中的二維特征主要包括人體關節點[24-25]、剪影[26]和身體部位[21]。上述基于優化的方法可以在不需要三維標注的情況下生成可信的結果,但其中有一些方法在多視圖圖像[27]或者視頻[28]中進行優化,利用人物姿態在時間域上的連續性以及體型的一致性實現三維重建。
人體數據集也是三維重建的關鍵,目前主要有UP-3D[26]和Human3.6M[29]。由于建立這樣的數據集需要使用數量眾多的硬件設備,因此這兩個數據集的規模較小。例如,Human3.6M 只有11 個演員,而全世界大約有13 萬名專業足球球員。同時,足球球員的一些專業動作,例如帶球、頭球和守門,在這些數據集中往往比較少出現。因此,基于學習的方法很難精確預測足球球員的三維姿態和體型。足球比賽通常以單視角視頻的形式呈現,IPL Azadi Soccer數據集[30]是一個多視圖的足球比賽數據集,但是圖像分辨率較低并且不提供公開的訪問和下載。同時,由于足球場地相對較大,使得足球球員在轉播視圖中的相對尺寸很小,而攝像機和球員之間的相對運動產生了大量的運動模糊,從而影響了對球員三維姿態和體型的精確估計。
針對上述問題,本文提出基于單-多視圖優化的三維姿態和體型估計方法。對采集到的多視圖圖像使用目標檢測網絡(Faster R-CNN)[31]裁剪出球員圖像,并且使用二維關節點檢測方法(Detectron2)[32]檢測球員的二維關節點,同時通過人工標注方式對被遮擋和低分辨率圖像的二維關節點進行修正。在此基礎上,利用SMPL 模型將球員的三維姿態和體型參數映射成對應的二維關節點,使二維關節點與標注值的差異最小化。本文主要貢獻如下:1)構建了一個足球球員多視圖數據集;2)為增強立體感知,提出基于單視角和多視角聯合優化的足球球員三維姿態和體型評估方法,利用單視角優化縮小了三維模型與二維圖像之間的差異,采用多視角優化統一了同一個球員的三維姿態和體型;3)通過實驗證明了單-多視圖優化方法生成的足球球員三維姿態和體型結果優于對比方法。
SMPL 模型[8]是一個參數化人體模型,提供的人體各部分參數的平均值是從大量的人體三維模型中學習而來的,這些人體模型具有不同的姿態并進行了對齊操作。該模型使用的三維網格具有6 890 個頂點,并且可以通過一個可微的函數M(θ,β,γ)來表示,其中,姿態參數θ?R69表示23 個人體關節的旋轉角度,γ?R3表示人體在根節點上的整體旋轉角度,體型參數β?R10表示人體的主成分分析系數。同時,人體關節點的三維坐標可以用一個線性函數來表示,其中的參數就是人體的姿態參數和體型參數。關節點的三維坐標又可以通過正交投影變換為二維坐標,從而使整個過程是可微的。因此,SMPL模型既可以用于基于優化的方法,又可以用于基于學習的方法。
游戲行業發展非常迅速,目前游戲中提供的場景細節非常真實,被計算機視覺相關研究所應用。RICHTER等[33]從《俠盜飛車5》中為25 000 張圖像生成了像素級別的語義分割標注。同時,足球游戲也引起了研究人員的關注[34-35],他們使用DirectX 工具從游戲中提取場景圖像對應的深度圖。REMATAS等[35]提出一個對足球場景進行三維重建的方法,但其中對于球員的重建僅由深度圖實現。然而,由低分辨率的深度圖轉換成點云后再增加三維表面而生成的人體三維模型通常會缺失人體被遮擋部件。
優化技術是指尋找一種解決方案,使某些特定的參數最大化或者最小化。優化技術可以應用在很多領域,例如使生產產品的成本最小化而利潤最大化、使研發新產品時所使用的原材料最小化或者使產能最大化。在深度神經網絡中,優化器是指可以更新神經網絡的參數的算法,用于減少損失和提升精度。Adam 優化器[36]對每個參數使用同一個學習率,這個學習率會隨著學習的進行而產生自適應的變化,同時利用動量算法來融合梯度的歷史信息。Adam 優化器可用于解決很多問題,包括帶噪聲梯度的模型,并且其易于精調。
在足球場景中足球運動員和足球本身都是小目標,遮擋和不同角度下的姿態是普遍存在的,本文提出一種單視圖與多視圖聯合優化的足球球員三維姿態和體型估計方法,總體框架如圖1 所示(彩色效果見《計算機工程》官網HTML 版,下同)。該方法包括5 個步驟:1)對球員的多視圖圖像使用Faster RCNN[31]裁剪出單 個球員;2)使用Detectron2[32]提取球員的二維關節點并對結果進行人工標注,得到標注后的二維關節點;3)使用訓練好的部分注意力回歸的三維人體估計模型(PARE)模型[22]產生初始的三維姿態和體型估計結果;4)使用SMPL 模型和標注的二維關節點進行單視圖優化;5)使用多視圖優化方法融合單視圖優化結果,使融合后的結果投影生成的二維關節點與標注的二維關節點在多個視圖上的差異最小化。

圖1 足球球員三維姿態和體型估計總體框架Fig.1 Overall framework of 3D pose and body shape estimation of soccer players
在獲取圖像的基礎上,選擇估計的三維人體模型在二維平面上投影的關節點與從圖像上標注的人體二維關節點之間的差異作為優化目標。相對于稠密相關關系、剪影、人體部件和紋理坐標,二維關節點相對容易標注。二維關節點只需要確定16 個坐標,而其他二維觀測值則要進行像素級別的標注。使用Detectron2[32]中的人體關節點循環神經網絡提取球員的二維關節點,其中關節點的分布如圖2 所示。在關節點清晰可見的情況下,該方法能夠取得較好的效果,如果關節點被遮擋或者圖像較模糊,生成的結果則不一定準確,例如圖像上只能看到球員的背面,球員面部的關節點有可能錯位,圖像模糊時會把左腳和右腳上的關節點搞混。人工標注方法可以利用經驗和多視圖融合來判斷關節點的位置,例如可以通過頭部的形狀確定鼻子和眼睛的位置,通過手臂的延伸確定手腕的位置,同時可以參考多視圖圖像來確定被遮擋關節點的正確位置,但是人工標注方法需要大量的人力物力,且標注速度慢,無法滿足大規模標注的需求。

圖2 人體二維關節點示例Fig.2 Example of human body 2D joint points
首先,使用訓練好的PARE 模型[22]生成SMPL 參數的初始估計,輸入為球員圖像,輸出為SMPL 參數和相機位姿參數。由于圖像裁剪時沒有使用固定的比例,因此需要對結果中的相機參數進行優化。因為人體姿態參數的旋轉向量在歐幾里得空間上是不連續的,所以將其轉換成連續的六維旋轉表示[37],以適應接下來的優化操作。假設攝像機始終對準球員,攝像機的旋轉矩陣可以定義為單位矩陣,只需要考慮球員自身的旋轉。相機的位置參數P由一個3×1的向量(s,tx,ty)表示,其中,s代表縮放參數,tx和ty分別表示相機在x和y方向上的位移。初始估計的結果在圖像上的投影與實際的二維圖像會有差異,因此需要對初始估計的參數進行優化。
然后,利用單視圖優化操作使人體三維模型關節點的二維投影與實際的二維關節點差異最小。在休息姿態下,人體模型的頂點可以定義如下:
其中:β表 示SMPL 的體型參數;|β|表示參 數的數量,這里取10;S表示人體模型頂點位移的正交主分量。
將休息姿態下的三維關節點定義如下:
將休息姿態下的三維關節點轉換為實際姿態下的三維關節點的函數定義如下:
其中:G表示剛性變換,根據姿態參數中的旋轉角度對每個關節點執行相應的旋轉操作。
最后,通過正交投影將三維關節點投影到圖像平面上生成預測的二維關節點J2pDre。優化的目標函數可以定義如下:
單視圖優化使預測的二維關節點擬合實際觀測到的二維關節點,但是同一個球員在不同視圖上得到的姿態和體型參數是不一致的,這與同一名球員在不同視圖上具有相同的姿態和體型的事實相違背,因此需要多視圖優化來融合多個視圖之間的信息。
受到三維模型投影到二維平面所產生的信息損失的影響,單視圖優化的結果往往會過度擬合二維信息以取得更優的得分,而多視圖優化可以從多個視圖上恢復損失的三維信息,避免上述問題。多視圖優化的基礎是同一名球員在不同視圖上具有相同的姿態和體型。多視圖優化將同一名球員在5 個視圖上的單視圖優化結果的姿態和體型參數的平均值作為輸入,同時在多個視圖上擬合二維關節點,從而得到最優的姿態和體型參數。
足球游戲《FIFA 21》在回放中可以調整到不同的視圖,其中電視視圖是游戲中經常使用的視圖,攝像機沿足球場的邊界跟隨足球平行移動。在現實中足球轉播的主要視圖是轉播視圖,攝像機位于足球場看臺中部,隨著足球的移動而產生左右和上下的旋轉。《FIFA 21》中同時提供了環繞視圖,可以定位到單個目標上,并且可以進行放大、縮小和旋轉操作。在不同視圖下采集到的圖像如圖3 所示。

圖3 足球游戲《FIFA 21》中的不同視圖Fig.3 Different views in the soccer game FIFA 21
本文主要采集轉播視圖和環繞視圖的圖像。首先,從轉播視圖上采集球員圖像,從環繞視圖上對每名球員采集4 幅圖像,這4 幅圖像所選擇的角度是通過人工觀察來確定的,確保盡可能地觀測到手、腳和頭部,這樣場上的22 名球員共有88 幅圖像。然后,使用Faster R-CNN 方法[31]檢測圖像中的球員并標注包圍框。最后,對轉播視圖和環繞視圖上的球員進行配對,只保留在轉播視圖中出現的球員。
自建的足球球員多視圖數據集包含《FIFA 21》中的50 場歐洲冠軍聯賽,每場比賽截取5 個場景,共250 個場景,3 300 名球員。為了增加球員的多樣性,其中,30 場比賽使用的是原歐洲冠軍聯賽球隊,另外20 場比賽使用隨機的球隊。
在單視圖上對二維關節點使用均方根誤差(RMSE)作為評價指標(該指標越低,估計方法的性能越好),對剪影使用交并比(IoU)作為評價指標(該指標越高,估計方法的性能越好)。對于三維重建精度的度量,將單視圖姿態和體型估計結果應用到其他視圖上進行交叉驗證。
二維關節點檢測結果和人工標注結果如圖4 所示,其中紅色方框標注了檢測結果中的錯誤。在圖4(a)中,從左到右分別為面部關節點錯位、左右腳踝錯位和手腕關節點錯位,產生的原因分別為人臉正面不可見、圖像模糊和手腕被身體遮擋。在圖4(b)中,人工標注根據經驗和多視圖圖像來判斷關節點的正確位置。

圖4 二維關節點檢測結果Fig.4 2D joint point detection results
使用訓練好的PARE 模型獲得球員的三維姿態和體型的初始估計,球員圖像和人體模型的差異如圖5所示。由圖5 可以看出,從二維圖像上通過基于學習的方法生成的人體模型在圖像平面上的投影與實際圖像存在明顯的偏移。這是由于數據集中球員圖像不但有人側身行走時的腿部姿態,而且還有將身體扭轉了一定的角度以便更好地觀察球場內情況的姿態,而PARE模型僅考慮了腿部的姿態,忽略了手的位置。

圖5 三維姿態和體型的初始估計誤差Fig.5 Initial estimation error of 3D pose and body shape
單視圖優化能較好地擬合二維關節點,但是造成了三維信息的損失,而且單視圖優化沒有考慮視圖之間的關系,使得一個視圖上的三維姿態和體型投影到其他視圖上時與實際圖像有很大的差異。圖6 展示了將其中一個視圖的結果應用到其他視圖上的可視化差異,其中,第1 行為球員圖像,第2~5 行分別將單視圖的三維姿態和體型優化結果應用到所有其他視圖上。可以看出,生成的人體模型渲染圖像在本視圖(紅框)上幾乎與圖像完全重疊,而在其他視圖上則會有較大的差異。

圖6 單視圖優化結果應用到其他視圖上的差異比較Fig.6 Comparison of differences by applying single-view optimization results to other views
在進行多視圖優化時使用3 種不同的方法:1)使用初始估計結果在4 個視圖上進行多視圖優化;2)使用初始估計結果在5 個視圖上進行多視圖優化;3)使用單視圖優化結果在5 個視圖上進行多視圖優化。實驗先進行單視圖優化,再在所有視圖上進行多視圖優化取得最優的效果,結果如表1 所示,其中最優指標值用加粗字體標示。

表1 多視圖優化結果Table 1 Results of multi-view optimization
將所提方法與人體網格恢復(HMR)[13]、在循環中優化SMPL(SPIN)[14]、PARE[22]和真實精確姿態和形狀的合成訓練(STRAPS)[24]方法進行比較,在單視圖上的比較結果如表2 所示,在多視圖上的比較結果如表3 所示,其中,STRAPS 方法[24]使用人體二維關節點和剪影作為輸入,其他方法使用彩色圖像作為輸入。由于統一了多個視圖上的姿態和體型,因此在單視圖和多視圖上的結果是一致的。

表2 所提方法與其他方法在單視圖上的比較Table 2 Comparison of the proposed method with other methods on single-view

表3 所提方法與其他方法在多視圖上的比較Table 3 Comparison of the proposed method with other methods on multi-views
圖7 展示了球員的三維姿態和體型的可視化結果,其中,第1~3 行為環繞視圖圖像,第4~6 為轉播視圖圖像。實驗結果表明,多視圖優化方法不僅提升了二維關節點和剪影的擬合度,同時將多個視圖中球員的三維姿態和體型進行了統一,提高了三維重建精度。

圖7 所提方法與其他方法的可視化結果比較Fig.7 Comparison of visualization results of the proposed method with other methods
本文提出基于單-多視圖優化的足球球員三維姿態和體型估計方法,利用參數化人體模型的可微性分別在單視圖和多視圖上融合了球員的二維關節點信息,使同一球員的三維姿態和體型在多個視圖上得到統一,同時從游戲中構建一個足球球員多視圖數據集。在自建的足球球員多視圖數據集上的實驗結果表明,所提方法能從多視圖圖像中有效地估計球員的三維姿態和體型,相比于其他方法更能擬合圖像上的二維信息,提高了二維關節點的預測精度。但由于基于單-多視圖優化的三維姿態和體型估計方法比較耗時,后續將在該方法的數據基礎上使用基于學習的方法來學習并建立足球球員三維姿態和體型估計模型,并將其應用到真實的足球比賽場景中。