彭 然, 劉愛豐, 李斐逸, 劉 揚, 范冰冰, 劉美奇
(四川農業大學 信息工程學院, 四川 雅安 625014)
皮影戲是中國民間古老的傳統藝術,老北京人都將其稱為“驢皮影”。 據史書記載,皮影戲始于西漢,興于唐朝,盛于清代,元代時期傳至西亞和歐洲,可謂歷史悠久,源遠流長。 改革開放之后,皮影戲日漸式微,現在因受國家“非遺法”的保護,減緩衰萎的速度[1]。 在以往對皮影和人的動作捕捉方法中,主要通過動畫捕捉完成動作映射[2],但成本較高且實現不易。 在計算機視覺技術飛速發展的條件下,本文提出了一種使用卷積神經網絡方法來捕捉人物模型動作,大大提升了動作映射的效率。 通過此方法,極易將熱門視頻轉化為皮影圖像,引發人們對傳統皮影技藝的興趣,保護皮影藝術。
為了得到更好的模型效果,研究中采用MPII 數據集對骨骼關鍵點進行提取,MPII 是用于評估人體姿勢估計的數據集以及相關基準,擁有約2.5 萬張圖像,并且包含超過4 萬名具有注釋關節的人,該數據集利用人類活動的既定分類法系統化收集圖像。 表1 包含有用于訓練或驗證的圖像數量的信息。

表1 數據集圖片數量Tab.1 Number of picture sets
所使用的圖像示例,如圖1 所示。 圖像以JPG格式進行存儲。

圖1 顯示人體姿態圖像示例Fig.1 An example of a human attitude image
在本文的圖像預處理中,著重探討論述的是暗通道去霧。 研究中,MPII 數據集每張圖片均來自YouTube 視頻,圖片的清晰度往往受外界環境影響,進而影響模型識別和判斷結果。 為了進一步提高模型的精度,更好地擬合模型狀態,研究擬采用暗通道去霧算法[3]后得到的圖像數據。
在圖像的大多數局部區域,某些像素始終至少有一個值非常低的彩色通道,而此區域的最低光強度是很小的數字。 暗通道的數學定義,對于任何輸入圖像J,暗通道可以表示為:

當Jc表示彩色圖像的每個通道時,Ω(x) 表示以像素X為中心的窗口暗通道先驗理論,由此可以得到:

計算機視覺中的霧圖生成模型可寫為: 其中,I(x) 為無霧圖像;J(x) 為待恢復的原始無霧圖像;A為全球大氣光分量;t(x) 為透射率。 由現有的I(x),即可求得J(x)。
在此基礎上,將其轉換為如下公式:

如果C表示3 個通道,假設每個窗口中的傳輸是恒定的,并定義為t^(x),還給出了A值,則需要執行2 個最小操作,即:

上述是需要尋找的無霧圖像,因此其暗通道應滿足前一種情況:

可以得到如下公式:
引入要尋求的公式可以得出估計的結果為:

圖像增強效果如圖2 所示。

圖2 暗通道去霧后展示圖像Fig.2 The image is displayed after the dark channel is de-fogged
研究中,采用CNN 模型SimplePose,實現自上而下、即先找到人體,再判斷關節點歸屬的人體骨骼關鍵點檢測(Pose Estimation),網絡結構在ResNet 后加上幾層反向卷積(Deconvolution)直接生成熱力圖,相比Hourglass,CPN 等其他模型,使用Deconvolution 替代了上采樣結構。 網絡結構如圖3 所示。

圖3 SimplePose 網絡結構圖Fig.3 SimplePose network structure
這里值得一提的是,在ResNet 的基礎上,取最后殘差模塊輸出特征層(命名C5), SimplePose 采用Deconv 擴大特征圖的分辨率。 Deconvolution 模型如圖4 所示。

圖4 Deconvolution 模型Fig.4 Deconvolution model
與其他經典算法性能對比[4]參見表2。

表2 與其他算法性能對比Tab.2 Performance comparison with other algorithms

根據文獻[4]的實驗數據,研究得到的仿真結果參見表3,研究中又調整了輸入圖片尺寸。

表3 輸入圖片大小對網絡模型效果的影響對比Tab.3 Comparison of the influence of the input image size on the effect of the network model
故研究中選取ResNet-50 作為Backbone,如圖5 所示。

圖5 ResNet-50 網絡結構圖Fig.5 ResNet-50 network structure
將輸入圖像大小拓展至384×288 像素。 使用超微分圖像超分辨率重建算法(SRResNet 算法)[5],SRResNet 使用深度殘差網絡來構建超分重建模型,主要包含2 部分:深度殘差模型、子像素卷積模型。深度殘差模型用來進行高效的特征提取,可以在一定程度上削弱圖像噪點。 子像素卷積模型主要用來放大圖像尺寸。 模型框架如圖6 所示。

圖6 SRResNet 網絡結構Fig.6 SRResNet network structure
圖6 中,k表示卷積核大小,n表示輸出通道數,s表示步長。 除了深度殘差模塊和子像素卷積模塊以外,在整個模型輸入和輸出部分均添加了一個卷積模塊用于數據調整和增強。 擴充圖結果如圖7 所示。

圖7 擴充前后圖像對比Fig.7 Image comparison before and after expansion
對人體骨骼關鍵點檢測結果示例如圖8 所示。

圖8 骨骼關鍵點檢測示例Fig.8 Example of bone key detection
通過獲取到的骨骼關鍵點,確定各個關節的位置,將人體關節與相應的皮影圖片進行匹配,計算位置與旋轉方向,達到人體活動與皮影運動同步,進行動作捕捉。 從而促進中國傳統技藝皮影戲的傳承。
通過2 個骨骼關鍵點可以確認肢體的長度和旋轉角度,由于皮影面是二維平面, 只需對應平面的(x,y) 方向上的坐標,設2 個點的坐標分別為(x1,y1)、(x2,y2),計算旋轉角,將皮影素材圖像按旋轉角中心旋轉,再計算2 個關鍵點間的位移,得到映射點位置。 并將各個素材圖片映射到對應的肢體上,達到動作映射的效果,如圖9 所示。

圖9 皮影圖像映射過程Fig.9 Shadow image mapping process
將視頻逐幀切割,并逐張映射為皮影圖像,最后按幀聚合組裝成皮影戲視頻。
本次實驗,選取單幀圖像作為皮影映射后的展示圖,如圖10 所示。

圖10 單幀皮影展示圖Fig.10 Single frame shadow display
本文針對基于SimplePose 優化算法的皮影保護技術進行討論與分析。 文中,先是提出了實驗選用的數據集,接著對圖像預處理中的暗通道去霧技術進行了整體闡述,然后又對網絡結構及數據再處理展開了深入的研究,并對每一步都給出了詳盡說明。在此基礎上,將本文的研究方法運用在皮影戲的制作中,最終得到了較為滿意的仿真效果。 本文研究成果有益于傳統皮影戲的保存和傳承,具有重要的現實意義。