












摘" 要: 針對(duì)復(fù)雜動(dòng)作本身的高動(dòng)態(tài)性和多樣性,傳統(tǒng)的圖像處理方法難以準(zhǔn)確捕捉其輪廓,文中研究基于條件GAN的復(fù)雜動(dòng)作圖像輪廓智能捕捉方法,精準(zhǔn)了解動(dòng)作執(zhí)行情況。該方法利用像素覆蓋分割模型來(lái)分割原始復(fù)雜動(dòng)作圖像,獲取復(fù)雜動(dòng)作目標(biāo)圖像,將其作為約束條件輸入生成器,經(jīng)過編解碼器處理后輸出虛假?gòu)?fù)雜動(dòng)作圖像輪廓生成結(jié)果,判別器將生成器輸出的虛假輪廓和真實(shí)復(fù)雜動(dòng)作圖像輪廓作為輸入,在損失函數(shù)作用下進(jìn)行真假判別,并采用反向傳輸?shù)姆绞綄?duì)生成器和判別器的參數(shù)進(jìn)行迭代更新,實(shí)現(xiàn)最佳復(fù)雜動(dòng)作圖像輪廓智能捕捉。結(jié)果顯示:該方法可以有效捕捉不同類型的復(fù)雜動(dòng)作圖像輪廓,通過消融實(shí)驗(yàn)證明,改進(jìn)后的條件GAN模型可顯著提升捕捉到的圖像輪廓的平滑度和形狀保持性,為捕捉復(fù)雜動(dòng)作圖像輪廓提供了一種新方法。
關(guān)鍵詞: 條件GAN; 復(fù)雜動(dòng)作圖像; 輪廓捕捉; 生成器; 判別器; 損失函數(shù); 圖像分割
中圖分類號(hào): TN957.51?34; TP183" " " " " " " " " " 文獻(xiàn)標(biāo)識(shí)碼: A" " " " " " " " "文章編號(hào): 1004?373X(2024)17?0094?04
Research on complex action image contour intelligent capture based on conditional GAN
FAN Mengmeng
(Jishou University, Jishou 416000, China)
Abstract: The complex actions are of high dynamics and diversity, so it is difficult for the traditional image processing methods to capture the contours of the action images accurately. In view of this, a complex action image contour intelligent capture method based on conditional GAN (generative adversarial network) is studied for accurate understanding of the action execution. In this method, a pixel coverage segmentation model is used to segment the original complex action image in order to obtain the complex action object image, which is taken as a constraint condition and input into the generator. After the input image is processed by the encoder?decoder of the generator, the 1 complex action image contour generation result is outputted. The discriminator takes the 1 contour outputted by the generator and the true complex action image contour as the inputs, and performs true 1 discrimination under the action of the loss function. The parameters of the generator and discriminator are updated by reverse transmission iteratively, which aims to capture the optimal complex action image contour intelligently. The results show that the method can capture different types of contours of complex action images effectively. It has been proved by ablation experiments that the improved conditional GAN model can perfect the contour smoothness significantly and shape preservation property of the captured images. To sum up, it provides a new method for capturing the contour of complex action images.
Keywords: conditional GAN; complex action image; contour capture; generator; discriminator; loss function; image segmentation
0" 引" 言
隨著計(jì)算機(jī)視覺技術(shù)的快速發(fā)展,復(fù)雜動(dòng)作圖像輪廓的智能捕捉成為了圖像研究領(lǐng)域的熱點(diǎn)之一[1?2]。在體育分析、運(yùn)動(dòng)訓(xùn)練、視頻分析、動(dòng)畫制作等領(lǐng)域,精確捕捉圖像中的復(fù)雜動(dòng)作輪廓對(duì)于理解和應(yīng)用這些動(dòng)作信息至關(guān)重要。然而,由于復(fù)雜動(dòng)作本身的高動(dòng)態(tài)性和多樣性,傳統(tǒng)的圖像處理方法往往難以準(zhǔn)確捕捉其輪廓,這限制了相關(guān)應(yīng)用的發(fā)展[3]。因此,研究一種能夠智能捕捉復(fù)雜動(dòng)作圖像輪廓的方法具有重要意義。
對(duì)此,文獻(xiàn)[4]通過建立人體姿態(tài)模型提取人體姿態(tài)特征,并利用肢體動(dòng)作輪廓捕捉模型,捕捉完整肢體動(dòng)作輪廓。但是該方法對(duì)噪聲和遮擋缺乏敏感性,會(huì)嚴(yán)重干擾該方法的姿態(tài)特征提取效果,從而影響肢體動(dòng)作輪廓捕捉的準(zhǔn)確性。文獻(xiàn)[5]利用改進(jìn)Canny算法捕捉人臉圖像邊緣輪廓,其中動(dòng)態(tài)閾值以及梯度方向數(shù)量?jī)蓚€(gè)約束的引入,極大程度提升了捕捉到圖像輪廓的精度和效率,雖然該算法在紅外人臉圖像上的應(yīng)用取得了良好的效果,但是人臉圖像的復(fù)雜度較高,面對(duì)復(fù)雜動(dòng)作圖像時(shí),其泛化能力受限。文獻(xiàn)[6]采用Gaussian分布函數(shù)清晰化表達(dá)圖像輪廓信息,以此為基礎(chǔ),構(gòu)建恒定尺度與對(duì)比度圖像輪廓捕捉器,獲取圖像輪廓信息。但是該方法受限于圖像輪廓的捕捉效率,無(wú)法實(shí)現(xiàn)大批量復(fù)雜動(dòng)作圖像的輪廓捕捉操作。文獻(xiàn)[7]利用基于標(biāo)記和檢測(cè)線的數(shù)字圖像邊緣檢測(cè)算法,通過從標(biāo)記點(diǎn)向外延伸多條檢測(cè)線,將二維圖像輪廓檢測(cè)轉(zhuǎn)化為一維空間進(jìn)行分析處理。結(jié)合基于突變點(diǎn)檢測(cè)的輪廓校正算法對(duì)錯(cuò)誤捕捉點(diǎn)進(jìn)行修正,并通過輪廓重建恢復(fù)被覆蓋的圖像輪廓,實(shí)現(xiàn)輪廓完整捕捉。但是該方法是針對(duì)靜態(tài)圖像進(jìn)行輪廓捕捉,面對(duì)復(fù)雜動(dòng)態(tài)圖像,其缺乏自適應(yīng)性,無(wú)法解決復(fù)雜動(dòng)作環(huán)境的影響,容易受背景因素干擾,影響最終的輪廓智能捕捉效果。
條件生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network, GAN)作為一種強(qiáng)大的生成模型,具有出色的生成能力和對(duì)特定條件的響應(yīng)性[8?9]。通過引入條件信息,條件GAN能夠生成符合特定要求的圖像輪廓,這使得它成為復(fù)雜動(dòng)作圖像輪廓捕捉的理想選擇。具體而言,條件GAN可以根據(jù)輸入的圖像和相關(guān)的條件信息(如動(dòng)作類別、時(shí)間信息等)生成精確的復(fù)雜動(dòng)作輪廓。這種方法的優(yōu)勢(shì)在于能夠充分利用深度學(xué)習(xí)的特征學(xué)習(xí)能力,自動(dòng)提取圖像中的關(guān)鍵信息,并生成高質(zhì)量的輪廓。為此,本文提出基于條件GAN的復(fù)雜動(dòng)作圖像輪廓智能捕捉方法,為相關(guān)應(yīng)用提供了有力的技術(shù)支持。
1" 復(fù)雜動(dòng)作圖像輪廓智能捕捉
1.1" 改進(jìn)條件GAN模型
利用改進(jìn)條件GAN模型實(shí)現(xiàn)復(fù)雜動(dòng)作圖像輪廓的智能捕捉結(jié)構(gòu)如圖1所示,主要由三部分組成,分別為像素覆蓋分割模型、生成器和判別器。
首先利用像素覆蓋分割模型對(duì)原始的復(fù)雜動(dòng)作圖像進(jìn)行分割,獲取復(fù)雜動(dòng)作目標(biāo)圖像,將其與真實(shí)的復(fù)雜動(dòng)作圖像共同作為條件GAN模型的訓(xùn)練數(shù)據(jù),構(gòu)建訓(xùn)練數(shù)據(jù)集。將復(fù)雜動(dòng)作目標(biāo)視為條件GAN的約束條件,進(jìn)行網(wǎng)絡(luò)對(duì)抗訓(xùn)練。生成器的輸入為像素覆蓋分割模型獲取的復(fù)雜動(dòng)作目標(biāo)圖像[X],在經(jīng)過生成器的編解碼器處理后,會(huì)輸出一個(gè)依據(jù)輸入圖像獲取的虛假圖像輪廓生成結(jié)果[X]。在這一過程中,生成器會(huì)不斷利用[X]進(jìn)行生成器參數(shù)更新,并組合[X]與[X],同時(shí)將其輸入至判別器中,并組合[X]與真實(shí)輪廓[Y],同樣輸入判別器中,判別器輸出經(jīng)損失函數(shù)作用后,采取反向傳輸?shù)姆绞綄?duì)生成器和判別器的參數(shù)進(jìn)行更新,提升條件GAN的圖像輪廓智能捕捉效果。
1.2" 像素覆蓋分割模型
在輪廓捕捉前,利用像素覆蓋分割模型從原始復(fù)雜動(dòng)作圖像中獲取動(dòng)作目標(biāo)圖像,降低背景因素對(duì)復(fù)雜動(dòng)作圖像輪廓捕捉的影響。
用[I]描述原始復(fù)雜動(dòng)作圖像,圖像覆蓋分割、分割類代表分別用[A=αi,jN×m]、[C=cj,km×b]描述,其中,[αi,j]、[cj,k]分別表示像素[i]針對(duì)[Sj]的覆蓋度數(shù)值、第[k]個(gè)頻帶中第[j]類的數(shù)值,為此以[cj,k]不變?yōu)榍疤幔蓪?fù)雜動(dòng)作圖像的像素覆蓋分割模型表示為:
[I≈A?C] (1)
進(jìn)一步將復(fù)雜動(dòng)作圖像的分割視為一個(gè)尋求能量函數(shù)最小化的過程,能量函數(shù)表達(dá)式為:
[DA=I-AC2F] (2)
式中F用于描述Frobenius范數(shù)。
經(jīng)過求解獲取復(fù)雜動(dòng)作目標(biāo)圖像分割結(jié)果[10],將其作為生成器的輸入與約束條件,用于完成圖像輪廓智能捕捉。
1.3" 生成器模型
條件GAN的改進(jìn)主要體現(xiàn)在生成器模型中,包括兩個(gè)方面:其一為在生成器原有的前、后端卷積網(wǎng)絡(luò)之間引入了殘差網(wǎng)絡(luò)進(jìn)行改進(jìn);其二為引入調(diào)層連接。生成器模型如圖2所示。
前端網(wǎng)絡(luò)的主要作用是從輸入復(fù)雜動(dòng)作目標(biāo)圖像中提取圖像特征,并額外加入跳層連接方式避免特征傳輸過程的缺失現(xiàn)象,將特征完整無(wú)誤地傳輸至后端卷積網(wǎng)絡(luò)對(duì)應(yīng)的卷積層中[11]。同時(shí)通過將殘差網(wǎng)絡(luò)加入至編解碼器之間,可以進(jìn)一步對(duì)特征進(jìn)行提取,更好地留存復(fù)雜動(dòng)作圖像的細(xì)節(jié)信息,有利于捕捉更加準(zhǔn)確完整的圖像輪廓。殘差模塊接收前端卷積網(wǎng)絡(luò)從復(fù)雜動(dòng)作目標(biāo)圖像中提取的特征[x],完成特征的進(jìn)一步提取后,將結(jié)果傳輸至后端網(wǎng)絡(luò)執(zhí)行解碼操作,生成復(fù)雜動(dòng)作圖像輪廓[12],表達(dá)式為:
[xi=F(xi-1)×DA] (3)
式中:[xi-1]、[xi]分別用于描述特征[x]在通過殘差塊[i-1]、[i]處理后的狀態(tài)。
1.4" 判別器模型
判別器模型主要負(fù)責(zé)對(duì)生成的復(fù)雜結(jié)構(gòu)圖像輪廓的真假進(jìn)行判別,以便將其與真實(shí)復(fù)雜結(jié)構(gòu)圖像輪廓進(jìn)行區(qū)分。判別器模型為一個(gè)具備5個(gè)卷積層的神經(jīng)網(wǎng)絡(luò),其作為二分類器的存在,同時(shí)具備批處理歸一化層以及LeakyReLU激活函數(shù),用于實(shí)現(xiàn)判別過程的過擬合抑制,并使網(wǎng)絡(luò)快速收斂。經(jīng)卷積層處理后再利用Sigmoid函數(shù)進(jìn)行處理,使結(jié)果歸一化至(0,1)范圍內(nèi)。其中,判別器輸出結(jié)果處于(0.5,1)范圍之內(nèi)、之外分別表示判別結(jié)果為真、假。判別器模型結(jié)構(gòu)如圖3所示。
1.5" 損失函數(shù)
條件GAN的損失函數(shù)在監(jiān)督生成、判別器訓(xùn)練、促進(jìn)兩者對(duì)抗以及確保訓(xùn)練穩(wěn)定性和收斂性等方面都發(fā)揮著重要作用[13]。為此,改進(jìn)條件GAN選取的總損失函數(shù)由網(wǎng)絡(luò)對(duì)抗損失以及邊緣損失組建,表達(dá)式為:
[Lt=xiλaLa+xiλpLp] (4)
式中:[λa]、[λp]分別用于描述損失函數(shù)[La]與[Lp]對(duì)應(yīng)的權(quán)值,且存在[λa+λp=1];[La]用于描述網(wǎng)絡(luò)對(duì)抗損失函數(shù),衡量生成復(fù)雜動(dòng)作圖像輪廓的真假,并加速網(wǎng)絡(luò)收斂;[Lp]用于描述輪廓損失,其作為原始[L1]、[L2]損失函數(shù)的改進(jìn),可以捕捉到細(xì)節(jié)感更強(qiáng)的圖像輪廓,同時(shí)使網(wǎng)絡(luò)捕捉到的圖像輪廓與真實(shí)復(fù)雜動(dòng)作圖像輪廓一致。用生成復(fù)雜動(dòng)作圖像輪廓與真實(shí)復(fù)雜動(dòng)作圖像輪廓經(jīng)卷積處理后的特征矩陣之間的歐氏距離描述[Lp]。[La]的表達(dá)式為:
[La=EX~PX[D(X)]-EX~PX[D(X)]+μEX~PX?XD(X)2-12] (5)
式中:[D(·)]、[E(·)]、[μ]分別用于描述生成器模型、數(shù)學(xué)期望、懲罰系數(shù);[X]、[X]的隨機(jī)采樣結(jié)果用[X]表示;[PX]、[PX]分別用于描述復(fù)雜動(dòng)作目標(biāo)圖像與生成復(fù)雜動(dòng)作圖像輪廓的分布情況;[?XD(X)]表示[D(X)]針對(duì)[X]的偏導(dǎo)結(jié)果。
[Lp]的表達(dá)式為:
[Lp=1w×hEX,Y[?(Y)-?(X)]2] (6)
式中:[?(·)]、[w]、[h]用于描述網(wǎng)絡(luò)經(jīng)卷積處理后得到的特征圖、特征圖對(duì)應(yīng)寬度和高度。
2" 實(shí)驗(yàn)分析
為驗(yàn)證本文研究的基于條件GAN的復(fù)雜動(dòng)作圖像輪廓智能捕捉方法的有效性,實(shí)驗(yàn)選取體育運(yùn)動(dòng)數(shù)據(jù)集Fashion?MNIST中的復(fù)雜動(dòng)作圖像進(jìn)行實(shí)驗(yàn)。其中,數(shù)據(jù)集中包含籃球、足球、網(wǎng)球等10個(gè)類別的復(fù)雜動(dòng)作圖像,每個(gè)類別的訓(xùn)練、測(cè)試樣本數(shù)量分別為5 000個(gè)、1 500個(gè),共計(jì)6 500張復(fù)雜動(dòng)作圖像。
利用實(shí)驗(yàn)數(shù)據(jù)集中的訓(xùn)練樣本對(duì)本文應(yīng)用的改進(jìn)條件GAN進(jìn)行訓(xùn)練,訓(xùn)練完成后從實(shí)驗(yàn)數(shù)據(jù)集中的測(cè)試樣本的籃球類別和網(wǎng)球類別中隨機(jī)選取一張圖像進(jìn)行實(shí)驗(yàn)測(cè)試,圖像如圖4所示。在正式進(jìn)行圖像輪廓智能捕捉之前,本文利用像素覆蓋分割模型對(duì)圖像進(jìn)行分割,獲取復(fù)雜動(dòng)作目標(biāo)圖像如圖5所示。
分析圖5可知,本文方法能夠利用像素覆蓋分割模型從兩種類型的原始復(fù)雜動(dòng)作圖像中獲取復(fù)雜動(dòng)作目標(biāo),將其作為改進(jìn)條件GAN網(wǎng)絡(luò)模型的輸入以及約束條件,獲取的復(fù)雜動(dòng)作圖像輪廓智能捕捉結(jié)果如圖6所示。
分析圖6可知,無(wú)論是籃球運(yùn)動(dòng)員的投籃起跳動(dòng)作還是網(wǎng)球運(yùn)動(dòng)員的擊球動(dòng)作,本文提出的改進(jìn)條件GAN都能夠精準(zhǔn)地捕捉到其輪廓,并精準(zhǔn)描述籃球和網(wǎng)球兩項(xiàng)體育運(yùn)動(dòng)的復(fù)雜動(dòng)作情況。這種準(zhǔn)確性體現(xiàn)了模型在處理復(fù)雜動(dòng)作圖像時(shí)的優(yōu)越性能,尤其是在目標(biāo)物體與背景混雜、動(dòng)作快速變化等復(fù)雜場(chǎng)景下。
以GAN網(wǎng)絡(luò)為基礎(chǔ),分別在其中引入條件約束、殘差網(wǎng)絡(luò)、跳層連接以及改進(jìn)損失函數(shù)。為分析多種改進(jìn)方案對(duì)模型應(yīng)用效果的影響,選取輪廓平滑度和形狀保持性為指標(biāo)設(shè)計(jì)消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果見表1。其中輪廓平滑度用輪廓曲率表示,輪廓曲率越小表示輪廓平滑度越高,形狀保持性用捕捉到的輪廓與真實(shí)輪廓之間的相似度表示,相似度值越大,形狀保持性越好。
分析表1可知,以方案1的GAN模型為基礎(chǔ)進(jìn)行分析,條件約束、殘差網(wǎng)絡(luò)、跳層連接以及改進(jìn)損失函數(shù)的引入均可以在一定程度上降低輪廓提取結(jié)果的輪廓平滑度,提升形狀保持性。方案5即本文應(yīng)用的改進(jìn)條件GAN模型的輪廓平滑度為0.25,提升形狀保持性為0.985。通過上述結(jié)果可以得出,本文應(yīng)用的改進(jìn)條件GAN模型在復(fù)雜動(dòng)作圖像輪廓捕捉中的應(yīng)用效果最佳。
3" 結(jié)" 語(yǔ)
本文提出的基于改進(jìn)條件GAN的復(fù)雜動(dòng)作圖像輪廓捕捉方法,在體育運(yùn)動(dòng)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該方法能夠準(zhǔn)確捕捉籃球、網(wǎng)球等復(fù)雜動(dòng)作圖像的輪廓,尤其在復(fù)雜場(chǎng)景下表現(xiàn)優(yōu)越。通過消融實(shí)驗(yàn)驗(yàn)證,條件約束、殘差網(wǎng)絡(luò)、跳層連接和改進(jìn)損失函數(shù)均有助于提升模型的圖像輪廓捕捉性能。未來(lái)還應(yīng)增加除了體育動(dòng)作圖像以外領(lǐng)域的圖像進(jìn)行模型應(yīng)用效果分析,如舞蹈動(dòng)作分析、手勢(shì)識(shí)別、虛擬現(xiàn)實(shí)交互等,為這些領(lǐng)域的研究和應(yīng)用提供有力支持。
參考文獻(xiàn)
[1] 張建豐.基于視差信息的多重運(yùn)動(dòng)圖像輪廓提取仿真[J].計(jì)算機(jī)仿真,2020,37(9):214?217.
[2] 楊衛(wèi)東,葉長(zhǎng)彬,陳正林,等.基于snake算法的聲吶圖像輪廓提取方法[J].壓電與聲光,2023,45(5):752?758.
[3] 熊點(diǎn)華,唐利明,嚴(yán)俊瀟,等.基于劃分函數(shù)的圖像擬合能量驅(qū)動(dòng)的活動(dòng)輪廓[J].黑龍江大學(xué)自然科學(xué)學(xué)報(bào),2022,39(4):481?489.
[4] 馬璿,張會(huì)慶.基于BEMD?MTS算法的肢體動(dòng)作輪廓智能捕捉方法[J].計(jì)算機(jī)仿真,2023,40(10):224?227.
[5] 王鑫剛,田軍委,于亞琳,等.改進(jìn)Canny算法的紅外人臉圖像邊緣輪廓提取[J].應(yīng)用光學(xué),2023,44(1):61?70.
[6] 程寧,侯德林.基于尺度與對(duì)比度不變的圖像邊緣檢測(cè)算法[J].電子測(cè)量與儀器學(xué)報(bào),2023,37(1):140?148.
[7] ZHANG R G, YANG S F, JIN J L, et al. Cobble edge detection algorithm based on digital image processing [J]. Journal of applied remote sensing, 2023, 17(2): 1?20.
[8] 貝悅,王琦,程志鵬,等.基于條件生成對(duì)抗網(wǎng)絡(luò)的HDR圖像生成方法[J].北京航空航天大學(xué)學(xué)報(bào),2022,48(1):45?52.
[9] 張子珺,陳勁松,錢夕元.基于改進(jìn)條件生成對(duì)抗網(wǎng)絡(luò)的書法字骨架提取[J].計(jì)算機(jī)工程,2023,49(10):272?279.
[10] 李夢(mèng),詹毅,王艷.基于局部熵的區(qū)域活動(dòng)輪廓圖像分割模型[J].數(shù)據(jù)采集與處理,2023,38(3):586?597.
[11] 趙玉明,顧慎凱.融合殘差密集塊自注意力機(jī)制和生成對(duì)抗網(wǎng)絡(luò)的對(duì)抗攻擊防御模型[J].計(jì)算機(jī)應(yīng)用,2022,42(3):921?929.
[12] 陳剛,廖永為,楊振國(guó),等.基于多特征融合的多尺度生成對(duì)抗網(wǎng)絡(luò)圖像修復(fù)算法[J].計(jì)算機(jī)應(yīng)用,2023,43(2):536?544.
[13] 張逸騁,井花花,晏濤.基于條件生成對(duì)抗網(wǎng)絡(luò)的光場(chǎng)圖像透視視圖生成算法[J].計(jì)算機(jī)應(yīng)用研究,2023,40(8):2501?2507.