999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多層次瓶頸注意力模塊的顱骨到面皮的生成方法

2025-02-07 00:00:00王潔姜文凱蔣佳琪梁增磊劉曉寧耿國華
西北大學學報(自然科學版) 2025年1期

摘要 從未知顱骨恢復其生前面貌是考古學、法醫學和刑偵學重要的研究方向。現有的計算機三維輔助復原過程繁瑣,耗時長,該研究針對現有模型在顱骨到面皮(不含紋理、頭發等的面貌)圖像生成上存在失真、扭曲、不平滑等現象,提出一種結合生成對抗網絡和多層次瓶頸注意力模塊的顱骨到面皮圖像生成方法。該方法的生成器由6層AdaResBlock和瓶頸注意力模塊組成,從通道和空間兩個維度引導生成器關注更重要的區域,并根據特征自適應地調整歸一化方式。同時,針對生成器模型較大的問題,引入藍圖可分離卷積減小其體積。此外,將判別器分為兩部分,前幾層被用來進行編碼,取消傳統網絡中的單獨編碼器模塊,使模型更緊湊;后幾層則采用多尺度判別策略,從不同層級對圖像進行分類判別,增強其準確性。實驗結果表明,在顱骨到面皮圖像生成任務上,該方法生成的面皮圖像質量高于現有的其他方法,在視覺質量和圖像質量上都取得了最高的分數,復原效果更加真實,圖像定量評價指標PSNR、SSIM平均提升1.115,0.017,LPIPS平均降低0.026,面皮平均相似度為0.855。

關鍵詞 顱面生成;生成對抗網絡;圖像轉換;瓶頸注意力模塊;藍圖可分離卷積

中圖分類號:TP391" DOI:10.16152/j.cnki.xdxbzr.2025-01-017

Skull-to-skin generation method based on multi-level bottleneck attention module

WANG Jie, JIANG Wenkai, JIANG Jiaqi, LIANG Zenglei, LIU Xiaoning, GENG Guohua

(College of Information Science and Technology, Northwest University, Xi’an 710127, China)

Abstract Restoring the face from an unknown skull is an important research direction in archaeology, forensics and criminal investigation. The existing computer-aided 3D restoration process is cumbersome and time-consuming. In view of the distortion, twisting and non-smoothness of the existing model in the generation of skull-to-skin (face without texture and hair, etc.) images, this paper proposes a skull-to-skin image generation method combining a generative adversarial network and a multi-level bottleneck attention module. Specifically, the generator consists of six layers of AdaResBlock and a bottleneck attention module, which guides the generator to focus on more important areas from the two dimensions of channel and space, and adjusts the normalization method according to the feature adaptiveness. At the same time, in order to solve the problem of the large size of the generator model, the blueprint separable convolution is introduced to reduce its volume. In addition, the discriminator is divided into two parts. The first few layers are used for encoding, eliminating the separate encoder module in the traditional network, making the model more compact; the latter layers adopt a multi-scale discrimination strategy to classify and discriminate images from different levels to enhance their accuracy. Experimental results show that in the task of skull-to-skin image generation, the skin images generated by this method have higher quality than other existing methods, and have achieved the highest scores in both visual quality and image quality. The restoration effect is more realistic, and the image quantitative evaluation indicators PSNR and SSIM are improved by an average of 1.115 and 0.017, and LPIPS is reduced by an average of 0.026. The average facial similarity is 0.855.

Keywords craniofacial generation; generative adversarial network; image translation; bottleneck attention module; blueprint separable convolution

從顱骨恢復死者生前面貌,即顱面復原,是根據人體顱骨特征與面部特征之間的關系來重建生前面貌形象[1]。在考古學中,其對發掘古代遺物、證實和增補歷史信息等具有重要意義,且對于人類骨骼考古學的發展具有顯著推動作用。在刑事偵查中,其可以為確定無名尸體的身份提供關鍵線索。圖1所示為顱骨和面皮圖像,之所以稱為面皮而不是面貌,是因為訓練數據均采自CT,重構后,不帶皮膚紋理、頭發等信息,且為閉眼狀態。

傳統的手工顱面復原是人類學家基于顱面形態關系并利用顱骨或顱骨的石膏模型,運用可塑材料(如橡皮泥、黏土、塑像蠟等)來還原生前面貌。這類方法往往主觀性大,耗時長。隨著計算機技術的不斷發展,采用計算機三維輔助顱面復原能更高效、客觀地實現顱面復原。但是,這種方法仍然面臨點云數據量大,特征點標定不準確,不足以描述面皮特征等問題。

近年來,深度學習在圖像生成和轉換領域取得了顯著進展。圖像作為信息的一種表現形式,在生活和工作中的應用愈加廣泛。顱骨和面皮圖像作為圖像中的一種,同樣蘊含著豐富的信息,并且,顱骨和面皮大量有價值的信息集中在面部正視圖部分,不需要后腦勺等其他部位的信息,因此可以將顱骨到面皮的復原過程轉換為圖像到圖像的二維轉換問題。

由于圖像轉換旨在學習不同圖像域之間的映射,因此如何表示這些映射以生成期望的結果與生成模型顯式相關。經典的圖像生成模型包括變分自編碼器(variational auto-encoder, VAE)[2]、擴散模型(diffusion model)[3]和生成對抗網絡(generative adversarial networks, GAN)[4]。其中,基于VAE生成的圖像較為模糊,缺乏清晰度和細節;擴散模型生成的圖像質量更高,但由于其依賴長馬爾可夫鏈的擴散步驟來生成樣本,導致計算資源和時間的消耗過高;而GAN模型通過對抗訓練的方式,生成器網絡和判別器網絡互相協作,通常能夠更快地訓練且生成質量較高的圖片。因此,本研究選擇生成對抗網絡作為顱骨到面皮圖像的生成框架。

圖像轉換可以是將圖像從X域(例如貓)轉換到Y域(例如狗),X和Y域語義相似,但數據分布不同[5];也可以看作是將一個圖像的風格特征轉移到另一個圖像上,使目標圖像具有與源圖像相似的內容和不同的藝術風格,例如將一張照片的風格轉換為梵高的繪畫風格,即風格遷移[6];姿態轉換任務[7]也是一種圖像轉換,將一個人身體姿態從一個角度轉換為另外一個角度,具體可分為有監督、無監督、半監督等。只要提供合適的類型和足夠的數據量作為源目標映像,就可以用于許多不同類型的任務?,F有的有監督框架對于顱骨到面皮的轉換任務來說,生成的面皮圖像缺乏全局一致性和真實性;而無監督框架則多通過一對一映射[8]、權重共享[9]等方法解決無監督的非可識別性問題。由于顱骨到面皮圖像的轉換任務具有較高的復雜性,二者之間的關系是非線性的,現有模型生成的面皮圖像不夠準確和真實,還會出現不同程度的扭曲。

針對以上問題,本研究基于GAN 設計一種帶有多層次瓶頸注意力模塊(multi-level bottleneck attention module, MLBAM)的顱面生成模型。該模型從通道和空間兩方面學習對關鍵特征的感知能力,以提高生成器的表達能力和細節保留能力。同時,將判別器分為兩部分,前幾層被用來進行編碼,取消傳統網絡中的單獨編碼器模塊,縮短隱空間中域之間的轉換距離,后幾層則采用多尺度判別策略來增強其準確性。此外,為減小生成器模型的體積,采用藍圖可分離卷積(blueprint separable convolutions, BSConv)替代普通卷積。

1 相關工作

1.1 顱面復原

計算機三維輔助顱面復原大致分為以下兩類[10]。

1)利用計算機模擬手工復原法。該方法利用待復原顱骨與面部軟組織厚度之間的關系進行顱面復原。1989年,由Vanezis等人提出使用激光掃描儀和攝像機對頭骨進行數字化,然后在待復原顱骨的特征點上添加對應的軟組織厚度,最后添加面皮特征來實現顱面復原[11];而人體屬性可能會對軟組織厚度產生影響,Degreef等人首次采用多元線性回歸法建立了軟組織厚度與BMI、年齡和性別的關系,從實際的角度出發進行顱面復原[12];Gietzen等人提出了一種顯示的基于面部稠密軟組織厚度的顱面復原技術[13],通過尋找顱骨模型和面皮模型之間的最近點,計算面部稠密軟組織厚度并添加到待復原的顱骨模型中,實現顱面復原;Vandermeulen等人提出了通過顱骨配準將參考模型的面部軟組織厚度分布復制到待復原顱骨,還采用了基于B樣條的自由形變算法提高配準質量[14]。

目前,顱骨特征點的標定多采用手工方式進行,耗時長,工作量大,不同專家選定特征點的位置和數量也因人而異,而顯示的基于面部稠密軟組織厚度方法在復原過程中要計算面部軟組織厚度,可能會有處理復原結果不平滑和存在孔洞等問題,使得該技術計算量很大。盡管顱骨配準法速度快,操作簡單,但選擇的參考模型會直接影響顱面復原的結果。

2)利用機器學習分析顱骨和對應面皮數據之間的形態關系,實現顱面復原。2006年,Desvignes等人首次使用機器學習方法實現顱面復原[15],其將每個顱骨和面皮點云表示為一個向量,采用主成分分析將每個向量表示為平均數據,以及主成分和對應的主成分系數的線性組合。最終,通過優化求解待復原顱骨對應的面貌點云的主成分系數,實現顱面復原。此外,還有學者通過偏最小二乘回歸[16]、支持向量機[17]、最小二乘正則相關性[18]、金字塔變換網絡(Fast-Net)[19]等方法構建顱骨和面皮的相關信息,完成顱面復原。2021年,Lin[20]等人提出了CFR-GAN模型,該模型利用生成對抗網絡解決顱面復原問題,克服了傳統顱面非線性變形表示方法和缺乏面部紋理表示的缺點,將顱面復原分為粗重建和精重建兩步,粗糙重建通過顱骨重建相應人頭的整體結構內容,精細重建則恢復面部特征輪廓。Zhang[21]等人設計了一個基于CGAN的端到端神經網絡模型,然后用配對的顱面數據訓練模型,以自動學習顱骨和面部之間復雜的非線性關系。

以上均是利用機器學習三維輔助顱面復原技術,大多是從顱骨和面貌的三維點云模型中發現兩者的形態關系,構建顱面形態關系的數學模型,并利用該模型進行顱面復原。但是,該方法存在點云數據量大,在捕捉和建模復雜關系方面有局限性等缺點,可能無法完全準確地還原面皮的細節特征。

也有部分研究是基于二維的深度學習,例如Li[22]等人通過在殘差塊中引入Mod-Demo技術,縮放卷積權值來間接調整激活值,避免重構人臉圖像的偽影,并在鑒別器中引入了空間金字塔池(ASPP),以提高重構人臉圖像的全局相干性。但是,ASPP模塊是通過多個不同尺度的并行卷積操作來捕捉多尺度特征,這增加了模型的計算復雜度。在處理高分辨率圖像或大規模數據集時,ASPP模塊的計算開銷可能會變得非常顯著。

1.2 圖像轉換

GAN以生成器和判別器對抗的方式進行訓練,使得生成器能夠逐漸學習到生成逼真圖像的能力,而判別器則逐漸提高對真實和生成圖像的辨別能力。這種對抗學習能力使得GAN能夠生成高質量、逼真的圖像,滿足圖像轉換任務對真實性和質量的要求。

典型的有監督方法包括Pix2Pix[23],其基于條件生成對抗網絡[24],通過輸入圖像和目標圖像的配對進行訓練,但由于模型學習兩者之間的像素級映射關系,生成的面貌圖像不真實、缺乏合理性且分辨率低;盡管2018年提出的Pix2PixHD[25]可以生成2 048×1 024分辨率的圖像,但還存在訓練時間長,不能生成多模態圖像的缺點。CycleGAN引入了循環一致性損失,使得模型能夠在無監督的情況下進行訓練,并且在沒有配對數據的情況下實現兩個領域之間的圖像轉換[8];UNIT提出了一個共享潛在空間假設來處理無監督的圖像轉換[9];MUNIT的提出為無監督圖像轉換生成的圖像提供了多樣性[26];DRIT也是一個多模態的模型,主要貢獻是提出了一個內容鑒別器來約束兩個不同領域的內容特征[27];U-GAT-IT通過利用一個類激活圖CAM注意力模塊和新的歸一化函數(AdaLIN)讓模型知道在何處進行密集轉換,增強模型的魯棒性[28];AttentionGAN通過加入一種注意力掩模引導模型來區分前景物體并最小化其變化[29]。

除此之外,計算機視覺的很多分支都可以歸類為圖像轉換。例如,圖像修復[30]、人臉屬性編輯STGAN[31]、圖像去雨DCD-GAN[32]等。

2 本研究方法

2.1 總體網絡結構

設X、Y為兩個域,分別表示顱骨圖像和面皮圖像。網絡由兩個生成器和兩個判別器構成,即將圖像從X域轉為Y域的生成器GX→Y,將圖像從Y域轉回X域的GY→X,二者結構相同,都由n層MLBAM和兩個上采樣模塊構成。判別器DX、DY分為編碼部分EDX、EDY和分類部分CX、CY。利用EDX、EDY進行編碼,分類部分CX、CY采用多尺度結構來增強模型的表達能力??傮w的網絡結構如圖2所示,生成器和判別器具體結構在本文2.2和2.3中介紹。

2.2 生成器網絡架構

本研究設計出一種帶有多層次瓶頸注意力模塊(MLBAM)的生成器結構。具體如圖3所示,AdaResBlock(ResNet+AdaLIN)作為生成器的Bottleneck結合殘差連接和AdaLIN(Adaptive Layer-Instance Normalization)操作。通過堆疊多個塊的方式,分層提取和壓縮輸入特征并將其轉換為更低維的表示,同時根據輸入數據的統計特征自動調整歸一化方式,以便適應不同的數據分布。在AdaResBlock之后,引入瓶頸注意力模塊,自適應地調整特征在通道和空間兩部分的關系,進一步提升對關鍵特征的表示能力。通過多層次的設計,能夠更全面地捕捉不同層次的特征信息,提高生成器對于重要特征的感知和生成能力。除此之外,將該生成器的普通卷積替換為藍圖可分離卷積(BSConv),目的是減少模型的參數數量和計算量,使得模型更加輕量級且高效。

2.2.1 瓶頸注意力模塊

僅靠AdaResBlock可以提供一定程度的特征提取能力,但無法捕捉圖像的細微特征、紋理和色彩細節,從而導致生成的面皮缺乏細節,出現臉頰扭曲等不真實的情況。瓶頸注意力模塊(Bottleneck Attention Module, BAM)作為一種有效提高網絡表征能力的方式,可放在模型的每個瓶頸處,構建一個具有多個參數的分層注意。因此,本研究在每個AdaResBlock后加入一個BAM,以此來保留圖像的細節,提高面皮的生成質量。通過結合AdaResBlock的特征提取能力和BAM的特征捕捉能力,生成器結構能夠更好地處理復雜的圖像轉換任務,生成更加真實、細致的面皮圖像。

瓶頸注意力模塊的結構如圖4所示,特征被輸入到通道注意力分支和空間注意力分支[33],分別得到通道特征注意力權重矩陣MC(F)∈RC×1×1和空間特征注意力權重矩陣MS(F)∈R1×H×W,再擴充到原始尺寸MC(F)∈RC×H×W、MS(F)∈RC×H×W,并相加,得到混合的特征注意力矩陣M(F):

M(F)=σ(MC(F)+MS(F))" (1)

式中,σ為sigmoid函數。細化后的特征F′由原特征F和M(F)得到,具體計算為:

F′=F+FM(F)(2)

其中通道注意力分支作用是強調網絡應該關注什么特征,首先對于輸入特征圖F∈RC×H×W進行全局平均池化操作得到一個通道向量FC∈RC×1×1,進而經過帶有一個隱藏層的多層感知器(MLP)和一個BN(Batch Normalization)層。MLP中的隱藏層激活大小為RC/r×1×1,r為衰減率,具體計算過程為

MC(F)=BN(MLP(AvgPool(F)))=" BN(W1(W0AvgPool(F)+b0)+b1)(3)

其中,W0∈RC/r×C,b0∈RC/r,W1∈RC×C/r,b1∈RC。

空間注意力分支目的是強調特征向量在不同空間位置的價值信息,對顱骨到面皮的二維圖像轉換來說就是對眼眶、嘴巴、鼻子等有價值信息的強調。將特征F∈RC×H×W用1×1卷積降維到RC/r×H×W,然后通過兩個3×3卷積(Padding=1)有效利用上下文信息,進而經過1×1卷積得到R1×H×W的空間注意力圖,在最后應用BN調整圖像尺度,具體公式為

MS(F)=BN(f1×13 (f3×32 (f3×31 (f1×10 (F)))))" (4)

其中,f為卷積操作,上角標為卷積大小。

2.2.2 藍圖可分離卷積

在訓練時如果模型參數過大可能導致資源浪費或網絡難以收斂的問題。藍圖可分離卷積(Blueprint Separable Convolutions, BSConv)是一種利用核內相關性的輕量級卷積,用其替換普通卷積可以更好地捕捉卷積核內部的相關性,靈活地控制生成圖像的細節,降低生成器的復雜度。

如圖5所示,標準卷積的卷積核尺寸為M×S×S,可訓練參數為M×K×S2。藍圖可分離卷積將標準卷積核尺寸由M×S×S分解為M個S×S尺寸的卷積核,可訓練參數僅有S2×K+M×K,大大減少計算量,加快網絡訓練。與深度可分離卷積(DepthwiseSeparable Convolution, DSConv)相比,藍圖可分離卷積可以看成是對其的逆運算,即先進行逐點卷積(Pointwise Convolution),再進行逐通道卷積(Depthwise Convolution)。這樣做是根據每個卷積核的權重沿深度軸高度相關,呈現出相同的視覺結構,比如有一個卷積核模板,其深度軸上的每個卷積核都是在模板上按不同的因素縮放得到,而這個二維模板就稱為“藍圖”[34]。DSConv更多的是依賴于跨內核相關性,隱式地將一個三維藍圖(在深度軸將二維藍圖組合在一起)應用于所有卷積核,在卷積過程中內核之間的相關性占主導地位,而BSConv應用二維藍圖在濾波器內部分布權重,可以更好地捕捉濾波器內部相關性,提升卷積分離的效果,進而實現對圖像細節的精細控制。

2.3 判別器網絡結構

目前,基于GAN的圖像轉換方法多采用由編碼器、生成器和判別器等多個組件構成的框架〔見圖6(a)〕。這種框架在一些任務上取得了良好的效果,但其結構可能相對復雜,在隱空間中特征的轉換距離較大,生成的面皮輪廓不平滑,五官相似度不高,在顱面轉換這種復雜的任務上效果較差。在生成對抗網絡中,判別器用于區分真實圖像和生成圖像,因此在圖像傳入判別器時,判別器的第一作用就是對圖像進行編碼,在DCGAN[35]的研究中,也證實了判別器的編碼功能。因此,本研究利用判別器的前幾層對圖像進行編碼,后幾層進行分類判別〔見圖6(b)〕。DX、DY結構相同,這里用DY介紹,如之前所述判別器分為EDY和CY,其中CY分為3個子分類器C0Y、C1Y和C2Y,分別用于小尺度、中尺度和大尺度的判別。EDY的輸出連接子分類器C0Y,在EDY上進行下采樣操作得到較小尺度特征圖;進而分為兩路,一路直接連接C1Y,一路再進行下采樣連接到C2Y,即將單個輸入圖像通過不同層級的處理,得到不同尺度的特征表示。這些特征表示看作是具有不同細節和語義級別的圖像。然后,將這些特征表示按照它們對應的輸入尺寸送入分類器,以進行更準確的判別。這樣做不僅使整個網絡更簡單,而且與傳統的GAN在訓練后放棄判別器的訓練方式不同,判別器的前幾層仍然保留用于編碼,直接通過判別器的損失進行訓練而不是利用生成器的反向傳播間接訓練,生成的面皮圖像能更好地捕獲外觀、紋理、形狀等特征,使得生成的面皮更加接近真實面皮,具有更高的逼真度和視覺質量。

2.4 損失函數

本研究損失函數由對抗損失、循環一致性損失和重建損失3部分組成,對抗損失是為了將圖像在X域和Y域更好地轉換,循環一致性損失和重建損失是為了解決上述提到過的不可識別性問題。

2.4.1 對抗損失

生成器和判別器的損失都采用最小二乘對抗損失[36],可以改善梯度消失問題,避免模式崩潰,使訓練更穩定,公式為:

min[DD(X]GX→Y[DD)]max[DD(X]DY=(CYEY)[DD)]LX→Ygan=Ey~Y[(DY(y))2]+" Ex~X[JB([]log(1-DY(GX→Y(EX(x))))2]。(5)

通過GAN訓練min-max時,編碼器與生成器一起進行最小化訓練,而與判別器進行最大化訓練。此時,由于現在編碼器EX不僅作為判別器的一部分,它的輸出還被作為生成器的輸入,所以最大化LX→Ygan時,EX是固定的,EY是訓練的,當最小化LX→Ygan時,EX、EY都固定。

2.4.2 循環一致性損失

循環一致性損失[8]是為了讓圖像經過兩個生成器后盡可能和原圖保持一致,對于本研究來講,就是顱骨經過GX→Y生成面皮圖像后,再經過GY→X逆向轉換到顱骨圖像,使得原顱骨圖像和逆向轉換后的顱骨圖像盡量保持一致。其公式為:

min[DD(X] GX→YGY→X[DD)] LX→Ycycle="Ex~X[|x-GY→X(EY(GX→Y(EX(x))))|1]" (6)

其中,|·|1是L1-norm的值,此時EX、EY都固定。

2.4.3 重建損失

該損失基于共享潛在空間假設,旨在通過將源域真實樣本的隱藏向量輸入源域生成器GY→X,并將其重構后的輸出與原始輸入樣本接近恒等映射[37]。這樣做是為了確保生成器的輸出圖像能夠保持與輸入圖像的相似性,提高圖像生成的質量和準確性。具體公式為:

min[DD(X]GY→X[DD)] LY→Xrecon:=Ex~X[|x-GY→X(EX(x))|1]" (7)

其中EX固定,Y域到X域的損失函數與X域到Y域相同。

2.4.4 總損失

判別器總損失為:

max[DD(X]EX,CX,EY,CY[DD)]λ1Lgan" (8)

生成器總損失為:

min[DD(X]GX→Y,GY→X[DD)]λ1Lgan+λ2Lcycle+λ3Lrecon" (9)

其中,Lgan=LX→Ygan+LY→Xgan Lcycle=LX→Ycycle+LY→Xcycle,Lrecon=LX→Yrecon+LY→Xrecon,λ1=1,λ2=λ3=10。

3 實驗結果與分析

3.1 數據預處理

本實驗使用的數據來自陜西中醫藥大學附屬醫院的志愿者頭部CT掃描。利用Marching Cube算法對CT數據的顱骨和面皮圖像進行三維重建,把得到的顱骨和面皮的重建模型在法蘭克福坐標系中垂直映射到xoz平面上,得到顱骨和面皮的二維正視圖,并對其進行增強(旋轉90°,180°,270°和鏡像翻轉)。

3.2 實驗參數

實驗所用的顱骨和面皮數據訓練集600對,測試集144對,驗證集4對,在進行訓練時輸入圖片統一大小為256×256,基于python 3.6.3和Pytorch 1.10.2,使用NVIDIA GeForce RTX 4080顯卡訓練,利用Adam優化器,學習率為0.000 1,(β1=0.5,β2=0.999),所有實驗的batch size設置為2。

3.3 實驗結果定性評估

由于本研究是基于GAN的計算機二維圖像轉換進行從顱骨生成面皮圖像,所以與幾種先進的圖像轉換網絡進行比較,包含Pix2Pix[23]、CycleGAN[8]、U-GAT-IT[28]和AttentionGAN[29]。4種方法的生成器、判別器訓練時間段數和優化策略都采用官方默認設置,實驗結果如圖7所示。具體來說,Pix2Pix生成的圖像與目標面皮基本輪廓不一致,第4行第3列最為明顯,嘴巴和眼睛部分也發生變形;CycleGAN可以生成與目標面皮相近的鼻子,但其他五官發生扭曲;U-GAT-IT生成的圖像輪廓雖與目標面皮大致相同,但是捕捉五官細節的能力還是不夠,與真實面皮差距較大;AttentionGAN生成的4副圖像五官基本一致,區別甚小,而且臉部均出現“腫脹”現象。

綜上所述,對比方法生成的圖像與目標面皮相差較大,不能作為識別身份的特征。本方法生成的面皮圖像,輪廓和細節方面都與真實圖像最接近,具有較高的準確性。

3.4 實驗結果定量評估

評價生成圖像質量的高低不僅取決于視覺感受,而且需要一些客觀的評價指標對結果做出定量評價。因此,本研究用PSNR、SSIM和LPIPS作為評估指標,對比網絡為Pix2Pix、CycleGAN、U-GAT-IT和AttentionGAN。實驗結果如表1所示。

1)峰值信噪比(Peak Signal-to-Noise Ratio,PSNR):PSNR是基于圖像的均方誤差而計算得到,數值越高表示圖像質量損失越小,是一種最普遍的評價方法。但是,其無法完全反應人眼對圖像細節和結構的感知。

2)平均結構相似性(Mean Structural Similarity Index Measure,SSIM):SSIM將圖像比較為人眼感知的3個重要因素,計算兩幅圖像之間的結構相似性。其值越高,圖像質量損失越小。

3)學習感知圖像塊相似度(Learned Perceptual Image Patch Similarity, LPIPS):LPIPS是基于圖像的patch級別,旨在量化圖像之間的感知差異,其值越低,圖像質量差異越小。

實驗表明,本方法在顱面轉換任務上不僅視覺效果優秀,而且在PSNR、SSIM和LPIPS三個指標上得分也最好。這表明,本方法不僅生成的圖像質量高,且與真實圖像之間的感知差異也最小,最接近真實面皮圖像。

3.5 面皮相似度對比

表2為所用幾種對比方法生成的面皮圖像和本方法生成的面皮圖像與真實面皮圖像相似度對比,表3為本研究生成的面皮圖像和真實面皮圖像交叉對比的結果。其借助騰訊AI Lab[38]提供的人臉相似度計算功能,對比表2和表3相似度,結果可以看出,本研究生成的面皮圖像與其對應的真實面皮圖像相似度最高,說明本方法生成的面皮更接近真實面皮。

3.6 消融實驗

為了證明判別器編碼(ED)、瓶頸注意力模塊(BAM)以及藍圖可分離卷積(BSConv)的有效性,對其進行消融實驗(見圖8)。

其中,(w/o)ED表示移除判別器內部的編碼器組件,采用傳統的獨立編碼器模塊。通過對比可以發現,如此生成的面部輪廓顯得不夠流暢,甚至某些面部特征呈現出扭曲的狀態。由此可知,將編碼器嵌入判別器結構中的獨特設計,可以縮短特征在隱空間中域之間的轉換路徑,從而提高生成面皮的質量。

(w/o)BAM去除了瓶頸注意力模塊,在此情況下生成的面皮圖像中,嘴巴部位呈現出較高的相似性,甚至在上唇區域隱約可見牙齒的輪廓。但是,其生成的圖像細節不夠,且缺少一塊面部結構,如紅色框所圈部分,由此可證明本方法添加BAM模塊的有效性。

(w/o)BSConv表示去掉藍圖可分離卷積,采用普通的卷積方法。觀察結果顯示,僅有一張位于最下方的面皮圖像與真實圖像較為接近,但其輪廓線條不夠平滑,出現了“抖動”現象,如藍色框標注所示。這一對比充分說明了BSConv在減輕模型參數負擔的同時,能夠更有效地利用卷積核內部的相關性,優化卷積分離效果,進而實現對圖像細節的精準把控。

圖9展示了MLBAM層數作為超參數的實驗結果,從左至右依次為模型擁有4層、5層、6層、7層的MLBAM。由圖9可以看出,層數過少,模型沒有足夠的能力捕捉到顱骨到面皮之間復雜的非線性關系,導致模糊、失真、不平滑等問題;但層數過多時,模型的復雜度會因太復雜而導致過擬合。同時,過多的層數意味著瓶頸注意力模塊的增多,避免不了“過度關注”圖像中的區域,導致生成的面皮質量下降。實驗表明,具有6層的MLBAM效果最好。

表4為消融實驗的定量評價結果。由表4第3行可知,在僅移除BSConv(藍圖可分離卷積)后,所有3個指標均表現最優,而本研究所采用的包含6層瓶頸注意力模塊(6-MLBAM)的完整模型緊隨其后,位列第二。這一結果并不直接表明BSConv組件是無效的。

實際上,顱骨到面皮圖像生成任務的核心目標是實現視覺感官上的優化。本研究提出的方法,結合了ED、BAM、BSConv,在視覺效果方面展現出了最佳表現。這一點可以從圖9中6-MLBAM的生成圖像得到直觀驗證,同時圖8也詳細對比了僅移除BSConv組件后的視覺表現結果。因此,盡管移除BSConv后的模型在某些定量指標上略有優勢(與6-MLBAM的平均指標差異不超過0.06),但整體而言,帶有6層MLBAM的完整方法仍然表現最為出色。這充分說明了每個模塊在模型中的重要作用,它們相互協作,共同推動了模型性能的提升。

表5分別為加入ED、BAM、BSConv后生成器和判別器的模型參數總量。由表5可見,加入BSConv后有效地降低了生成器的大小,使得生成器與判別器大小基本相匹配,可以更好地平衡它們之間的學習能力。因為生成器的參數過多,而判別器的參數較少,生成器可能會過于強大,導致模型難以收斂。相反,如果判別器的參數過多,而生成器的參數較少,判別器可能會過于敏感,難以提供準確的反饋信號。因此,參數量的平衡可以幫助生成器和判別器之間保持相對穩定的競爭,促進模型的學習和生成結果的質量。

4 結語

本研究針對現有基于GAN的圖像轉換模型在顱面轉換任務上存在捕捉五官細節不細致,輪廓不流暢導致扭曲、變形、失真等情況,提出基于多層次瓶頸注意力模塊的顱面轉換網絡,生成器包含6層AdaResBlock和BAM,從不同的角度引導生成器捕捉重要特征,且自適應地調整特征的歸一化方式,并引入藍圖可分離卷積減小模型體積。判別器前幾層用于編碼代替傳統的單獨編碼器結構,促進高維圖像空間域的轉換。實驗表明,本方法生成的面皮圖像均優于其他網絡方法,生成結果與真實面皮最接近,可為顱骨身份認證提供一定線索。

本研究的實驗數據均采自CT重構,當顱骨采集渠道不同時,生成的結果仍有待提升。因此,下一步的研究應致力于來自不同域的顱骨圖像的面皮圖像生成。

參考文獻

[1] 王琳, 趙俊莉, 段福慶,等. 顱面復原方法綜述[J].計算機工程, 2019, 45(12):8-18.

WANG L, ZHAO J L, DUAN F Q, et al. Survey on craniofacial reconstruction method[J].Computer Engineering, 2019, 45(12):8-18.

[2] REZENDE D J, MOHAMED S, WIERSTRA D. Stochastic backpropagation and approximate inference in deep generative models[C]∥International conference on machine learning(ICML). Beijing: PMLR, 2014: 1278-1286.

[3] HO J, JAIN A, ABBEEL P. Denoising diffusion probabilistic models[J].Advances in Neural Information Processing Systems, 2020, 33: 6840-6851.

[4] GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial networks[J].Communications of the ACM, 2020, 63(11): 139-144.

[5] XIE S, XU Y, GONG M, et al. Unpaired image-to-image translation with shortest path regularization[C]∥Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). Los Angeles: IEEE, 2023: 10177-10187.

[6] BUI N T, NGUYEN H D, BUI-HUYNH T N, et al. Efficient loss functions for GAN-based style transfer[C]∥Fifteenth International Conference on Machine Vision(ICMV). Yerevan: SPIE, 2023: 373-380.

[7] REN Y, YU X, CHEN J, et al. Deep image spatial transformation for person image generation[C]∥Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). Seattle: IEEE, 2020: 7690-7699.

[8] ZHU J Y, PARK T, ISOLA P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[C]∥Proceedings of the IEEE international conference on computer vision(ICCV). Venice: IEEE," 2017: 2223-2232.

[9] LIU M Y, BREUEL T, KAUTZ J. Unsupervised image-to-image translation networks[C]∥Proceedings of the 31st International Conference on Neural Information Processing Systems(NeurIPS). Long Beach: ACM,"" 2017: 700-708.

[10]稅午陽,鄧擎瓊,吳秀杰,等.顱面復原技術在體質人類學中的應用[J].人類學學報,2021,40(4):706-720.

SHUI W Y, DENG Q Q, WU X J, et al. An overview of craniofacial reconstruction technology application in physical anthropology[J]. Acta Anthropologica Sinic,2021,40(4):706-720.

[11]VANEZIS P, BLOWES R W, LINNEY A D, et al. Application of 3-D computer graphics for facial reconstruction and comparison with sculpting techniques[J]. Forensic Science International, 1989, 42(1/2): 69-84.

[12]DEGREEF S, VANDERMEULEN D, CLAES P, et al. The influence of sex, age and body mass index on facial soft tissue depths[J]. Forensic Science, Medicine, and Pathology, 2009, 5: 60-65.

[13]GIETZEN T, BRYLKA R, ACHENBACH J, et al. A method for automatic forensic facial reconstruction based on dense statistics of soft tissue thickness[J].PLoS One, 2019, 14(1): 1-19.

[14]VANDERMEULEN D, CLAES P, LOECKX D, et al. Computerized craniofacial reconstruction using CT-derived implicit surface representations[J]. Forensic Science International, 2006, 159: 164-174.

[15]DESVIGNES M, BAILLY G, PAYAN Y, et al. 3D semi-landmarks based statistical face reconstruction[J]. Journal of Computing and Information Technology, 2006, 14(1): 31-43.

[16]DUAN F, HUANG D, TIAN Y, et al. 3D face reconstruction from skull by regression modeling in shape parameter spaces[J]. Neurocomputing, 2015, 151: 674-682.

[17]SHUI W, ZHOU M, MADDOCK S, et al. A PCA-Based method for determining craniofacial relationship and sexual dimorphism of facial shapes[J]. Computers in Biology and Medicine, 2017, 90: 33-49.

[18]周明全,楊穩,林芃樾,等.基于最小二乘正則相關性分析的顱骨身份識別[J].光學精密工程,2021,29(1):201-210.

ZHOU M Q, YANG W, LIN P Y, et al. Skull identification based on least square canonical correlation analysis[J]. Optics and Precision Engineering, 2021,29(1):201-210.

[19]ZHAO L, MA L, CUI Z, et al. FAST-Net: A coarse-to-fine pyramid network for face-skull transformation[C]∥International Workshop on Machine Learning in Medical Imaging(MLMI). Cham: Springer Nature Switzerland, 2023: 104-113.

[20]LIN P Y, YANG W, XIA S Y, et al. CFR-GAN: A generative model for craniofacial reconstruction[C]∥2021 IEEE International Conference on Bioinformatics and Biomedicine (BIBM). Houston: IEEE, 2021: 462-469.

[21]ZHANG N, ZHAO J, DUAN F, et al. An end-to-end conditional generative adversarial network based on depth map for 3D craniofacial reconstruction[C]∥Proceedings of the 30th ACM International Conference on Multimedia(ACM, MM). Lisboa Portugal: ACM," 2022: 759-768.

[22]LI Y, WANG J, LIANG W, et al. CR-GAN: Automatic craniofacial reconstruction for personal identification[J]. Pattern Recognition, 2022, 124: 108400.

[23]ISOLA P, ZHU J Y, ZHOU T, et al. Image-to-image translation with conditional adversarial networks[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Hawaii: IEEE," 2017: 1125-1134.

[24]MIRZA M,OSINDERO S.Conditionalgenerative adversarial nets[EB/OL].(2014-11-06) [2022-10-23]. https:∥arxiv.org/abs/1411.1784.

[25]WANG T C, LIU M Y, ZHU J Y, et al. High-resolution image synthesis and semantic manipulation with conditional gans[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Salt Lake: IEEE, 2018: 8798-8807.

[26]HUANG X, LIU M Y, BELONGIE S, et al. Multimodal unsupervised image-to-image translation[C]∥Proceedings of the European conference on computer vision(ECCV). Munich: Springer,2018: 172-189.

[27]LEE H Y, TSENG H Y, HUANG J B, et al. Diverse image-to-image translation via disentangled representations[C]∥Proceedings of the European Conference on Computer Vision(ECCV). Munich: Springer, 2018: 35-51.

[28]KIM J, KIM M, KANG H, et al. U-GAT-IT: Unsupervised generative attentional networks with adaptive layer-instance normalization for image-to-image translation[C]∥International Conference on Learning Representations. New Orleans: Ithaca, 2019: 1-19.

[29]TANG H, LIU H, XU D, et al. Attentiongan: Unpaired image-to-image translation using attention-guided generative adversarial networks[J]. IEEE Transactions on Neural Networks and Learning Systems, 2021, 34(4): 1972-1987.

[30]陳曉雷,楊佳,梁其鐸.結合語義先驗和深度注意力殘差的圖像修復[J].計算機科學與探索,2023,17(10):2450-2461.

CHEN X L, YANG J, LIANG Q D. Image inpainting combining semantic priors and deep attention residuals[J].Journal of Frontiers of Computer Science and Technology,2023,17(10):2450-2461.

[31]LIU M, DING Y, XIA M, et al. Stgan: A unified selective transfer network for arbitrary image attribute editing[C]∥Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). Long Beach: IEEE, 2019: 3673-3682.

[32]CHEN X, PAN J, JIANG K, et al. Unpaired deep image deraining using dual contrastive learning[C]∥Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). Ner Orleans: IEEE," 2022: 2017-2026.

[33]PARK J,WOO S,LEE JY,et al. Bam: Bottleneckattention module[EB/OL].(2018-07-17) [2022-11-10]. https:∥arxiv.org/abs/1807.06514.

[34]HAASE D, AMTHOR M. Rethinking depthwise separable convolutions: How intra-kernel correlations lead to improved mobilenets[C]∥Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). Virtual: IEEE," 2020: 14600-14609.

[35]RADFORDA,METZ L,CHINTALA S. Unsupervisedrepresentation learning with deep convolutional generative adversarial networks[EB/OL]. (2015-11-19) [2023-03-15]. https:∥arxiv. org/abs/1511.06434.

[36]MAO X, LI Q, XIE H, et al. Least squares generative adversarial networks[C]∥Proceedings of the IEEE International Conference on Computer Vision(ICCV). Venice: IEEE," 2017: 2794-2802.

[37]CHEN R, HUANG W, HUANG B, et al. Reusing discriminators for encoding: Towards unsupervised image-to-image translation[C]∥Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). Virtual: IEEE, 2020: 8168-8177.

[38]YANG X, JIA X, GONG D, et al. LARNeXt: End-to-end lie algebra residual network for face recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023,45(10):11961-11976 .

(編 輯 雷雁林)

基金項目:國家自然科學基金(62271393);陜西省重點研發計劃(2021GY-028)

第一作者:王潔,女,從事機器學習、顱骨身份認證以及可視化研究。

通信作者:劉曉寧,女,教授,從事機器學習、圖像處理研究,xnliu@nwu.edu.cn。

主站蜘蛛池模板: 亚洲国产中文精品va在线播放 | 国产真实乱子伦精品视手机观看 | 五月婷婷导航| 成人在线不卡| 无码中字出轨中文人妻中文中| 91视频国产高清| 国产农村精品一级毛片视频| 国产欧美日韩18| 国产精品va| 最新亚洲人成无码网站欣赏网| 亚洲熟女中文字幕男人总站| 国产草草影院18成年视频| 98精品全国免费观看视频| 日韩人妻少妇一区二区| 免费在线成人网| 超碰免费91| 婷婷午夜天| 国产精品综合久久久 | 国产网站免费看| 亚洲精品第1页| 亚洲水蜜桃久久综合网站| 欧洲欧美人成免费全部视频| 国产精品精品视频| 精品一区二区三区无码视频无码| 欧美成a人片在线观看| 美女亚洲一区| 中文一区二区视频| 粗大猛烈进出高潮视频无码| 2021精品国产自在现线看| 在线免费看片a| 亚洲伊人电影| 国产精品视频系列专区| 国产日韩av在线播放| 在线观看91香蕉国产免费| 国产情精品嫩草影院88av| 亚洲AV一二三区无码AV蜜桃| 国产一区二区三区免费观看| 亚洲av成人无码网站在线观看| 被公侵犯人妻少妇一区二区三区| 国产乱人伦AV在线A| 国产精品太粉嫩高中在线观看 | 五月天婷婷网亚洲综合在线| 四虎精品黑人视频| 青青青视频免费一区二区| 午夜日本永久乱码免费播放片| 99视频国产精品| 激情综合图区| 国产精品九九视频| 一级一毛片a级毛片| 亚洲国产天堂在线观看| 亚洲无码视频一区二区三区| 亚洲第一精品福利| 伊人色天堂| 99热国产在线精品99| 国模极品一区二区三区| 美女裸体18禁网站| 无码中文AⅤ在线观看| 美女被操91视频| av手机版在线播放| 国产青榴视频| 国产日韩精品欧美一区喷| 国产一区二区三区免费观看| 欧美国产在线看| 欧美国产综合视频| 亚洲国产精品成人久久综合影院| 一本大道视频精品人妻| 色国产视频| 色成人综合| 亚洲精品麻豆| 成人国产免费| 88av在线| 欧美精品1区2区| 日韩高清在线观看不卡一区二区| 国产色婷婷| 欧美a级在线| 国产午夜精品一区二区三| 欧美精品高清| 亚洲综合极品香蕉久久网| 都市激情亚洲综合久久| 天堂成人av| 免费福利视频网站| 国产成人无码久久久久毛片|