摘 要:【目的】為應對當前語音驅動的人臉圖像生成方法在特征提取和生成質量方面的挑戰,特別是解決音頻與人臉特征之間深層聯系的探索和利用不足問題,提出了一種基于梅爾頻率倒譜系數(MFCC)的InceptionResNet-V1音頻特征提取網絡。【方法】通過SEGAN對音頻信號進行數據增強,以實現特征的精細提取和有效傳遞。針對人臉圖像生成質量問題,采用基于輔助分類器的生成對抗網絡(AC-GAN)作為基線模型,并引入中值增強空間通道注意力模塊(Median-enhanced Spatial and Channel Attention Block)以提升特征提取能力。同時,結合圖像超分辨率重建模塊,將生成的圖像恢復為高分辨率圖像。【結果】實驗結果表明,所提方法在語音驅動的人臉圖像生成任務中顯著提升了生成質量,相較于主流模型FID降低了36%,余弦相似度提高了22%,人臉檢索性能(Top-N)均有效提升,充分證明了其有效性和優越性。【結論】通過語音特征優化和注意力增強機制,有效提升了語音驅動人臉生成的精度與視覺效果,為跨模態生成任務提供了可擴展的技術路徑。
關鍵詞:語音生成人臉;梅爾頻率倒譜系數;生成對抗網絡;注意力機制;圖像超分辨率重建
中圖分類號:TP391 " "文獻標志碼:A " " 文章編號:1003-5168(2025)06-0022-09
DOI:10.19968/j.cnki.hnkj.1003-5168.2025.06.004
Speech Portrait Method Based on Generative Adversarial Networks
QIN Haoming BU Fanliang ZHONG Fanghao MA Qiming
(School of Information Network Security, People's Public Security University of China, Beijing
100038, China)
Abstract:[Purposes] To address the challenges faced by current speech-driven facial image generation methods, particularly the insufficient exploration and utilization of deep audio-visual feature correlations, as well as limitations in feature extraction and generation quality, this paper proposes an InceptionResNet-V1 audio feature extraction network based on Mel Frequency Cepstrum Coefficient (MFCC). [Methods] The data of the audio signal is enhanced by SEGAN to achieve fine extraction and effective transmission of features. To improve facial image generation, we adopt an Auxiliary Classifier GAN (AC-GAN) as the baseline model, integrating a Median-enhanced Spatial and Channel Attention Block (MECS) to strengthen local feature alignment. Additionally, combined with the image super-resolution reconstruction module, the generated image is restored to a high-resolution image. [Findings] The experimental results demonstrate that the proposed method significantly enhances the quality of speech-driven facial image generation. Compared to mainstream models, it achieves a 36% reduction in FID and a 22% improvement in cosine similarity. Additionally, the face retrieval performance (Top-N) is consistently enhanced, fully validating its effectiveness and superiority. [Conclusions] By optimizing audio feature representation and introducing attention-enhanced mechanisms, this work effectively improves the precision and visual realism of speech-driven facial generation, offering a scalable technical framework for cross-modal generation tasks.
Keywords:speech-driven facial image generation; MFCC; generative adversarial network;attention mechanism; image super-resolution reconstruction
0 引言
語音畫像指的是從一段說話人的語音中提取說話人的身份信息[1],從而生成與說話人臉部特征相似的人臉圖像[2]。隨著互聯網技術的日益成熟和廣泛普及,各種新型的涉網犯罪迅速崛起,對人類社會的穩定構成了嚴峻挑戰。通過對音頻信息進行分析,將生成的面部圖像與人臉數據庫進行匹配,有利于提高案件偵查的效率,從而增強社會穩定性,維持社會秩序。針對上述問題,本研究在公安領域以及非公安領域有著廣泛的應用價值[3]。
語音驅動人臉圖像生成的跨模態任務最早由美國麻省理工學院的研究人員 Oh 等人[4]展開研究。該研究提出的模型為 Speech2face ,由人臉編碼器、人臉解碼器和語音編碼器組成,揭示了語音與面部結構之間存在統計學上的相關性。2019年Duarte等人[5]提出了一種全新的深度神經網絡模型,命名為Wav2Pix,該模型以端到端的方式從原始語音波形直接生成面部圖像,無須任何額外的身份信息,且在自建的高質量數據集上進行了訓練。Wen等人通過一種無監督的模型Voice2face來從音頻中重建人臉圖像[6],提出了一種基于GANs的新框架[7],并在GAN中加入身份分類器,以實現從語音中生成的人臉圖像對應說話人的真實身份。
針對以上研究,為了使模型能有更好的表現,本研究提出了基于對抗生成網絡的語音畫像模型,并在架構和關鍵模塊設計上引入了多項創新。該模型由語音特征提取和人臉圖像生成兩部分組成,分別針對語音增強、特征提取與融合以及圖像生成的精確性進行了優化,創新性地結合了以下幾項關鍵技術。①引入SEGAN網絡[8]對帶有噪聲的音頻進行增強處理,生成更高質量的語音輸入。② 利用MFCC特征提取[9]將增強后的語音信號轉化為頻譜圖,保留語音的時頻特征。③使用InceptionResNet-V1網絡[10]提取語音的深度特征,顯著提升特征表達能力。④設計了基于MECS-GAN(Median-enhanced Spatial and Channel Attention Block- Generative Adversarial Network)的生成架構,通過中值增強技術優化空間和通道的注意力機制,更準確地捕捉并融合語音特征,實現生成圖像與特征向量屬性的高一致性。實驗結果表明,該模型在多項指標上均顯著優于Voice2Face[6]模型,特別是在生成圖像的保真度和細節表現上有了大幅度提升。
1 基礎知識
1.1 基于SEGAN的語音增強技術
SEGAN(Speech Enhancement Generative Adversarial Network)是基于生成對抗網絡的語音增強技術,其基本原理在于通過一個生成器和一個判別器的對抗訓練,達到從含噪聲的語音中提取清晰語音信號的目的。
在GAN的基礎上,SEGAN中的生成器主要負責語音增強。給定一個原始信號數據集 X={(x1?,x^1?),(x2?,x^2?),……,(xN?,x^N?)},[x]表示干凈語音信號,x^表示含噪語音信號。含噪聲信號x^和隨機信號在SEGAN模型生成器中訓練,經過增強處理,輸出增強后的語音[x]。
判別器主要用于監督訓練階段,不參與模型測試。其任務是鑒別輸入語音是原始語音[x]還是增強后的語音[x],并向生成器提供反饋,使生成器能夠輸出更接近真實語音的增強信號。
為了提高語音增強的質量和穩定性,在SEGAN的生成器損失函數中加入了一個二次項,以減少增強后語音與原始語音[x]之間的距離。這個距離由超參數 [λ](在原始公式中硬編碼為100,但在這里作為可調的權重參數)來控制。同時,采用最小二乘損失來優化判別器 (D),進一步提高模型的性能。這里將生成器接收原始語音[x]和參考[r]作為一對,將生成語音[G(xnoisy, z)]、噪聲語音x^和參考[r]作為另一對。SEGAN的整體結構如圖1所示。
生成器的損失函數由兩個部分組成: LSGAN損失和L1損失。具體表示見式(1)。
[LG=12Ex~pnoisy(x),z~pz(z),r~pref(r)(D(G(x, z), x, r)-1)2+λ?Ex~pnoisy(x),z~pz(z),y~pclean(y)‖G(x, z)-y‖1] (1)
式中:第一項為LSGAN損失;第二項為L1損失;[λ]為權重參數,用于平衡損失函數中各部分的貢獻。
判別器的損失函數包含兩部分,分別對應判別器對真實樣本和生成樣本(及其相關輸入,如噪聲語音和參考信號)的預測誤差。具體來說,判別器的損失函數表示見式(2)。
[LD=12Ey~pclean(y),r~pref(r)(D(y, r)-1)2+12Ex~pnoisy(x),z~pz(z),r~pref(r)D(G(x, z), x, r)2] (2)
1.2 中值增強空間通道注意力(MECS)
本研究提出了一種中值增強的空間和通道注意力塊(MECS),以有效地提升特征提取的能力。MECS模塊結合了通道注意力和空間注意力機制[11],能夠在不同尺度上捕捉和融合特征。
在計算機視覺任務中,模型的性能很大程度上依賴于其特征提取能力。傳統的卷積神經網絡[12]在處理圖像任務時盡管有效,可是在處理全局信息和捕捉多尺度特征時存在不足。為了應對這些問題,本研究提出了中值增強的空間和通道注意力模塊(MECS),以提升特征提取的效果和模型的魯棒性。MECS模塊的整體結構如圖2所示。
通道注意力機制通過全局池化(全局平均池化、全局最大池化以及全局中值池化)來提取特征圖的全局統計信息,從而在嘈雜環境下仍能提取出高質量的特征。具體過程如下。
首先,模型對輸入的特征圖進行池化操作處理。通過全局平均池化(AvgPool)、全局最大池化(MaxPool)和全局中值池化(MedianPool),得到三個不同的結果。每個池化結果的尺寸均為 [?C×1×1],其中[C]為通道數。其次,每個池化結果輸入到共享的多層感知器(MLP)中進行處理。通過第一個卷積層之后將特征維度從[C]降到[C/r][Cr],其中[r]為降維比率,第二個卷積層將特征維度恢復到[C]。最后,使用 Sigmoid 激活函數將輸出值壓縮到 [0, 1] 范圍內,得到三個注意力圖。將三個池化結果的注意力圖逐元素相加,生成最終的通道注意力圖。隨后將通道注意力圖與原始輸入特征圖逐元素相乘,得到加權后的特征圖。該過程的計算見式(3)和式(4)。
[Fc=σ(MLP (AvgPool(F)))+σ(MLP(MaxPool(F)))+σ(MLP(MedianPool(F)))] " " (3)
[F=Fc⊙F] (4)
式中:σ表示Sigmoid函數;⊙表示元素級相乘。
空間注意力機制利用多尺度深度卷積捕捉輸入特征圖的空間關系,生成空間注意力圖。具體過程如下。
首先,輸入特征圖通過一個5 × 5 的深度卷積層,提取基礎特征,該卷積層的輸出尺寸與輸入相同。其次,為了獲取多尺度的特征信息,這些基礎特征被進一步送入多個不同尺寸的深度卷積層中,這些卷積層涵蓋1×7、1×11、1×21多種卷積核尺寸以全面捕捉不同尺度的特征。再次,將所有深度卷積層的輸出特征圖進行元素級的相加操作,實現特征的融合。最后,把融合后的特征圖通過一個1×1的卷積層處理,生成所需的空間注意力圖。隨后將空間注意力圖與經過通道加權處理的特征圖進行元素級的相乘操作,得到最終的輸出特征圖。該過程的計算見式(5)和式(6)。
[Fs=i=1nDi(F)] (5)
[F=Conv1x1(Fs)⊙F] (6)
式中:[i]表示不同尺寸的深度卷積操作;[n] 表示深度卷積的數量;[Conv1x1]表示1×1卷積操作。
1.3 基于輔助分類器的生成對抗網絡
ACGAN(Auxiliary Classifier GAN)是GAN的進一步擴展[13],其創新點是在傳統GAN判別器D中巧妙地融入了一個輔助分類器。這一設計不僅使得判別器能夠區分輸入圖像的真實性和生成性,還肩負起預測圖像類別標簽的重任。相應地,生成器G也不僅需要生成在視覺上難以與真實圖像區分的樣本,還必須確保這些樣本能夠精準地匹配到特定的類別標簽。ACGAN模型結構圖如圖3所示。
1.4 音頻處理器
本研究開發了一個新的音頻處理器模塊,專注于高效地處理和轉換音頻信號。首先,音頻信號被數字化處理,讀取WAV文件得到一維的NumPy數組,代表音頻信號的幅度隨時間變化。為了補償高頻衰減,MFCC特征提取過程從預加重開始,具體見式(7)。
[x(n)=x(n)-0.95?x(n-1)] (7)
預加重后的信號被分幀,每幀長度為20~40 ms,幀間重疊長度為幀長的一半。信號經過漢明窗處理以減少泄漏,具體見式(8)。
[w(n)=0.54-0.46cos2πnN-1] (8)
其次,對每幀進行快速傅里葉變換(FFT),計算Mel濾波器組的響應。Mel尺度的頻率轉換見式(9)。
[mel(f)=2 595log101+f700] (9)
每個濾波器的輸出取對數,得到的對數能量見式(10)。
[Em=logk=1N|Xk|2Hm(k)] (10)
這一步驟后,得到的對數能量可以通過Mel濾波器組的響應,形成Mel頻譜圖。這個Mel頻譜圖表示了信號在不同頻率上的能量分布,是一個二維矩陣,常作為后續模型的輸入。
在本研究的語音驅動人臉畫像模型基本架構中,先從訓練集的音頻信號中獲取其對數梅爾譜圖,再將它們表示為64維的特征向量,對每個Mel頻段執行均值和方差歸一化處理,將語音片段剪輯在8 s左右,并將處理好的語音輸入到語音編碼器網絡中進行特征提取。
本研究選擇使用InceptionResNet-V1作為語音編碼器網絡。InceptionResNet-V1 是一種結合了 Inception 模塊[14]和 ResNet 殘差連接[15]的卷積神經網絡。其設計目標是通過 Inception 模塊的多尺度特征提取能力和 ResNet 的梯度傳遞優勢來提高模型的性能和效率。該模型的架構包括初始的 Stem 部分用于初步特征提取,以減少特征圖的尺寸并提取低層次特征。接著通過 Inception-ResNet-A 模塊和Inception-ResNet-B 模塊提取不同尺度的特征,并利用殘差連接將輸入和輸出連接起來,以緩解梯度消失問題。然后依次通過Reduction-A 模塊、Reduction-B 模塊和 Inception-ResNet-C 模塊進行多層次特征提取和降維處理,并通過全局平均池化和全連接層輸出分類結果。InceptionResNet-V1 通過將 Inception 模塊與 ResNet 的殘差連接相結合,既保持了 Inception 模塊的多尺度特征提取能力,又利用了 ResNet 的梯度傳播優勢,從而在復雜圖像生成任務中取得了優異的性能。
通過這些步驟,最終得到一個高效的音頻處理模塊,實現了特征的精細提取和有效傳遞。輸入維度為一維的NumPy數組,通過MFCC轉換為對數Mel頻譜圖后,輸入到InceptionResNet-V1網絡中進行特征提取,最終輸出特征向量。隨后生成器將處理后的數據同時輸入到判別器和分類器中。判別器將區分數據是來自真實樣本還是由生成器生成的,而分類器則負責對輸入數據進行分類,識別出其所屬的類別。
2 基于語音特征的人臉圖像生成方法
2.1 模型的整體結構
本研究提出的基于語音特征的人臉圖像生成模型包含兩個部分,分別是基于InceptionResNet-V1的語音特征提取部分和基于MECS-GAN的人臉生成部分,整體結構如圖4所示。
2.2 損失函數
在整體網絡模型中,ACGAN的生成器G的輸入是隨機噪音 [z] 和類別標簽 [c],輸出為生成樣本 [x=G(z,c)]。判別器D的輸入為生成樣本 [x] 和真實樣本 [x], 判別器D需要同時輸出樣本的真實性概率 [P(real|x)] 和類別概率 [P(c|x)]。ACGAN的目標函數涵蓋了兩個關鍵部分:一是GAN傳統的對抗損失,其關注于生成器與判別器之間的真偽博弈;二是輔助分類損失,其側重于提升判別器對樣本類別的準確預測能力。生成器的表示見式(11)。
[LG=E[log(1-P(real|x))]-λE[logP(c|x)]] " " " "(11)
[λ]是一個超參數,用于平衡對抗性損失和分類損失。在對抗性損失部分,使用了 [(1-P(real|x))]來表示生成器,希望能成功“迷惑”判別器。判別器的表示見式(12)。
[LD=-E[logP(real|x)]-E[log(1-P(real|x))]-λ(E[logP(c|x)]+E[logP(c|x)])] (12)
對抗性損失部分使用了交叉熵損失來訓練判別器正確區分真實和生成樣本。
輔助分類損失:
對于判別器見式(13)。
[?CD=-Ex,c[logP(c|x)]] (13)
對于生成器見式(14)。
[?CG=-Ez,c[logP(c|G(z,c))]] (14)
2.3 圖像超分辨率重建模塊
圖像超分辨率重建模塊的目標是將模型生成的圖像恢復至相應的高分辨率版本。為實現這一目標,在前文提出的模型基礎上,進一步添加了降解去除模塊以及一個預訓練的人臉GAN。通過微調預訓練的StyleGAN2模型[16],評估已生成的圖像,對生成模塊生成的圖像進行人臉修復,從而進一步提升生成人臉圖像質量,還原出更可信的細節。通過借鑒GFPGAN等研究者的思路[17],引入兩個關鍵組件:降解去除模塊和預訓練的人臉GAN作為面部先驗。降解去除模塊:這個模塊類似于U-Net[18],負責處理初始低質量的人臉圖像。通過去除降解物(如噪聲、模糊等)來改善圖像質量,同時保留面部信息。預訓練的人臉GAN作為面部先驗:模型使用了預先訓練的人臉生成對抗網絡(StyleGAN2)作為先驗信息,這個GAN已經學會了生成高質量的面部圖像,將其作為先驗,幫助生成器進一步優化生成的高分辨率圖像。
3 實驗
3.1 實驗環境搭建
本研究提出的方法所使用的實驗平臺與環境配置見表1。網絡模型訓練參數設置中,學習率為0.05,訓練輪數為50 000。
3.2 數據集介紹
在實驗設置中,本研究采用了兩個具有身份標識信息的數據集:Voxceleb1的語音記錄[19]和VGGFace的手動過濾版人臉圖像[20]。經過篩選,得到了1 225名相同身份的受試者數據,包含149 354條語音記錄和139 572張正面人臉圖像。VGGFace數據集是由牛津大學視覺組在2015年構建的大規模人臉識別數據集,包含 2 622個名人和公眾人物的260萬張自然環境下拍攝的人臉圖像。同時,本研究選用的Voxceleb1數據集是聲紋識別任務中最常用的數據集之一,其音頻數據均來源于YouTube上的真實場景視頻。該數據集包含了各個國家、性別、職業、年齡以及不同口音的說話人。根據Wen等人的劃分方式[6],將數據集按照說話人名字首字母劃分為訓練集、驗證集和測試集。實驗過程中具體的數據劃分細節見表2。
對于音頻和人臉圖像的處理,本研究采用了不同的預處理流程。針對音頻數據的處理,首先,利用語音活動檢測器來精確鎖定錄音中的語音部分,確保僅對這些關鍵語音段進行處理。其次,將這些語音數據轉換為單通道16位流,并保持16 kHz的采樣率,以實現數據的一致性。再次,音頻被送入SEGAN網絡進行音頻質量的增強處理,以進一步提升音頻的清晰度和可辨識度。最后,將音頻輸入采用25 ms的分析窗口,并以10 ms的步長提取512 × 300大小的對數MEL譜圖。為確保數據的穩定性,對每個MEL頻段進行了均值和方差的歸一化處理。在訓練階段,隨機選擇3~8 s的音頻片段進行訓練,而測試時則使用完整的錄音。對于人臉圖像,檢測并標記了所有人臉的關鍵點。通過相似變換,得到了大小為3×64×64的RGB人臉圖像。為確保數據的一致性,對RGB圖像中的每個像素除以127.5再減去1并進行歸一化處理,將像素值控制在[-1,1]范圍內。
3.3 實驗結果的量化分析
為了驗證本研究方法的有效性,采用以下3種測試指標來進行定量分析。
3.3.1 弗雷歇起始距離(FID)。在本研究中,FID(Fréchet Inception Distance )[21]被用作量化語音驅動人臉生成系統性能的指標。FID指標利用Inception網絡提取的特征向量來量化真實樣本集與生成樣本集之間的統計差異。具體而言,FID計算了兩個特征分布——即真實樣本分布與生成樣本分布的Fréchet距離,具體見式(15)。
[FID(x,g)=μx-μg2+TrΣx+Σg-2ΣxΣg12] " " " " (15)
式中:[μx] 和 [μg] 分別代表真實樣本和生成樣本特征的均值向量;[Σx] 和 [Σg] 分別代表對應的協方差矩陣。理論上,若生成樣本與真實樣本無差異,則FID值為零。因此,較低的FID值表示生成樣本與真實樣本在統計特征上的高度相似性。
3.3.2 人臉檢索性能(Top-N)。在語音畫像研究中,人臉檢索性能是評估生成的人臉圖像質量的重要指標。該指標最早由Oh等人[4]提出,用于衡量通過語音生成的人臉圖像在檢索庫中找到真實說話人圖像的概率。具體來說,Top-N準確率表示在所有檢索實驗中,返回的前N張相似度最高的圖像中,至少有一張是與真實說話人匹配的頻率。具體見式(16)至式(18)。
[‖x-y‖1=i=1n|xi-yi|] (16)
[‖x-y‖2=i=1n(xi-yi)2] (17)
[d(x,y)=1-i=1nxiyii=1nx2ii=1ny2i] (18)
式中:[x]和[y]是n維向量;[xi]和[yi]分別是這兩個向量在第i個維度上的值。
3.3.3 余弦相似度。在語音畫像研究中,余弦相似度是用于評估生成的人臉圖像與真實人臉圖像之間相似性的重要指標。本研究實驗中通過對人臉的結構五官識別,來進行余弦相似度的計算。余弦相似度的計算見式(19)。
[cos(x,y)=i=1nxiyii=1nx2ii=1ny2i] (19)
3.4 對比試驗
為驗證本研究提出的模型在生成任務中的性能,將模型在 Voxceleb1 和 VGGFace 交集的訓練集中進行訓練,在交集的測試集上進行評估。其中包含 189 個說話人的語音數據和人臉圖像數據,用于計算 FID、人臉檢索性能 Top-N和余弦值等數值。本研究模型MedIncept-MelGAN和主流模型實驗結果對比見表3。
從表3中可以看出,本研究提出的語音驅動人臉圖像生成模型MedIncept-MelGAN在各個評估指標下和另外三個主流模型相比均表現出顯著優勢。從人臉圖像檢索性能Top-N的評估、FID評價指標以及余弦相似度來看,本研究提出的模型較各大模型均有顯著提升。這表明本研究提出的模型生成的人臉圖像在數據分布上與真實人臉圖像更加接近,且生成質量顯著提高。
本研究方法與主流模型實驗方法生成的圖像對比如圖5所示。從圖5中可觀察出,本研究提出的模型所生成的圖像在細節上所表現的人臉五官更為真實立體,并沒有出現扭曲以及與背景色塊融合等情況,在真實度上更接近于真實樣本,圖像清晰度均高于各個模型所生成的圖像。
3.5 消融實驗
本研究進行了多組消融實驗,以評估不同模塊對語音人臉生成模型性能的影響,實驗結果見表4。本研究提出的模型MedIncept-MelGAN在各個評估指標上均優于基線模型,驗證了本研究方法的有效性和正確性。
不同模型的生成結果和真實樣本如圖6所示。根據圖6可以看出,本研究提出來的模型MedIncept-MelGAN在相似度、真實性以及圖像清晰度上均達到了最佳狀態。同時在消融實驗中使用單獨添加的模塊進行實驗,所生成的圖像的面部結構等方面也在基線模型的基礎上有一定提升。在人臉面部結構、性別、表情等方面,本研究提出的模型基本能保持對真實樣本的還原,也說明了各模塊的可行性。
綜合以上實驗結果可以看出,本研究提出的綜合模型MedIncept-MelGAN在各個指標上均表現出最優性能。通過引入音頻處理器和MECS等模塊,不僅提高了生成圖像的質量,還增強了生成圖像與真實人臉圖像之間的相似度。相較于基線模型在FID降低了36%,余弦相似度提高了22%,人臉檢索性能(Top-N)均有效提升。這也表明了本研究模型能在音頻和人臉的特征上建立聯系,證明了本研究方法的有效性和創新性。
4 結語
本研究針對語音驅動人臉圖像生成的特征提取與生成質量等問題,提出了基于語音特征的人臉圖像生成模型MedIncept-MelGAN。通過建立音頻特征提取模塊以及基于MECS-GAN的人臉生成模塊,提高了模型的整體性能和效率,并緩解實驗中梯度消失的問題。同時,為了使圖像在視覺上具有更佳的表現,通過圖像超分辨率重建模塊將生成的圖像恢復至相應的高分辨率版本,進一步提高了模型的整體生成效果。在Voxceleb1和VGGFace數據集上的實驗結果顯示,本研究模型在FID、Top-N 指標以及余弦相似度等指標上的表現均優于主流實驗模型,生成效果均有明顯提升。
參考文獻:
[1] LEWICKI, MICHAEL S.Efficient coding of natural sounds.[J].Nature Neuroscience, 2002, 5(4):356-363.
[2] OWENS A , EFROS A A .Audio-visual scene analysis with self-supervised multisensory features[C]//2018.
[3]王媛媛.基于語音的人臉畫像方法[D].北京:中國人民公安大學,2022.
[4]Oh T H,DEKEL T,KIM C,et al.Speech2Face: learning the face behind a voice[J].IEEE, 2019.
[5]DUARTE A,ROLDAN F,TUBAU M,et al.Wav2Pix:speech-conditioned face generation using generative adversarial networks[J].IEEE, 2019.
[6]WEN Y,SINGH R, RAJ B.Face reconstruction from voice using generative adversarial networks[C]//Advances in Neural Information Processing Systems 32, Volume 7 of 20: 32nd Conference on Neural Information Processing Systems (NeurIPS 2019).Vancouver(CA).8-14 December 2019.2020.
[7] GOODFELLOW I J , SHLENS J , SZEGEDY C .Explaining and harnessing adversarial examples[J].Computer Science, 2014.
[8]PASCUAL S , BONAFONTE A ,SERRà, et al.SEGAN:speech enhancement generative adversarial Network[J].Arxiv, 2017.
[9]DAVIS S B .Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences[J]. Morgan Kaufmann Publishers Inc, 1990:65-74.
[10]SZEGEDY C , IOFFE S , VANHOUCKE V ,et al.Inception-v4,inception-ResNet and the impact of residual connections on learning[J/OL].2016[2025-02-08].https://dl.acm.org/doi/10.5555/3298023.3298188.
[11] WOO S , PARK J , LEE J Y ,et al. CBAM: Convolutional block "attention module[J].Springer, Cham, 2018.
[12] LECUN Y , BOTTOU L .Gradient-based learning applied to document recognition[J].Proceedings of the IEEE, 1998, 86(11):2278-2324.
[13] ODENA A , OLAH C , SHLENS J .Conditional image synthesis with auxiliary classifier GANs[J].CoRR , 2016.
[14]GOODFELLOW I,POUGET-ABADIE J,MIRZA M,et al. Generative adversarial nets[J].MIT Press,2014.
[15] HE K , ZHANG X , REN S ,et al. Deep residual learning for image recognition[J].IEEE, 2016.
[16] KARRAS T , LAINE S , AITTALA M ,et al. Analyzing and improving the image quality of styleGAN[J]. Arxiv, 2019.
[17] WANG X , LI Y , ZHANG H ,et al. Towards real-world blind face restoration with generative facial prior[J]. IEEE,2021.
[18] RONNEBERGER O , FISCHER P , BROX T .U-Net:convolutional networks for biomedical image segmentation[C]//International Conference on Medical Image Computing and Computer-Assisted Intervention.Springer International Publishing, 2015.
[19] NAGRANI A , CHUNG J S , ZISSERMAN A .VoxCeleb: a large-scale speaker identification dataset[J]. Arxiv, 2017.
[20] QAWAQNEH Z , MALLOUH A A , BARKANA B D .Deep convolutional neural network for age estimation based on VGG-Face model[J]. Arxiv, 2017.
[21] HEUSEL M , RAMSAUER H , UNTERTHINER T,et al. GANs trained by a two time-scale update rule converge to a local nash equilibrium[J]. Arxiv, 2017.