999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于穩定擴散與自適應增強技術的服裝模特圖像生成方法中

2025-09-02 00:00:00劉大偉于碧輝石珈維魏靖烜史慧洋靳赫烜孫林壯
計算機應用研究 2025年8期

關鍵詞:穩定擴散;圖像生成;自適應增強;模型微調;多模態評估 中圖分類號:TP181 文獻標志碼:A 文章編號:1001-3695(2025)08-003-2267-07 doi:10.19734/j.issn.1001-3695.2025.01.0008

Method for generating clothing model images based on stable diffusion and adaptive enhancement techniques

Liu Dawei 1,2 ,Yu Bihui 1,2? ,Shi Jiawei1,2,Wei Jingxuan 1,2 ,Shi Huiyang2,3,Jin Hexuan , Sun Linzhuang1,2 (1.Shenyanguteofomputinghlg,CnseAcdefSiecs,hyag8,ha;2.UniersitofCinsedf Sciences,Bjing4,hin;3Sholofompuercienceamp;Techog,UniersityfCneseAdeyfSiences,Beiin10 China)

Abstract:Withtheadvancementofcomputervisionand generativemodels,,image generationtechnologyhas made significant strides,particularlyine-commerceproductdisplays,enhancinguserinteraction.Realisticclothing modelgenerationhas becomeaninnovativeapplication,deeplyintegratinggenerativetechnologywithe-commerce.However,challngesremain,especiallyingenerating high-quality,realisticclothing imagesthatcapturedetails,texture,andconsistency.Currentmodelsoftenstrugglewithaccuratelyrepresentingthefactualconsistencyofclothingandmaintaining naturalnessandcoherencecompared toreal images.To improvetheperformanceofclothing model generation technologyine-commerceapplications,this studypresentedLoRA-DAE,animprovedstabledifusion generative modelthatintegratedLoRAforoptimizedweightadjustment in atentionand convolutionlayers.Additionall,itaddedanadaptiveenhancement module tothegenerationprocess, dynamicallyadjusting textureanddetail distribution,adressing issues liketexture blurrngandedge distortion.Experments show thatLoRA-DAEoutperforms mainstream methods ontheFashion Mannequindataset,achieving notableimprovements in perceived quality(user evaluation),quantitative metrics(FID,IS,PSNR,SSIM),and multi-modal large model VQA evaluation.

Key words:stable difusion;image generation;adaptive enhancement;model fine-tuning;multimodal evaluation

0 引言

隨著數字化技術的快速發展,時尚行業正迎來深刻的變革,傳統的服裝設計、展示和銷售方式逐步被人工智能等新興技術所革新[1]。在虛擬試衣、電子商務和時尚設計等場景中,服裝模特圖像生成作為生成式人工智能技術的重要應用[2.3]正在成為時尚行業數字化轉型的關鍵支撐。通過高度逼真的視覺表現,突破了傳統服裝的局限性,展現出廣闊的應用前景,成為推動時尚行業數字化轉型的重要驅動力。

在傳統的服裝展示與設計流程中,主要依賴人工拍攝和渲染來實現視覺效果,這種方式盡管成熟,但存在諸多局限性。首先,人工拍攝需投入大量資源,例如專業模特、攝影團隊和后期制作,成本高昂且效率低下。其次,人工渲染在真實感、動態效果以及個性化生成方面存在明顯不足,難以滿足消費者對快速更新和個性化時尚體驗的需求。而這些限制使得傳統方式難以適應市場快速變化的需求,進一步催生了基于生成模型的智能化解決方案[4]。

盡管生成式模型在多個領域取得了顯著成果[5],但在服裝模特圖像生成中仍面臨諸多挑戰,尤其是在細節真實性、紋理一致性和多姿態的自然性方面。例如,現有的擴散模型在處理復雜服裝紋理和細節(如褶皺、光影效果等)時,常常生成模糊或不自然的偽影,而這些細節對于服裝圖像的真實感和質量至關重要。此外,現有擴散模型的基礎架構未能針對服裝圖像的特定需求進行優化,尤其是在高細節區域的生成表現較為有限,影響了其在時尚服裝模特圖像生成任務中的應用潛力。

針對上述問題,如何在擴散模型的生成過程中有效地快速生成并增強細節表現成為一個關鍵研究方向。本文提出了一種基于穩定擴散模型的生成框架LoRA-DAE(low-rankadapta-tion withdiffusionadaptiveenhancement),集成了LoRA技術[6]和自適應增強模塊,用于提升服裝模特圖像生成的質量與效率。解決這些問題不僅能夠拓展穩定擴散模型在特定領域的應用范圍,還能夠為服裝設計、虛擬試衣和電子商務提供更加高效和逼真的解決方案。因此,本文的主要貢獻如下:

a)采用LoRA低秩分解優化了跨注意力層和卷積層的權重調整機制。在跨注意力層中增強條件信息捕捉能力,在卷積層中提升生成圖像的細節和材質表現。

b)設計一種自適應增強模塊,通過動態調整生成過程中的細節和紋理分布優化生成質量。在擴散過程中集成該模塊,對生成結果進行逐時間步優化,有效解決了紋理模糊和邊緣失真等問題。自適應增強模塊顯著提升了生成圖像的真實感和細節表現。

c)基于多模態大模型構建了VQA任務,設計了細粒度問題庫以評估生成圖片與文本描述的語義一致性。評估涵蓋裙型、領型、顏色、紋理和場景等多個維度,統計生成圖片的回答準確率。實驗結果顯示,LoRA-DAE在VQA任務中的表現優于其他主流方法,進一步驗證了其細節生成的有效性和先進性。

1相關工作

近年來,生成模型在深度學習領域的應用迅速崛起,從最初的生成對抗網絡(GAN)到最新的擴散模型(diffusionmo-dels),這些技術的進步極大地推動了圖像生成領域的革新。GAN通過生成器與判別器的對抗式訓練,在圖像生成質量上取得了顯著成果。然而,由于訓練的不穩定性以及模式崩塌(modecollapse)問題,GAN在細節生成和多樣性方面表現出一定的局限性。相比之下,擴散模型憑借其逐步降噪的生成方式,具有更強的穩定性和細節還原能力,在多個圖像生成任務中逐漸取代了GAN的地位。特別是穩定擴散模型(stabledif-fusion)[]的出現,通過在潛在空間內進行擴散采樣,顯著提升了高分辨率圖像的生成質量,為復雜任務提供了更多可能性。

1.1 文本圖像生成

GAN在早期的文本到圖像生成中占據主導地位。例如,Reed等人[8]首次提出將文本嵌人與生成器結合的GAN方法,有效捕捉了文本中的語義信息并生成逼真的圖像。隨后,StackGAN[9]和 StackGAN++[10] 采用多階段漸進生成網絡,在提高圖像分辨率的同時改善了生成質量。AttnGAN[1]引人注意力機制,使文本與圖像內容的對齊更加精確。盡管這些方法在文本到圖像生成領域取得了一定的成功,但GAN模型在生成多樣性和訓練穩定性方面仍存在局限性。

基于擴散模型的方法[12~14]在近年來取得了突破性進展。擴散模型通過逐步去噪的方式生成圖像,其生成質量和多樣性顯著優于GAN模型[15]。Ho等人[16]提出了一種基于時間步擴散的生成框架,為擴散模型奠定了基礎。StableDiffusion[7]使用潛在擴散模型,在保證高效計算的同時生成高分辨率圖像,成為當前主流的文本到圖像生成方法。

1.2個性化生成方法

個性化生成方法的核心在于調整預訓練的文本到圖像模型,使其能夠適應并生成包含新主題的圖像內容。早期的Tex-tualInversion[17]通過調整模型的嵌入或權重,學習新的軟詞嵌入來捕獲給定圖像中新概念的特征,成功實現了對新增主題的表示。 P+ 方法[18]在此基礎上進行改進,將可學習的標識注人到去噪U-Net的每一層注意力中,增強了模型對新概念的捕捉能力。而 NeTI[19] 進一步提出了利用神經映射器(neural mapper)將去噪時間步與反演過程相結合,提升了個性化生成的精度。

DreamBooth[20]通過校準模型權重使其適應帶有新增主題的描述。ELITE[2I]提出了一種直接將視覺概念映射到文本嵌入的方式,通過訓練一個可學習的編碼器實現高效個性化。這些方法雖然有效,但在內存和計算資源上存在一定限制。為此,后續研究引入了低秩更新(low-rankupdates,LoRA)[22,23],顯著降低了內存需求。郭宇軒等人[24]通過疊加多個LoRA對個性化生成進行控制,但過多的LoRA會導致模型生成之間的沖突。FaceStudio[25]和InstantID[26]等方法則在特定領域(如人臉個性化生成)中,通過結合標志點條件和控制網絡優化了身份保留與姿態一致性。 PALP[27] 改進了文本到圖像的對齊任務,但需要不同的提示對預訓練模型進行個性化的限制。

這些方法在生成質量、個性化表達和資源優化方面取得了重要進展,但仍存在一定的局限性。早期方法雖然在個性化生成中展現出了創新性,但往往伴隨著較高的內存和計算開銷,限制了其實際應用的廣泛性。后續引入的低秩更新技術顯著緩解了這一問題,提升了生成效率和參數優化能力。然而,LoRA的多層疊加策略雖然增強了生成控制能力,但在生成結果之間的協調性上仍存在沖突問題。此外,特定領域方法如FaceStudio和InstantID在人臉個性化生成中表現突出,但其適用范圍較為局限,難以擴展至更廣泛的生成任務。為此,本文通過集成LoRA技術優化權重調整機制,同時設計自適應增強模塊對生成過程中的細節和紋理分布進行動態調整,從而顯著提升了生成圖像的真實感和細節表現,解決了現有方法中的關鍵問題,拓展了個性化生成在多樣化應用場景中的適用性。

2改進的穩定擴散生成模型

本文將LoRA集成到穩定擴散模型中,提出一種改進的基于穩定擴散的生成框架LoRA-DAE,在優化生成任務性能的同時提升訓練效率。LoRA技術通過低秩分解優化了跨注意力層和卷積層的權重調整機制,有效減少了模型的參數量,從而降低了計算開銷并增強了模型的適配能力。通過減少冗余參數,LoRA不僅提升了訓練效率,還確保了模型在處理復雜任務時能夠保持較高的生成質量。在跨注意力層中,增強了條件信息的捕捉能力,使模型能夠更精準地處理文本描述與圖像生成的融合問題;在卷積層中,進一步優化了圖像生成中的紋理和材質細節,使生成結果更加真實細膩。整體模型架構如圖1所示。

2.1時尚服裝模特數據集

為了滿足服裝模特圖像生成任務對高質量數據的需求,本文提出了一個符合亞洲人審美特征的時尚服裝模特數據集———FashionMannequindataset,部分展示如圖2所示,它彌補了現有FGVC5[28]和 Human Parsing[29]等數據集中亞洲人比例不足的缺陷。本文通過開源平臺和電商平臺等渠道,結合 DeepFashion[30]和COCO數據集的相關類別與標簽[31],收集了約3方張高分辨率連衣裙模特圖像,涵蓋多種體型、膚色和服裝風格。這些圖片均在標準光照條件下拍攝,真實還原了服裝的材質、紋理和顏色特征,為模型訓練提供了高質量的數據基礎。

圖1LoRA-DAE模型整體結構

在數據預處理階段,本文通過清理和篩選圖像確保樣本的一致性與標注的準確性。本文采用OpenPose進行關鍵點檢測,以剔除姿態不完整的樣本;利用YOLOv8進行人體檢測,篩選出單人模特圖像以避免多人場景干擾;通過Grounding-SAM結合提示語精確分割時尚元素,提取連衣裙區域并剔除背景噪聲。此外,數據集標注采用WDTagger工具,通過自動化標注與人工校驗相結合的方式,對裙型、款式、袖長等標簽進行了精細化標注。該數據集涵蓋多個維度且質量優異,為模型的訓練提供了充分的數據支持。

在本文中,將LoRA模塊集成到穩定擴散模型的U-Net網絡中,用于服裝模特圖像的生成優化。U-Net作為擴散模型的核心結構,不僅負責圖像的特征提取,還承擔著生成任務的關鍵功能。LoRA技術主要應用于U-Net中的跨注意力模塊(cross-attention),通過對query、key和value的線性變換進行低秩矩陣分解,增強了條件信息(如文本描述)對圖像生成的引導能力。這種方法能夠提高條件信息在生成過程中的適配性,使得生成的圖像更為符合輸入的文本描述。同時,LoRA模塊還被應用于卷積層中,通過低秩權重更新實現對服裝紋理、材質和光影細節的優化,進一步提升了生成圖像的精度和質量。通過這一優化,模型在生成復雜服裝細節和自然視覺效果方面表現出顯著優勢。此外,在卷積層中加入LoRA模塊,通過低秩權重更新實現對服裝紋理、材質和光影細節的精細化優化,從而提升生成圖像的質量。

其中: WQ 為查詢權重矩陣; Wκ 為鍵權重矩陣; Wν 為值權重矩陣。

LoRA的設計不僅保證了訓練效率,還使模型對多樣化任務具有更高的適應性。在服裝模特圖像生成任務中,LoRA模塊能夠根據目標圖像的特征動態調整權重,重點強化服裝區域的紋理和結構細節,同時減少對背景或無關區域的計算開銷。

2.3自適應增強模塊

在生成高質量服裝模特圖像的任務中,圖像的細節表現、服裝的材質質感以及光影效果是決定生成結果優劣的關鍵因素。為了提升生成圖像在這些方面的精度,本文提出了一種自適應增強模塊,其核心目標是根據圖像的不同內容動態調整增強策略,從而在不同階段優化圖像細節,增強生成過程中的真實感與可控性。自適應增強模塊的設計靈感來源于解決傳統圖像增強方法與深度學習模型的結合,傳統圖像增強方法如平滑、銳化或邊緣檢測等,無法針對圖像中不同區域的特定需求進行調整。Sharma等人[32]通過動態濾波器增強CNN結構,使用動態卷積自適應地增強圖像主要部分的特征,雖然生成圖像較于傳統增強方法有了提升,但缺乏對對比度低的區域進行增強、對高頻細節部分執行細化的操作,無法真正做到“按需增強”。本文通過引入自適應增強模塊對圖像生成過程進行精細控制,進一步提升模型的表現。

圖2FashionMannequin數據集部分展示Fig.2Partial displayof theFashionMannequindataset

2.2基于LoRA的自定義穩定擴散模型

由于LoRA(low-rankadaptation)是一種輕量化的微調方法,在生成任務中,LoRA模塊的引入能夠動態調整模型的權重,使其更適應特定任務的需求,同時保持預訓練模型的通用性。

在具體實現中,LoRA模塊通過以下方式完成權重優化。假設某層的原始權重矩陣為 W ,微調過程中的權重更新被表示為兩個低秩矩陣的乘積并疊加到原始權重中。最終權重表示如式(2)所示。

ΔW=A?B

W=W+ΔW=W+A?B

其中: W 為原始權重矩陣; ΔW 為權重更新量; W 為更新后的權重矩陣: A 和 的秩顯著小于 W 的維度,滿足 rank(A)lt; 的維度遠小于原始權重矩陣的維度),即可在保證性能的同時大幅降低模型的訓練成本,從而顯著降低了計算和存儲成本。

2.3.1模塊設計與實現原理

自適應增強模塊的基本思想是通過引入一個動態調整機制,在生成圖像時自動判斷圖像的不同區域或特征,并根據需求應用不同的增強策略。該模塊分為圖像特征分析和增強策略生成兩大部分。圖像特征分析主要通過對輸人圖像的特征進行提取與分析,識別出需要增強的部分;而增強策略生成則根據特征分析的結果來決定具體的增強方式。

在實現過程中,模塊首先對輸人圖像進行初步的特征提取。通過卷積神經網絡,提取圖像中的紋理、邊緣、顏色等基本信息,具體結構如圖3所示。

假設輸人圖像為 I ,經過特征提取后得到的特征圖為 F ,自適應增強模塊的操作可以表示為

Ienhanced=I+α?ΔI

其中: :Ienhanced 為增強后的圖像; α 為調整因子,表示增強的強度。增強的圖像增量 ΔI 可以通過以下方式計算:

其中: wi 是針對每個區域或特征 Fi 的自適應權重,表示該區域的增強強度。權重 wi 是根據輸人圖像特征的上下文信息動態計算的,通常由一個自適應機制(如注意力機制或自適應卷積)來生成。具體來說,區域的重要性越高, wi 的值就越大,從而增強該區域的細節;而對不重要的區域, wi 的值較小,減少增強影響。

Fig.3Structure of the enhance module

隨后,通過自適應算法分析不同區域的特征差異,決定哪些區域需要更多的細節增強。例如,對于服裝的褶皺部分,增強模塊會加大對細節的增強力度,而對背景區域或較為平坦的區域,增強力度則會相應減弱。

2.3.2增強策略的設計

自適應增強的核心在于根據圖像的不同需求應用不同的增強策略。具體而言,本文通過細節增強和去噪平滑處理兩個方面來設計增強策略。

1)細節增強

對于服裝的紋理、褶皺等細節部分,自適應增強模塊會對其進行放大處理。這一過程包括對服裝的褶皺紋理、材質變化等進行高頻增強,提升其細節表現。

增強的方式主要通過調整圖像的對比度和亮度,以及采用圖像修復算法對低分辨率的細節進行重建。通過這一策略,模型能夠生成更加豐富的服裝紋理,提升最終圖像的真實感。

2)去噪與平滑處理

對于生成圖像中的噪聲和不連續區域,模塊會進行去噪和平滑處理。通過對圖像進行多次卷積處理,去除由于生成過程中的不穩定性所帶來的噪聲,從而保證圖像的質量。在處理過程中,模塊根據噪聲的分布情況進行針對性處理,確保圖像的平滑性和自然感。

自適應增強模塊能夠有效提升圖像的視覺效果,尤其是在高分辨率圖像生成過程中,該模塊能夠精確控制圖像的每個細節部分,避免過度增強導致的失真或偽影,同時提升細節部分的表現力,使服裝的紋理、光影和材質感更加生動且自然。對于具有挑戰性的服裝圖像生成任務,特別是涉及復雜的紋理和光影交互時,自適應增強模塊展現了其獨特的優勢。

2.3.3 自適應權重計算

在本模塊中,權重 wi 的計算通過自適應機制完成。以注意力機制為例,假設每個區域的特征圖通過自注意力模塊進行處理,可以計算每個區域的注意力權重 αi

其中: ?Fi 是區域 i 的特征強度; αi 表示該區域的重要性權重。基于這些權重,結合圖像的局部和全局信息,動態調整圖像中每個區域的增強度。

3實驗結果與分析

本文通過對比多個主流生成模型,包括SDXL[33]Hunyuan-DiT[34] SD3[35] 、majicMIX-realistic[36]以及本文的Lo-RA-DAE,并通過定性分析、定量評估和大模型評估,全面評價了LoRA-DAE模型在服裝細節生成上的性能。

3.1實驗環境及參數設置

本實驗在Ubuntu20.04操作系統上進行,硬件平臺為配備IntelXeonGold6338處理器的計算機,并使用四塊NVIDIAA100 80GB顯存顯卡進行加速計算。軟件環境方面,使用Py-thon3.10版本,并基于PyTorch2.0框架進行模型訓練。微調實驗采用了預先訓練的模型,具體的超參數設置如表1所示。

表1訓練超參數Tab.1Training hyperparameters settings

3.2消融實驗

為了驗證LoRA技術和自適應增強模塊(AE)對生成性能的貢獻,本文進行了消融實驗,實驗結果如表2所示。單獨應用LoRA技術的模型通過優化跨注意力層和卷積層的權重調整機制,有效提升了模型的參數效率和生成質量。然而,在處理復雜服裝細節(如褶皺、光影效果等)時,生成圖像的細節表現仍然存在一定的不足。

表2消融實驗評估

Tab.2Ablation experiment evaluation

在此基礎上,本文進一步測試了LoRA與自適應增強模塊(LoRA-DAE)結合后的模型,并進行了定量評估。表2結果表明,LoRA-DAE模型在所有指標上均超過了僅集成LoRA的模型。自適應增強模塊通過動態調整生成過程中的紋理和細節分布,顯著提升了圖像的細節表達能力,尤其是在復雜細節生成和整體圖像自然度上,驗證了自適應增強模塊的有效性。如圖4所示,添加自適應增強模塊后的模型能夠更精確地呈現“粉色印花”標簽,表現出更高的細節刻畫能力。

圖4消融實驗對比 Fig.4Ablation experiment comparison

3.3 對比實驗

在對比實驗中,本文對比了多個生成模型,實驗結果表明,在一些簡單的服裝屬性維度上,如袖長(長袖、短袖、無袖)和裙長(長裙、中長裙、短裙、超短裙)等方面,所有模型的生成效果差異并不顯著,但在涉及更復雜服裝細節的生成任務上,特別是在裙型和領型的重建上,本文模型展現了明顯的優勢。

具體而言,在連衣裙的裙型生成上,本文模型能夠準確地捕捉到多種復雜裙型的設計特點,如魚尾裙、A字裙、牛仔裙、花苞裙、蛋糕裙等。這些裙型具有獨特的形狀、褶皺和布料流動特征,其他主流模型(SDXL、Hunyuan-DiT、SD3、majicMix-realistic)往往在生成這些復雜設計時出現模糊或不自然的結果,而LoRA-DAE通過自適應增強模塊的細粒度控制,能夠更精確地捕捉這些細節,如圖5和6所示。

圖5連衣裙裙型生成對比(1)

圖5和6展示了五種生成模型在生成五種不同類型服裝圖像時的效果對比。對每個模型在對應服裝樣式下的生成結果進行了展示,并標出了明顯的細節問題或不一致性。LoRA-DAE在生成服裝圖像時展現了較高的細節準確性,尤其在復雜服裝紋理和材質表達上具有明顯優勢,能夠更自然地呈現服裝的形狀和光影效果。相較于LoRA-DAE,majicMIX-realistic在一些服裝細節上存在模糊,尤其是在裙擺、袖口等細節的呈現上。SD3則在多個服裝類型的細節生成上較為模糊,特別是在復雜服裝的細節表達方面存在不足。Hunyuan-DiT在紋理和顏色處理上較為均衡,但在人物姿態和服裝邊緣的自然度上有所欠缺。盡管SDXL在多個場景下展現了較高的生成質量,但在細節還原上仍存在局限,特別是在復雜設計的服裝上,細節表達較弱。圖中每列(a)~(e)中的方框標注了生成圖像中的問題區域,如模糊的邊緣和紋理失真等,直觀展示了LoRA-DAE在服裝圖像生成中的優勢,特別是在細節表現和整體自然度上。此外,在領型的生成方面,LoRA-DAE也表現出了極高的精度,包括圓領、方領、V領、一字領、吊帶、掛脖領、旗袍領和Polo領等多種設計。圖7展示了不同服裝款式和領型的生成效果對比。通過對比可以看出,LoRA-DAE在細節表現上,尤其是服裝紋理和光影效果方面,優于其他模型。圖8展示了方領、V領、Polo領和掛脖領的服裝生成效果。可以看出,LoRA-DAE在處理細節和整體自然度上表現突出,特別是在衣領和褶皺細節的生成上明顯優于其他模型,生成的圖像更加真實。

圖6連衣裙裙型生成對比(2)

圖7連衣裙領型生成對比(1)

Fig.7Comparison of dressneckline generation(part1)

不僅如此,LoRA-DAE在服裝的顏色、紋理和圖案生成方面也有明顯的提升。其他主流模型(SDXL、Hunyuan-DiT、SD3、majicMIX-realistic)生成的服裝圖像往往存在顏色失真、紋理模糊以及圖案不一致等問題,而通過引入自適應增強模塊,LoRA-DAE能夠在生成過程中對顏色和圖案進行精細調節,確保生成圖像中的每個服裝細節都與真實服裝保持高度一致。例如,對于帶有復雜圖案的服裝(如花紋連衣裙、條紋裙等),LoRA-DAE能夠在細節層次上展現出紋理的一致性,同時保證圖案的清晰度和整體服裝設計的協調性。

實驗結果表明,集成LoRA并添加自適應增強模塊后的模型在細節保真性和生成效率等方面均顯著優于當前主流服裝模特圖像生成模型SDXL、Hunyuan-DiT、SD3、majicMIX-realistic。整體而言,LoRA模塊為模型提供了一種輕量化、高效且靈活的優化手段,自適應增強模塊則通過動態調整生成過程中的紋理和細節分布,有效提升了復雜服裝設計(如褶皺、材質和光影)的還原能力,顯著改善了生成圖像的整體質量。

圖8連衣裙領型生成對比(2)

Fig.8Comparison of dress neckline generation(part 2)

此外,本文還進行了用戶評測,邀請多名評審和用戶對生成的圖像進行綜合評分,結果如表3所示。用戶評價表明,LoRA-DAE在服裝細節、自然度和逼真度方面獲得了更高的評分,尤其在生成多樣化服裝款式時展現出了卓越的表現。評分結果也一致顯示,本文模型在服裝設計的重現性和細節的呈現上,明顯超過了現有的主流生成模型(SDXL、Hunyuan-DiT、SD3、majicMIX-realistic)。

表3用戶測評評估

3.4 實驗評估

為了定量評估生成模型的性能,本文構建了一個高質量的benchmark,其中包含200個圖文對,所有圖片的對應標簽均由專業人士精細標注。基于此benchmark,本文對多個主流生成模型(包括SDXL、Hunyuan-DiT、SD3、majicMIX-realistic以及LoRA-DAE)進行了系統評估。為驗證模型的優越性,本文采用了多種定量指標,包括FID(Frechet inceptiondistance)、IS(inception score)、PSNR(peak signal-to-noise ratio)和 SSIM(structuralsimilarityindexmeasure),對生成圖像的質量和多樣性進行量化分析。實驗結果表明,本文模型在所有指標上均表現出色,檢測評估結果如表4所示。可以看出,LoRA-DAE的FID值和IS值顯著低于或高于其他主流模型,PSNR和SSIM值也均優于對比模型,進一步驗證了模型在生成圖像細節還原、質量提升以及多樣性方面的優勢。此外,為了評估生成圖像與文本描述內容的相關性,本文使用CLIP-score進行檢測。實驗結果顯示,本文模型在CLIP-score上也優于其他模型,說明改進模型在圖文匹配一致性上同樣具有顯著優勢,證明了LoRA-DAE的有效性和優越性。

表4圖片生成定量評估Tab.4Quantitative evaluation forimage generation

為了進一步進行細粒度的評估,本文利用多模態大模型(visualquestionanswering,VQA)構建了一個基于問答的評測框架,部分評測問題如表5所示,用于評估隨機文本生成的圖片的內容與描述的相關性。具體而言,本文基于生成的圖片和標簽設計了一系列細粒度問題,并使用多模態大模型對生成圖片進行自動化問答評估,統計問答結果的準確性。本文構建了一個問題庫,并應用統計原理按照式(9)進行打分,用于評估模型在不同細粒度維度上的表現,評估結果如表6所示。

表5問題測評評估

Tab.5Question assessmentevaluation

表6多模態大模型評估

Tab.6Multimodal large model evaluation

通過統計生成圖片在不同維度上的問答結果,本文對生成圖片的內容一致性進行了定量評估。實驗結果顯示,本文模型在相關性評估中優于其他對比模型,進一步驗證了模型在細粒度生成任務中的優越性。

4結束語

本文提出了一種基于穩定擴散模型的生成框架LoRA-DAE,為服裝模特圖像生成領域提供了一種高效且實用的解決方案,成功提升了逼真服裝模特圖像的生成質量。針對當前主流服裝模特圖像生成模型在細節真實性、紋理一致性以及姿態自然性等方面的不足,自適應增強模塊通過細粒度的紋理增強策略,在生成過程的方向擴散步驟中動態調整紋理和細節分布,顯著優化了生成結果。實驗結果表明,在FashionManne-quin數據集上,LoRA-DAE在感知質量(如用戶評價)和定量指標(如FID 和IS值)方面均顯著優于SDXL、Hunyuan-DiT、SD3和majicMIX-realistic等主流模型。

盡管本文模型取得了顯著的性能提升,未來的研究仍可在多個方向上進一步拓展:如優化生成效率以提升模型的實際應用價值,擴展模型對更多服裝類型和復雜場景的適應能力,以及結合多模態數據(如視頻和語義描述)進一步提升生成圖像的多樣性與匹配度。此外,將模型應用于電子商務中的虛擬試穿或服裝設計輔助等實際場景,將為服裝圖像生成技術提供廣闊的發展空間。

參考文獻:

[1]莊冬冬,任若安,孫捷.人工智能生成內容賦能服裝品牌數智化 轉型路徑研究[J].絲綢,2024,61(9):12-19.(Zhuang Dongdong,Ren Ruoan,Sun Jie.Research on the transformation path of artificial intelligence-generated content enablingdigital intelligencefor apparel brands[J].Journal of Silk,2024,61(9):12-19.)

[2]楊雪,陳可欣.Midjourney在紡織服裝設計中的探索與應用[J]. 服裝學報,2024,9(6):549-555.(YangXue,ChenKexin.Explorationand application of Midjourney in textileand fashion design [J].Journal of Clothing Research,2024,9(6):549-555.)

[3]于家蓓,朱偉明.大數據驅動的生成式AI在服裝設計中的應用: 以Midjourney為例[J].絲綢,2024,61(9):20-27.(Yu Jiabei, Zhu Weiming.The application of big data-driven generative AI in fashion design: taking Midjourney as an example [J]. Journal of Silk,2024,61(9):20-27.)

[4]李葉涵,智能技術在現代服飾設計中的應用:評《服飾設計應用 研究》[J].毛紡科技,2024,52(11):139-140.(LiYehan.Application of intelligent technology inmodern fashion design—comment on Research on Fashion Design Application[J].Wool Textile Journal,2024,52(11):139-140.)

[5]王文靖.基于深度學習的服裝外觀智能設計研究[D].杭州:浙 江大學,2O22.(Wang Wenjing. Research on inteligent design of clothing appearance based on deep learning [D]. Hangzhou: Zhejiang University,2022.)

[6]Hu E J,Shen Yelong,Wallis P,et al.LoRA: low-rank adaptation of large language models[EB/OL]. (2021-06-18). https://arxiv. org/abs/2106.09685

[7]Rombach R,Blattmann A,Lorenz D,et al.High-resolution image synthesis with latent diffusion models[C]//Proc of IEEE/CVF Conference on ComputerVision and PatternRecognition.Piscataway,NJ: IEEE Press,2022:10674-10685.

[8]Reed S,Akata Z,Yan Xinchen,et al.Generative adversarial text to image synthesis [C]//Proc of the 33rd International Conference on Machine Learning.[S.1.]:PMLR,2016:1060-1069.

[9]Zhang Han,Xu Tao,Li Hongsheng,et al. StackGAN:text to photorealistic image synthesis with stacked generative adversarial networks [C]//Proc of IEEE International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2017:5908-5916.

[10]Zhang Han,Xu Tao,Li Hongsheng,et al.StackGAN ++ :realistic image synthesis with stacked generative adversarial networks[J]. IEEETrans on Pattern Analysisand Machine Intelligence, 2019,41(8): 1947-1962.

[11]Xu Tao,Zhang Pengchuan,Huang Qiuyuan,et al.AttnGAN:finegrained text to image generation with attentional generative adversarial networks[C]//Proc of IEEE/CVF Conference on Computer Vision andPatternRecognition.Piscataway,NJ:IEEE Press,2018:1316-1324.

[12]BetkerJ,Goh G,JingL,etal. Improving image generation with better captions [J/OL]. Computer Science,2023,2(3).https:// cdn.openai.com/papers/dall-e-3. pdf.

[13]KawarB,ZadaS,LangO,etal.Imagic:text-based real image editing with diffusion models[C]//Proc of IEEE/CVF Conference on Computer Visionand Pattern Recognition.Piscataway,NJ:IEEE Press,2023:6007-6017.

[14]Nichol AQ,Dhariwal P. Improved denoising diffusion probabilistic models[C]// Proc of International Conference on Machine Learning. [S.1.]:PMLR,2021:8162-8171.

[15]Dhariwal P,Nichol A. Diffusion models beat GANs on image synthesis[J].Advances in Neural Information Processing Systems, 2021, 34: 8780-8794.

[16]Ho_J,Jain A,Abbeel P.Denoising difusion probabilistic models [J].AdvancesinNeural Information Processing Systems, 2020,33: 6840-6851.

[17]Gal R,Alaluf Y,Atzmon Y,et al.Animage is worth one word : personalizing text-to-image generation using textual inversion[EB/OL]. (2022-08-02). https://arxiv.org/abs/2208.01618.

[18]Voynov A, Chu Qinghao, Cohen-Or D,et al. P+ : extended textual conditioning in text-to-image generation [EB/OL].(2023-03-16). https://arxiv.org/abs/2303.09522.

[19]Alaluf Y,RichardsonE,MetzerG,et al.Aneuralspace-tierepre sentation for|text-to-image personalization[J].ACM Trans on Graphics,2023,42(6): 1-10.

[20]Ruiz N,Li Yuanzhen,Jampani V,etal.DreamBooth:fine tuning text-to-image diffusion models for subject-driven generation[C]// Proc of IEEE/CVF Conference on Computer Vision and Patern Recognition.Piscataway,NJ:IEEE Press,2023:22500-22510.

[21]Wei Yuxiang,Zhang Yabo,Ji Zhilong,et al.ELITE: encoding visual concepts into textual embeddings for customized text-to-image generation[C]//Proc of IEEE/CVF International Conference_on ComputerVision.Piscataway,NJ:IEEEPress,2023:15897-15907.

[22]Kumari N, Zhang Bingliang,Zhang R,et al. Multi-concept customizationof text-to-image diffusion[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2023:1931-1941.

[23]Tewel Y, Gal R,Chechik G,et al.Key-locked rank one editing for text-to-image personalization [C]// Proc of ACM SIGGRAPH 2023 Conference Procedings.New York:ACM Press,2023: articleNo.12.

[24]郭宇軒,孫林.LoRA模型微調 StableDiffusion的設計師風格服 裝生成方法[J].北京服裝學院學報:自然科學版,2024,44 (3): 58-69.(Guo Yuxuan,Sun Lin. Designer-style clothing gene ration method based on LoRA model fine-tuning Stable Diffusion[J]. Journal of Beijing Institute of Fashion Technology:Natural Science Edition,2024,44(3):58-69.)

[25]Yan Yuxuan, Zhang Chi,Wang Rui,et al.FaceStudio:put your face everywhere in seconds[EB/OL]. (2023-12-06). https://arxiv. org/abs/2312.02663.

[26]Wang Qixun,Bai Xu,Wang Haofan,etal.InstantID:zero-shot identity-preserving generation in seconds [EB/OL].(2024-02-02). https://arxiv. org/abs/2401.07519.

[27]Arar M, Voynov A, Hertz A, et al. PALP: prompt aligned personalization of text-to-image models[C]// Proc of SIGGRAPH Asia 2024 Conference Papers. New York:ACM Press,2024:article No. 5.

[28]Guo Sheng,Huang Weilin, Zhang Xiao,et al. The iMaterialist fashion attribute dataset[C]//Proc of IEEE/CVF International Conference on Computer Vision Workshop.Piscataway,NJ: IEEE Press, 2019: 3113-3116.

[29]Yang Lu, Jia Wenhe, Li Shan,et al.Deep learning technique for human parsing: a survey and outlook [J]. International Journal of ComputerVision,2024,132(8):3270-3301.

[30]Liu Ziwei,Luo Ping,Qiu Shi,et al.DeepFashion: powering robust clothesrecognition and retrieval with rich annotations[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ: IEEE Press,2016:1096-1104.

[31]Fu Jianglin,LiShikai,Jiang Yuming,etal.StyleGAN-human:a data-centricodyssey of human generation[C]//Proc of European Conference on Computer Vision. Cham:Springer,2022:1-19.

[32]Sharma V,Diba A,Neven D,et al. Classification-driven dynamic image enhancement [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattrn Recognition.Piscataway,NJ: IEEE Press, 2018:4033-4041

[33]Podell D,English Z, Lacey K,et al. SDXL: improving latent diffusion models for high-resolution image synthesis[EB/OL].(2023- 07-04).htps://arxiv. org/abs/2307.01952.

[34]Li Zhimin, Zhang Jianwei,Lin Qin,et al. Hunyuan-DiT: a powerful multi-resolution diffsion transformer with fine-grained Chinese understanding[EB/OL].(2024-05-14). htps://arxiv.org/abs/2405. 08748.

[35]Esser P, Kulal S, Blattmann A,et al. Scaling rectified flow transformers for high-resolution image synthesis[C]//Proc of the 41st International Conference on Machine Learning.[S.1.]: JMLR.org, 2024:12606-12633.

[36]majicMIX-realistic: a state-of-the-art image generation model[EB/ OL](202--05)ttps:/civitai.co/models/43/maji mix-realistic.

收稿日期:2025-01-07;修回日期:2025-02-27 基金項目:沈陽市科技計劃資助項目(23-407-3-29)

作者簡介:劉大偉(1999—),男,山東德州人,碩士研究生,主要研究方向為多模態生成;于碧輝(1982—),男(通信作者),遼寧沈陽人,研究員,博導,博士,主要研究方向為多模態大模型(yubihui@ sict.ac.cn);石珈維(200—),女,遼寧撫順人,碩士研究生,主要研究方向為大語言模型;魏靖烜(1998—),男,山東泰安人,博士研究生,主要研究方向為多模態理解;史慧洋(1988—),女,北京人,高級工程師,博士,主要研究方向為信息安全、威脅情報、多模態;靳赫烜(2001—),男,遼寧沈陽人,碩士研究生,主要研究方向為多模態生成;孫林壯(199—),男,山東德州人,博士研究生,主要研究方向為大模型推理.

主站蜘蛛池模板: 欧美一级在线看| 一区二区午夜| 天天摸天天操免费播放小视频| 日韩成人午夜| 亚洲aaa视频| 黄色a一级视频| 国产导航在线| 日韩美毛片| 久久久久亚洲精品成人网| 国产区精品高清在线观看| 国产精品第页| 国产视频入口| 五月天福利视频| 91精品免费久久久| 亚洲精品第五页| 色综合成人| 老司国产精品视频| 男女精品视频| 久久青青草原亚洲av无码| 国产精品人莉莉成在线播放| 毛片在线区| 成人午夜视频在线| 五月天丁香婷婷综合久久| 亚洲国产日韩视频观看| AV无码国产在线看岛国岛| 久久久亚洲国产美女国产盗摄| 国产在线精品99一区不卡| 久久a毛片| 久久精品国产精品青草app| 区国产精品搜索视频| 亚洲人成网站在线观看播放不卡| 综合色在线| 欧美成人综合视频| 国产成人麻豆精品| 国产精品美人久久久久久AV| 久久99国产乱子伦精品免| 亚洲AV无码乱码在线观看代蜜桃 | 亚欧美国产综合| 在线看片中文字幕| 久久性视频| AV天堂资源福利在线观看| 久久久久人妻精品一区三寸蜜桃| 亚州AV秘 一区二区三区| 国产美女91呻吟求| 久久超级碰| 一级一级一片免费| 九色在线观看视频| 久久国产精品夜色| 国产成人凹凸视频在线| 亚洲黄色片免费看| 秋霞一区二区三区| 午夜在线不卡| 欧美一区二区三区欧美日韩亚洲| 欧美午夜小视频| 亚洲第一区精品日韩在线播放| 亚洲国产精品VA在线看黑人| 亚洲无码电影| 欧美中文字幕一区| 99re在线视频观看| 毛片视频网址| 91精品久久久无码中文字幕vr| 91视频首页| 精品视频一区在线观看| 99re经典视频在线| 欧美一级视频免费| 九色综合视频网| 精品视频一区在线观看| 免费又爽又刺激高潮网址 | 强奷白丝美女在线观看| 亚洲日韩精品伊甸| 久久精品人人做人人爽97| 免费在线播放毛片| 亚洲男人天堂久久| 亚洲国产精品日韩av专区| 99性视频| 中国丰满人妻无码束缚啪啪| 亚洲免费成人网| 99青青青精品视频在线| 国产人前露出系列视频| 8090成人午夜精品| 无套av在线| jizz国产视频|