














摘" 要: 當前Stable diffusion等人工智能繪畫模型在繪畫時難以直接控制圖像風格,同時風格模型訓練僅針對單種風格。針對該問題,提出了一種基于美學梯度法的人工智能風格化繪畫系統,以實現多種圖像風格的控制和融合,并提供更加便捷的圖像創作體驗。收集并分析網絡用戶數據,結合問卷得到用戶對圖像風格的感性需求;根據感性需求收集各風格圖像數據得到對應的風格圖像訓練集。使用梯度下降算法計算風格化文本編碼器的權重,實現生成圖像風格化的效果。通過可用性測試對比用戶對該系統與傳統人工智能繪畫系統產出圖像的風格滿意程度,結果表明:人工智能風格化繪畫系統的平均滿意度相較傳統人工智能繪畫系統提升23%,表明人工智能風格化繪畫系統在圖像風格生成上具有更好的效果,可滿足用戶對圖像風格的需求。該人工智能風格化繪畫系統可以更便捷地實現圖像風格調整,允許用戶直觀選擇不同風格的權重,便捷使用一種或多種風格,能夠有效滿足用戶對圖像風格設計的需求。
關鍵詞: 人工智能繪畫模型;Stable diffusion;美學梯度法;感性需求;風格化
中圖分類號: TP18
文獻標志碼: A
文章編號: 1673-3851 (2024) 04-0537-11
DOI:10.3969/j.issn.1673-3851(n).2024.04.013
收稿日期: 2023-11-17" 網絡出版日期:2024-05-10網絡出版日期
基金項目: 國家社會科學基金青年項目(22CXW024)
作者簡介: 鐘梓銳(1999—" ),男,廣州人,碩士研究生,主要從事人工智能繪畫方面的研究。
通信作者: 梁玲琳,E-mail:lianglinglin916@126.com
引文格式:鐘梓銳,梁玲琳. 基于美學梯度法的人工智能風格化繪畫系統[J]. 浙江理工大學學報(自然科學),2024,51(4):537-547.
Reference Format: ZHONG Zirui, LIANG Linglin. An artificial intelligence stylized painting system based on the aesthetic gradient method[J]. Journal of Zhejiang Sci-Tech University,2024,51(4):537-547.
An artificial intelligence stylized painting system based on the aesthetic gradient method
ZHONG Zirui, LIANG Linglin
(School of Art and Design, Zhejiang Sci-Tech University, Hangzhou 310018, China)
Abstract:" At present it is difficult for artificial intelligence painting models such as Stable diffusion to directly control image style in painting. At the same time, current style model training is focused on a single style. To address this issue, an artificial intelligence stylized painting system based on the aesthetic gradient method was proposed. It aimed to achieve control and integration of multiple image styles, and to provide a more convenient image creation experience. It collected and analyzed network user data and employed a questionnaire-based approach to obtain the user′s perceptual needs for image style. Furthermore, it collected the data of each style image according to the perceptual requirements to obtain the corresponding style image training set. It also used the gradient descent algorithm to calculate the weights of the stylized text encoder to achieve the effect of generating image stylization. A usability test was conducted to compare user satisfaction with the image styles produced by the traditional artificial intelligence painting system and the artificial intelligence stylized painting system. The results show that the average satisfaction of the latter is 23% higher than that of the former, indicating that artificial intelligence stylized painting system has better effects in image style generation and can effectively meet users′ needs for image styles. This artificial intelligence stylized painting system can realize image style adjustment more easily, allow users to intuitively choose the weight of different styles and easily use one or more styles, and can effectively meet users′ needs for image style design.
Key words:" artificial intelligence painting model; Stable diffusion; aesthetic gradient; emotional needs; stylization
0" 引" 言
Stable diffusion模型是2022年發布的深度學習文本生成圖像模型,具有生成的圖像質量高、運行速度快以及內存占用小的優點[1],在目標檢測[2]、產品設計[3]和視頻編輯[4]等場景具有廣闊的應用前景。Stable diffusion模型分為兩個部分,分別是Contrastive language-image pretraining(CILP)多模態預訓練模型和U-Net。CLIP是一種預訓練神經網絡模型,通過對比學習將圖像和文本聯系起來[5]。U-Net是一種用于圖像分割的卷積神經網絡架構,由Ronneberger等[6]提出。U-Net的名稱來源于其U形的網絡結構,由編碼器(Encoder)、解碼器(Decoder)和跳躍連接(Skip connections)三部分組成。使用時,用戶輸入的每一個單詞由CLIP中的分詞器(Tokenizer)轉換成文本標記(Token),每個文本標記是768維的向量。CLIP是預訓練模型,因此每個文本標記的嵌入向量都是固定的,嵌入向量經過文本轉換器后輸入到U-Net中,完成最終的繪畫[1]。用戶對圖像的風格進行控制時,需要在文本描述中加入風格形容詞匯,如“抽象主義”和“卡通”等。然而,使用通過文本輸入的方式控制圖像風格的方式仍存在挑戰,其中主要原因是輸入的風格詞匯的嵌入向量之間雖不相同但十分接近,缺乏直接控制圖像的風格的方法[7]。
為更直接地指導圖像生成的風格,Gal等[8]提出了文本反轉方法,將用戶提供的同一種風格的3~5張圖像,變為嵌入空間中的一個新文本標記。這些文本標記可以組合成自然語言句子,以直觀的方式引導個性化創作。Ruiz等[9]提出了一種“個性化”文本到圖像擴散模型的方法,通過輸入特定風格的少量圖像,并對預訓練的文本與圖像模型進行微調,將文本標記與風格綁定。風格被嵌入到模型的輸出域后,文本標記就可以用來在不同場景中合成既定風格的圖像。Gallego[10]提出了美學梯度法(Aesthetic gradient),這是一種通過相同風格的圖像數據集來個性化編輯CLIP的方法。該方法使用圖像數據集訓練得到美學嵌入,結合美學嵌入對CLIP中文本編碼器的權重做梯度下降計算,得到風格調整后的文本嵌入。上述研究通過相同風格的圖像向模型提供風格信息,模型無需解析自然語言描述,而是直接基于模型訓練來調整生成的風格,可以減少模型理解文字描述不準確所帶來的風格偏差。上述研究的應用場景均為單種圖像風格的訓練,且應用場景大多集中在單一圖像風格的訓練上,無法滿足用戶對多樣風格或風格融合的需求。另外,在進行訓練前需要確定常見用戶風格需求,但以往研究多采用感性工學方法來分析用戶需求。
隨著互聯網技術的發展,網絡上存在著大量的用戶數據,國內外研究人員通過收集、分析網絡上的用戶感性意象數據,得到用戶的感性需求[11]。例如:Ma等[12]通過收集網絡日志、搜索歷史和交易數據等用戶行為記錄,構建了數據層、語義層和應用層的用戶需求三層概念模型,通過該模型能將語義信息和用戶需求進行匹配。Shi等[13]通過網絡信息提取與感性形容詞相關的產品關鍵特征,使用感性意象詞問卷與語義差分法來評估產品的特征,生成描述關鍵特征和相應感性形容詞之間關系的強關聯規則集。Wang等[14]爬取產品的評論數據,基于自然語言處理技術構建詞向量,實現感性圖像的參數化表達;提取滿足用戶偏好的產品方案,量化產品形態與感性形象之間的關系,并根據各參數權重計算針對用戶感性需求的產品設計方案的優先排序。除了通過網絡用戶數據分析用戶需求的研究外,還有將用戶感性需求數據用于指導圖像生成的研究。如Li等[15]使用網絡爬蟲從現有的文獻和網絡評價中收集感性詞,并通過語義聚類分析將收集到的意思相反的詞聚類成簇,再根據感性詞的數量和總頻率之和對所有聚類進行排序,選擇得分前6的感性聚類作為代表性的感性意象詞匯;隨后發放由產品圖像、感性詞匯和語義差分量表組成的問卷,并將得到的問卷數據用作圖像生成神經網絡的訓練數據集。實驗驗證結果表明,訓練后的神經網絡生成的產品概念圖像效果優秀。
現有人工智能繪畫模型缺乏直接控制圖像風格的方法,同時風格模型訓練方法具有局限性。針對這一問題,本文提出了一種基于美學梯度法的人工智能風格化繪畫系統。首先通過爬蟲與自然語言處理技術收集并分析大量網絡用戶評論數據,結合問卷量化用戶對圖像風格的感性需求;其次,根據感性需求收集各風格圖像數據,得到對應的風格圖像訓練集;再次,使用美學梯度法訓練得到各個風格的美學嵌入模型,然后通過對人工智能模型的文本編碼器做多重梯度下降計算,使CLIP能夠輸出適應多個風格特征的文本嵌入,實現對最終輸出的圖像的風格的控制;最后進行該系統的可用性測試,對比用戶對傳統人工智能繪畫系統與對人工智能風格化繪畫系統產出的圖像風格滿意程度,以驗證風格化人工智能繪畫系統在圖像風格生成上是否具有更好的效果。
1" 系統設計
1.1" 系統組成
人工智能風格化繪畫系統由4個部分組成,分別是文本編碼器、風格模塊、圖像信息生成器和圖像解碼器。以生成512×512像素的圖像為例,系統的整體流程如圖1所示,分為以下步驟:首先,文本編碼器將用戶輸入的文本描述轉化為一個向量特征,通常表示為c。其次,風格模塊基于用戶輸入的風格參數將向量特征轉化為適應用戶輸入的風格的向量特征。再次,圖像信息生成器接收這個向量特征,并將其轉換為一個信息數組,其維度為4×64×64維。這個數組包含了關于圖像內容和風格的關鍵信息。最后,圖像解碼器將這個信息數組解碼并渲染成最終的圖像,其維度為3×512×512維,其中3表示顏色通道數(紅、綠、藍),512×512表示圖像的寬度和高度。
該系統各個組成部分相互配合,實現了從用戶的文本輸入到最終圖像輸出的完整生成過程。用戶輸入文本描述,決定了圖像的內容。用戶輸入與5種畫面風格相關的參數。這些參數為正負整數,決定了風格的傾向;參數的大小決定了美學梯度法中梯度下降的步長ε。用戶輸入所需的圖像長寬后,圖像信息生成器根據該長寬生成的信息數組大小,決定最終輸出圖像的像素大小。用戶輸入的參數和文本嵌入將決定系統產生的圖像結果。
系統設計與用戶體驗流程示意圖如圖2所示,由感性詞匯收集、風格嵌入模型訓練和人工智能繪畫3部分組成。第1部分,通過收集并分析網絡數據獲取用戶感性需求并總結,得到5組代表性感性意向詞匯:古代的-未來的、西方的-東方的、畫面明亮的-畫面暗淡的、寫實的-動漫的、復雜的-簡單的。收集圖像樣本,并根據這5組詞匯對圖像樣本集進行分類和貼標,得到各風格訓練圖像集,保證用戶的風格選擇的多樣性和全面性。第2部分,使用圖像訓練集進行美學嵌入模型訓練,根據美學嵌入模型計算得出風格化文本編碼器的權重并應用于繪畫,最終確保系統產出圖像的風格與用戶需求具有一致性。第3部分,用戶通過操作界面輸入文本描述和圖像風格參數,經過風格化文本編碼器的處理后經過圖像信息生成器與圖像解碼器,最終生成圖像。
1.2" 網絡評論數據的收集與處理
1.2.1" 初步圖像風格形容詞收集
與使用問卷獲得用戶感性意向的方法相比,通過網絡評論獲取的數據具有量大、快捷、時效性與客觀性強等優點[16]。本文采用網絡爬蟲對微博、貼吧的相關話題與討論進行爬取。使用網絡爬蟲爬取用戶微博內容,搜索“AI繪畫”“圖像風格”“畫面風格”等相關詞語,返回微博ID、用戶名、用戶ID和文本等數據;使用Python selenium庫對Midjourney、AI繪畫等相關貼吧的帖子進行爬取,返回主帖內容與評論內容,每周重復爬取并去除重復數據。共收集人工智能繪畫與圖像風格相關的微博、帖子與評論4434條。由于初步爬取的內容有大量不連續的干擾信息[17],對初步數據進行數據清理,去除用戶名等數據,保留主要內容文本;使用Python jieba庫對所有內容文本進行自然語言處理,將段落句子切割成詞匯并進行統計;將切割錯誤的詞語如“波普藝術”和“賽博朋克”等加入到jieba中文詞匯語庫中,重新進行切割;去除與圖像風格無關的詞匯,得到形容詞詞匯94個,并合并意義相近的詞匯,如“二次元”和“動漫”、“國風”和“漢服”等;對結果進行排序,得到初步的圖像風格感性意象形容詞64個。初步圖像風格感性形容詞詞頻見表1。
為保證提取詞匯能夠準確代表用戶的真實訴求,需要對用戶評論數據的分詞結果和詞頻排序進行篩選[16]。根據詞頻排序選擇代表性詞匯時,高頻詞閾值的選取決定了詞頻分析法的結果,對整個分析研究有著重要的影響[18],因此本文選取Donohue[19]提出的高頻詞低頻詞分界公式對感性意象形容詞進行篩選,該公式可以表示為:
T=12×(-1+1+8×I1)(1)
其中:T標識詞頻閾值,I1表示出現1次的詞匯數量。對初步圖像風格感性意象形容詞進行詞頻統計,根據高低頻詞界分公式,統計分詞后I1=64,因此T≈10.81,閾值為11,可以得到高頻形容詞54個。
1.2.2" 圖像風格感性意象形容詞問卷調研
為進一步確定用戶需求感性詞匯,使用調研問卷的方法對感性詞匯作進一步篩選。為了獲取更加精準有效的信息,讓問卷填寫人更加清晰地理解各個圖像風格的意義,需在調研問卷中對初步收集的感性意象代表詞作出解釋。本文基于表1的初步圖像風格感性形容詞,收集人工智能繪畫案例,并找到與研究初步得到的54個感性詞匯相對應的示例圖像,用于制作調查問卷,調查問卷示例如圖3。
發放“代表性圖像風格形容詞調查問卷”,填寫人選擇其認為最具代表性的和最為常見的圖像風格形容詞,最終收回有效問卷101份。統計并分析結果,刪除意義相反的詞語,得到最終的代表性詞匯選取頻率排序,見表2。最終選取頻率排名前5的代表性感性形容詞,并將其進行反義詞配對,最終得到代表性圖像風格感性意象形容詞對5對,即古代的-現代的/未來的、西方的-東方的、畫面明亮的-畫面暗淡的、寫實的-動漫的、復雜的-簡單的,用于收集訓練圖像與圖像風格訓練。
1.3" 人工智能繪畫樣本收集
代表性圖像風格形容詞對體現了用戶對圖像風格的感性需求,為完成從感性需求到產出圖像的轉化,需要對模型進行各風格形容詞相對應的訓練。為獲得相對應風格的訓練數據,在Discord的Stable diffusion頻道上與各繪畫網站上收集人工智能繪畫的圖像樣本,去除掉分辨率低以及圖像長寬比例失衡的樣本,得到部分初步樣本1495個。最后對樣本貼標得到各個風格的訓練集,其中“畫面暗淡的”風格的圖像訓練集示例圖像如圖4所示。
1.4" 訓練風格嵌入模型
1.4.1" 美學梯度法
美學梯度方法通過來自一組相同風格的圖像數據集的自定義美學模型來個性化編輯CLIP,將圖像生成過程交給用戶。該方法支持對單個美學風格進行訓練并應用于圖像生成過程中。該方法原理如下:
繪畫時,Stable diffusion模型通過基于CLIP的文本編碼器將用戶的文本輸入轉化為一個文本嵌入,用公式可以表示為:
c=fCLIPθ,txt(y)(2)
其中:c為嵌入模型;y為用戶輸入的文本;θ為文本編碼器的權重。
使用美學梯度法時,通過對圖像訓練集進行訓練得到e,e為美學嵌入模型,用公式可以表示為:
e=1K∑Ki=0fCLIPθ,vis(Xi)(3)
其中:Xi為美學風格的訓練集中的第i個元素;K為該集合中圖像的數量。最后對文本編碼器的權重做梯度下降計算,更新文本編碼器的權重θ′,用公式可以表示為:
θ′=θ+εΔθfCLIPθ,txt(y)eT(4)
其中:ε為用戶定義的步長。最后將θ′應用到文本編碼器得到經過美學風格調整后的文本嵌入c′,用公式可以表示為:
c′=fCLIPθ′,txt(y)(5)
由于感性風格形容詞有5對,需要對美學梯度方法進行改良,對文本編碼器的權重做多重梯度下降計算[20]。
1.4.2" 風格嵌入模型效果
使用原人工智能繪畫模型,將畫面風格作為描述關鍵詞輸入繪畫;使用對應風格模型的人工智能繪畫模型繪畫。對比二者產出圖像,各風格對比與各風格融合示例圖像如圖5所示。圖5(a)中:第1張圖像基本的內容描述產出圖像,輸入為“夜晚,街道,燈光,建筑”;第2張圖像為加入了帶權重風格描述產出圖像,輸入為“夜晚,街道,燈光,建筑,西方*1.5”,其中“*1.5”表示該描述的權重為1.5,默認為1;第3張圖像為基本的內容描述加風格模型產出圖像,輸入為“夜晚,街道,燈光,建筑”加西方的風格模型。圖5(b)—(c)中其余內容描述與輸入同圖5(a)。圖5(d)為各種風格融合生成圖像與原圖像的對比。用戶只需要若干張相似風格的圖像就可以根據需要訓練自己的風格模型,并不局限于本文設定的10種風格。
2" 可用性測試
本文為分析人工智能風格化繪畫系統的可用性,設計了測試實驗,因變量為人工智能風格化繪畫系統可用性,包括效率、滿意度和有效性三個方面。針對用戶使用人工智能繪畫系統的過程設計具體的操作任務,共設置兩組任務,分別是使用傳統人工智能繪畫系統進行繪畫的對照組任務,以及使用人工智能風格化繪畫系統進行繪畫的實驗組任務。完成兩組任務后,測試者填寫SUS問卷與滿意度問卷。
2.1" 測試材料
2.1.1" 控制測試變量
為控制測試變量,需對風格嵌入模型進行測試,獲得測試最佳美學風格迭代步數。使用同一文本描述與同一隨機種子對10個感性風格進行測試,獲得每個感性風格在不同美學風格權重數值與不同美學風格迭代步數下的結果。設置美學風格權重為0.8,測試不同美學風格迭代步數對最終產出圖像效果的影響。
如圖6(a)所示,在美學風格權重為0.8時,使用文本描述為“cat”,風格選擇為“東方的”,美學風格迭代步數為5時,產出圖像與東方風格較為契合;如圖6(b)所示,而當美學風格迭代步數為10時,產出圖像結果與需求描述偏離。圖像內容變為東方風格的混亂的建筑,原因是訓練圖像內容上彼此差異較大,部分訓練圖像為東方風格的建筑而部分訓練內容為東方風格的人像。如圖6(c)所示,在美學風格權重為0.8時,使用文本描述為“cat”,風格選擇為“復雜的”,美學風格迭代步數為6時,產出圖像較為復雜;如圖6(d)所示,當美學風格迭代步數為8時,畫面與描述有一定關系;如圖6(e)所示,當美學風格迭代步數為10時,產出圖像結果與需求描述完全偏離。
測試使用的美學嵌入模型為用戶使用時選擇的風格,使用的美學風格權重為所選擇風格的最佳權重。使用的美學風格迭代步數為用戶所選擇的風格參數相對應的迭代步數。經過測試得到每個風格對應的最佳權重與最佳迭代步數見表3。
2.1.2" 測試設置
本文的實驗材料為由開源的Stable diffusion webui改進得到的帶有風格感性需求參數調整功能的人工智能風格化繪畫模型。由于設備性能限制,將人工智能繪畫風格化模型部署在騰訊云服務器,方便測試者通過公網IP訪問。隨機招募浙江理工大學、浙江大學和北京師范大學-香港浸會大學聯合國際學院的在校本科生與研究生,測試者年齡為20~25歲,共28人。
2.2" 測試流程
本實驗開始前,研究人員向測試者介紹實驗的基本內容,輔助測試者觀看實驗流程講解視頻。本文實驗需要測試者完成一個對照組任務和一個實驗組任務。
對照組任務的具體操作為:a)想象并確定需要繪制的畫面;b)向研究人員使用自然語言描述需求畫面,用于后續打分;c)在研究人員的幫助下將自然語言描述轉化為AI模型的正向提示詞與反向提示詞,用于控制圖像生成的內容和主體;d)調整被繪制圖像的寬度和高度,用于控制圖像的分辨率;e)點擊生成按鈕,等待AI模型進行運算與繪制;f)根據最終的人工智能繪畫結果與需求畫面對比,并對繪畫結果內容滿意度打分。由于設備性能限制原因,圖像分辨率被限制在512×512像素,迭代步數為20步,繪制運算總時間大約在5 min左右。
實驗組任務的具體操作為:a)想象并確定需要繪制的畫面;b)向研究人員使用自然語言描述需求畫面,用于后續打分;c)在研究人員的幫助下將自然語言描述轉化為AI模型的正向提示詞與反向提示詞,用于控制圖像生成的內容和主體,與對照組任務保持一致;d)調整被繪制圖像的寬度和高度,用于控制圖像的分辨率,保持與對照組任務一致;e)點擊生成按鈕,等待AI模型進行運算與繪制;f)嘗試調整風格形容詞參數,用于控制圖像的整體風格;g)根據最終的人工智能繪畫結果與需求畫面對比,并對繪畫結果風格滿意度打分。由于設備性能限制原因,圖像分辨率被限制在512×512像素大小,迭代步數為20步,繪制運算總時間大約在5 min左右。
兩個任務完成后,測試者填寫SUS系統可用性量表與圖像內容風格滿意度調查問卷,填寫完成后試驗結束,具體實驗及任務流程見圖7。
2.3" 測試結果
本文采用SUS系統可用性量表獲取系統可用性,并采用圖像內容風格滿意度調查問卷獲取用戶對人工智能繪畫系統的主觀滿意度。SUS量表為五級的Likert量表,共有10個對系統的態度問題,其中:1、3、5、7、9為正向問題,2、4、6、8、10為反向問題。用戶完成任務1和任務2后分別選擇對語句的認可程度。量表第4題和第10題測量了系統的易于學習性,其余8題測量了系統可用性,最后由整體的SUS分數反映了總體的滿意度[21]。
對任務1和任務2的兩項滿意度進行Cronbach α信度分析,結果如表4所示。結果顯示:風格滿意度數據信度系數值為0.826,大于0.8,表明研究數據信度質量高;兩個任務的校正項總計相關性均大于0.4,表明兩個任務之間的滿意度具有良好的相關關系。內容滿意度數據信度系數值為0.953,大于0.8,表明研究數據信度質量高;兩個任務的校正項總計相關性均大于0.4,表明兩個任務之間的滿意度具有良好的相關關系。
測試結束后將測試者填寫的量表選項通過計算轉換為分數,轉換后得到最終SUS得分,見表5。最終得到無風格化模型版本SUS平均分為73.750,易學性平均分為65.189,可用性平均分為75.893;風格化模型版本SUS的平均分為67.250,易學性平均分為51.333,可用性平均分為69.214。無風格化模型版本SUS得分的方差為135.491,易學性得分的方差為584.343,可用性得分的方差為112.205;風格化模型版本SUS得分的方差為78.205,易學性得分的方差為139.198,可用性得分的方差為67.485。
本文采用圖像內容風格滿意度調查問卷獲取用戶對人工智能繪畫效果的主觀滿意度,量表指標為用戶在兩次任務產出圖像中分別對圖像內容與圖像風格的滿意程度,以及任務2中對5對感性形容詞所對應的圖像風格效果的主觀評價;量表為五級的Likert量表。由被填寫的量表得到測試者不同任務中對圖像內容與風格主觀滿意度對比表,見表6。任務1圖像內容滿意程度平均分3.429,標準差為1.387;任務2圖像內容滿意程度平均分3.357,標準差為1.172。而任務1圖像內風格滿意程度平均分3.643,標準差為0.718,任務2圖像風格滿意程度平均分4.214,標準差為0.558。
利用配對t檢驗去研究實驗結果的差異性,配對t檢驗結果如表7所示。由表7可以知,兩組配對數據均呈現出差異性(Plt;0.05),任務1風格滿意度和任務2風格滿意度之間呈現出0.01水平的顯著差異性(t=-6.000,P=0.000)。
利用配對t檢驗去研究實驗結果的差異性,配對t檢驗結果如表8所示。由表8可以知,兩組配對數據均沒有呈現出差異性(Pgt;0.05)。
由于數據結果不符合嚴格正態分布特質,配對t檢驗準確性下降。對數據結果進一步做非參數檢驗。由于滿意度分數超過2組,使用Kruskal-Wallis檢驗,分析結果如表9所示。分析結果表明,不同任務1內容滿意度樣本對于任務2內容滿意度全部均呈現出顯著性差異,不同任務1風格滿意度樣本對于任務2風格滿意度全部均呈現出顯著性差異。對比差異可知,任務1內容滿意度的平均值(3.43),高于任務2內容滿意度的平均值(3.36)。測試者對風格化的圖像內容的滿意程度相較于原版的圖像內容降低,表明使用風格化模型后的模型圖像風格對用戶的內容需求符合度稍有降低。而任務1風格滿意度的平均值(3.64),明顯低于任務2風格滿意度的平均值(4.21)。測試者對風格化的圖像風格的滿意程度相較于原版的圖像內容有所提升,表明使用風格化模型后更加符合用戶風格需求。
3" 結" 論
本文提出了一種基于美學梯度法的人工智能風格化繪畫系統,該系統通過訓練美學風格模型可以滿足用戶多樣化的風格圖像需求。針對風格模型訓練均針對單種風格的問題,該系統通過收集網絡用戶數據,量化用戶對圖像風格的感性需求;收集圖像數據并貼標,并通過該數據訓練出符合用戶感性需求的多個風格嵌入模型。同時該系統使用多重梯度下降算法與美學梯度法相結合,實現了融合多種風格的效果。系統可用性測試結果表明,相較于傳統的人工智能繪畫系統,人工智能風格化繪畫系統在用戶風格滿意度上得到了提升,但在滿足用戶圖像內容需求方面的效果下降。
本文量化用戶感性需求用于人工智能繪畫的風格訓練,優化美學梯度法,使其能夠同時使用多個風格嵌入模型,為滿足用戶個性化需求和提升圖像生成質量提供了創新的思路。但由于在訓練過程中圖像樣本分類由研究者自行完成,導致訓練集具有較強的主觀性,從而降低了后續實驗的客觀性。此外,研究中使用了5種風格融合,但在應用5種以上風格時效果開始明顯下降。如何保證實驗的客觀性,有待進一步研究。
參考文獻:
[1]Ramesh A, Dhariwal P, Nichol A, et al. Hierarchical text-conditional image generation with CLIP latents[EB/OL]. (2022-04-13)[2023-03-06]. https:∥arxiv.org/abs/2204.06125.
[2]Jian Y N, Yu F X, Singh S, et al. Stable diffusion for aerial object detection[EB/OL]. (2023-11-21)[2023- 11-30]. https:∥arxiv.org/abs/2311.12345.
[3]Kuang Z Y, Zhang J X, Huang Y Y, et al. Advancing urban renewal: an automated approach to generating historical arcade facades with stable diffusion models[EB/OL]. (2023-11-20)[2023-11-30]. https:∥arxiv.org/abs/2204.06125.
[4]Chang D, Shi Y, Gao Q, et al. MagicDance: Realistic human dance video generation with motions amp; facial expressions transfer[EB/OL]. (2023-11-18)[2023-11-30]. https:∥arxiv.org/abs/2311.12052.
[5]Luo H S, Ji L, Zhong M, et al. CLIP4Clip: An empirical study of CLIP for end to end video clip retrieval and captioning[J]. Neurocomputing, 2022, 508(C): 293-304.
[6]Ronneberger O, Fischer P, Brox T. U-Net: Convolutional networks for biomedical image segmentation[C]∥International Conference on Medical Image Computing and Computer-Assisted Intervention. Cham: Springer, 2015: 234-241.
[7]Borji A. Generated faces in the wild: Quantitative comparison of stable diffusion, midjourney and dall-e 2[EB/OL]. (2023-6-5)[2023-11-30]. https:∥arxiv.org/abs/2208.01618.
[8]Gal R, Alaluf Y, Atzmon Y, et al. An image is worth one word: Personalizing text-to-image generation using textual inversion[EB/OL]. (2023-8-2)[2023-11-30]. https:∥arxiv.org/abs/2210.00586.
[9]Ruiz N, Li Y Z, Jampani V, et al. DreamBooth: Fine tuning text-to-image diffusion models for subject-driven generation[C]∥2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Vancouver, BC, Canada. IEEE, 2023: 22500-22510.
[10]Gallego V. Personalizing text-to-image generation via aesthetic gradients[EB/OL]. (2023-9-25)[2023-11-30]. https:∥arxiv.org/abs/2209.12330.
[11]丁滿,程語,黃曉光,等.感性工學設計方法研究現狀與進展[J].機械設計,2020,37(1):121-127.
[12]Ma F C, Chen Y, Zhao Y M. Research on the organization of user needs information in the big data environment[J]. The Electronic Library, 2017, 35(1): 36-49.
[13]Shi F Q, Sun S Q, Xu J. Employing rough sets and association rule mining in KANSEI knowledge extraction[J]. Information Sciences: an International Journal, 2012, 196: 118-128.
[14]Wang T X. A novel approach of integrating natural language processing techniques with fuzzy TOPSIS for product evaluation[J]. Symmetry, 2022, 14(1): 120.
[15]Li X, Su J N, Zhang Z P, et al. Product innovation concept generation based on deep learning and Kansei engineering[J]. Journal of Engineering Design, 2021, 32(10): 559-589.
[16]江亞紅,許占民,董鑫.基于網絡評論的產品感性設計研究[J].包裝工程,2023, 44(S1):285-291.
[17]林麗,張云鹍,牛亞峰, 等.基于網絡評價數據的產品感性意象無偏差設計方法[J].東南大學學報(自然科學版),2020, 50(1): 26-32.
[18]劉奕杉,王玉琳,李明鑫.詞頻分析法中高頻詞閾值界定方法適用性的實證分析[J].數字圖書館論壇, 2017(9): 42-49.
[19]Donohue J C. Understanding Scientific literatures: A Bibliometric Approach[M]. Cambridge: The MIT Press,1973:49-50.
[20]Sener O, Koltun V. Multi-task learning as multi-objective optimization[C]∥Proceedings of the 32nd International Conference on Neural Information Processing Systems. Montral, Canada. ACM, 2018: 525-536.
[21]Brooke J. SUS: A Quick and Dirty Usability Scale[M]. London: Taylor amp; Francis Ltd, 1996: 20-23.
(責任編輯:康" 鋒)