
摘" 要:文本圖像生成技術可以通過輸入自然語言文本進行圖像生成操作,輸出圖像精度高、樣本量豐富且生成內容與文本一致性強,在視覺傳達設計中有巨大應用潛力。該文在分析視覺傳達設計圖像生成需求基礎上,解析文本生成圖像的技術原理,探索文本生成圖像技術在視覺傳達設計中的應用路徑,研究成果可以輔助設計師提高工作效率,激發創意靈感,為視覺傳達設計視覺創作提供實踐技術參考。
關鍵詞:語義文本;智能圖像生成;視覺傳達設計;技術原理;設計應用
中圖分類號:J524" " " 文獻標志碼:A" " " " " 文章編號:2095-2945(2024)25-0017-04
Abstract: Text image generation technology can carry out image generation operation by inputting natural language text, which has high accuracy of output image, rich sample size and strong consistency between the generated content and text, so it has great application potential in visual communication design. Based on the analysis of the requirements of image generation in visual communication design, this paper analyzes the technical principle of text generation image, and explores the application path of text generation image technology in visual communication design. The research results can assist designers to improve work efficiency, stimulate creative inspiration, and provide practical technical reference for visual creation of visual communication design.
Keywords: semantic text; intelligent image generation; visual communication design; technical principle; design application
人工智能已是當前科技發展的前沿重點,其中計算機視覺相關理論研究與模型經過多輪技術迭代后,在圖像智能生成領域取得了突出成果。基于自然語言的文本圖像生成技術催生出一批面向公眾的圖像生成工具,可以通過理解和學習人類語言同使用者進行互動交流,并基于文本輸入完成多種風格的視覺作品生成,其作品生成視覺效果日趨專業、成熟,給當前視覺傳達設計行業帶來極大沖擊。文本圖像生成技術的沖擊一方面給設計從業者帶來技術替代的壓力,另一方面也為設計實踐的技術更新和效率提升提供更多問題解決可行方案。因此,研究文本生成圖像技術在視覺傳達設計中的應用實施路徑,對設計師理解、掌握、應用智能技術,提高自身設計能力,拓寬視覺傳達設計實踐思路具有重要意義。
1" 視覺傳達設計中圖像的生成需求
視覺傳達設計是以可視化、視覺化為創作手段來傳播特定信息和事物的設計門類[1]。實踐過程中,設計師需要根據設計方案的創意構思進行針對性的視覺創作,經過多輪草圖修改、多版方案對比才能獲得最終的視覺作品,其間工作量巨大,耗時耗力。使用文本生成圖像技術能夠輔助設計師使用自然語言描述創意內容,快速生成貼合創意思路的圖像作為效果參考,提高工作效率,智能生成的圖像也可反向為設計師提供更多創意思路,提升設計決策。當前文本生成圖像模型與工具種類繁多,針對視覺傳達設計所需圖像視覺效果特征,需滿足以下生成需求。
1.1" 圖像生成內容與文本一致性高
視覺傳達設計實踐中,圖像是視覺載體,圖像蘊含的創意和信息才是需要傳達給受眾的核心內容,信息傳達的準確性也是評價視覺傳達設計效果的重要標準。因此,在圖像生成過程中對圖像內容與文本輸入內容的一致性有較高訴求。使用文本生成圖像技術進行視覺傳達設計創作時,需要著重考慮技術模型中理解自然語言,以及捕捉文本和圖像之間映射關系的技術精度,以提高生成圖像與創意文本之間的貼合度。
1.2" 圖像生成質量高
視覺傳達設計的作品多為商業用途,在圖像生成內容和圖像清晰度方面的質量要求較高。圖像生成內容需要在設計風格、畫面結構、人物比例和圖像逼真度等方面達到專業設計師出圖水平,同時圖像清晰度也必須滿足在大規格尺寸印刷版面或高精度顯示屏上清晰顯示的需求。因此需要文本生成圖像技術在生成模型選用上有更好的解釋性,有豐富的圖片數據集并允許使用者能夠自主進行圖片風格模型訓練,以及高性能計算能力。
1.3" 圖像生成樣本量豐富
視覺傳達設計創作環節中存在許多圖像產出工作,如設計手法與設計風格確認階段,需要生成大量草圖以選出貼合創意的基本構圖與視覺要素;設計元素組合與畫面布局編排時,需要不斷調整視覺元素間的組合關系與位置,產出多幅圖像進行對比優化,等等。設計者在不同環節需要通過對多個圖像方案進行決策篩選,才能推進設計工作,獲得最佳方案。因此需要文本生成圖像技術在模式覆蓋和樣本多樣性上有較好表現,生成豐富的樣本方案以便設計者選擇適合設計方案的圖像,或啟發設計者的創意靈感。
2" 文本圖像生成技術工作原理
文本生成圖像技術采用自然語言與圖像集特征映射的方法,將文本描述與圖像視覺特征進行對應編碼,結合圖像生成模型,實現視覺圖像的智能生成[2]。其中,編碼環節采用CLIP(Contrastive Language-Image Pretraining)模型,即基于自然語言監督信號,采用對比學習的文本與圖像配對預訓練可遷移模型[3]。該模型將自然語言的文本特征和自然語言對應圖像的視覺特征通過文本編碼器和圖像編碼器進行提取與編碼,通過計算文本特征和圖像特征編碼的對應關系,使圖像的視覺特征與自然語言聯系到一起。圖像生成環節采用的圖像生成模型包括生成對抗網絡、變分自編碼器和擴散模型等。CLIP模型與圖像生成模型結合,可以將使用者輸入的文本通過文本編碼器轉換為文本嵌入,通過文本與圖像之間的映射關系,利用對應的圖像編碼對潛在目標圖像進行有條件的約束,進而生成目標圖像。
不同的圖像生成模型在生成原理和效果上各有側重:生成對抗網絡主要由生成器和鑒別器組成,分別用于生成指定數據和判斷輸入的數據是真實數據還是生成數據,二者交替迭代優化并最終生成目標對象[4];變分自編碼器主要由編碼器和解碼器組成,通過將數據進行編碼,再還原解碼生成具有多樣性的圖像樣本[5];擴散模型的生成思路是通過多次迭代來系統地、緩慢地破壞數據的分布結構,使其擴散模糊,再采用新的方式逆向恢復數據結構,從而構建一個靈活且易于處理的數據生成模型[6]。其中,擴散模型在生成過程中靈活可控,生成的圖像在整體一致性上也表現得較好,不會出現片段或局部不協調的情況,并且具有良好的圖像修復和重建能力,可以用于生成高質量的圖像。
3" 文本圖像生成技術在視覺傳達設計中的應用
根據視覺傳達設計對圖像的生成需求,結合對文本生成圖像技術運行效果的評價標準,即圖像質量、樣本參數量以及易擴展性,通過對比各生成模型的運行特征和生成效果,得出擴散模型在圖像質量和樣本參數量方面有較好表現,可以生成質量比較高且具有較強多樣性的圖像,并能通過硬件配置改善來提高擴展性。因此本研究選擇基于擴散模型為生成模型的Stable Diffusion作為圖像生成工具進行視覺傳達設計創作應用實踐研究。
Stable Diffusion由StabilityAI開發,可通過本地部署Stable Diffusion WebUI(以下簡稱SDWebUI),在個人電腦上使用瀏覽器網頁界面進行文本生成圖像的創作,圖像生成細節豐富、畫質高清,插件、素材多樣,并能通過訓練模型的方式生成用戶自定義風格的數據集模型。
3.1" 文本生成圖像實踐流程與方法
使用SDWebUI進行文本生成圖像的基本流程:設置提示詞對所需生成的圖像畫面進行描述,并借助模型素材、插件等控制作品風格和畫面細節,通過調整參數,生成相應圖像。
3.1.1" 提示詞文本組織
提示詞,即prompt,是由用戶輸入的對期望生成圖像的文本信息描述,分為正向提示詞和反向提示詞,分別用于控制生成用戶希望畫面呈現和不呈現的視覺效果,僅支持英文編寫。經過大量文本描述與圖像生成效果相關度評價測試后可得出,提示詞以詞條化、詞組化的方式編寫能夠提高編寫效率、靈活性和準確度,用戶可以通過更改特定詞條,對詞條映射的內容進行精確調整,而無須重新組織文本。用戶使用盡量詳盡的文本去描述創作構思,并通過多次生成效果對比,在文本雛形的基礎上不斷進行細化、微調和補充,才能確定合適的本文框架與內容。
在視覺傳達設計實踐中進行提示詞文本組織時,為確保圖像生成效果貼合用戶的創作構想,可將其文本結構邏輯性地劃分為3個部分:用于描述畫面生成內容的提示詞,包括針對畫面主體物、畫面場景和構圖視角的特征與細節描述,如小女孩(littlegirl)、全景(fullview)等;用于限定畫面視覺風格的提示詞語,如動漫風格(anime)等;用于規范畫面畫質標準的提示詞,如高品質(highquality)等。依據一定的結構順序組織提示詞內容可以更系統、精準地描述畫面內容,提高生成效果和生成效率,并且可以通過調整詞條的權重和優先級對畫面特定內容進行效果增強或削弱。
3.1.2" 模型與參數調試
SDWebUI執行生成需要加載經過特定風格圖片素材訓練而成的模型文件(checkpoint),才能生成符合用戶設計風格需求的圖像。用戶也可以根據視覺傳達設計實踐所需的畫面風格,使用特定風格的圖片素材自行訓練模型,以便生成更符合期望的圖像。為減少設計實踐中對圖像后期處理時的工作量,還可在生成界面的參數調整區域對相關參數進行預設和調試,以控制圖像生成的具體實施效果。
其中,采樣迭代步數用于控制采樣的隨機性,采樣步長過大會導致采樣效率低或采樣結果被舍棄,步長過小則采樣的隨機性高,采樣效果不夠好,通常設置在10~40之間較為合理;采樣方法,即程序進行圖像生成時使用特定算法,這些采樣方法在處理不同風格模型和提示詞時有不同生成效果,如Euler更適合插畫風格,SDE Karras細節會較為豐富。
寬度、高度用于控制生成圖像的尺寸規格。通過測試發現,越高的分辨率生成的畫面質感和細節效果越好,但由于生成工具在進行訓練時使用的圖片分辨率都比較小,過高的分辨率在生成過程中容易出現圖像內容拼接的情況,如需生成分辨率較高的圖像,可以通過先使用低分辨率生成目標圖像再選擇高清修復來放大圖像的方式來確保畫面質量。
生成批次數指提示詞和參數值確定的情況下,程序執行生成操作的次數。每批數量指每次生成操作產生的圖片數量。文本智能生成圖像具有隨機性,同樣的提示詞,每次點擊生成的圖像都會不太一樣,且無法保證每一張都滿足用戶的需求,需要通過反復實驗,生成多組圖像進行對比,才能選出最符合需求的作品。通過生成實驗結果對比發現,調高生成批次數比調高每批數量在效率和生成效果方面表現更好,因為每批數量的參數值受限于設備硬件配置,參數值過高會降低計算效率并出現生成失誤,而使用提高生成批次數可以通過少量多次的方法,更好地滿足圖像批量生成需求,降低工作量。
提示詞相關性控制生成作品對提示詞的傾向程度,數值越高,生成圖像越貼合提示詞的描述,但通過測試結果發現,過高的提示詞相關性參數值會導致圖像變形,將參數值設置在7~12之間生成效果較為合理。隨機種子用于控制生成圖像的隨機狀態。圖像每次隨機生成的方式都會被記錄為一組隨機數,即隨機種子,被記錄在圖片信息中,如需批量生成畫面內容和風格相似度較高的圖像,可以在生成時復制并使用同一個隨機種子來控制畫面的一致性,反之則可以把隨機種子設置為-1,生成差異較大、隨機性強的圖像。
執行生成操作時,用戶可以根據生成圖像的效果判斷其與設計方案的關聯性,不斷進行文本和參數調整,在批量生成圖像中選擇最接近創作構思的單張或多張作為樣本,針對圖像中需要修改的內容進行局部變更或重新生成,以便生成圖像越來越貼合視覺創意。
3.2" 基于文本生成圖像技術的視覺傳達創作流程
完整的視覺傳達設計活動遵循“調研與需求分析—預期設計效果—視覺設計方案創作—方案實施—效果反饋”的基本工作流程,其中視覺創作流程又可細分為多個環節,各環節存在大量低復雜、高重復、長耗時的工作,如設計元素的繪制和修改、畫面排版布局的調整等,都可以借助文本生成圖像技術來提升設計效率,如圖1所示。
設計構思階段由于思路發散,需要對設計形式和方法的選用進行不同設計效果的比對,利用文本生成圖像技術設置不同內容的文本提示詞,可以快速生成多個方案草圖進行比對,大大縮短草圖繪制時間,快速確定創意方案。
在方案修改確定階段,可以通過加載特定的設計風格模型、采樣方法,或使用風格限定的提示詞可以快速切換不同的設計風格,還可以調整提示詞的文本內容和權重,對畫面構成所需的視覺元素、編排布局和設計細節進行優化,將冗雜耗時的修改工作交由人工智能處理,而設計師只需要控制創意思維的走向即可。如果僅需對畫面中部分要素進行修改,還可以對獨立的視覺要素進行單獨生成,最后將分別生成的各個視覺要素在設計軟件中進行組織。
相對于傳統的設計流程,文本生成圖像技術的介入可以有效提升設計活動的工作效率。但鑒于視覺傳達設計在信息處理和視覺呈現手段上的復雜性,文本生成圖像技術在不同設計作品中的具體應用途徑還需要設計師進行組織。例如文本生成圖像技術中的風格模型素材種類繁多,但無法完全覆蓋所有常用設計風格,在畫面質感上的表現也無法做到完全替代的效果,更擅長生成偏向3D建模的風格或是典型的動漫、攝影風格等,更無法憑空生出前所未有的視覺風格,創新、創意和創作的核心依然在設計師的頭腦。此外,文本生成圖像技術由于自身機器語言的局限性,對主觀性、抽象性強的詞匯以及文化限定較強或是語義修飾豐富的詞條進行理解和生成時,往往容易誤讀,導致生成內容表現不佳,也需要設計師對其監督與糾偏。
4" 結束語
文本圖像生成技術近年來發展迅猛,為視覺傳達設計帶來新的視覺創作靈感與實踐思路。本文介紹了當下較為前沿的文本生成圖像技術,探索其輔助視覺傳達設計實踐的應用路徑和實施方法,對設計師提高創作效率,拓展創意思路有一定積極作用。基于文本圖像生成技術開展人機協作,設計師可以將構思歸納為文本,快速生成視覺樣本作為參考,并據此對創意進行調整,還可以直接生成獨立的視覺元素,用于整體畫面編排,或調整畫面布局,將設計師從冗雜的設計軟件操作中釋放。然而,人工智能雖能輔助視覺傳達設計中實操部分的工作并有突出表現,但在設計決策和創意執行方面仍無法替代人類設計師,這促使設計師需要更聚焦于創意創造、設計管理和團隊溝通工作,提高自身綜合設計能力,去應對不斷智能化的設計前景。
參考文獻:
[1] 周博.改革開放以來的視覺傳達設計:媒介轉型與社會變遷[J].美術大觀,2022(6):85-93.
[2] 賴麗娜,米瑜,周龍龍,等.生成對抗網絡與文本圖像生成方法綜述[J].計算機工程與應用,2023,59(19):21-39.
[3] RADFORD A, KIM J W, HALLACY C, et al. Learning transferable visual models from natural language supervision[C]//International Conference on Machine Learning,2021.
[4] 李樂陽,佟國香,趙迎志,等.基于生成對抗網絡的文本生成圖像研究綜述[J].電子科技,2023,36(10):39-55.
[5] 翟正利,梁振明,周煒,等.變分自編碼器模型綜述[J].計算機工程與應用,2019,55(3):1-9.
[6] 楊光鍇.基于擴散模型的指紋圖像生成方法[J].河北省科學院學報,2023,40(1):13-18,66.