Exploration and Future Prospects of Generative AI Applications in the Redesign of Intangible Cultural Heritage
Xiao Xuefeng Chen Sixing (School ofHumanities,Xi’anShiyou University,Xi’an)
Abstract:Inrecentyears,generativeAItechnologyhasdevelopedrapidlyandhasben widelyappliedinartcreationandother fields,whileCneseanoreignsolarshavedisusedisticaliplcatiosndoeraspctsGenerativedersaralNetwok(G) isanagoritldinuterisiourallgagrocingaomptereactiotfeatioit corof thecurrentmainstreamgenerativeAalgorits,withStable Difusion(SD)andMidjouey(MJ)beingthetwomainsreageerativeAItolsidelyusedGenerativeAImpoweringintangibleculuralheritage(ICH)designcan,toacertainextent,bothretainte characteritiofICHndfitmodeaestetics,hilesigniicantlyshortentepredesignorktatpreviouslytookwees.eworflow of videogenerationolsiselatielysipleadcanaractpublicparticipationtusgreatlyexpandngdsigers’reativityadking designsmorediverse.Lokingaead,generativeAprovidesmoreiovativepossbilitiesforoptimizingtheeficiencyofICHredesign, anddesignessouldestablscolboatieelatioshipihgenatieAItpromoteteiativeintegatioofeativitydlte while considering related social perceptions and legal responsibilities.
Keywords:generative artificial inteligence;intangible cultural heritage;visual design
自2017年6月谷歌大腦團隊在文章《注意力是你所需的一切》中提出Transformer模型以來,以ChatG-PT為代表,生成式人工智能領域實現了高速的更新與迭代,滿足了一些領域的工作需求[1]。以圖像生成為例,基于生成式對抗網絡(GenerativeAdversarialNet-work,以下簡稱“GAN”)為繪圖核心算法的 Midjourmey(以下簡稱“MJ”)與開源共創的StableDiffusion(以下簡稱“SD”)成為最主要的生成式AI圖像制作工具。以視頻生成為例,基于擴散式模型(diffusiontransform-er)的國產視頻AI工具可靈與OpenAI推出的sora于2024年逐漸成熟,生成了大量引起受眾關注的視頻內容。圖像與視頻是文化傳播的主要載體之一,生成式AI的圖像、音頻與視頻產出為設計師提供了更多的思路,有助于提高設計效率,實現創新性與多樣化的并行提升[2]。非物質文化遺產(以下簡稱“非遺”)的文化傳播離不開圖像與視頻生產,在如今市面上以非遺文化為核心的文化再設計多而不精,難以承擔非遺的傳播與保護重任。鑒于此,本文以生成式AI為研究對象,探索在它驅動下的非遺再設計路徑。
一、生成式AI的應用與研究現狀
生成式AI是指通過算法與加強機器學習生成新內容的計算機技術。近年來隨著深度學習的飛速發展,生成式AI在各個領域的應用取得了顯著進展,引發了廣泛的學術討論。該技術不僅在自然語言處理、計算機視覺等傳統人工智能領域展現出強大的潛力,同時在藝術創作、游戲設計、金融、圖像處理和醫療等新興領域的應用前景也備受關注[3-4]
在技術與模型方面,GAN和自回歸模型的提出,使得生成式AI在圖像生成領域取得了突破性進展。近年來,研究者不斷對模型算法提出新的變體與優化策略,以提高圖像生成質量并增加其內容的多樣性。例如,CycleGAN團隊通過提出無監督學習算法實現了圖像不同風格之間的轉換,styleGAN團隊在高質量圖像生成方面取得了重大進展,LvminZhang和ManeeshAgrawala[5提出了在文本到圖像的擴散模型中添加不同方面的限制條件如深度、區域、姿勢等對生圖內容加以控制,由論文中模型發展出的Controlnet增強生成模型自開源以來給商業化AI應用帶來了重大進展。
這些技術的突破推動了文化創作的繁榮,有學者聚焦生成式AI在民族紋樣設計中的實驗,指出SD生成的紋樣圖像質量較低,但符合原始紋樣;觸手AI生成的紋樣圖像質量高,但容易偏離原始紋樣[6。復旦大學楊俊蕾[]以Sora模型為研究對象,討論其生成藝術杰作的可能性,另有學者研究生成式AI對圖書封面設計的影響[8]
生成式AI在圖像生成領域的廣泛應用引發了相應的倫理討論,尤其是在知識產權與虛假信息方面。美國版權局針對AIGC方面的政策不斷變化,其發布的指導文件指出,為了獲得版權保護,創作者必須在作品中體現個人的創意和獨特性[9]。這意味著即使使用AI生成內容,創作者仍需對生成過程進行指導和干預,以確保最終作品展現出人類創作的特征
二、生成式AI的算法邏輯和應用工具
GAN是由LanGoodfellow等人于2014年提出并應用于計算機視覺、自然語言處理、人機交互等領域的一種算法,其在圖像生成領域取得了巨大的成功。簡單來說就是,可以將GAN的基本模型定義為兩種計算方式的互相運作,運用生成器輸出圖像噪聲,再通過辨別器確認生成器輸出與真實數據的雷同,生成器與辨別器的數據以總和相同的對抗方式不斷疊加圖片噪點,最終形成逼近于真實數據的圖片,如圖1所示。但是GAN在運作的時候會產生問題,如果一味地追求與真實數據類似,會使得生成器數據較為單一,并且由于網格的對抗式運行往往會給模型的訓練帶來巨大的負擔導致崩潰,在參數的調整上也會限制普通人的使用。基于以上缺陷,研究者對GAN進行優化,形成了目前主流的生成式AI生成算法的核心[10]

SD是自前設計師最為常用的主流生成式AI工具之一,因為其開源的特性,SD在互聯網上有著豐富的模型數量與輔助生成圖片的插件,這使得它在圖片生成領域有著寬泛的應用場景和高度的人為控制權限。為了將GAN適用于生成更多的圖片風格并提高圖片精度,SD通過訓練Checkpoint大模型控制辨別的真實數據,通過Lora小模型完善圖片內容的方向,在此基礎上以CLIP模型解析文本生成圖像。CLIP模型可以有效地將權重在文本描述與真實數據之間進行調試,這有利于SD產出富有想象力的畫面[],如圖2所示。

作為生成式AI的主流工具之一,MJ同樣擁有豐富的在線模型。相較于開源的SD,盡管MJ需要付費,但是在使用方面更為簡單,容易讓設計人員上手。只需要合理使用提示詞,MJ就可以從它龐大的模型庫中挑選適合使用者需求的模型進行圖像生成。相較而言,MJ在出圖像質量與電腦性能需求方面比SD表現更為優異,而SD在圖片控制與模型數量上優勝于MJ。兩者都有著不錯的出圖效果,提示詞使用也類似,根據實際所需都可以進行設計工作。現如今,許多互聯網公司如網易、阿里、百度等都可以看到生成式AI的身影[2]
三、生成式AI賦能非遺再設計的探索
在生成式AI開發成熟之前,絕大部分非遺再設計都是以調研開始,從文獻、實地、受眾三個層面進行研究與調查,進而對文化元素進行提煉、對設計元素進行挖掘。待上述工作完成以后再進行概念的開發,例如,設計的基本概念、創意的表現形式,這一類探索完成以后產出最開始的草圖或模型,幫助設計工作者與非遺傳承人、傳承單位方更加清晰地理解設計理念。這種設計流程在執行最終出街稿之前只能給到參考與大概畫面效果,所以有許多項目的最終效果圖差強人意,但是從時間考慮只能做細節修改。鑒于此,如何降低設計成本,盡可能精確最終設計方向,是生成式AI所要解決的問題。
對于非遺再設計來說,如果非遺的提示詞未被AI所了解,模型庫中也可能沒有相對應的模型真實數據,就無法生成與該非遺對應的設計圖。SD的優勢在于國外網站Civital與國內哩布哩布AI等網站擁有豐富的Checkpoint與Lora資源,目前一些傳播度較高的非遺元素如漢服、插花、浮雕等都有大量的免費模型可以使用。對于沒有模型的非遺,可以通過互聯網開源的Lora訓練模型將有圖文樣式的資料與現存基礎設計樣本的非遺進行Lora制作,為這類非遺產出相對應的AI圖像[13]
不同Checkpoint適用于不同的設計效果,常見的有現實、三維、2.5D、平面插畫等,在此基礎上融合不同風格的Lora如浮雕、電商場景、毛絨玩具等,配合一定的提示詞就可以制作多元的非遺再設計圖像,為非遺再設計提供創造性轉化基礎。同時,生成式AI圖像在畫面的表現上符合現代常見設計樣式。通過Checkpoint控制畫面效果,搭配非遺本身Lora的制作能在一定程度上既滿足非遺特色又貼合現代審美,這樣的出圖模式能將以周計時的前期設計工作時間大幅度縮短。SD的其他輔助插件如ControlNet可以在線稿、風格、畫面深度、畫面分布等綜合角度對生成圖像進行控制,這就使得生成式AI圖像可以在很大程度上滿足設計師的想法。結合不同插件效果,生成式AI圖像可以應用于不同產品,這就為非遺再設計提供了豐富的設計思路。
從傳播范圍來看,視頻相較于圖像更容易受到關注。近兩年,生成式AI在視頻方面得到了廣泛的應用。過去runway、pika等視頻生成式AI工具在圖像清晰度、逼真效果、提示詞理解能力、視頻邏輯等方面飽受詬病,這些問題因OpenAI推出的sora視頻生成式工具與runway公司發行的Gen3視頻生成模型中得到一定程度的解決。國內可靈生成的AI視頻自2024年6月25日上傳至今,已經擁有1200萬以上的播放量,通過可靈大模型生成的“西游記版吃漢堡”在抖音短視頻平臺上獲得廣泛的關注。這類視頻生成式AI工具的工作流程較為簡單,只需進行一定提示詞的編寫就可以完成,簡易的操作與有趣的內容容易激發大眾文化二創的熱潮,這為非遺再設計提供了非設計專業人員的力量。
不同于傳統設計流程,基于目前主流顯卡的電腦,生成式AI可以做到以平均每分鐘一張
的速度進行圖像產出,并且根據設計工作者在Check-point、Lora與提示詞三大項調整之間進行多元風格的切換,這在工作效率上是人工難以比擬的。但是這并不意味著目前市場所需的圖像制作僅需要生成式AI來完成。無論是在國內原畫大師黃光劍有關AI的采訪中還是在央視網關于AI輔助作圖的教學流程中,他們都是將生成式AI作為設計的一個環節。實際應用生成式AI時,會發現一張整體看起來不錯的圖像,在很多細節上有可能錯亂無序,這些細看之下影響畫面的因素需要設計工作者在AI圖像的基礎上再次進行設計修改。這對于非遺再設計來說是需要考慮的問題,怎樣還原非遺的特點如紋樣、配色、傳統形象等。這些細節方面的設計如果在生成式AI方面得不到滿足,就需要設計工作者在AI圖像的基礎上對其進行修改,或者僅僅將AI圖像作為設計參考進行重頭的人工設計。無論是哪一種生成式AI參與的設計流程,都可以在一定程度上縮短設計所需成本并且極大地擴展設計工作者的思路,使其設計更具創意與多元化。
四、生成式AI應用于非遺再設計的展望
作為近兩年互聯網討論度較高的新設計工具,生成式AI既引發了廣泛的討論與爭議,也為設計工作者帶來了前所未有的新技術體驗與創作方式。作為一種前沿技術,生成式AI的運用不僅能夠提高非遺再設計效率,還可能為設計實踐的創作流程提供新的定義。因此,非遺設計工作者需要深入思考如何將生成式AI融入日常的設計工作,以發揮其在設計領域的潛能,創造更多價值。
一是生成式AI為優化非遺再設計效率提供更多創新可能。隨著人工智能技術的不斷發展,以生成式AI技術服務中華優秀傳統文化進行創造性轉化是實現非遺保護工作的有效途徑之一。生成式AI的核心優勢在于其高效的生圖能力和多元的生圖風格。通過生成式AI輸出設計元素,非遺設計師能夠高效地修改與迭代設計內容,形成更為靈活的創作流程。此外,生成式AI具有多元的創作風格,能促使設計師突破傳統的思維模式,從不同的角度創作出更具前沿性和創新性的設計方案。
二是設計師應與生成式AI建立協作關系。在實際應用生成式AI的流程中,非遺設計師的角色并沒有被AI替代,設計師逐步向策略梳理與創意輸出方向轉變,在理解生成式AI工作原理的基礎上,更加有效地為生成式AI圖像輸出工作提供想法[14],并對內容精益求精,實施后續的圖片設計修改工作。在這樣的協作關系下,非遺設計師有更多的時間把控設計內容,確保最終設計的完整性。
三是推進創意與文化的創新交融。生成式AI在非遺再設計領域的應用不僅體現在設計成果的創新上,更重要的是將文化與創意進行更有趣地融合。設計師可以將AI依據文化內容生成的設計方案作為靈感源泉,探索傳統文化在現代語境下的全新表達。目前國內許多新型AI軟件使更多大眾參與AI創作,較低的參與門檻有效地提高了非遺的社會關注度和公眾文化參與感。
四是要考量社會認知與法律責任。雖然生成式AI為設計行業帶來了諸多機遇,但是如何正確使用生成式AI依舊存在爭議。非遺設計師在使用生成式AI的同時,應該警惕內容的相似性,在充分發揮提示詞引導的同時,在后期對內容實施更多的人為修改。通過更為人性化的生成式AI使用方式,設計師能創造出更具社會價值的設計作品。
參考文獻:
[1]蔣里.AI驅動教育改革:ChatGPT/GPT的影響及展望[J].華東師范大學學報(教育科學版),2023(7):143-150.
[2]楊艷妮,廖栩君.人工智能技術創新擴散機制探索[J].數
字化傳播,2024(6):7-13.
[3]康玉蘭,蓋琦.人工智能技術在醫療領域中的應用[C]//天津市電子工業協會.天津市電子工業協會2022年年會論文集.天津:天津市電子工業協會,2022:97-99.
[4]姜世戟.人工智能應用在我國銀行業的探索實踐及發展策略[J].西南金融,2018(2):44-49.
[5]ZHANG Lvmin,RAO Anyi,AGRAWAL M. Adding ConditionalControl to Text-to-Image Diffusion Models[C]//2023 IEEE/CVF International Conference on Computer Vision(ICCV).Paris:[出版社不詳],2023:3813-3824.
[6]李莉,毛子晗,呂思奇,等.生成式AI在民族紋樣設計中的實驗研究[J].實驗室研究與探索,2024(9):84-90,102.
[7]楊俊蕾.風格遷移、指令設計與\"世界模擬器”:兼論 Sora 模型產出藝術杰作的可能[J].上海師范大學學報(哲學社會科學版),2024(2):56-64.
[8]楊曉文.生成式AI與圖書封面設計[J].科技與出版,2023(12) :95-102.
[9]SHTEFAN A.Creativity and Artificial Intelligence:a Viewfrom the Perspective of Copyright[J]. Journal of IntellectualProperty Lawamp; Practice,2021(7):720-728.
[10]GOODFELLOW I,POUGET-ABADIE J,MIRZA M,et al.Generative Adversarial Networks[C]//Advances in NeuralInformation Processing Systems 27(NIPS’2014).Cam-bridge:MIT Press,2014:2672-2680.
[11]RADFORD A,Kim J W,Hallacy C,et al. Learning Transfera-ble Visual Models From Natural Language Supervision[J].Proceedings of Machine Learning Research(PMLR),2021(139):8748-8763.
[12]吳瓊.人工智能時代的創新設計思維[J].裝飾,2019(11):18-21.
[13]陳文敏.“非物\"織景;生成式AI的文化編碼及數字生態影響[J].山東師范大學學報(社會科學版),2024(4):131-142.
[14]馬進,張彤彤,錢曉松,等.人工智能在非物質文化遺產保護與傳承中的應用研究現狀[J].包裝工程,2023(8):1-14,36.
作者簡介:肖雪鋒(1978—),女,漢族,陜西人,教授,研究方向為品牌傳播、非物質文化遺產。陳思行(2000一),男,漢族,四川成都人,單位為,研究方向為視覺傳達設計。
(責任編輯:馮小衛)