譚征宇,王舟洋,杜芃
生成式AI模型人智共創中的對齊問題研究
譚征宇1,2*,王舟洋1,杜芃1
(1.湖南大學,長沙 410082;2.麓山實驗室,長沙 410082)
以人工智能對齊的視角,探討在人智共創中生成式AI模型如何對齊設計師的意圖。通過要素分析,以人工智能對齊問題中的可解釋性與可控性為研究視角,探討生成式AI技術作為輔助設計工具如何對齊設計求解過程中“探索-創新-評估”三個設計階段的具體意圖與需求,并分析對齊階段中需要解決的對齊問題。根據對齊階段的任務構建基于人智設計概念表征交互式對齊方法、表征拓展方法與表征評估方法。在三個對齊階段中分別構建意圖對齊、設計空間拓展和設計規則匹配這三種方法,幫助設計師構建可控、可解釋的人智共創方法,從而構建可控、可信的人智共創。
人智共創;人工智能對齊;設計求解;設計表征對齊
從ChatGPT[1]、Stable Diffusion[2],到中國自主研發的文心一言[3]、星火大模型[4]等基于生成式AI的模型及相關工具,為設計內容生成提供了豐富可能。AIGC技術對設計行業帶來了深遠的影響,文生文、文生圖和文生視頻等模型在圖形設計、造型設計等領域有著較廣泛的應用[5]。隨著AI智能化程度的提高,基于人工智能理念的設計工具能夠融合人類智慧和AI智能,幫助設計師提高生產力和效率,從而實現增強智能的理念。融合了AIGC的設計流程,使設計師具有更強的創造力與想象力[6]。在構建人類智能與人工智能融合的設計趨勢下,需用人類的審美意識來進行創新設計的指導,最終使得人工智能的產出結果更加符合人類審美意識的價值判斷[7]。鑒于此,人智融合致力于將人類智能與具備更高智能的AI結合,創造出更具創意的產出物,形成人智共創(Human-AI Co-Creation)。Wu等[8]認為人智共創研究AI模型能更好地服務于人類設計師,對設計師的設計能力,特別是創意發散方面進行增益。Yang等[9]發現在設計人智共創中缺乏能保證AI輸出結果可控并符合用戶意圖的方法。如何讓AI對齊人類的價值與期望,這在科研與社會各界都引發了議論,面向安全可控的人智融合,人工智能對齊是重要的研究問題[10]。
基于海量數據訓練的生成式AI大模型具備很強的泛化能力,能夠輸入和輸出多模態數據,且輸出可根據人的偏好進行[11]。但是,因為AI模型是基于優化系統的數學計算模型[12],Christian等[13]發現AI產出的內容常常呈現出不符合用戶意圖與價值觀的負面效應。盡管有根據人類偏好數據來調整模型輸出的方法(如RLHF)[14],但是AI模型在各項人智交互的具體任務中仍然會產生錯誤。因此,Pandey等提出了保證AI模型能夠輸出符合人類意圖的內容的人工智能對齊問題,且在具體人智協作任務中的人工智能對齊問題成為了當下的科研聚焦點[15–17]。朱松純等[18]提出人工智能對齊模型,以構建人智共創框架,其中的四大要素(RICE)分別為魯棒性(Robustness)、可解釋性(Interpretability)、可控性(Controllability)和道德性(Ethicality),分別對應AI的環境適應能力、推理過程的透明度、執行人類意圖的準確性,以及遵循社會道德規范的能力。在基于AIGC的人機對齊與人機合作過程中,可控性與可解釋性能夠保證高效的人智共創??煽匦砸馕吨鴮C器的輸出可以通過參數進行控制。劉學博等[19]提出基于多個人類評價維度對模型進行可控微調的方法??山忉屝砸馕吨四軌蚶斫獠⒄瓶谹I的推理邏輯。周慎等[20]提出了可控、可解釋的生成式人智共創文本方法。喻國明等[21]提出AIGC的可解釋性是實現人機意向及意圖對齊,從而達成人機信任的路徑。
生成式AI模型在現有訓練數據中學習創意特征,并能將創意特征進行組合以產生創新的設計,在設計領域作為輔助工具產生了許多研究成果[22-23]。在設計的前期,生成式AI模型基于其海量數據可以作為創意靈感的啟發工具[24]。在工業設計任務中,能夠實現基于幾何特征驅動進行設計、分析和優化的一體化軟件[25]。盡管AI在數據分析和模式識別方面表現卓越,但相較于人類設計師在設計意圖和價值判斷上存在差距。人類設計師的核心能力在于融入創新思維,將復雜模糊的設計問題轉錄成設計表達,并打破常規設計模式,引入獨特的創新要素。這種創新能力源于對信息的深入理解和價值觀的深刻把握,通過高維度的設計認知行為將思想轉化為設計表征[26]。Gero[27]認為在未來人智共創的背景下,生成式AI將作為人的協作者角色與人類設計師共同參與設計活動,因此AI必須具備對設計師意圖的理解能力,才能有效履行協作者的職責并進行共創。
本論文主要聚焦于設計師與生成式AI模型在人智共創過程中的對齊問題。在人工智能對齊的研究框架下,探討設計師在設計求解的各個階段中以生成式AI模型作為設計輔助工具的具體對齊問題,基于人工智能對齊RICE框架中的可解釋性與可控性兩個維度,探討和總結在各個設計階段,實現可控、可解釋的人機意圖對齊方法,為人智共創提供研究基礎。對齊問題要素關系如圖1所示。

圖1 對齊問題要素關系
生成式AI模型在人智共創中的對齊問題,具體體現在設計探索、設計創新和設計評估三個對齊階段中。本論文梳理設計師在各個階段的具體設計意圖和需求,同時整理生成式AI在生成設計輔助任務中的工作流與關鍵技術,梳理生成式AI及其關鍵技術與設計師在設計求解過程中對應的對齊階段,分析和定義各個對齊階段的具體問題。
趙江洪[28]認為,設計者的設計思維活動包括探索、創新和評估這三個主要的認知活動,如圖2所示。設計師在進行設計問題求解的活動中綜合個人經驗,通過工程思維拆解設計問題或通過藝術思維逐步優化設計,在形象思維和抽象思維的綜合過程中,涉及聯想、直覺等思維方式。

圖2 設計師的設計問題求解過程
2.1.1 探索
在設計思維的探索過程中,Brown等[29]將其歸為設計思維的靈感階段,即收集相關人的意見并拓展方案的設計空間。斯坦福大學的D.School團隊認為設計過程從設計師的“同理心”開始[30]。Ratcliffe等[31]在此基礎上將“同理心”階段細分成“觀察”和“理解”兩個子階段。設計師在這一過程中利用解釋性和視角性思維將對設計目標的觀察和抽象的理解轉化成可以懂得的、具體的設計目標[32]。解釋性思維是將觀察到的現象進行猜測和推導,獲得最簡單和最恰當的解釋,分析抽象的概念并進行具象化的描述,從而幫助設計師進行理解。視角化思維即將問題、思考過程、方案可視化。設計師使用模型,采取以圖形為主的編碼方式,輔助對抽象概念的探索和轉化。
2.1.2 創新
在設計創新活動中,設計師可以通過探索并借鑒他人設計的方式來對產品的設計空間進行更深入的理解,從而在設計過程中做出正確的決定并激發設計創新的空間[33]。將他人的想法進行解構重組并優化迭代是設計創新的有效方法。對他人想法進行解析重組的創新活動和設計探索活動一樣依賴于設計師在設計領域的經驗。以產品造型設計為例,產品造型設計是一個模糊結構域的問題求解過程。隨著問題情景的變化,解也相應地進行調整和改變,一般通過設計者的專家知識和經驗來完成造型設計問題[34]。設計師可以通過類比的方式擴展抽象概念空間?;谶h領域類比的設計過程能夠得到更具創新性的概念設計結果。通過遠領域類比,設計師可以從一個創意空間連接到另一個創意空間,將其他領域的內容應用于當前的設計問題,探索已有事物的另一種表現形式,由此實現對抽象概念空間的拓展。
2.1.3 評估
Rosenman等[35]認為,產品設計評價是將新產品屬性與期待的結果進行對比后所獲得的對新產品的認知。以產品造型設計的評估活動為例,將設計物進行比較而抽象出的可區分特征可以歸類出風格[36]。風格可以通過語義表達反映人們對產品造型的主觀評價。設計領域中有許多基于語義的造型風格評價方法,如語義差異法、層次分析法等。感性工學即是構建感性意象語義與形態要素之間關系的系統,通過實現感性意象與設計要素之間的轉換,進而將設計方案轉化成感性評估,以確定設計方案是否達成目標的感性意象[37]。通過語義,設計師和其他設計相關人員可以將抽象的設計評估規則轉化為對設計物一致的設計評估標準,以進行直觀的設計評估。
為了讓生成式AI模型更好地融入到設計工作流中,本研究分析了圖像生成式AI技術自身及其與設計過程關聯的特性,詳細描述了基于Diffusion模型的生成式AI的圖像生成工作流,以及基于設計表征的提取、融合與匹配的關鍵技術特性。
2.2.1 多模態語義生成圖像
得益于基于對比學習的Clip多模態語義理解模型[38],可以將抽象圖片和文字轉譯成計算機能理解的、統一的表征作為特征嵌入,從而使文生圖(T2I)、圖生圖(I2I)、圖文生圖等多模態圖像生成AI模型,實現高質量的、基于表征的條件引導圖像生成工作流。目前主流的生成式圖像AI模型基于Clip模型、文本編碼器(Text Encoder)和圖像編碼器(Image Encoder)組成,可以將文字與圖像等多模態輸入轉化成潛變量空間的表征[39],然后通過表征作為生成條件,通過交叉注意力機制(Cross-attention)[40]引導U-NET圖像生成模型進行圖像的生成,輸出給定條件下的生成圖片。目前主流的生成式AI模型工作流包括文生圖、圖生圖和圖像變異。生成式AI模型的工作流,如圖3所示。
2.2.1.1 “語義理解-Prompt”轉譯成潛變量空間向量
在生成式AI模型中,語義理解是通過將提示詞(Prompt)和參考圖片轉換為潛變量空間的統一表征來實現的。這種表征通常是高維向量,也被稱為嵌入(Embedding)[41]。通過這種方式,不論是文本還是圖像,都可以被轉化成計算機能夠理解和處理的統一格式。在潛變量空間[42]中,不同的表征具有特定的分布,通過這些分布,模型能夠理解和確定表征之間的對應關系,從而實現復雜的語義理解。
在實際的圖像生成任務中,設計師可以通過調整提示詞來微調或尋找理想中的圖像造型、風格等特征,以滿足特定的設計需求。例如,通過改變或細化提示詞,設計師能夠引導AI模型生成與原始想法更加吻合的圖像。此外,利用如Clip score等技術,也可以從參考圖片出發,反向推導出與之對應的提示詞。這種雙向的、基于表征的方法,為設計師提供了一個靈活且強大的工具,以實現更準確和個性化的圖像生成。

圖3 圖像生成式AI的工作流
2.2.1.2 Prompt或圖片作為條件引導生成圖片
文生圖(Text-to-Image)和圖生圖(Image-to- Image)是生成式AI模型中最主流的工作方式。在如Stable Diffusion等模型的工作流中,文生圖的過程是根據輸入的Prompt在潛變量空間中得到文字的嵌入,接著系統生成一張純噪聲圖片。U-NET[43]模型接收這張噪聲圖片,并利用交叉注意力機制將文字嵌入及轉化為對應噪聲圖片中的去噪圖像,幫助噪聲圖像去噪。這一過程通常需要多步迭代來完成。
而圖生圖則在文生圖的基礎上進行改進,只是將純噪聲圖片替換為一個具有初步內容的初始圖像,并在此基礎上增加一定比例的噪聲。接著,系統根據文字嵌入作為條件以引導圖片的生成。由于圖生圖的初始圖片可以包含一定的原始圖像信息,這使得生成的圖像在內容上與原始圖像更為接近。同時,也可以通過類似Inpaint的技術手段增加圖像遮罩,實現如換臉、給人物換裝等更復雜的操作。這種方法允許在保持原圖像某些特征的同時,根據用戶的需求對圖像進行修改或增強,從而提供更加豐富和靈活的圖像生成體驗。
2.2.1.3 圖像變異(Image Variation)
圖像變異是生成式AI模型中的一個高級功能。在這一過程中,模型通過Clip圖像編碼器接收輸入圖像,并計算出該圖像在潛變量空間中的對應表征,即圖形嵌入(Image Embedding)[42]。然后,利用這些圖形嵌入作為條件,引導圖片的生成。圖像變異與圖生圖的不同之處在于,圖像變異利用Clip[38]的多模態語義理解能力來明確輸入圖像的高維語義。這種理解能力使得模型能夠實現語義的融合和特征的組合生成,從而實現多模態特征融合。
在設計工作中,設計師可以利用圖像變異方法生成與輸入圖像相似,但在某些方面經過變異的圖像。這一過程不僅使設計師能夠產生新的創意靈感,還能觀察到模型對輸入圖像關鍵特征(如風格、造型等)的理解能力。通過圖像變異,模型能夠展示其在保持輸入圖像關鍵特征的同時,如何有效地融合和變換這些特征,以生成具有新穎性和創意性的圖像。這一功能為設計師在探索新的視覺表達和創意時提供了強大的助力。
2.2.2 生成式AI技術的關鍵特性
生成式AI模型在圖像生成任務中可以總結出3種關鍵技術特性,包括:多模態表征提取(如圖4a所示)、多模態特征融合(如圖4b所示)與多模態特征匹配(如圖4c所示)。
根據圖像生成式AI的3個關鍵技術特性,作者對前沿科研領域的相關實現方法與技術應用進行了文獻整理,梳理出了基于多模態表征理解的生成式AI模型的圖像生成關鍵技術(如表1所示),包括多模態語義理解、融合,以及結合生成式AI進行可控圖像生成的具體實現方法。
2.2.2.1 多模態特征提取
在生成式AI模型中,語義理解是通過將提示詞(Prompt)和參考圖片轉換為潛變量空間的統一表征來實現的。這種表征通常是高維向量,也被稱為嵌入(Embedding)[41]。通過這種方式,不論是文本還是圖像,都可以被轉化成計算機能夠理解和處理的統一格式。在潛變量空間中,不同的表征具有特定的分布,通過這些分布,模型能夠理解和確定表征之間的對應關系,從而實現復雜的語義理解。
在實際的圖像生成任務中,設計師可以通過調整提示詞來微調或尋找理想中的圖像造型、風格等特征,以滿足特定的設計需求。例如,通過改變或細化提示詞,設計師能夠引導AI模型生成與原始想法更加吻合的圖像。

圖4 圖像生成式AI的關鍵技術特性
表1 基于多模態表征理解的生成式AI模型圖像生成關鍵技術

Tab.1 Key technologies in image generation for generative AI models based on multimodal representation understanding
2.2.2.2 多模態特征融合
在生成式AI模型的應用中,多模態特征融合是一個重要的方向,涉及風格遷移和將多張圖像與提示詞中的設計概念或圖像特征結合起來,形成新的圖像。多模態特征融合的研究主要關注以下兩個方面。
1)如何在不改變主體目標物的前提下,生成該主體在不同場景和環境下的圖像。如DreamBooth[46]、Textual Inversion[48]、PromptStyler[49]等技術方法,致力于學習并保持主體對應的表征不變。具體的實施方式包括提供一組主題圖片(例如一只柯基狗),通過訓練獲得該圖片對應的特定提示詞(例如“
2)實現更多特征的融合。例如,Unclip[45]通過prior模型訓練出更統一的圖文潛變量空間,從而實現文字與圖像的融合。這樣的多模態特征融合可以創造出既包含文本信息又融入圖像特征的新圖像。而Prompt-to-prompt[40]方法則通過控制交叉注意力機制的接入方式,有效地實現了特征融合。這種方法不僅增加了生成圖像的多樣性和創新性,還提高了模型對復雜概念的理解和表達能力,為設計師提供了更廣泛的創意空間。
2.2.2.3 多模態表征對齊與匹配
在利用生成式AI模型進行圖像設計時,多模態表征的對齊與匹配是至關重要的環節?;贑lip模型的強大語義理解能力,作者能夠提取圖像的多維度特征,這對評估圖像是否達到設計要求非常有用。例如,在評估一個圖片時,可以考慮其美感、藝術風格類型。此外,還可將設計拆解為布局、色彩、尺寸、功能等多個維度進行評估。
1)美學評估:Aesthetic Predictor[50-51]等模型能夠計算圖像的美學評分,并據此對圖像進行排序和篩選。這種方法不僅是基于技術層面的圖像分析,還融入了美學理論,使得評估結果更加全面和準確。
2)圖像語義理解與語義規則匹配:從語義層面上,將圖片拆解成不同維度的表征,并將各個維度的評估規則也理解為相應的語義表征。通過Clip score[52]、歐氏距離、旋轉角度等技術手段,可以對生成的圖像設計進行細致的評估和篩選。這一過程不僅依賴于模型對圖像內容的理解,還包括對設計原則和美學標準的應用,從而確保生成的圖像在技術和藝術層面都能滿足設計要求。這種多維度、多模態的評估方式為設計師提供了強大的工具,以確保最終的圖像設計符合既定的目標和標準。
根據前兩個小節的梳理可知,生成式AI具有強大的功能,可以提供設計增益使人類設計師更好地完成設計求解中“探索-創新-評估”的任務流程。但是,為了達到高效人智共創,需要將AI的各種功能與設計師在設計求解的各個流程中的意圖相結合,從而保證高效的人智共創過程。人機對齊就是為了保證AI的輸出可以符合人的意圖和偏好的研究領域[53]。在本研究中,筆者主要關注設計師的設計意圖與生成式AI模型輔助設計功能的對齊問題,在“探索-創新-評估”設計框架對應的各個設計流程中的人工智能對齊階段,梳理各個階段的對齊問題和目標,為后面的方法提供指導,如圖5所示。
2.3.1 設計探索對齊階段
在設計探索的過程中,設計師會廣泛地嘗試各種設計概念,結合生成式AI模型的文生圖與圖像變異功能,設計師可以方便地將抽象概念以文字(提示詞)或者參考圖片的形式輸入給AI模型,并由AI模型將抽象的設計概念轉譯成設計表達(圖片)。因此,AI模型對設計意圖的準確理解能力至關重要,現有的研究發現用戶不能有效地使用文字生成符合意圖的圖片[54–57]。因此需要對齊設計師的抽象概念與生成式AI的語義表征,如何生成符合設計師意圖的設計表達是在本對齊階段要解決的問題。

圖5 圖像生成式AI模型關鍵技術與設計工作流的對齊階段
2.3.2 設計創新對齊階段
在設計創新階段,設計師會探索設計概念的組合延伸以實現設計創新,但是因為設計固化等問題,設計師的思維會受到一定的局限[58–60]。如何讓生成式AI 能夠實現概念的融合,幫助設計師更好地把概念轉譯成設計解,增加在設計空間中的探索范圍,是該對齊階段要解決的問題。
2.3.3 設計評估對齊階段
在設計評估階段,AI 模型需要能夠根據抽象模糊的設計規則,將設計空間中的大量設計方案進行多維度篩選和比較,輸出評估結果以幫助設計師進行篩選。在面對生成式AI模型產生的海量設計解時,進行對比和篩選是非常耗費設計師認知資源的行為。因此需要新的機制來幫助設計師將心目中篩選規則的意圖對應到AI模型可以理解的表征空間中,更好、更快地完成篩選任務。
為了構建適配“探索-創新-評估”3階段設計工作流與圖像生成式AI模型技術特性的全新人智共創方法,在設計探索、設計創新和設計評估的3個對齊階段,分別定義各階段的人智對齊任務和目標,輸出各階段人智共創中的對齊流程與方法。
在設計探索對齊階段,需要將設計師構想的設計概念與生成式AI模型理解的設計概念之間進行對齊,從而保證AI模型能夠對齊設計師的意圖,準確地理解設計師及輸入的抽象設計概念并轉換成設計解?;贏I生成模型的設計方法,其問題在于,雖然AI可以生產大量的設計方案,但是缺少能理解設計師且其推理過程可解釋的控制方法[13]。在現有對齊生成式AI模型與設計師意圖的人機對齊方法中,Terry等提出了基于“交互式”的人智意圖對齊方法,通過人智交互式對話的方式[61],設計師對輸入的意圖信息(提示詞、參考圖片)進行修改,最終幫助AI提取到符合設計師意圖的圖像表征[62]。
基于“交互式”設計師與AI的對齊方法,結合基于最前沿的AI模型工作流,筆者提出了創新方法,幫助設計師與AI模型交互式地進行設計概念的意圖對齊,如圖6所示。設計師在探索設計概念的同時,可以通過文字、參考圖片的方式將信息輸入給生成式AI模型。AI模型通過理解設計師輸入的信息以形成潛變量空間中的設計表征,并通過將設計表征作為條件以引導圖片的生成,由此形成抽象概念的設計表達。設計師可以通過AI模型的設計表達評估設計概念對應的表征是否符合自己的設計意圖,如果不符合,可以對提示詞與參考圖片等概念信息進行調整。通過交互式的調整最終找到符合意圖的表征組合。

圖6 設計概念迭代對齊
“設計空間”可以理解為外觀設計中的設計自由度,一般是指設計者對產品外觀設計的創作自由度。相比于傳統設計流程的設計空間,基于文生圖的生成設計,創造力并不在于最終的產品,而更多地在于與人工智能的交互過程[63]。Kohk等[64]認為,AI可以在用戶輸入文本的語義組合的基礎上生成意想不到的結果,生成式AI可以幫助設計師有效地提供大量參考圖像并進行應用。設計師對概念的抽象和比喻描述可以通過生成式AI的輸出進行具象化表現以帶來創意的發散。
在設計創新對齊階段,設計師需要將前期設計探索中找到的設計概念進行融合,形成創新的概念方案。生成式AI模型的特征融合功能可幫助設計師探索概念融合以形成創新設計,在AI模型的表征概念空間完成概念的拓展,并形成設計表達,最終實現設計空間的拓展。因此,作者定義了概念拓展的對齊流程,如圖7所示。在此對齊階段,AI模型在表征空間對探索階段形成的概念表征進行插值融合,插值融合可以將2個或多個概念在表征空間中進行融合,形成新的設計概念表征,這些新形成的概念表征可以通過條件引導生成設計表達圖片。
覃京燕[7]認為,人智協同創作活動既需要人類智能在信息維度上做自由跨維度的籌謀抉擇與審美三觀的閾值判定,也需要人工智能做維度閾值以內的性質特征識別、行為模式計算和網絡關系結構優化。在設計評估對齊階段,設計師需要對創新階段構想的方案進行評估和篩選,雖然在生成式AI模型基于特征融合的技術能力加持下,產生了海量的設計方案,但是人們也可以通過AI的表征空間來進行設計方案的篩選,如圖8所示。制定AI模型對設計規則與創新設計概念在表征空間的坐標,可以通過計算歐式距離、歐式旋轉角度等方式實現設計方案的篩選。首先把設計規則通過對齊階段一的方式轉譯成規則表征,再計算概念表征與規則表征的距離。距離越近,則表明該概念表征越符合該設計規則。人們可以進行單一設計概念與所有設計規則的橫向比較,對設計概念進行綜合排序,再輸出排名靠前的最優解,產出設計表達,供設計師來做最后的評估。

圖7 概念拓展的對齊流程

圖8 設計方案的匹配和篩選
在本研究中,作者根據在生成式AI模型與設計師人智共創過程中的人工智能對齊問題,探索和梳理融合生成式AI模型特性的人機共創工作流程,以及各個流程中人智共創的對齊問題,總結了在“探索-創新-評估”設計工作流中生成式AI模型的共創耦合機制,以及相應的對齊方法,為面向可控、可信的人智共創提供了可實現路徑,具體如下。
1)在設計探索階段,通過設計概念對齊實現從抽象概念(文字、參考圖片)到設計表達(圖像)的多模態語義生成圖像轉譯,確保人機對設計概念的理解一致與對齊。
2)通過在設計創新階段使用多模態圖像、特征融合,將多個抽象概念形成的設計空間拓展并轉錄到設計表達空間中,幫助設計師拓展設計空間的搜索能力,從而增強設計創新。
3)在設計評估階段,設計師可以根據設計要求定義設計規則,通過AI模型將規則與設計方案一起轉譯成設計特征空間中的表征,再根據設計規則匹配對齊,以進行多維度的方案比較和篩選,從而建立起對海量AI生成設計方案的篩選機制。
綜上所述,AI的數據處理能力結合設計師的創新導向,有望構建一個協同共生的設計生態系統。在這一系統中,AI負責提供精確的數據支持和優化方案,人類設計師則負責確保設計方向的創新性和實用性。這種人智共創的對齊策略將推動設計智能化、可持續發展且符合人類價值觀的創新,朝著人智共融、互補共進的設計未來邁進。
[1] GALLIFANT J, FISKE A, LEVITES S Y A, et al. Peer Review of GPT-4 Technical Report and Systems Card[J]. PLOS Digital Health, 2024, 3(1): e0000417.
[2] SAHARIA C, CHAN W, SAXENA S, et al. Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding[J]. Advances in Neural Information Pro-c-e-ssing Systems, 2022, 35: 36479-36494.
[3] 袁傳璽. 百度第三季度實現營收344.47億元 文心大模型4.0重構業務生態[N]. 證券日報, 2023-11-22(02). YUAN C X. Baidu Achieved Revenue of 34.447 Billion Yuan in the Third Quarter of Wenxin Grand Model 4.0 Reconstruction Business Ecology[N]. Securities Daily, 2023-11-22(02).
[4] 陳佳嵐. 訊飛星火大模型加大投入明年上半年對標GPT4[N]. 中國經營報, 2023-10-30(03). CHEN J L. Iflystar Fire Model to Increase Investment in the First Half of Next Year Against GPT 4[N]. China Business Report, 2023-10-30(03).
[5] 何文英. 文生視頻軟件Pika火出圈或推動AIGC加速融入多種業態[N]. 證券日報, 2023-12-04(03). HE W Y. Vincennes Video Software Pika Fire out of the Circle or Promote AIGC to Accelerate the Integration into a Variety of Formats [N]. Securities Daily, 2023-12-04(03).
[6] 曾真, 孫效華. 基于增強智能理念的人機協同設計探索[J]. 包裝工程, 2022, 43(20): 154-161. ZENG Z, SUN X H. Human-Machine Collaborative Design Exploration Based on the Concept of Augmented Intelligence[J]. Packaging Engineering: 2022, 43(20): 154-161.
[7] 覃京燕. 審美意識對人工智能與創新設計的影響研究[J] 包裝工程, 2019 40(4): 59-71. QIN J Y. Impact of Aesthetic Consciousness on Artificial Intelligence and Innovation Design [J]. Packaging Engineering, 2019, 40(4): 59-71.
[8] WU Z, JI D, YU K, et al. AI Creativity and the Human-AI Co-Creation Model[C]// Human-Computer Interaction. Theory, Methods and Tools: Thematic Area. Berlin: HCI, 2021.
[9] YANG Q, STEINFELD A, ROSé C, et al. Re-Examining Whether, Why, and How Human-AI Interaction is Uniquely Difficult to Design[C]// Proceedings of the 2020 CHI Conference on Human Factors in Computing Systems. Sydney: CHI, 2020.
[10] 蔡淑敏, 馬云飛, 秦銘蔚. OpenAI動蕩背后的理想與現實[N]. 國際金融報, 2023-11-27(12). CAI S M, MA Y F, QIN M W. The Ideal and Reality Behind OpenAI Turmoil[N]. International Finance News, 2023-11-27(12).
[11] 趙朝陽, 朱貴波, 王金橋. ChatGPT給語言大模型帶來的啟示和多模態大模型新的發展思路[J]. 數據分析與知識發現, 2023, 7(3): 26-35. ZHAO Z Y, ZHU G B, WANG J Q. ChatGPT Brings Inspiration to Language Large Model and New Development Ideas of Multimodal Large Model[J]. Data Analysis and Knowledge Discovery, 2023, 7(3): 26-35.
[12] VENTER G. Review of Optimization Techniques[J]. London: John Wiley & Sons, 2010.
[13] CHRISTIAN B. The Alignment Problem: Machine Learning and Human Values[M]. 1st ed. New York: Norton & Company, 2020.
[14] HARLAND H, DAZELEY R, NAKISA B, et al. AI Apology: Interactive Multi-Objective Reinforcement Learning for Human-Aligned AI[J]. Neural Computing and Applications, 2023, 35(23): 16917-16930.
[15] PANDEY R, PUROHIT H, CASTILLO C, et al. Modeling and Mitigating Human Annotation Errors to Design Efficient Stream Processing Systems with Human-in- the-Loop Machine Learning[J]. International Journal of Human-Computer Studies, 2022, 160: 102772.
[16] BUTLIN P. AI Alignment and Human Reward[C]// Proceedings of the 2021 AAAI/ACM Conference on AI, Ethics, and Society. Munich: AAAI, 2021.
[17] GABRIEL I. Artificial Intelligence, Values, and Alignment[J]. Minds and Machines, 2020, 30(3): 411-437.
[18] JI J, QIU T, CHEN B, et al. AI Alignment: A Comprehensive Survey[J/OL]. arXiv, 2023 [2023-11-12]. https:// arxiv.org/abs/2310.19852.
[19] 劉學博, 戶保田, 陳科海, 等. 大模型關鍵技術與未來發展方向——從ChatGPT談起[J]. 中國科學基金期刊, 2023, 37(5): 758-766. LIU X B, HU B T, CHEN K H, et al. Key Technologies and Future Development Directions of Large Models: From ChatGPT[J]. Science Foundation of China, 2023, 37(5): 758-766.
[20] 周慎. 新文本間性: 生成式人工智能的文本內涵、結構與表征[J]. 新聞記者, 2023 (6): 39-45. ZHOU S. New Intertextuality: Text Connotation, Structure, and Representation of Generative Artificial Intelligence[J]. The Journalist, 2023(6): 39-45.
[21] 喻國明, 滕文強, 武迪. 價值對齊:AIGC時代人機信任傳播模式的構建路徑[J]. 教育傳媒研究, 2023(6): 66-71. Yu G M, TENG W Q, WU D. Value Alignment: The Construction Path of Human-Machine Trust Communication Model in AIGC Era[J]. Educational Media Research, 2023(6): 66-71.
[22] LIAO W, LU X, FEI Y, et al. Generative AI Design for Building Structures[J]. Automation in Construction, 2024, 157: 105187.
[23] OH S, JUNG Y, KIM S, et al. Deep Generative Design: Integration of Topology Optimization and Generative Models[J]. Journal of Mechanical Design, 2019, 141(11): 111405.
[24] SBAI O, ELHOSEINY M, BORDES A, et al. Design: Design Inspiration from Generative Networks[C]// Proceedings of the European Conference on Computer Vision. Berlin: European Conference, 2018.
[25] 高亮, 李培根, 黃培, 等. 數字化設計類工業軟件發展策略研究[J]. 中國工程科學, 2023, 25(2): 254-262. GAO L, LI P G, HUANG P, et al. Research on Development Strategy of Industrial Software for Digital Design[J]. Engineering Science, 2023, 25(2): 254-262.
[26] 陳超萃. 設計表征對設計思考的影響[J]. 新建筑, 2009(3): 88-90. CHEN C C. The Influence of Design Representation on Design Thinking [J]. New Architecture, 2009(3): 88-90.
[27] GERO J S. Nascent Directions for Design Creativity Research[J]. International Journal of Design Creativity and Innovation, 2020, 8(3): 144-146.
[28] 趙江洪. 設計和設計方法研究四十年[J]. 裝飾. 2008(9): 44-47. ZHAO J H. Forty Years of Research on Design and Design Methods[J]. Decoration, 2008(9): 44-47.
[29] BROWN T, KATZ B. Change by Design: How Design Thinking Transforms Organizations and Inspires Innovation[M]. 1st ed. New York: Harper Business, 2009.
[30] BANERJEE B, GIBBS T. Teaching the Innovation Methodology at the Stanford D. School[M]. 1st ed. Springer International Publishing, 2016.
[31] RATCLIFFE L, MCNEILL M. Agile Experience Design: A Digital Designer's Guide to Agile, Lean, and Continuous[M]. California: New Riders, 2012.
[32] 李彥, 劉紅圍, 李夢蝶, 等. 設計思維研究綜述[J]. 機械工程學報, 2017, 53(15): 1-20. LI Y, LIU H W, LI M D, et al. Review of Design Thinking Research[J]. Journal of Mechanical Engineering, 2017, 53(15): 1-20.
[33] GAVER B, MARTIN H. Alternatives: Exploring Information Appliances through Conceptual Design Proposals[C]// Proceedings of the SIGCHI Conference on Human Factors in Computing Systems. Hague: SIGCHI, 2000.
[34] 譚浩, 趙江洪, 王巍, 等. 產品造型設計思維模型與應用[J]. 機械工程學報, 2006(增刊1): 98-102. TAN H, ZHAO J H, WANG W, et al. Thinking Model and Application of Product Modeling Design [J]. Journal of Mechanical Engineering, 2006(Sup.1): 98-102.
[35] ROSENMAN M A. Application of Expert Systems to Building Design Analysis and Evaluation[J]. Building and Environment, 1990, 25(3): 221-233.
[36] 段正潔, 譚浩, 趙丹華, 等. 基于風格語義的產品造型設計評價策略[J]. 包裝工程, 2018, 39(12): 107-112.DUAN Z J, TAN H, ZHAO D H, et al. Evaluation Strategy of Product Modeling Design Based on Style Semantics[J]. Packaging Engineering, 2018, 39(12): 107-112.
[37] 羅仕鑒, 潘云鶴. 產品設計中的感性意象理論、技術與應用研究進展[J]. 機械工程學報, 2007(3): 8-13. LUO S J, PAN Y H. Research Progress of Perceptual Image Theory, Technology and Application in Product Design[J]. Chinese Journal of Mechanical Engineering, 2007(3): 8-13.
[38] ALEC R, KIM J W, HALLACY C, et al. Learning Transferable Visual Models from Natural Language Supervision[C]// International Conference on Machine Learning. Berlin: IEEE, 2021.
[39] ABDAL R, QIN Y, WONKA P. Image2stylegan: How to Embed Images into the Stylegan Latent Space?[C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. Prague: IEEE, 2019.
[40] BROOKS T, HOLYNSKI A, EFROS A A. Instructpix2pix: Learning to Follow Image Editing Instructions[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Paris: IEEE, 2023.
[41] JATNIKA D, BIJAKSANA M A, SURYANI A A. Word2vec Model Analysis for Semantic Similarities in English Words[J]. Procedia Computer Science, 2019, 157: 160-167.
[42] TEWARI A, ELGHARIB M, BERNARD F, et al. Pie: Portrait Image Embedding for Semantic Control[J]. ACM Transactions on Graphics (TOG), 2020, 39(6): 1-14.
[43] RONNEBERGER O, FISCHER P, BROXT. U-NET: Convolutional Networks for Biomedical Image Seg-mentation[C]// Proceedings of the International Con-ference on Medical Image Computing and Computer- Assisted Intervention, 2015.
[44] ROMBACH R, BLATTMANN A, LORENZ D, et al. High-Resolution Image Synthesis with Latent Diffusion Models[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Paris: IEEE, 2022.
[45] ZHU Y, LI Z, WANG T, et al. Conditional Text Image Generation with Diffusion Models[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Berlin: IEEE, 2023
[46] RUIZ N, LI Y, JAMPANI V, et al. Dreambooth: Fine Tuning Text-to-Image Diffusion Models for Subject-driven Generation[C]// Proceedings of the IEEE/CVF Confer-ence on Computer Vision and Pattern Recognition. Paris: IEEE, 2023.
[47] ZHANG L, RAO A, AHRAWALA M. Adding Condi--tional Control to Text-to-image Diffusion Models[C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. Berlin: IEEE, 2023.
[48] BALDRAT A, AGNOLUCCI L, BERTINI M, et al. Zero-Shot Composed Image Retrieval with Textual Inversion[C]// Proceedings of the IEEE/CVF Inter--national Conference on Computer Vision. Paris: IEEE, 2023.
[49] CHO J, NAM G, KIM S, et al. Promptstyler: Prompt- driven Style Generation for Source-Free Domain Gen---eralization[C]// Proceedings of the IEEE/CVF Interna--tional Conference on Computer Vision. Parsi: IEEE, 2023.
[50] DHAR S, ORDONEZ V, BERG T L. High Level De---scribable Attributes for Predicting Aesthetics and Inter---estingness [C]// Proceedings of CVPR 2011. Colorado Springs: IEEE, 2011.
[51] IBARRA F F, KARDAN O, HUNTER M R, et al. Image Feature Types and Their Predictions of Aesthetic Pref---erence and Naturalness[J]. Frontiers in Psychology, 2017, 8: 632.
[52] CHEN P, LI Q, BIAZ S, et al. gScoreCAM: What Objects is Clip Looking at[C]// Asian Conference on Computer Vision. London: ACCV, 2022.
[53] European Commission Joint Research Centre. Robust-ness and Explainability of Artificial Intelligence: from Technical to Policy Solutions[M]. Ispra: Publications Office, 2020.
[54] CAHNG M, DRUGA S, FIANNAC A J, et al. The Prompt Artists[C]// Proceedings of the 15th Conference on Creativity and Cognition. New York: CCC, 2023.
[55] JIANG E, TOH E, MOLINA A, et al. Discovering the Syntax and Strategies of Natural Language Program-ming with Generative Language Models[C]// CHI Con-ference on Human Factors in Computing Systems. New Orleans: CHI, 2022.
[56] ZAMFIRESCU-PEREIRA J D, WEI H, XIAO A, et al. Herding AI Cats: Lessons from Designing a Chatbot by Prompting GPT-3[C]// Proceedings of the 2023 ACM Designing Interactive Systems Conference. Munich: ACM, 2023.
[57] ZAMFIRESCU-PEREIRA J D, WONG R Y, HARTM--ANN B, et al. Why Johnny Can't Prompt: How Non-AI Experts Try (and Fail) to Design LLM Prompts[C]// Proceedings of the 2023 CHI Conference on Human Factors in Computing Systems. Las Vegas: CHI, 2023.
[58] JANSSON D G, SMITH S M. Design Fixation[J]. De-sign Studies, 1991, 12(1): 3-11.
[59] YOUMANS R J, ARCISZEWSKI T. Design Fixation: Classifications and Modern Methods of Prevention[J]. Artificial Intelligence for Engineering Design, Analysis and Manufacturing, 2014, 28(2): 129-137.
[60] LINSEY J S, TSENG I, FU K, et al. A Study of Design Fixation, Its Mitigation and Perception in Engineering Design Faculty[J]. Journal of Mechanical Design, 2010, 132(4): 041003.
[61] BARRACHINA S, BENDER O, CASACUBERTA F, et al. Statistical Approaches to Computer-Assisted Translation[J]. Computational Linguistics, 2009, 35(1): 3-28.
[62] XU W, DAINOFF M J, GE L, et al. Transitioning to Human Interaction with AI Systems: New Challenges and Opportunities for HCI Professionals to Enable Human- -centered AI[J]. International Journal of Human–Computer Interaction, 2023, 39(3): 494-518.
[63] LYUY, WANG X, LIN R, et al. Communication in Human–AI Co-Creation: Perceptual Analysis of Paintings Generated by Text-to-image System[J]. Applied Sciences, 2022, 12(22): 11312.
[64] KOHK, PARK G, JEON H, et al. Large-Scale Text- to-Image Generation Models for Visual Artists’ Creative Works[C]// Proceedings of the 28th International Con-ference on Intelligent User Interfaces. Berlin: ICIUI, 2023.
Alignment Issues in Human-AI Co-creation Using Generative AI Models
TAN Zhengyu1,2*, WANG Zhouyang1, DU Peng1
(1. Hunan University, Changsha 410082, China; 2. Lushan Lab, Changsha 410082, China)
The work aims to explore how generative AI models align with designers' intentions in human-AI co-creation from the perspective of artificial intelligence alignment. Methodologically, the interpretability and controllability issues in AI alignment were explored through a feature analysis approach. The research examined how generative AI technologies, as auxiliary design tools, align with the specific intents and needs of the three stages of the design process: "exploration, innovation, and evaluation". The alignment challenges that needed to be addressed in each stage were analyzed. Technologically, the study proposed an interactive alignment method, representation expansion method and representation evaluation method based on human intelligence design concept representation. In conclusion, the study constructs three alignment methods: intent alignment, design space expansion, and design rule matching, in the three stages. These methods aim to assist designers in building controllable and interpretable human-AI co-creation methods to contribute to controllable and trustworthy human-AI co-creation.
human-AI co-creation; artificial intelligence alignment; design problem-solving; design representation alignment
TB482
A
1001-3563(2024)08-0029-11
10.19554/j.cnki.1001-3563.2024.08.004
2023-11-26
教育部人文社科規劃一般資助項目(21YJA760059);麓山實驗室研究計劃
通信作者