

【關鍵詞】人工智能;審美評估;技術倫理;深度學習
引言
“美和審美”從古至今都是哲學和藝術中的重要課題,然而關于美在主客觀問題上的爭論,一直制約著審美判斷理論的進一步發展。例如,休謨認為美是主觀的,是個體情感和情緒的表達或激發,藝術作品的價值在于引起觀者內心的情感共鳴。與此相反,亞里士多德認為,美是客觀的存在,可以通過分析其結構和布局等多種屬性,客觀地分析和評判藝術作品的美。
隨著計算機技術的發展,人類的數據搜集和計算能力得到了飛躍性的提升,在人工智能(AI)技術走向成熟之后,利用AI進行審美評估也就順理成章地成為一種構建審美判斷體系的新方案。然而,由于審美的主觀因素眾多且復雜,導致模型并不容易獲取、識別和分析與藝術相關的數據,AI在審美評估的準確性與可靠性方面表現仍不盡如人意。目前,已經有許多研究者嘗試從不同渠道采集與用戶主觀感受更為貼近的數據,使AI模型能更真實地模擬和學習人類的主觀審美判斷,以期得出更精確的審美評估結果。
未來,AI是否能擁有與人類相似的審美能力,甚至代替人完成審美評估?
一、AI代替人進行審美評估的多種嘗試
(一)依賴專家的專業性審美
深度學習技術的突破與圖像處理算法的進步,使各種基于AI的設計輔助工具不斷被開發和應用。早期,AI主要依據領域專家提出的理論或制定的規則為“標準”參與審美評估,根據“結晶平衡”或“強調”等理論原則來評估某個版式設計是否具有視覺吸引力[1]。
雖然專家提供的標準讓AI參與審美評估“有法可依”,能增強評估結果的權威性,但同時也有其局限性。依據抽象的理論對具體對象進行審美評估時,往往會忽略很多超出理論解釋范圍的細節問題。再者,不同領域專家因自身的主觀性,對同一審美標準的定義也存在差異,而且專家對“美”的解讀與普通人對“美”的理解還常存在錯位,導致AI無法作出相對準確的審美決策。
(二)重視大眾意見的群體性審美
互聯網與社交媒體的興起,為AI能更廣泛地收集大眾對藝術作品的評判提供了便利。例如,從在線圖片和視頻分享平臺Flickr的1075幅倍受大眾喜愛的平面設計作品中,AI可以知曉更受大眾喜愛的視覺元素[2],從而理解大眾的審美偏好。
然而,大眾意見也不一定完全真實,因為大眾意見容易受到“意見領袖”的影響。保羅·拉扎斯菲爾德(PaulLazarsfeld)和伊萊休·卡茨(ElihuKatz)在20世紀40至50年代提出兩級傳播理論(TwoStepFlowofCommunication),“信息首先通過大眾媒體傳遞給意見領袖,然后這些意見領袖再將信息傳遞給他們的追隨者。意見領袖在信息傳播過程中起到過濾和解釋的作用,顯著影響大眾的意見和行為”[3]。德國政治學家伊麗莎白·諾埃勒—諾依曼(ElisabethNoelle-Neumann)提出的“沉默螺旋理論”則表明,很多人出于害怕被孤立或與主流意見不符的原因而選擇沉默,但這并不代表他們沒有自己的意見[4]。因此,即使AI廣泛收集大量的大眾意見,也難以真實反映大眾的審美觀。
(三)收集用戶個人意見的個性化審美
隨著深度學習技術和人工神經網絡的發展,生成對抗網絡(GenerativeAdversarialNetwork,簡稱GAN)和卷積神經網絡(ConvolutionalNeuralNetwork,簡稱CNN)在藝術與設計領域逐漸得到廣泛應用[5],研究者在此基礎上嘗試讓AI模型深入學習用戶個人的個性化審美偏好,以期實現更智能的審美評估[6]。例如,在線獲取用戶的審美反饋信息,并結合不同的主觀特征和圖像的視覺特征來學習用戶的個性化審美,這似乎能讓AI在審美評估方面有所突破[7]。然而,直到當前,這類探究仍然未能取得實質性進步,因為人的復雜性和人類審美的高度主觀性(甚至有很大隨機性),讓AI準確理解和模擬用戶個人獨特、復雜的審美偏好并不容易。這也導致了目前還未達到“通用人工智能”(ArtificialGeneralIntelligence,簡稱AGI)階段的AI,尚顯力不從心。
可見,人類試圖讓AI擁有與人相同的審美能力,從借助專家觀點,到通過收集海量數據學習大眾審美意見,及至進一步獲取用戶個人相關的審美偏好信息進行審美評估,其進步是顯而易見的。但時至今日,AI完全代替人進行審美評估仍然困難重重,人的復雜性似乎令AI很難走完這段征程。
二、人類復雜性的表現
(一)人腦結構與機能的復雜性
審美判斷來源于人腦的活動,而人類僅僅認識大腦這一控制人的行動、情感的生理系統就經歷了漫長的歷史過程。大腦的生理結構和神經元之間的連接方式、化學物質在神經系統中的作用,以及感知、思維和情感等運作過程,至今仍未完全解明。20世紀的科學界曾將布羅德曼(Brodmann)于1909年提出的“大腦皮層分區學說”作為理解人類大腦作用機制的重要原則,該學說將人類大腦皮層分為52個區域[1]。但21世紀以來的腦科學研究表明,大腦在處理信息時并非簡單地通過“固定分區”對身體各部位實施行為控制,而是涉及整個神經網絡的動態交互[2],甚至具有某種程度上的“可塑性”。也正是由于大腦處理信息具有“可塑性”,人類才能夠執行高級和復雜的認知任務,包括審美評估這一復雜的認知過程。
盡管目前的腦轉錄組學(研究基因在大腦中的表達)和連接組學(研究神經元之間的連接)技術已經取得很多突破性進展,可以在完整的腦組織中獲取數百萬個神經元的信息,但是電信號的記錄仍然受到限制,只能映射到數千個神經元[3]。這意味著目前的腦機接口技術雖然可以了解人類大腦的基本結構和連接方式,但對大腦神經元如何協同工作,以及這種工作如何控制特定的行為或認知功能等相關問題,仍未建立起較為嚴謹的理論。
人類至今仍未徹底弄清大腦的運作機制,讓AI模型了解影響其主觀審美的復雜神經活動更加困難,模仿人類對藝術作品的審美體驗就更是難上加難。因此,盡管AI在某些方面展示了潛力,但在全面和準確地模仿人類審美評估方面仍有很長的路要走。
(二)社會文化的多樣性
人的審美不僅僅是個體對審美對象的生理和心理反應,更是個體身心與復雜多樣的社會文化互動的過程,這種帶有變化的過程進一步增加了AI識別、理解和模擬人類審美的難度。
社會環境、文化背景等多種因素會潛移默化地塑造人的審美觀,而且這些因素通常是相互交織的,受此影響,不同社群的人對同一事物的審美判斷也會產生差異。例如,一些研究通過收集不同國籍的人對同一汽車廣告(圖1)的理解來探索跨文化在理解廣告隱喻中造成的差異,使用UAM語料庫工具處理與分析數據,得出以下結論:中國人傾向于將速度表的形象解讀為數字的缺失,他們認為這是為了凸顯汽車的“無限可能性”,是一種開放和不受限制的象征;西班牙人通過速度表的形象聯想到汽車的親和力,因為他們將這種汽車視為“友好”的汽車,速度表看起來更像一雙微笑的眼睛;英國人的關注點側重于汽車的燃油效率和經濟性,認為速度表代表駕駛者不必擔心燃油消耗[1]。這項研究凸顯了文化差異對人的審美理解所產生的影響,以及證明了同一元素在不同文化中會出現多樣解讀。
人類的倫理認知差異也是社會文化多樣性的重要體現,這種差異導致AI更難識別、理解與模擬人類的審美。已有研究發現,廣告會因為其內容所傳遞的價值觀而受到推崇或批評。因為審美主體不僅關注審美對象外在的形式,還關注審美內容所傳達的倫理立場和社會意義等深層次的價值觀。而且,大眾會受到自身的價值觀、道德標準以及文化認同等多方面因素的影響。這些因素也是造成人與人之間在倫理認知方面形成差異的重要原因[2]。更麻煩的是,人類的倫理認知并非固定不變[3],而是會伴隨社會文化的變遷而改變。
人的復雜性還表現在個體之間的明顯差異上,這種差異會比社會文化造成的差異更為多樣而且令人難以捉摸。以語言的使用和解讀為例,語言是人類審美表達與共享的主要媒介,美國社會學家哈羅德·加芬克爾(HaroldGarfinkel)通過對日常生活中語言實踐的詳細研究和微觀分析,揭示了人與人之間形成的“共享語境和默契假設”[4]。加芬克爾將其解釋為一種索引性表達,強調個體在實際生活中形成的一種理性而靈活的互動方式。然而,這種互動方式也會使得個體對相同的語句產生多種解讀,從而形成理解差異。因為個體的語言選擇、表達方式及交互模式會受到其自身獨特的觀點、感知與認知模式等多種因素影響,甚至被當下的情感狀態、突發事件所左右,從而形成一種“個人化”“即時性”的語言交流模式。此外,個體表現出微觀的語言特征,如音調、語速、強調等細微變化,以及肢體動作、面部微表情等非語言元素也會影響聽者對語言行為的解讀。
這些微妙的個體差異數據對于AI模型來說,并不容易獲取與識別,想要學習和模仿就更加困難。
(三)情感落差
個體在不同的情景中和不同時刻有不同的情感反應,這種反應可能是明顯的,也可能是隱含的、微妙的,表現為“情感落差”[1]。而且這種落差還具有隨機性、動態性的特點,不僅受到內在心理變化和自我調節的影響,同時還受到與外界互動的影響[2]。外界因素包括周圍的物理環境和社會環境,個體因素包括內在心理活動及調節和管理情緒與行為的能力,這些因素會共同影響著個體的情感感知與變化,形成“情感落差”,從而造成同一個體在不同時間段有不同的審美判斷。已有研究證明,人在欣賞抽象藝術作品時,如果突然聯想到與死亡有關的事物,會降低對“無意義”的作品的喜好程度。對于注重邏輯、秩序的人來說,這一點會表現得更加明顯。但當提供關于作品的合理解釋時,如作品說明或創作背景,這種影響會隨之減弱[3]。
已有研究嘗試通過考察個體情感狀態預測同一個體在一段時間內的情感變化。但影響情感變化的因素非常多,且以AI目前的計算資源和運算能力,想要長時間內深入觀察并預測人的情感變化,進行動態性的審美評估,是極難完成的任務。事實證明,用AI采集文本如社交評論、圖像標簽等數據,甚至獲取個人的社交群體和聯系人列表等方式,均難以準確地預測人的情感微妙變化[4]。因為情感落差的問題及采集到的文本還會受到社會文化、語言學上的影響,會造成一定程度的數據污染,從而影響審美評估的準確性。
總體而言,人類想要研究出一種使AI代替人進行審美評估的方法,就必須讓AI識別、理解和模擬人的復雜性。理解大腦的工作模式和神經活動是最基本的,還需要用數據量化影響人類審美的多種因素。正如前文所述,當前的AI技術顯然未能達到這一目標,而且目前AI在數據采集方面也存在著諸多挑戰。
三、AI代替人進行審美評估的主要挑戰
AI模擬人的審美,面臨的主要障礙是“數據偏差”問題、“審美邏輯”流程化及追求“結果準確”的不合理目標三大難點,這三大難點分布在對審美對象和用戶的數據采集、數據分析及輸出結果等階段性任務之中。
(一)數據采集中的“偏差”
人類審美具有高度主觀性,因此基于人類審美活動而采集的數據存在不確定性,這會導致數據的注釋存在“偏差”[5]。以這類數據為基礎建立的現有審美評估模型在進行審美評估時會出現評分交錯和異常值[6]。
為了解決上述問題,一些研究者嘗試從多種不同渠道采集數據,獲取來自不同背景和視角的樣本,以增強數據的豐富性和代表性。最常用的收集渠道是從社交網絡中采集大量與審美或情感有關的圖像數據[1],或者進一步收集如人格特征[2]等“主觀性”更強且對人類審美影響更大的數據。一些研究者早前曾開發過個性化圖像審美數據庫(PersonalizedImageAestheticsDatabasewithRichAttributes,簡稱PARA),并從實驗室收集了438名受試者對31220張圖像的主觀審美數據注釋[3],但對于“用AI進行審美評判”目標而言,這種規模的數據仍然遠遠不足以讓經過訓練的AI達到“接近大眾認知”的水平。例如,在情感數據的注釋方面,受試者僅能選擇其中一個最能描述圖像情感的類別。單一維度顯然無法清晰闡釋人類復雜的情感。面對經常變化的情緒狀態,此類數據庫更加無能為力。可見,現實操作中無法確保囊括所有與審美相關的數據,導致數據的種類和數量始終難以得到“質”的突破。因為影響主觀審美的因素不僅有人格特征,還有文化背景、個人經歷(體驗)、認知能力、世界觀、人生觀、社會階層、審美立場等。這些因素都涉及不同的、相互交織的維度和層面。
要收集那些最能直接反映人的情緒及其微妙變化的生理信號數據,比收集一般數據更為費時費力,難度大且成本高[4]。其中,生理信號的采集需要佩戴相應的傳感器進行測量,目前先進的AR技術能結合專用的傳感器采集人類微妙的生理信號與運動數據。例如,七通道EMG(肌電圖)、PPG(光學脈搏檢測)、IMU(慣性測量單元),分別能夠監測人類肌肉的收縮和松弛狀態、皮膚表面的微小血管脈搏變化及人類運動和姿態等,其目的是更準確地理解情感的微妙變化。盡管如此,采集面部微表情數據目前仍存在挑戰,因為面部微表情瞬時而微妙,往往在幾秒鐘內就會消失,需要高靈敏度的傳感器才有可能準確地捕捉到。而且,對于有些人來說,面部表情能較充分地反映內心情感、情緒的變化,但對另一些人來說并非如此。
不僅收集海量數據會面臨巨大困難,處理海量數據并將它們量化更難。由于數據采集過程中難免存在輸入錯誤、傳感器故障或其他異常情況,處理海量數據時,錯誤、重復項或無效數據也相應增加,需要手工或利用算法對大批量的數據進行清洗。一些數據還需要進行人工注釋,因為注釋由不同標注者完成—標注者既可能是外包的專業數據標注者,也可能是被邀請的特定行業專家,他們之間的審美差異也會影響到數據標記工作。此外,個體情感落差也可能會造成“數據污染”等問題,這些也同樣會影響AI模仿人類進行審美的能力。
克服數據采集中的“偏差”問題,不僅需要解決不同時間、不同環境下會出現審美偏差的問題,還存在保護用戶數據隱私等多種復雜的考量。例如,采集面部特征涉及肖像權等個人隱私信息和權利,需要經過嚴格的倫理審查和真實參與者的知情同意。一旦我們去收集用戶的所有相關數據,那么全球用戶的隱私都可能會受到嚴重侵犯,因為他們的個人信息將被完全暴露在公眾視野之中,這顯然是不被許可的。
(二)“審美邏輯”流程化的局限
AI模型的審美邏輯通常是基于特定的規則和數據集而建立的,人類的審美則大部分基于隨機的主觀感受。在構建AI模型時,研究者通常會經過收集數據、訓練模型和調整參數等多個步驟,因此相關模型是遵循人類設定好的“審美邏輯”進行審美評估活動的,所得出的結果也將是流程化的產物。
盡管流程化的模型在某種程度上能夠完成簡單且易于識別的審美評估任務,但在面對一些復雜且抽象的任務時,其表現卻不盡如人意。例如,一些抽象的藝術圖像具有不規則的線條或形狀、紋理等復雜的視覺元素,模型難以僅僅依靠“將明亮的顏色和平滑的線條劃分為積極情感,將深色和混亂的紋理劃分為消極情感”(圖2)這類明確規則[1]進行審美評估。這最終會導致模型得出與人類審美評估不一致的結果。此外,模型特定的審美邏輯還會帶來“審美偏見”,因為訓練數據的不均衡,模型會更傾向于將圖像的審美評分落在某個特定范圍內。當模型面對沒學習過的數據時,其適應變化的能力較低,審美評估的準確性也明顯下降[2]。這表明,模型的“審美邏輯”是固定的,面對更為復雜的情境時,模型輸出的結果與人的主觀判斷難以保持一致。
相比圖像,視頻的AI審美評估會更為復雜與困難,因為視頻不僅包含聲音的音調、音量、節奏、字幕和彈幕等語言特征,還有眼神、面部表情、手勢、姿勢等非語言特征。這些特征使得AI模型需要對不同層面的信息進行綜合分析和理解,其評估過程也顯然比圖像的審美評估更為復雜和具有挑戰性。例如,解讀視頻中的文本信息需要模型理解語義的細微差異。因為文本本身就存在語言模糊、隱喻、引申等現象,而且互聯網上的流行新詞時刻在發生變化,如自創詞、縮略語、互動詞等,使得模型對文本信息和文本中傳達的情感理解變得更為復雜[4]。此外,視頻中的圖像內容復雜多變,從簡單的靜態畫面轉換到動態的場景,模型還需要識別理解多張不同圖像中的細節信息。更麻煩的是,從視頻中識別人的情感狀態,還會遇到面部微表情相似性的問題,從而阻礙模型進行邏輯精確的審美評估。已有研究發現,模型會經常將“恐懼和快樂”這兩種情感混淆[1]。可見,語義理解、圖像處理及情感識別的復雜性問題,共同影響著模型能否作出準確的審美評估。
(三)過于追求“結果準確”的不合理目標
AI模型在參與審美過程中,目標之一就是追求準確的結果,而人的審美是動態變化的。在過去的研究中,AI模型通常簡單地將評估結果取平均值或將其歸類為“好”或“壞”。一些研究者嘗試采用審美評分分布圖來取代傳統的審美評分量化方式,通過收集不同用戶對同一圖像的審美評分,并將評分繪制成分布圖來呈現。這種方法能夠展現用戶對圖像進行審美的多樣性和分歧,提供深入的審美分析。然而,這種方法仍只是追求一個準確的數字或更大可能性的概率,依然是基于固定的規則和規律進行計算和推理的。即使模型可能會被訓練以適應不同的數據集或情境,它針對同一對象的審美結果在不同時間點上通常是一致的,除非人為更新模型或數據。相比之下,人的審美是動態變化的,個人的審美經驗和偏好會隨著時間、經歷和環境的變化而變化,很難對其進行精確刻畫。
人的審美還具有模糊性,不是任何情境下都非常清晰、確定或具有一致性的,這與AI模型追求準確的結果很不一樣。人的審美涉及情緒、感知和認知等多個層面,還可能涉及無法言說的感受,難以用語言充分表達出來。有研究者為了讓模型能夠學習人類審美的模糊性,處理不精確和模糊的審美數據,引入模糊邏輯系統(FuzzyLogicSystem),來推斷用戶的個性化審美偏好。盡管模糊邏輯(如藝術作品的“色彩豐富度”“情感表達力”等)在處理模糊性和不確定性方面表現出色,但將這種方法應用于審美判斷工作時仍然有很強的局限性。例如模糊邏輯難以處理大量的、復雜的數據,面對多維度數色彩、構圖、主題,難以有效地整合和權衡各個因素,尤其是在屬性之間存在復雜相互作用的情況下。因此,當前的研究傾向于使用表現更為出色的神經網絡。神經網絡具有多層結構和大量參數,能夠自動學習數據中的復雜模式,具有更強大的表達能力。
盡管人類試圖用AI模型從不同角度識別、理解人的審美感知、理解和體驗,但實際上還需要克服上述諸多難題。當然,AI技術的發展日新月異,模型繼續“進化”完善的可能性很大。但關鍵是,人類會允許AI無限進化嗎?
四、AI是否會代替人進行審美評估
當下,AI技術正以驚人的速度不斷進步和發展,但在涉及人類主觀意識和情感的領域,人類對發展AI技術的態度又變得極為謹慎。在探索AI代替人進行審美評估的路徑上,這些技術限制構成了無法逾越的障礙。艾薩克·阿西莫夫(IsaacAsimov)提出的著名“機器人三大定律”,是以防止AI對人類產生傷害為目的而建立的。后來,研究者考慮到人機互動過程中的復雜問題,如語境的多義性、人類行為的復雜性及情感表達的變化等因素導致機器人難以準確理解人類的真實意圖,而做出一些與人類倫理規范相違背的決策,對人類造成生理或物理傷害。于是,又補充了一些更詳細的執行方案[1]。
為進一步預防AI會超出人類預知,掙脫人類的控制,甚至帶來無法預計的災難性后果。許多防范性方法被陸續提出,如預測AI在多種不同的特定情境下可能產生的行為傾向,尤其是那些涉及權力、道德和倫理等復雜的情境[2]。不僅研究者,多個國家的政府、地區性組織和聯合國等國際組織也已經制定了明確規則,以防范AI可能給人類帶來的危害。2023年12月8日,歐盟達成一項重要的政治協議,該協議覆蓋了一系列議題,包括政府在生物識別監控中使用AI系統的規定,以及對ChatGPT等AI系統的監管。該協議規定:“必須對容易引發風險的基礎模型進行系統風險評估、開展對抗性測試。重要事項應向歐盟委員會報告,確保網絡安全并提供能源效率報告。”[3]為了增強AI系統設計和應用的可靠性和透明性,減少系統發生意外或“錯誤”行為的可能性,以保障人類免受AI系統可能帶來的傷害,2022年美國白宮科技政策辦公室發布的《人工智能權利法案藍圖》(BlueprintforanAIBillofRight)第一原則明確指出:“自動化系統的開發應廣泛咨詢各類社群、利益相關方和相關專家,以便弄清系統所牽涉的各種事項、風險及潛在影響?!盵4]中國、日本、加拿大、英國、新加坡等多個國家也已經或正在持續討論制定AI技術的發展指導方針和監管規章制度。
可見,各國政府和國際組織的一系列提議及規定的一致底線是:AI的“進化”必須在人類的掌控范圍內,而且必須往友好的方向發展。假如AI要代替人進行審美評估,那就意味著它要像人一樣復雜多樣甚至動態隨機,但在這種情況下AI極有可能脫離人類的控制,而這超出了人類對AI發展的容忍底線。因為一旦超越了人類的掌控,AI就可能反過來控制人類甚至成為人類的敵人,比如欺騙與操縱關鍵人類決策者來獲取經濟資源,利用安全漏洞控制關鍵計算機系統,甚至威脅人類或自主使用生物武器,等等[5]。這種風險極端危險,甚至可能導致人類滅絕或邊緣化,這個后果無論如何都令人無法接受。
總體而言,人類不會為了讓AI代替人進行審美評估而無限拓展其“智能化”的程度,無論從法規還是科學倫理上,人類都不允許AI無限靠近人類。因此,AI代替人進行審美評估即便能夠保證一定的“客觀性”,最多也只能停留在“輔助判斷”這一層面。