李天 耿旭樸



摘 要:人工智能技術不僅深刻地改變著人們的生產和生活方式,也在通過藝術創作解構和顛覆人類的思維模式。本文以圖像藝術為例,從風格遷移、圖像生成和草圖渲染3個方面對深度學習及其應用進行介紹,以期對圖像藝術創作有所參考和啟發。
關鍵詞:神經網絡;深度學習;高校工程風格遷移;生成對抗網絡(GAN)
0 引言
以深度學習為代表的人工智能技術(Artificial Intelligence,AI)已成大勢所趨,并滲透包括藝術在內的各行各業。深度學習是一種使用深度人工神經網絡對數據進行表征學習的方法,旨在模擬人腦識別能力的人工神經網絡(簡稱“神經網絡”)。其誕生于20世紀四五十年代,此后數十年間的發展起起伏伏,幾經波折,直到近年來才以“深度學習”之名大放異彩。[1]2012年,“深度學習之父”Geoffrey Hinton的研究組在號稱人工智能“世界杯”的“ImageNet大規模視覺識別挑戰賽”(ImageNet Large Scale Visual Recognition Challenge,ILSVRC)中以遠超第二名的成績斬獲冠軍,深度學習一戰成名。[2]2016年,Google研發的圍棋人工智能程序AlphaGo更以4:1的戰績完勝韓國棋手李世石,剎那間輿論沸騰,人工智能技術開始為社會大眾所矚目。2017年,國務院印發《新一代人工智能發展規劃》,認為“人工智能的迅速發展將深刻改變人類社會生活、改變世界,深刻改變人類生產生活方式和思維模式”。
神經網絡通常由多層神經元組成,神經元用于模仿生物體的神經細胞,很多神經細胞連接在一起形成復雜的神經系統。與嬰兒大腦發育類似,各神經元最初都處于隨機的混沌狀態,并不具有識別和記憶功能,神經網絡需要使用大量已知數據進行訓練和學習,才能具備一定的“認知”能力。深度學習之“深”,首先體現在神經網絡的層數上,傳統神經網絡往往只有三層,即輸入層、隱含層和輸出層,而用于深度學習的“深度神經網絡”動則十多甚至數十上百層。更為重要的是,深度神經網絡中引入了可以讓機器自動總結并學習數據特征的網絡機制,從而可以克服傳統神經網絡中人工設計特征的局限性。
深度學習首先在圖像分類、語音識別和自然語音理解等方面取得了巨大成功,近年來,以深度學習為核心的人工智能技術得到了學術界和工業界的廣泛關注,人工智能正深刻地改變著我們的生產和生活方式。與此同時,人工智能介入藝術創作也成為大勢所趨,谷歌的Deep Dream作畫,阿里的AI魯班設計海報,人工智能正在解構和顛覆人類的思維模式。深度學習在圖像藝術方面出現了很多非常出彩的應用,本文將從風格遷移、圖像生成和草圖渲染3個方面對深度學習進行分析,以期對圖像藝術創作有所參考和啟發。
1 風格遷移
風格遷移是指在保留原圖像基本內容(內容圖像)的條件下,把另一幅圖像的風格(風格圖像)應用到該圖像上。人類歷史上出現了很多頗有影響的畫派和很多著名的畫家,如果把他們的風格與一些現代照片的內容進行組合,則能產生很多奇妙的作品。這個概念其實早已有之,但深度學習的出現使得風格遷移取得了突破性的進展,而與此同時,風格遷移也成為深度學習最成功的應用之一。如圖1所示,最左側一列是廈門大學的三張風景照片;中間一列從上到下分別是三張典型的畢加索立體主義畫、莫奈印象主義畫和中國水墨山水畫;最右側一列是作者使用Gatys等提出的深度學習方法[3],把每行中間圖像的風格應用到左側照片得到的新生成的圖像。
這種風格遷移方法使用了深度學習中的卷積神經網絡(Convolutional Neural Networks,CNN),并假定圖像的內容和風格是可以進行分離的。CNN主要由多層可以處理可視化信息的很多較小計算單元組成(即卷積);每層的計算單元相當于一組濾波器,經過訓練后,它們能獲取圖像的一些特定特征;后一層神經元以前一層的輸出作為輸入。這樣隨著神經網絡層數的增加,后層神經元的感知視野不斷增大,提取的特征也越來越復雜,越來越能夠捕捉到與圖像中的主要物體相對應的高層次特征,而不會受限于具體的像素值。因此,CNN在圖像識別領域取得了極大成功,同時,這些高層次特征往往也正是圖像中所包含的主要內容。
關于圖像的風格,Gatys等認為風格在一定程度上近似于圖像的紋理,紋理對應于圖像的局部統計特征,而CNN中的濾波器就相當于各種局部特征識別器。據此,Gatys等提出了一種基于CNN的風格提取方法,即計算同層神經網絡中不同濾波器響應的特征圖的相關性,結合多個網絡層的相關性即可得到穩定的圖像風格的多尺度表示。[4]從圖1的試驗可以看出,這種方法所提取的紋理在很大程度上與圖像的風格基本是吻合的。
深度學習中風格遷移的基本流程如下:
第一,準備內容圖像和風格圖像,并以內容圖像或白噪聲圖像作為初始的基準圖像。
第二,用CNN模型分別計算基準圖像與內容圖像的內容損失和基準圖像與風格圖像的風格損失。
第三,以內容損失和風格損失的最小化為優化目標,調整基準圖像的值。
第四,重復步驟二、三,使基準圖像在內容上接近內容圖像的同時,風格上與風格圖像越來越相似。
2 圖像生成
正如前面所述,CNN的經典應用之一是圖像識別。2014年,Ian Goodfellow等人另辟蹊徑,提出了一種新的深度學習模型——生成對抗網絡(Generative Adversarial Net,GAN)。[5]如圖2所示,GAN模型中包含了兩個CNN:生成器(G)和辨別器(D),X表示從已知的圖像庫中抽取的某張圖像,G可以從噪聲中生成偽圖像Y,D可以對X或Y進行真假圖像的鑒別。G與D的關系類似于藝術畫的偽造者與鑒別者,偽造者的目標是創作出以假亂真的藝術畫作,而鑒別者的目標是判斷他看到的畫作是藝術大師本人的作品還是模仿出來的。剛開始的時候,偽造者和鑒別者的水平都不高,鑒別者很容易判斷圖像的真偽;但隨著神經網絡的訓練,兩者不斷地進行對抗和學習,偽造者不斷改進自己的圖像生成模型,偽造的畫作會讓鑒別者識別錯誤。這是一個對抗雙方都不斷學習提高的過程,也正是GAN的神奇所在。
GAN一經提出就備受矚目,衍生出許多種形態,Facebook的AI領頭人Yann LeCun表示,GAN是“近十年來機器學習領域最有趣的想法”。GAN不僅引起了學術界和工業界的極大興趣,甚至也有一些藝術家嘗試用其進行藝術創作,GAN及其變式在圖像生成方面顯示出了異乎尋常的藝術潛力。2018年10月25日在紐約佳士得的拍賣會上,由巴黎藝術組合Obvious利用GAN模型生成的畫作《Edmond de Belamy》,被拍出了43.25萬美元的高價。該畫作基于14~20世紀的15000幅經典肖像畫生成,虛構了Edmond de Belamy這個角色,成為歷史上第一個拍賣的人工智能藝術品。
圖2? GAN基本原理
下面給出一個GAN在動漫設計中應用的例子。人物是動漫創作的核心,無論是傳統手繪,還是計算機輔助繪畫,動漫人物的繪制都是一個非常復雜的過程,而且對繪畫師的要求很高。2017年,6名來自復旦大學、卡內基梅隆大學、石溪大學和同濟大學的學生,合作建立了一個名為MakeGirlsMoe的網站(make.girls.moe)。用戶只需要設置一系列面部和服飾特征,如發色、發型、眼鏡顏色,是否佩戴眼鏡、帽子、絲帶,以及是否有臉紅、微笑、張嘴等面部表情,網站就可以快速生成一個高質量的定制版動漫人物形象(如3所示)。
MakeGirlsMoe網站后臺的核心實際上就是一個改進的GAN模型。[6]深度學習需要大量的先驗數據進行神經網絡的訓練,這些數據的質量會直接影響圖像生成的效果。因此MakeGirlsMoe的設計者從日本游戲商Getchu的網站獲取了三萬多張訓練所需的動漫人物頭像,這些頭像出自專業的動畫師之手,因而圖像質量較高。為滿足用戶對人物特征定制的需要,MakeGirlsMoe的設計者使用了一種基于深度學習的圖像分析工具——Illustration2Vec,對這些動漫人物的特征如發色、發型、表情等進行標注。
3 草圖渲染
人工智能在互聯網上爆紅的應用之一是草圖渲染,其中以Edges2cats和Fotogenerator最為有名。Edges2cats可以以隨手繪制的線條圖為基礎,自動生成一張貓的圖片;而Fotogenerator則可以根據線條草圖,生成一個人的頭像。它們的典型效果分別如圖4和圖5所示。Fotogenerator上線后訪問者太踴躍,服務器負荷過大,以至于開發者不得不將其關閉。
事實上,Edges2cats和Fotogenerator采用了同一種深度學習方法——Pix2Pix,這也是一種改進的GAN模型。[7]Pix2Pix使用大量的成對圖像進行訓練,讓神經網絡自動學習到從輸入圖像到輸出圖像的映射關系,從而可以實現諸如線條圖到實物圖、灰度圖到彩色圖、白天圖到黑夜圖等多種圖像類型的轉換。Edges2cats和Fotogenerator實現的都是從線條圖到類似實物照片圖的轉換。需要注意的是,訓練樣本的多樣性直接決定了神經網絡學習得到的能力。以Edges2cats為例,開發者大約訓練了兩萬多對貓的照片與線條圖,所以不管用戶畫什么樣的草圖,生成的都是類似于貓的圖片;而如果用戶所畫草圖中貓的五官比較怪異或與訓練圖像差異較大的話,則可能得到一些非常奇怪甚至恐怖的圖像。
4 結語
人工智能與藝術的關系,在藝術界和理論界引起了不小的討論,在2017年《美術觀察》第10期[8]與《中國美術報》第90期[9]的兩場專欄里,人工智能能給藝術帶來什么?人工智能的創作究竟能否算得上“藝術作品”?人工智能會消解“藝術家”的概念嗎?它是否會讓藝術變得廉價?藝術創造和自由意志是否無法被機器所取代?……種種疑問,無不透露著人們對這一嶄新的藝術創作方式的復雜心態。
畢竟,長久以來,無論是模仿說,主(客)觀精神說,還是觀念說,任何一種藝術理論都將藝術的本質視為人類獨特的創造力的體現,是機器所無法取代的精神生產活動,而人工智能的出現似乎在逐步挑戰這個邊界。2018年,AI繪制畫作《Edmond de Belamy》在紐約佳士得拍賣行以43.25萬美元的高價拍出,這更像是在某種程度上證明它的創造潛力。無論如何,目前的人工智能在藝術領域的應用尚在初級階段,它究竟會對藝術產生怎樣的影響力,需要更多的實踐研究進行開拓。
參考文獻:
[1] Hinton G E, Salakhutdinov R R . Reducing the dimensionality of data with neural networks[J]. Science,2006,313(5786):504-507.
[2] Krizhevsky A, Sutskever I, Hinton G E . Imagenet classification with deep convolutional neural networks[A]. Advances in neural information processing systems[C]. 2012:1097-1105.
[3] Gatys L A, Ecker A S, Bethge M . Image Style Transfer Using Convolutional Neural Networks[A]. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)[C]. IEEE, 2016.
[4] Gatys L A , Ecker A S , Bethge M . Texture synthesis using convolutional neural networks[A]. International Conference on Neural Information Processing Systems[M]. MIT Press, 2015.
[5] Goodfellow I J, Pouget-Abadie J, Mirza M,etal. Generative adversarial nets[A]. International Conference on Neural Information Processing Systems[M]. MIT Press,2014:2672-2680.
[6] Jin Y,Zhang J,Li M,etal . Towards the Automatic Anime Characters Creation with Generative Adversarial Networks[J]. arXiv preprint arXiv,2017.
[7] Isola P,Zhu J Y,Zhou T,etal . Image-to-Image Translation with Conditional Adversarial Networks[C]. Proceedings of the IEEE conference on computer vision and pattern recognition,2017:1125-1134.
[8] 孟繁瑋,緱夢媛.人工智能與藝術的未來[J].美術觀察,2017(10):13.
[9] 李振偉,等.人工智能:會給藝術帶來什么?[J].中國美術報,2017(90).
作者簡介:李天,博士,碩士生導師,在《文學評論》、《新美術》和《社會科學戰線》等期刊發表學術論文多篇,出版專著《CG影像藝術——虛擬與現實的界限》和詩集《校園抒懷——人在翔安》等,主要研究方向:新媒體藝術和當代美學等。
通訊作者:耿旭樸,博士,主要研究方向:深度學習、圖像處理和遙感技術等。