李晶 劉聞 高盛華
2021年8月,媒體報料全球顯卡巨頭英偉達公司4月舉辦的一次線上峰會上,演講者并非首席執行官黃仁勛真人,而是一個通過數字技術合成的“假人”。消息一出便博足人們的眼球,雖然最后證實數字人只出現了14秒而不是全場,但這足以說明目前生成技術的發展已經可以讓人真假難辨了。出現這樣的新聞雖然是在意料之外,但其實也是在情理之中。隨著生成技術的快速發展,未來類似的事情可能很快就會變得平常。這些可以以假亂真的圖像都是利用一種叫做生成對抗網絡(Generative Adversarial Network,簡稱GAN)的技術生成的。
2018年圖靈獎由人工智能專家和深度學習“三巨頭”辛頓(G. Hinton)、楊立昆(Yann Lecun)和本吉奧(Y. Bengio)共同獲得。其中,本吉奧為加拿大蒙特利爾大學教授,蒙特利爾學習算法研究所創始人,他的重要貢獻之一就是關于GAN的研究。而關于GAN的發明,還有一個非常有趣的小故事。2014年, GAN[1]的發明者之一古德費洛(I. Goodfellow)當時還在本吉奧教授門下攻讀博士,他的研究課題是生成模型。有一天他在酒吧跟朋友喝酒時,跟朋友討論起生成模型,腦中靈光一現,想到了GAN的思想。然后他跟朋友說應該怎么做,并打賭一定能做出,但是朋友不太信。于是古德費洛直接離開酒吧就去做實驗,一晚上就寫出了關于 GAN 的論文,之后該論文發表在人工智能的頂級會議上。現在GAN已經廣泛應用于圖像視頻的生成、文本的自動生成,乃至新藥的生成。

生成對抗網絡的原理
在介紹GAN之前,首先介紹一下什么是生成模型。大家可能都有這樣的好奇心:世界上的人如愚公所言,“子又有子,子又有孫,子子孫孫無窮匱也”,那么這些未來人都可能長什么樣子呢?實際上我們已經觀測到的各類數據,例如人臉的圖像,在高維數據空間中是滿足某種數據分布的。我們通常把一個數據點稱為一個樣本。如果能夠利用觀測到的樣本點擬合出真實見到的數據的分布,例如人臉數據的分布。那么,那些沒有見到的人臉就可以從這個估計出的數據分布中進行數據采樣得到,這就是生成模型。
GAN是一種特殊的生成模型,由兩部分組成:一部分被稱為生成器,另一部分被稱為判別器。生成器的輸入是一個從某種先驗分布中采樣得到的隨機噪聲,這個噪聲可以看成是一個樣本的某種編碼。生成器輸出的與觀測到的數據(通常稱為訓練數據)服從相同的分布。判別器的作用是區分輸入的樣本是由生成器產生的假樣本,還是來自訓練數據的真實樣本。對于圖像生成應用,生成器和判別器通常由卷積神經網絡來實現。



生成對抗網絡的發展現狀
在古德費洛和本吉奧等人提出相關概念之后,生成對抗網絡發展迅速。原始的GAN只能從噪聲中采樣,無法很好地生成某種特定類別的圖像。有人提出可以通過輸入類別標簽進行可控的有條件圖片生成[2]。此外在GAN的訓練中,經常會出現模式崩塌的問題,即所有的噪聲在經過生成器后都變成一個或者幾個圖像,這使得生成的圖像缺乏多樣性。對此,有人提出將GAN的損失函數改變為Wasserstein距離,從而改善了GAN容易模式崩塌,訓練不穩定的問題,提高了生成樣本的多樣性[3]。原始的GAN生成的圖像都比較模糊。為了提高生成圖像的質量,有人提出,使用具有上采樣能力的生成器和下采樣卷積層的生成器,代替原始GAN中的全連接層[4],還有用風格來控制圖像的生成[5],通過調制適應性實例歸一化層的均值方差生成高分辨率高質量的圖片。為了實現圖片翻譯,也就是將圖片從一種風格映射成另一種風格,有人通過條件生成對抗網絡實現了有配對數據下的圖片翻譯[6],還有人通過將源域的圖片翻譯到目標域,再翻譯回源域前后的一致性,實現了無配對圖像數據下的圖片翻譯[7]。此外,為了解決訓練樣本不足情況下的生成對抗網絡訓練問題,有人研究了少樣本情況下的圖片生成問題[8,9]。為了讓生成過程更可控,一些工作研究了GAN的可解釋性。目前,GAN生成人臉,車輛和自然場景圖片的效果已經很好了,但是對于復雜場景的圖片生成以及視頻的生成,仍有許多工作要做。
生成對抗網絡的應用
隨著GAN技術的成熟,它已經應用于我們生活的各個方面。例如,在數字人領域,GAN可以用于人臉的生成、人臉屬性編輯、圖片補全、人體動作遷移等;在文本領域,GAN可以用于新聞和古詩的自動生成;在制藥領域,GAN還可以用于新藥的研發等。

數字人 GAN可以生成真實世界不存在的人臉,一個潛在的應用就是影視公司可以運用GAN打造屬于自己的數字人IP,猶如唐老鴨和米老鼠一樣,成為一種文化符號。同時利用GAN技術還可以進行人臉屬性的編輯:輸入一張人臉,通過GAN編輯這張人臉的屬性,給人臉加上笑容、金發,或者衰老等效果,這樣可以便捷地對人臉照片進行美化等后期處理。同時,還可以利用GAN將目標人物按照期待的動作進行人體動作遷移,實現對人物的驅動。此外,GAN還可以進行照片修復。將這些技術有機地結合,可以預見未來會有基于GAN技術的影視作品。

特定風格圖像的生成 生成對抗網絡還可以實現圖片的翻譯和特定風格圖像的生成。一張真實圖像可以通過GAN翻譯成不同藝術家風格的油畫,從而可以讓已無法再作畫的梵高、莫奈“復活”,繼續創作出優美的藝術作品。一副名為“Edmond de Belamy”的18 世紀紳士肖像畫,就是法國巴黎一個藝術組合“Obvious”利用GAN生成的。畫作右下角的簽名則是GAN的目標函數。該畫作于2018年10月25日,在紐約佳士得拍賣行被神秘買家以43.25萬美元(約合300萬人民幣)的高價拍下。
序列數據的生成 序列信號的生成,包括文本生成、音樂生成、語音生成等,在實際中有著廣泛的應用。基于AI的序列生成近年來取得了一系列成功。例如微軟的小冰生成了人類歷史上第一個由AI寫成的詩集——《陽光失了玻璃窗》。該詩集已由湛廬文化在2017年出版。2016年里約奧運會期間,字節跳動公司推出了一款叫張小明的AI機器人。該機器人利用GAN技術生成新聞,通過對接奧組委的數據庫信息,撰寫乒乓球,網球,羽毛球和女足相關賽事的實時新聞稿件,并幾乎與電視直播同步發布。據統計,16天內張小明共發布奧運新聞456篇資訊。
2019在re:Invent年度技術大會上,亞馬遜AWS發布了世界上第一個基于GAN的音樂鍵盤AWS DeepComposer,它可以幫助用戶輕松完成屬于自己的音樂作品。此外,谷歌大腦團隊也在同年提出將GANsynth(基于對抗性神經網絡的音頻合成)用于高質量音樂的快速生成。谷歌大腦的研究員恩格爾(J. Engel)這樣評價GANsynth的性能:“可以比標準的 WaveNet(一種傳統音樂生成算法)快5萬倍地生成樂器音頻,還具有更高的質量(無論是定量測試還是聽眾測試),并且可以獨立控制音高和音色,使得樂器之間的插入更加平滑”。此外,通過將GAN和深度強化學習技術結合,可以在文本生成和漢語古詩生成方面取得幾乎以假亂真的效果。

新藥的生成 平均下來,傳統的醫藥公司每次篩選出8000種藥用分子中,只有一種能最終問世,這其中需要研發人員整周,甚至是整月地蹲坐實驗室,逐個測試藥物分子。近年來,得益于迅猛增長的計算能力、GAN技術,以及深度強化學習技術,研究人員開始嘗試利用AI技術對藥物進行研發和篩選,并取得了一系列巨大的進展。例如,2019年因斯里克醫學公司利用GAN和深度強化學習來構思和設計新的藥物分子結構,合成并在小鼠中成功測試了一種主要候選藥物,基于AI的分子設計僅需21天,加上設計、合成和驗證,整個過程只用了46天。可以預期GAN技術有希望為整個醫藥行業省下巨額的科研經費。
生成對抗網絡的未來及挑戰
雖然GAN已經取得了快速的發展,逐漸能夠從隨機噪聲或以特定的用戶規范(例如場景分割和布局)為輸入的條件下,合成引人注目的圖像和視頻。但是目前的算法還不能對復雜場景進行細粒度的建模與控制,這也導致了傳統的渲染器在素材質量低的情況下,不能進行復雜的、非局部的三維交互。相比之下,神經渲染有望將現代計算機圖形學和深度生成模型兩者的優點結合起來,以圖像或者視頻為輸入,完成可控的、高清的圖像(或視頻)的合成與編輯。可以預見,GAN和神經渲染技術相結合,將會在電影工業、虛擬/增強現實和智慧城市等領域中發揮越來越重要的作用,將會成為構建數字元宇宙(metaverse)的關鍵技術。
隨著合成成本的逐漸降低,以Deepfake為代表的深度偽造技術開始走向普及,其在社會生活各方面的滲透也越來越深。從大眾的角度來看,目前公眾對于Deepfake的態度正走向兩個極端,一是陷入Deepfake娛樂化的漩渦,二是站在Deepfake的對立面。作為一種編織虛假信息的強大工具,Deepfake的身影開始遍布互聯網的多個角落,侵犯隱私、擾亂政治選舉、抹黑公眾人物、引發非自愿色情片泛濫,一步步侵蝕公眾信任,引發社會信任危機。技術無善惡之分,但技術應用存在善惡,之后的研究需要更積極地參與到防止Deepfake濫用的努力之中。通過技術制衡技術,開發相應的檢測技術是目前最行之有效的方法。但開展對Deepfake的檢測并不容易,仍然面臨不小的挑戰。因此,多國政府對深度偽造技術的濫用風險高度重視,并開始制定相關的法律法規來約束其在網絡空間的傳播。2019年6月12日,美國國會提出《深度偽造責任法案》 (DEEP FAKES Accountability Act)。這項法案要求任何創建合成媒體文件的人,必須用“不可刪除的數字水印以及文本描述”來說明該媒體文件是篡改或生成的,否則將屬于犯罪行為。同年,我國國家互聯網信息辦公室、文化和旅游部、國家廣播電視總局聯合印發了《網絡音視頻信息服務管理規定》[10],強調“網絡音視頻信息服務提供者和網絡音視頻信息服務使用者利用基于深度學習、虛擬現實等的新技術新應用制作、發布、傳播非真實音視頻信息的,應當以顯著方式予以標識,不得利用基于深度學習、虛擬現實等的新技術新應用制作、發布、傳播虛假新聞信息”[10]。
生成對抗網絡,作為一種新的技術,正在人工智能領域如火如荼地展開,并在娛樂、影視、制藥等諸多領域被廣泛地使用。筆者相信,很多技術都有兩面。但隨著法律地不斷完善,以及社會的自我約束,生成對抗網絡終將進一步走進我們生活的各個方面,更好地服務于社會。
[1]Goodfellow I, Pouget-Abadie J, Mirza M, et al. Generative adversarial nets. Advances in Neural Information Processing Systems, 2014, 27.
[2]Mirza M, Osindero S. Conditional generative adversarial nets. Computer Science, 2014: 2672-2680.
[3]Arjovsky M, Chintala S, Bottou L. Wasserstein generative adversarial networks. Proceedings of the International Conference on Machine Learning. Proceedings of Machine Learning Research, 2017: 214-223.
[4]Radford A, Metz L, Chintala S. Unsupervised representation learning with deep convolutional generative adversarial networks. Computer Science, 2015.
[5]Karras T, Laine S, Aila T. A style-based generator architecture for generative adversarial networks. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Institute of Electrical and Electronics Engineers, 2019: 4401-4410.
[6]Isola P, Zhu J Y, Zhou T, et al. Image-to-image translation with conditional adversarial networks. Proceedings of the IEEE conference on computer vision and pattern recognition. Institute of Electrical and Electronics Engineers, 2017: 1125-1134.
[7]Zhu J Y, Park T, Isola P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks. Proceedings of the IEEE international conference on computer vision. Institute of Electrical and Electronics Engineers, 2017: 2223-2232.
[8]Saito K, Saenko K, Liu M Y. Coco-funit: Few-shot unsupervised image translation with a content conditioned style encoder. Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part Ⅲ 16. Springer International Publishing, 2020: 382-398.
[9]Li Y, Zhang R, Lu J, et al. Few-shot image generation with elastic weight consolidation. arXiv: 2012. 02780, 2020.
[10]三部門發布《網絡音視頻信息服務管理規定》.中國政府網, 2019-11-29[2021-8-17]. http://www.gov.cn/xinwen/2019-11/29/ content_5457064.htm.
關鍵詞:人工智能 生成對抗網絡 圖片生成 序列數據生成新藥設計 ■