陳姝宇



繪畫創作是人類自古以來的天性,從原始叢林中飽經風霜的洞穴巖畫,到法國盧浮宮中夢幻神秘的蒙娜麗莎,人類筆下的每一幅畫作都體現了無窮的想象力和非凡的創造力。與技藝精湛的藝術家一樣,我們每一個普通人的心中都有著獨特的審美情趣與個性化的藝術體驗,但是,我們卻常常難以將之充分地表達出來。為了讓非職業畫家的普通人也能輕松地繪制出人類肖像,中國科學院計算所與香港城市大學合作研發了智能人臉畫板軟件DeepFaceDrawing[1]。基于該軟件,用戶不需要擁有專業的繪畫技巧,就能用粗糙甚至不完整的草圖合成逼真的人臉肖 像。
計算機草圖交互的發展
草圖是指通過黑白線條,描繪物體的輪廓和結構的一種繪畫形式。草圖繪制成本較低卻包含豐富的語義信息,其很早便被用于人機交互:1963年,Ivan Sutherland便開發了革命性的人機交互系統——SketchPad[2],并因此獲得圖靈獎。該系統使用交互設備“光筆”,通過手繪草圖完成計算機的圖形設計與交互。后來幾十年,隨著數位板等硬件設備的發展,草圖已經成為專業計算機設計人員所必需的交互方式,提高了計算機相關行業的生產效率,促進了工業、設計業、動畫影視業等相關產業的發展。近幾年,以智能手機、平板電腦為代表的觸摸設備迅速發展,觸屏交互進一步深入大眾的日常生活,草圖擁有了更多的使用場景與更高的實用價 值。
正因為草圖具有易于繪制、語義豐富和應用廣泛等特點,許多計算機軟件嘗試根據草圖合成真實圖像。一些早期的技術主要將草圖作為標記,使用圖像檢索和組合技術,將不同圖像的不同部分生硬地拼接到一起。這些軟件無法通過草圖精確控制合成的圖像,拼接的結果常常不夠自然。近幾年,人工智能技術飛速發展,通過草圖合成真實圖像也有了許多新的技術。這些方法將草圖作為輸入,使用深度神經網絡,合成真實的圖像。但是,目前的大多數方法對于草圖的依賴性極高,因此對用戶繪制的草圖有很嚴格的要求,往往只有專業的美術工作者才能駕 馭。
普通人可以通過手繪的草圖輕松合成逼真的人臉肖像嗎?怎樣使用人工智能技術,用隨手繪制的粗糙、甚至不完整的草圖合成真實圖片呢?
人臉畫板交互系統
為了讓普通人也能通過隨手繪制的草圖合成真實人臉肖像,中國科學院計算技術研究所高林團隊與香港城市大學傅紅波團隊合作研發了一款智能人臉畫板軟件。該軟件在草圖繪制界面,提供了基于數據驅動的背景陰影作為參考。背景陰影實時更新,根據用戶繪制的草圖,匹配出最接近“真實人臉”的草圖,引導用戶的繪制。交互界面的頂端提供了一系列功能按鈕,可以控制畫筆、橡皮的大小,保存生成的結果等。
該軟件可以調整生成結果的面部細節。右上角提供了針對臉部5個部分的5個參數(左眼、右眼、鼻子、嘴巴、其他)的控制滑條。每個滑條的值代表了原始繪制的草圖與系統優化的混合權重,滑條對應的值越高,生成的結果與輸入的草圖越接近。該軟件的交互界面友好美觀,用戶可以輕松繪制想象中的真實人臉。
基于深度學習的人類合成系統
該人臉畫板系統基于最前沿的人工智能技術,使用了生成式對抗網絡(GAN)[3]的技術。通過這種技術,神經網絡可以合成高真實感的圖像,足以以假亂真。生成式對抗網絡的原理也非常簡單,包括了兩個網絡:圖像生成網絡與圖像判別網絡。圖像生成網絡負責生成真實的圖像,圖像判別網絡則負責判斷生成的圖像是真實圖像還是生成的圖像。兩個網絡相互學習博弈,最終生成高真實感的圖像。
該智能人臉畫板系統同時使用了結構化的合成思路,對人臉的關鍵區域(雙眼、鼻、嘴和其他區域)單獨處理,再融合生成真實人臉。系統主要由三部分組成:特征提取模塊、特征映射模塊、圖像合成模塊。系統對用戶繪制的草圖進行優化,生成與繪制草圖相對應的真實人臉。
特征提取模塊采用自編碼器結構。自編碼器也是一種常用的人工神經網絡,可以對輸入的圖像進行編碼,得到高效的低維特征描述,并能從該描述中恢復輸入圖像。特征提取模塊將人臉分為五個部分(左眼、右眼、鼻、嘴和其他區域),對每一部分的草圖分別進行編碼,獲取五個特征描述符。進一步,該模塊將人臉的局部草圖投影至局部線性的流形空間,每個部位的流形空間由數據庫中大量樣本編碼的特征向量構成。輸入的手繪草圖樣本的特征描述符作為點樣本投影至該空間尋找最近鄰,通過線性組合重構來優化手繪草圖。
特征映射模塊與圖像合成模塊一起構成合成真實圖像的深度神經網絡。特征映射模塊將優化后的局部草圖特征描述映射成32通道的特征圖(真實圖像常常為3個通道,對應紅色、綠色、藍色)。進一步,系統對每個局部生成的特征圖,在背景特征圖的固定位置按照嘴、鼻子、雙眼的順序進行拼接。最后,圖像合成模塊根據拼接后的特征圖,融合生成高真實感的人臉。該方法由于采用了多個通道,改進了信息流,能生成更高質量的合成結果。
目前,基于人工智能技術的系統,需要大量的數據進行訓練,該人臉畫板系統也不例外。開發團隊基于CelebAMask-HQ[4]人臉圖像數據庫,篩選無遮擋的面部圖像,再利用PhotoShop加草圖簡化的方法提取草圖,構建了人臉圖像與對應草圖的數據集。系統的訓練分為兩個階段:先訓練局部嵌入模塊,獲取局部特征映射,再固定局部嵌入模塊的參數,整體訓練特征映射模塊與圖像合成模塊。
人臉畫板的更多應用
人臉畫板采用從局部到全局的方法,對局部進行了編碼解析。因此,人臉畫板可以對來自不同人不同部位的圖像提取草圖編碼,再將其整合看作一張臉送入網絡生成人臉圖像,實現人臉拼接。同時,由于人臉畫板將人臉的各部位編碼為特征表示,并在流形空間上進行投影,因此可以將不同人臉的特征進行線性插值,再將插值后的特征輸入網絡,合成中間人臉結果,實現人臉變換。
智能人臉畫板系統有很高的實用價值與現實意義。通過人臉畫板系統,刑偵人員可以定位嫌疑分子,方便案件的偵查,保護人民財產安全;普通用戶可以自由繪制真實人臉,體驗科技與藝術的完美融合,激發想象力與創造力;專業藝術家可以任意設計精美模特,創作獨特而精妙的藝術品,帶來獨具匠心的藝術體驗。在后續的研究中,研究團隊將繼續擴展人臉畫板的功能,進一步提升用戶體驗,便利藝術創作。
參考文獻
[1] CHEN S Y, SU WC, GAO L, et al. DeepFace-Drawing: Deep Generation of Face Images from Sketches. ACM SIGGRAPH\TOG. 2020,39(4),72:1–72:16.
[2] SUTHERLAND I E. Sketchpad a man-machine graphical communication system[J]. Simulation, 1964, 2(5): R-3-R-20.
[3] IAN J G, ABADIE J P, MIRZA M, et al. Generative adversarial networks, arXiv preprint arXiv, 2014(2661):1406.
[4] LEE C H, LIU Z W, WUL Y, ea al. MaskGAN: Towards Diverse and Interactive Facial Image Manipulation, CVPR 2020.