洛風
最近,抖音平臺新上線了“變身漫畫”特效,它能將抖音視頻用戶的現實形象瞬間轉變成二次元漫畫形象。那么,這種能夠“動起來”的二次元濾鏡,背后隱藏了怎樣的黑科技呢?
首先,我們來認識一個新名詞——生成式對抗網絡。作為一種深度學習模型,生成式對抗網絡首次出現于前“谷歌大腦”科學家伊恩·古德費洛及其團隊發表的論文中,是機器學習中的新概念。通過生成式對抗網絡,我們可以將用戶的現實形象瞬間轉換為二次元漫畫形象。
機器學習的模型分為生成模型和判別模型兩種,顧名思義,其各自的功能分別是根據數據集來生成和判別模型。它們通過對抗過程估計生成模型的新框架,即將生成模型與判別模型放在一個矛盾的局面中,讓兩者進行對抗,生成模型要盡可能地生成真實的圖片去欺騙判別模型。與此同時,判別模型要盡量把生成模型生成的圖片和原數據集區分開。
在這個過程中,生成網絡就像是一個畫畫的小孩,而判別網絡就像是一個嚴格的美術老師,負責給小孩的作品打分。判別網絡的任務其實很簡單,就是區分真假。何為真?自然拍攝的圖片就是真,而人工合成的圖片便是“假”。
首先,生成網絡會產生一批假數據,對判別網絡進行訓練,剛開始生成的假數據很粗糙,肯定無法通過,所以判別網絡只需要具備初步的識別能力就可以鑒定出來,這算是一個“菜雞互啄”的階段。然后,當判別網絡有了進步,生成網絡也要迎頭趕上,再對生成網絡進行訓練,目標是生成更加擬真的數據,騙過當前的判別網絡。這些新的數據又用來訓練判別網絡,自己生產,自己消化,如此循環,互相博弈。
通過這種訓練,兩個網絡的能力都得到了提升。如同武俠小說里的“梯云縱”,左腳踩右腳,右腳踩左腳,武功高強的大俠就能飛檐走壁。訓練完成之后,判別網絡作為“工具人”就可以暫時休息了,留下生成網絡用以產生圖像。所以,這種機器之間自發的相互學習,可以說是非常智能了。
而生成式對抗網絡的種類也不少,其中最常見的如Cycle生成式對抗網絡。這套算法就是隱藏美圖軟件濾鏡后的幕后功臣,“LOMO風格”“甜美日系”“黑白簡筆”“美白磨皮”都靠它才能一鍵搞定,完成瞬間“變身”。
不過,次元壁不是那么容易打破的,因為真實人臉和卡通人臉之間的結構差別太大,這兩個域的幾何結構彼此非常不同,從而導致嚴重的失真和視覺偽影。所以,要想把手機拍攝的真人視覺形象轉化為相似的二次元紙片人,就要解決這個問題。這時,便需要運用Cycle生成式對抗網絡特別版——面部特征輔助版Cycle生成式對抗網絡。
面部特征輔助版Cycle生成式對抗網絡能用不成對的訓練數據將真實面孔轉換為卡通面孔,這時,AI就能根據真實用戶人臉“畫”出相應的卡通形象了。簡單地說,它的訓練機制就是:首先,每當Cycle生成式對抗網絡提供一張人臉圖像,它就對臉部的關鍵點進行標記,根據這些標記點生成最初的卡通形象;其次,把這些標記輸入判別網絡,啟動Cycle生成式對抗網絡中兩個圖像生成網絡,讓卡通形象和人臉形象之間不斷地互相識別,反映到屏幕上;最后,你就能看到一個和自己酷似的、惟妙惟肖的二次元形象了。