李 桐

韓曉光
2019年,一部動畫電影《哪吒》橫空出世,耐人尋味的劇情,沖擊眼球的畫面,給觀眾帶來一場視覺盛宴,也給中國動畫電影的崛起注入一針強心劑。然而,少有人關注的是這1400個特效鏡頭背后強大的計算機視覺技術。事實上,從《阿凡達》開始,計算機視覺就在電影領域大放光彩。那么除了電影,計算機視覺還能應用在生活中的哪些方面?它的崛起會給人們的生活帶來什么樣的改變?香港中文大學(深圳)教授韓曉光一直在尋求答案。
畢業于南京航空航天大學數學系的韓曉光,碩士時期因導師的研究方向是計算機圖形學而走進計算機研究領域。跨領域的學習并沒有讓韓曉光感到遺憾,反而興趣十足。“進入計算機領域后,我發現這個領域還挺吸引人的,而且至今興趣未減,所以我算是自然而然地進入了這個領域。”
推開計算機領域的大門,韓曉光的目光很快就鎖定在計算機圖形學和計算機視覺兩大方向。計算機圖形學是一種使用數學算法將二維或三維圖形轉化為計算機顯示器的柵格形式的科學。簡單地說,計算機圖形學的主要研究內容就是研究如何在計算機中表示圖形,以及利用計算機進行圖形的計算、處理和顯示的相關原理與算法。而計算機視覺是一門研究如何使機器“看”的科學,更進一步地說,就是指用攝像機和電腦代替人眼對目標進行識別、跟蹤和測量等機器視覺,并進一步做圖形處理,用電腦處理成為更適合人眼觀察或傳送給儀器檢測的圖像。簡單來說,“計算機圖形學是研究圖像生成的學科,計算機視覺是對圖像進行理解的學科,這兩個學科聯系緊密,相輔相成”。
在計算機圖形學領域,建模、渲染、動畫、人機交互是四大主要部分。2014年,在香港城市大學創意媒體學院擔任兩年研究助理后,韓曉光于香港大學計算機科學專業讀博,并在三維人臉建模方面發力。興趣的指引加上勤奮的助推,他在博士期間取得了一系列出色成果,包括:提出了一種新穎易用的草圖繪制系統,通過學習2D草圖與3D形狀間的相關性自動從2D草圖生成3D人臉模型。同時,系統支持基于手勢的交互,以便用戶編輯初始面部模型;他設計了一種新穎的、基于CNN的深度回歸網絡,融合卷積和輸入草圖的形狀特征,從粗糙的2D草圖推斷精確的3D人臉;構建并開源了具有多種身份、表情和夸張程度的人臉數據庫,造福后續研究。
人臉建模一直是計算機領域的熱門研究方向,雖然高端應用(例如故事片中的虛擬角色)需要從現實世界中獲取高保真人臉模型,但在許多場景(如卡通、游戲)中,低成本的3D人臉建模仍占主導;囿于身份和表情的多樣性以及豐富的面部幾何,即使是熟練的建模師借助成熟的軟件(如MAYA、ZBrush)交互創建像樣的3D人臉模型也十分耗時費力,而在韓曉光的帶動下,這項任務正漸漸變得簡單。
2017年,在獲得香港大學計算機科學專業博士學位后,韓曉光來到香港中文大學(深圳)任教。此后,他一路前行一路高歌,共在著名國際期刊和會議發表論文40余篇,獲得CCF圖形開源數據集獎,計算機圖形學頂級會議Siggraph Asia 2013新興技術最佳演示獎,2019年和2020年連續兩年計算機視覺頂級會議CVPR最佳論文列表(入選率分別為0.8%和0.4%),入選2021騰訊AI Lab犀牛鳥專項研究計劃,他的團隊還在1700多支參賽隊伍中脫穎而出,于2018年11月獲得IEEE ICDM全球氣象挑戰賽冠軍。

團隊構建了大規模真實衣服三維數據集,并提出了一種基于單視角輸入進行重建的方法。
近些年來,深度學習令基于圖像的三維人體數字化領域有了前所未有的進展:通過輸入一張圖像,現有技術能夠準確地估計三維人體姿態,恢復圖像中非穿衣的三維人體模型。
然而,與從單張圖像估計人體三維姿態、非穿衣人體形狀相比,恢復圖像中三維服裝的研究進展相對緩慢。除去重建三維服裝模型任務自身的難度外,更重要的原因是缺乏大規模的、包含現實中多種服裝的三維服裝數據集。不同于圖像能夠通過網絡快速搜集,高質量的三維模型往往需要在實驗室環境內,通過掃描或多視角重建獲得。由于服裝的形狀十分復雜,從采集的三維人體點云剝離出邊界分明的服裝部分通常需要煩瑣的人工操作,增大了建立大規模三維服裝數據集的難度。
“服裝模型這件事,其實國內外都有研究,但是研究得都很少,最大的阻礙在于衣服褶皺這塊非常難。”韓曉光說。在此之前,他一直忙于三維圖形重建,了解這一現象后,“當時我們做的時候國內還少有人做,我就想能不能把這件事往前推一推”。
著手這一挑戰后,韓曉光及團隊很快就迎來了第一個難點:沒有衣服數據集。人工智能時代,沒有數據集,相當于蓋房子沒有水泥。因此他們從零開始搭建,經過近9個月的努力,最終建立了大規模的三維服裝數據集Deep Fashion3D,該數據集在服裝模型的數目、種類以及標注多樣性上都勝于現有的三維服裝數據集。
為體現現實世界中服裝款式與種類的多樣性,Deep Fashion3D共采集了10個服裝種類共563件不同的服裝,包括長/短/無袖衫、長/短褲、長/短/無袖連衣裙以及長/短裙。通過將每件待采集服裝穿著于假人或真人模特身上,并擺出不同的姿態以產生多樣化的真實褶皺,進行數據增強,最終共重建出563件三維服裝模型。
Deep Fashion3D數據集建成之后,研究組又提出了一種新穎的單幅圖像三維服裝重建方法。該方法通過結合顯式網格表示方法與隱式形狀表示方法實現了高保真的服裝重建:在網格表示學習分支中,模型根據輸入圖像生成三維服裝特征線并引導服裝模板網格形變至與圖像中服裝宏觀形狀相近的形態;在隱式形狀表示學習分支中,模型通過輸入圖像預測服裝表面的高頻細節;最終,將隱式分支中生成的服裝細節遷移至顯式分支生成的服裝網格以獲得具有準確宏觀形狀和豐富細節的服裝網格。
與現有單視角三維重建方法相比,Deep Fashion3D更能準確恢復圖像中服裝的形狀和表面褶皺細節。因此,在計算機視覺領域三大頂級會議之一的ECCV2020中,相關成果論文《Deep Fashion3D:大規模三維服裝數據集與單幅圖像三維服裝重建基準方法》被錄取為口頭報告文章(Top 2%)。隨后,相應數據集又榮獲Chinagraph“圖形開源數據集獎”。
韓曉光團隊現有本科生10人、碩士生6人、博士生10人,加上訪問的學生,目前共有30余人。在充足的戰斗力下,他希望未來的三到五年,可以完成兩大目標:“一是在完成前沿科研的同時,在一些基礎研究上也多花點時間;二是希望能夠產業化落地,真正以應用驅動科研,實現產學研一體化。”計算機視覺就像一個萬花筒,每一面有每一面的驚喜,未來韓曉光還將繼續發揮團隊優勢,為挖掘計算機視覺的多面性而努力。