
















摘要 中國(guó)擁有豐富多樣的物質(zhì)與非物質(zhì)文化遺產(chǎn),利用數(shù)字化技術(shù)進(jìn)行文化遺產(chǎn)的建模、保護(hù)與展示,已成為文化遺產(chǎn)保護(hù)領(lǐng)域以及計(jì)算機(jī)圖形學(xué)、計(jì)算機(jī)視覺等相關(guān)領(lǐng)域的研究熱點(diǎn)。西北大學(xué)文化遺產(chǎn)數(shù)字化國(guó)家地方聯(lián)合工程研究中心主要在三代文物采集建模設(shè)備、智慧博物館建設(shè)、陶瓷器文物虛擬復(fù)原、古代人物面貌復(fù)原以及秦腔的智能媒體融合全息展演5個(gè)方面展開研究。然而,由于物質(zhì)文化遺產(chǎn)與非物質(zhì)文化遺產(chǎn)的本質(zhì)不同,在建模方法、修復(fù)保護(hù)技術(shù)以及展示形式方面遇到諸多挑戰(zhàn):①現(xiàn)有文物數(shù)字化建模設(shè)備效率不高,且需要大量人工干預(yù);②文物種類繁多、特征復(fù)雜、形態(tài)各異、語(yǔ)義豐富,需要開發(fā)適合中國(guó)文物的知識(shí)抽取和知識(shí)圖譜構(gòu)建方法,以實(shí)現(xiàn)高效的文物組織與展示;③對(duì)破損文物碎片的形狀表示、描述方法以及自動(dòng)重組的研究;④古代人物面貌的虛擬復(fù)原及性別和種族的識(shí)別;⑤全息展演技術(shù)面臨高計(jì)算性能需求、藝術(shù)與技術(shù)融合的精準(zhǔn)度、硬件兼容性、實(shí)時(shí)性、沉浸感和互動(dòng)性等挑戰(zhàn)。針對(duì)這5個(gè)方面的需求和挑戰(zhàn),首先,對(duì)近些年的相關(guān)領(lǐng)域的研究進(jìn)行綜述;然后,總結(jié)西北大學(xué)文化遺產(chǎn)數(shù)字化國(guó)家地方聯(lián)合工程研究中心的系列成果;最后,對(duì)文化遺產(chǎn)數(shù)字化領(lǐng)域的未來(lái)研究方向進(jìn)行展望。
關(guān)鍵詞 文化遺產(chǎn)數(shù)字化;智慧博物館;文物虛擬復(fù)原;知識(shí)圖譜;全息展演技術(shù)
中圖分類號(hào):TP391.4" DOI:10.16152/j.cnki.xdxbzr.2025-01-001
Review" of research on digital protection and application" of cultural heritage
GENG Guohua1,2, GAO Jian1,2, TANG Wen3, ZHANG Min1,2, ZENG Sheng1,2,GAO Hongjuan1,2, WANG Xiaofeng1,2, XU Yang 1,2, ZHANG Yuhe1,2, ZHOU Mingquan1,2
(1.National and Local Joint Engineering Research Center for Cultural Heritage Digitization, Northwest University,Xi’an 710127, China; 2.School of Information Science and Technology, Northwest University, Xi’an 710127, China;3.Department of Creative Technology, Bournemouth University, Poole BH12 5BB, UK)
Abstract China boasts a rich and diverse array of both tangible and intangible cultural heritage. Today, the use of digital technologies for the modeling, preservation, and presentation of cultural heritage has become a research hotspot in the fields of cultural heritage conservation, as well as in related areas such as computer graphics and computer vision. The Cultural Heritage Digitization National-Local Joint Engineering Research Center at Northwest University conducts research in five key areas: 3D modeling equipment for cultural relics from the three dynasties, smart museum construction, virtual restoration of ceramic artifacts, the restoration of ancient human faces, and the intelligent media fusion for holographic performances of Qin Opera. However, due to the fundamental differences between tangible and intangible cultural heritage, many challenges arise in areas such as modeling methods, restoration and preservation technologies, and presentation forms. These specific challenges include: ① Existing digital modeling equipment for cultural relics is inefficient and requires significant human intervention. ② The wide variety of cultural relics, with their complex features, diverse shapes, and rich semantics, necessitates the development of knowledge extraction and knowledge graph construction methods tailored to Chinese cultural relics for efficient organization and presentation. ③ Research on the shape representation, description methods, and automatic recombination of damaged relic fragments. ④ Virtual restoration of ancient human faces, including gender and racial recognition. ⑤ Holographic performance technology faces challenges such as high computational power demands, the accuracy of the fusion of art and technology, hardware compatibility, real-time processing, immersion, and interactivity, while also needing to address cultural differences and audience acceptance issues. In response to these needs and technical challenges, this paper first reviews the relevant literature from recent years, then summarizes a series of achievements by the Cultural Heritage Digitization National-Local Joint Engineering Research Center at Northwest University, and finally discusses future research directions in the field of cultural heritage digitization.
Keywords cultural heritage digitization; smart museums; artifact virtual restoration; knowledge graphs; holographic performance technology
中國(guó)擁有豐富的物質(zhì)與非物質(zhì)文化遺產(chǎn),這些文化遺產(chǎn)是中國(guó)各個(gè)歷史時(shí)期和中華文明的重要象征與傳承載體。如今,數(shù)字化技術(shù)在文化遺產(chǎn)的建模、保護(hù)與展示中的應(yīng)用已成為文化遺產(chǎn)保護(hù)及計(jì)算機(jī)圖形學(xué)、計(jì)算機(jī)視覺等領(lǐng)域的研究焦點(diǎn)。然而,由于物質(zhì)文化遺產(chǎn)與非物質(zhì)文化遺產(chǎn)在本質(zhì)上的差異,導(dǎo)致它們?cè)诮7椒ā⑿迯?fù)保護(hù)技術(shù)以及展示方式上存在顯著不同。目前,亟需解決的關(guān)鍵問題主要包括:①文物的數(shù)字化建模與表示,雖然現(xiàn)有設(shè)備能夠獲取大多數(shù)文物的表面信息,但掃描過程中存在采集效率低、人工干預(yù)需求高等問題。因此,需研發(fā)能夠?qū)崿F(xiàn)文物位置無(wú)移動(dòng)下的全自動(dòng)掃描的設(shè)備。②由于文物種類繁多、特征多樣、形狀各異且語(yǔ)義豐富,在構(gòu)建智慧博物館的過程中,難免面臨文物異構(gòu)表示與高效組織的挑戰(zhàn)。因此,需要開發(fā)適用于中國(guó)文物的知識(shí)抽取與知識(shí)圖譜構(gòu)建方法,實(shí)現(xiàn)高效的文物組織與展示。③破損文物的虛擬修復(fù)與復(fù)原是數(shù)字文化遺產(chǎn)保護(hù)的核心任務(wù)之一,但破損文物碎片的自動(dòng)重組一直是計(jì)算機(jī)圖形學(xué)的難題之一。因此,需要設(shè)計(jì)有效的形狀表示與描述方法,以支持文物碎片的自動(dòng)匹配與拼接。④古人面貌的虛擬復(fù)原及性別、種族的判別對(duì)于研究人類進(jìn)化與變遷至關(guān)重要,但由于顱骨表面組織厚度缺失,許多重要信息難以直接提供證據(jù)。因此,需要設(shè)計(jì)針對(duì)顱骨的處理方法,以挖掘更多有效信息,為人類學(xué)、考古學(xué)與法醫(yī)學(xué)提供數(shù)據(jù)支持。⑤戲曲作為非物質(zhì)文化遺產(chǎn)的重要組成部分,其中發(fā)源于陜西和甘肅一帶的秦腔以其獨(dú)特的藝術(shù)魅力和地方特色成為研究重點(diǎn)。因此,結(jié)合計(jì)算機(jī)視覺與虛擬現(xiàn)實(shí)技術(shù),開發(fā)智能媒體融合的全息展演技術(shù),也成為數(shù)字文化遺產(chǎn)保護(hù)領(lǐng)域的熱點(diǎn)問題。
針對(duì)上述需求與技術(shù)挑戰(zhàn),西北大學(xué)文化遺產(chǎn)數(shù)字化國(guó)家地方聯(lián)合工程研究中心經(jīng)過多年的研究,取得了一系列成果,包括三代文物采集與建模設(shè)備、智慧博物館建設(shè)、陶瓷文物的虛擬復(fù)原、古人面貌復(fù)原以及秦腔的智能媒體融合全息展演技術(shù)等。本文從以上5個(gè)方面對(duì)近些年的相關(guān)文獻(xiàn)進(jìn)行綜述,然后總結(jié)西北大學(xué)文化遺產(chǎn)數(shù)字化國(guó)家地方聯(lián)合工程研究中心的系列成果,最后,對(duì)文化遺產(chǎn)數(shù)字化保護(hù)領(lǐng)域的研究進(jìn)行展望。
1 基于三維掃描的文物數(shù)字化建模方法
1.1 三維掃描方法研究現(xiàn)狀
三維掃描是利用光學(xué)成像對(duì)文物幾何形狀建模的一種重要手段。由于不同文物材質(zhì)對(duì)光的反射、折射、散射作用不同,文物表現(xiàn)出不透明、半透明、透明、高光等情況,文物材質(zhì)屬性類別與三維掃描數(shù)據(jù)質(zhì)量密切相關(guān)。Lutzke等人研究了如何對(duì)半透明物體的三維掃描數(shù)據(jù)進(jìn)行誤差補(bǔ)償,并通過實(shí)驗(yàn)驗(yàn)證了所提方法的有效性[1];O’Toole等人提出了抑制間接光照的極線成像原理,從而實(shí)現(xiàn)互反射表面和半透明物體的三維掃描[2];Kobayashi等人使用虛線投影和互補(bǔ)格雷碼分別用于提高半透明物體表面的對(duì)比度和解碼準(zhǔn)確性,實(shí)現(xiàn)半透明物體的精確三維測(cè)量[3];Chiba等人提出一種基于多尺度分析的光傳輸矩陣估計(jì)方法,測(cè)量復(fù)雜反射物體的形狀[4];Zhao等人利用極線成像和區(qū)域條紋投影對(duì)互反射表面進(jìn)行三維掃描[5];Xu等人通過投射多頻條紋對(duì)半透明物體三維掃描的幾何誤差進(jìn)行補(bǔ)償[6];Qi等人提出一種基于微頻率偏移的投影技術(shù),消除三維掃描中互反射影響[7];Jiang等人利用傅里葉單像素成像對(duì)半透明和存在互反射的物體進(jìn)行高精度重建,但需要投射的圖案數(shù)量很多,耗時(shí)很長(zhǎng)[8-9];Jiang等人提出并行單像素成像[10];Li等人進(jìn)一步提出了投影并行單像素成像,可以在互反射、次表面散射等全局光照干擾下直接進(jìn)行三維掃描,但對(duì)半透明物體的測(cè)量準(zhǔn)確性依然較低[11];Dizeu等人提出一種基于頻移的互反射下三維掃描方法,但需要使用高頻調(diào)制光源,從而限制了它的應(yīng)用范圍和靈活性[12];Ding等人提出一種基于周期線條紋和互補(bǔ)格雷碼的半透明物體高精度三維掃描方法[13]。以上研究為解決不同文物材質(zhì)在三維掃描中的挑戰(zhàn)提供了多種有效的技術(shù)方案,包括誤差補(bǔ)償、光照抑制、投影技術(shù)優(yōu)化等。然而針對(duì)半透明物體和復(fù)雜反射表面的高精度三維掃描仍面臨一些技術(shù)挑戰(zhàn),如計(jì)算效率、準(zhǔn)確性提升和應(yīng)用范圍的擴(kuò)展等。因此,如何進(jìn)一步提升掃描效率和精度,仍然是未來(lái)研究的重要方向。
1.2 面向文化遺產(chǎn)數(shù)字化采集的第三代掃描設(shè)備
在國(guó)家重點(diǎn)研發(fā)計(jì)劃“多樣性文物智能采集關(guān)鍵技術(shù)研發(fā)”課題的支持下,項(xiàng)目團(tuán)隊(duì)成功研制了自動(dòng)化文物掃描儀(見圖1)。該掃描儀主要由結(jié)構(gòu)光三維掃描儀、高分辨率彩色相機(jī)、多自由度機(jī)械臂以及大直徑旋轉(zhuǎn)平臺(tái)組成。針對(duì)傳統(tǒng)掃描設(shè)備在文物外觀采集過程中效率低、需大量人工操作等瓶頸問題,項(xiàng)目團(tuán)隊(duì)突破了多項(xiàng)關(guān)鍵技術(shù),實(shí)現(xiàn)了文物外觀幾何形態(tài)與彩色紋理的全自動(dòng)數(shù)字化采集。文物放置在旋轉(zhuǎn)平臺(tái)中央的固定區(qū)域,整個(gè)采集過程中保持靜止,降低了對(duì)文物可能造成的損傷風(fēng)險(xiǎn)。機(jī)械臂配備結(jié)構(gòu)光三維掃描儀和高分辨率彩色相機(jī),可同步采集文物表面的幾何形狀與彩色紋理,大尺寸文物的外觀采集可在數(shù)分鐘內(nèi)完成,精度達(dá)0.05 mm。這一成果已被新華社、陜西都市快報(bào)、西安晚報(bào)等多家媒體廣泛報(bào)道,并在中國(guó)國(guó)家博物館的文物數(shù)字化工作中得到了實(shí)際應(yīng)用。
2 面向智慧博物館的文物知識(shí)圖譜構(gòu)建
博物館是文化遺產(chǎn)保護(hù)和傳承的重要場(chǎng)所之一,通過收藏、保護(hù)和展示物質(zhì)與非物質(zhì)遺產(chǎn),展現(xiàn)人類發(fā)展過程中在文化教育、社會(huì)進(jìn)步、科學(xué)技術(shù)等領(lǐng)域的成就。隨著物聯(lián)網(wǎng)和人工智能技術(shù)的迅猛發(fā)展,智慧博物館的建設(shè)和推廣已成為一種趨勢(shì),以克服數(shù)字博物館和虛擬博物館展陳手段單一、交互形式受限、文物信息挖掘不足等問題[14-16]。然而,由于我國(guó)文物資源種類繁多、數(shù)量龐大,導(dǎo)致文物數(shù)據(jù)呈現(xiàn)多源異構(gòu)性,缺乏統(tǒng)一高效的組織形式和明確的相關(guān)性。通過知識(shí)圖譜技術(shù),可以利用文物之間的關(guān)系形成三元組,構(gòu)建文物知識(shí)庫(kù)[17-19],實(shí)現(xiàn)文物信息的高效組織與管理[20]。
2.1 文化遺產(chǎn)領(lǐng)域知識(shí)圖譜研究現(xiàn)狀
隨著互聯(lián)網(wǎng)資源的迅猛增長(zhǎng),知識(shí)圖譜自2012年由Google提出以來(lái),在搜索問答及人工智能等領(lǐng)域得到了廣泛應(yīng)用。知識(shí)圖譜可分為通用知識(shí)圖譜(如OpenCyc[21]、WordNet[22]、DBpedia[23]、YAGO[24]、Freebase[25]、Zhishi.me、Wikidata3、XLore4和CN-DBPedia[26]等)和領(lǐng)域知識(shí)圖譜(如Palantir5、PlantData6、Ace KG7和Euler8等),已在金融、學(xué)術(shù)研究、公安等多個(gè)行業(yè)實(shí)現(xiàn)應(yīng)用,為后續(xù)研究提供了重要的理論和技術(shù)支持。
多位研究者對(duì)知識(shí)圖譜進(jìn)行了定義。Xu等人認(rèn)為,知識(shí)圖譜是將信息整合到本體中,并通過推理機(jī)推導(dǎo)新知識(shí)的組織結(jié)構(gòu)[27];Wang等人則定義其為由實(shí)體和關(guān)系組成的多關(guān)系圖,其中實(shí)體為節(jié)點(diǎn),關(guān)系為邊[28];Ji等人則將知識(shí)圖譜視為由實(shí)體、關(guān)系和事實(shí)組成的集合,事實(shí)通過三元組表示,即頭實(shí)體、關(guān)系和尾實(shí)體[29];Hoffart通過為實(shí)體和事實(shí)添加時(shí)間戳,提升了時(shí)空信息的表達(dá)能力[30];Dong等人將知識(shí)表示為概率形式,通過校準(zhǔn)后的事實(shí)正確性概率構(gòu)建更精確的大規(guī)模知識(shí)圖譜[31];Wu等人提出了一種從語(yǔ)料庫(kù)自動(dòng)構(gòu)建的概率分類法,重點(diǎn)整合精確和模糊知識(shí),尤其是isA關(guān)系[32];Probase+改進(jìn)了自動(dòng)分類法的質(zhì)量,解決了數(shù)據(jù)稀疏問題,但分類質(zhì)量仍需關(guān)注[33];OpenKS知識(shí)計(jì)算引擎集成了多種算法與解決方案,提供標(biāo)準(zhǔn)接口支持知識(shí)學(xué)習(xí)與計(jì)算領(lǐng)域知識(shí)圖譜,尤其在地理信息、醫(yī)學(xué)和電子商務(wù)等領(lǐng)域,注重專業(yè)知識(shí)的深度[34];Dworschak等人提出了工程設(shè)計(jì)語(yǔ)義集成方法,促進(jìn)了機(jī)械零件設(shè)計(jì)和制造中的知識(shí)自動(dòng)化[35]。
隨著博物館向智慧化發(fā)展,文物領(lǐng)域的知識(shí)組織和共享面臨新挑戰(zhàn),國(guó)內(nèi)外學(xué)者積極研究文物知識(shí)圖譜以支持文物保護(hù)與傳承。國(guó)外如大英博物館、荷蘭國(guó)立博物館和俄羅斯文化遺跡云平臺(tái)等已在文物領(lǐng)域構(gòu)建知識(shí)圖譜,推動(dòng)了資源共享與多語(yǔ)言訪問,提升了博物館的訪問量[36-38]。國(guó)內(nèi)如山西博物院、天津大學(xué)等也在文物領(lǐng)域進(jìn)行知識(shí)圖譜研究,致力于文物知識(shí)的挖掘、組織和服務(wù),推動(dòng)了博物館智慧化發(fā)展[39-40]。
2.2 面向智慧博物館構(gòu)建的文物數(shù)字化表示方法
當(dāng)前,構(gòu)建文物知識(shí)圖譜面臨諸多挑戰(zhàn),主要包括:① 有監(jiān)督的文物實(shí)體抽取方法[41-44]依賴大量標(biāo)注數(shù)據(jù),而中文構(gòu)詞具有特殊性,增加了抽取的難度;② 文物關(guān)鍵詞相對(duì)稀少,但文物間關(guān)系復(fù)雜多樣,關(guān)系表征成為關(guān)鍵問題;③ 文物數(shù)據(jù)的多源異構(gòu)性使實(shí)體對(duì)齊方法的精確度降低,增加了構(gòu)建知識(shí)圖譜的難度。
為應(yīng)對(duì)上述挑戰(zhàn),項(xiàng)目組針對(duì)文物領(lǐng)域的知識(shí)圖譜構(gòu)建技術(shù)開展了深入研究,圍繞文物實(shí)體抽取、關(guān)系抽取、實(shí)體對(duì)齊以及知識(shí)圖譜補(bǔ)全等關(guān)鍵問題,提出了一系列創(chuàng)新方法[45]。
2.2.1 文物實(shí)體、關(guān)系抽取方法
1) 提出一種基于自訓(xùn)練的半監(jiān)督文物實(shí)體抽取方法[46]。首先,為解決中文文物實(shí)體構(gòu)詞的特殊性,采用ELMo語(yǔ)言模型[47]生成詞表示,動(dòng)態(tài)提取實(shí)體的上下文特征;接著,利用BiLSTM[48]和CRF模型[49]進(jìn)行特征提取和實(shí)體標(biāo)注,預(yù)測(cè)全局最優(yōu)的標(biāo)簽序列;最后,提出了一種基于雙重標(biāo)注樣本選擇策略的自訓(xùn)練算法,通過雙重標(biāo)注選取高置信度樣本,從而實(shí)現(xiàn)文物實(shí)體的抽取。
2) 提出一種基于詞注意力機(jī)制的膠囊網(wǎng)絡(luò)文物關(guān)系抽取方法[50]。
首先,融合字和詞的嵌入特征以及詞性位置信息,同時(shí)將語(yǔ)義和語(yǔ)序信息作為網(wǎng)絡(luò)的輸入;然后,針對(duì)文物文本關(guān)鍵詞的稀疏性問題,提出了一種基于詞注意力機(jī)制的動(dòng)態(tài)路由算法,通過賦予信息詞較高權(quán)重,迭代修正連接強(qiáng)度,解決關(guān)鍵詞稀疏問題,句子中詞語(yǔ)相對(duì)實(shí)體的位置信息如圖2所示;最后,針對(duì)實(shí)體間的多重關(guān)系建模,利用轉(zhuǎn)換矩陣對(duì)膠囊實(shí)例化參數(shù)進(jìn)行預(yù)測(cè)。
2.2.2 文物知識(shí)圖譜構(gòu)建方法
1) 提出一種基于多特征相似度的文物實(shí)體對(duì)齊方法[45],流程如圖3所示。首先,提取百科網(wǎng)站文物數(shù)據(jù)的實(shí)體屬性、實(shí)體摘要和實(shí)體全文特征,通過相似性度量,從字符、詞語(yǔ)和句子3個(gè)不同尺度獲取實(shí)體特征;然后,融合實(shí)體屬性、實(shí)體摘要和實(shí)體全文特征,構(gòu)建文物實(shí)體對(duì)齊模型。通過從3個(gè)尺度分別獲取實(shí)體特征,可以有效提高實(shí)體對(duì)齊的精確率。
2) 提出一種融合實(shí)體類型的BERT文物知識(shí)圖譜補(bǔ)全方法[45],網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。為實(shí)現(xiàn)文本語(yǔ)義的增強(qiáng)表示:首先,在實(shí)體語(yǔ)義信息中融合實(shí)體類型,消除違反類型約束的反例影響,從而增強(qiáng)文本語(yǔ)義;接著,針對(duì)稀疏性問題,使用多頭注意力機(jī)制獲取文本特征有效識(shí)別隱含關(guān)系;最后,采用兩階段學(xué)習(xí)模式,先利用大量無(wú)標(biāo)注數(shù)據(jù)預(yù)訓(xùn)練BERT模型[51],再利用少量標(biāo)注文物三元組對(duì)模型進(jìn)行微調(diào),從而有效解決標(biāo)注文物數(shù)據(jù)缺乏的問題。
3) 提出一種多層級(jí)視點(diǎn)描述子驅(qū)動(dòng)語(yǔ)義抽取規(guī)則到語(yǔ)義的轉(zhuǎn)化[45]。設(shè)計(jì)一種多層級(jí)視點(diǎn)描述子,具體過程如下。基于均勻球狀觀察視點(diǎn)模型,根據(jù)模型投影邊緣的倒角距離進(jìn)行分區(qū)域比較,獲取最優(yōu)觀察視點(diǎn),并將該視點(diǎn)作為下一層的種子點(diǎn),逐層細(xì)分以獲取不同層級(jí)的輪廓視圖,為三維模型提供一組基于輪廓信息的二維視圖。接著,通過計(jì)算這些視圖的圓度、矩形度、視覺主軸和對(duì)稱性等特征,構(gòu)建描述子,并建立語(yǔ)義抽取規(guī)則,實(shí)現(xiàn)從特征到語(yǔ)義的轉(zhuǎn)化。
4) 提出基于詞袋機(jī)制的閾值視覺詞直方圖抽象描述方法[52],閾值直方圖抽取過程如圖5所示。為了提取三維模型的少量觀察視圖及抽象描述語(yǔ)料:首先,利用三維模型的正交投影深度圖,分析深度變化熵和分布熵2種信息熵,根據(jù)信息量篩選出最優(yōu)的視圖;接著,采用分散視點(diǎn)選擇算法自動(dòng)選擇全局代表性視圖;最后,提出基于詞袋機(jī)制的閾值視覺詞直方圖抽象描述方法,用以解決三維模型的抽象描述問題。
2.2.3 文物實(shí)體數(shù)字化重建方法
1) 提出一種二維幾何圖像表示三維網(wǎng)格的方法[53],從圖像上分割出原三維模型的顯著區(qū)域以支持高級(jí)語(yǔ)義標(biāo)注。首先,利用歐拉回路計(jì)算平滑切割路徑,將三維網(wǎng)格切割為單連通曲面,并將其參數(shù)化到平面單位矩形上;接著,采用容量約束Delaunay三角剖分法[54]計(jì)算接近藍(lán)噪聲譜特征的點(diǎn)分布信息,利用網(wǎng)格松弛算法保持頂點(diǎn)的拓?fù)潢P(guān)系,同時(shí)將面片移動(dòng)到整數(shù)坐標(biāo)點(diǎn)位置進(jìn)行翻折;最后,通過局部仿射變換對(duì)應(yīng)三角面來(lái)填充圖像中的空白部分。這種方法有效實(shí)現(xiàn)了三維曲面網(wǎng)格和二維圖像中頂點(diǎn)之間的一一映射,生成了頂點(diǎn)曲率、法向、形狀指數(shù)等屬性的對(duì)應(yīng)圖像,從而實(shí)現(xiàn)了對(duì)三維模型顯著區(qū)域的抽取和高級(jí)語(yǔ)義標(biāo)注。
2) 提出一種可擴(kuò)展、推理和共享的層次結(jié)構(gòu),用于表示三維模型視覺知識(shí)本體[55],利用該方法對(duì)不同地形草圖進(jìn)行重建,結(jié)果如圖6所示。
針對(duì)三維模型視覺知識(shí)本體的表示:首先,將宏觀領(lǐng)域分類的頂層作為三維模型視覺知識(shí)本體的基本類別,并基于這些類別建立實(shí)體和關(guān)系字典,通過構(gòu)建帶權(quán)有向圖來(lái)表示相關(guān)知識(shí);接下來(lái),將上層分類的實(shí)體、具體實(shí)例及其屬性值設(shè)為頂點(diǎn),將關(guān)系詞匯及屬性名設(shè)為邊,自上而下建立三維模型視覺知識(shí)的基礎(chǔ)本體,同時(shí)自下而上添加具體的三維模型實(shí)例、關(guān)系及屬性值;最后,融合ConceptNet等常識(shí)庫(kù)的相關(guān)知識(shí),以進(jìn)一步豐富知識(shí)庫(kù),實(shí)現(xiàn)三維模型的語(yǔ)義檢索與第一人稱草圖地形的三維重建。
3 破損文物虛擬修復(fù)
計(jì)算機(jī)輔助的文物碎塊自動(dòng)拼接技術(shù)能夠減少人工修復(fù)過程中對(duì)文物可能造成的二次損害,并加速文物的復(fù)原過程[56]。然而,文物的虛擬復(fù)原仍然面臨一些挑戰(zhàn):① 針對(duì)數(shù)量龐大的未經(jīng)精細(xì)分類的文物碎塊,現(xiàn)有的自動(dòng)拼接方法[57-59]面臨碎塊鄰接關(guān)系復(fù)雜、直接拼接時(shí)間復(fù)雜度高等問題;② 文物碎塊的斷裂面可能因受損而缺失幾何特征,從而導(dǎo)致碎塊無(wú)法正確拼接或出現(xiàn)拼接錯(cuò)誤[60]。
3.1 文物碎片分類與拼接現(xiàn)狀
Huang等人提出了一種激光雷達(dá)點(diǎn)云分類工作流程,該流程將多尺度特征提取與基于流形學(xué)習(xí)的降維相結(jié)合[61];Liu等人基于注意力機(jī)制提出AMS-Net算法,在三維點(diǎn)云分類任務(wù)中展現(xiàn)了較好的魯棒性和有效性,適用于兵馬俑碎片的分類[62];Wang等人根據(jù)不同物體形狀的不規(guī)則性,提出一種端到端姿態(tài)魯棒圖卷積網(wǎng)絡(luò)[63];Yang等人針對(duì)小樣本問題提出了一種跨模態(tài)特征融合網(wǎng)絡(luò),該網(wǎng)絡(luò)通過訓(xùn)練基于投影與基于點(diǎn)的2種模型以學(xué)習(xí)和融合深度圖像和點(diǎn)云數(shù)據(jù)特征,用于3D點(diǎn)云分類[64]。
西北大學(xué)可視化技術(shù)研究所團(tuán)隊(duì)提出一種結(jié)構(gòu)與紋理融合的三維文物孔洞修復(fù)方法[65];魏明強(qiáng)等人針對(duì)中國(guó)出土青銅器碎片提出了多元數(shù)字化補(bǔ)配框架,對(duì)不同缺塊類型提出不同的補(bǔ)配方法,提高了文物補(bǔ)配的效率[66];王樂樂針對(duì)黃驊市博物館館藏殘損石造像文物提出了軸對(duì)稱虛擬修復(fù)方法,用石像對(duì)稱部位中完好的區(qū)域來(lái)鏡像修復(fù)破損區(qū)域,局限性較大[67]。除了對(duì)青銅器、瓷器等文物進(jìn)行碎片拼接外,也有學(xué)者對(duì)壁畫圖像、破損雕像等無(wú)法拼接的文物的缺損部位進(jìn)行數(shù)字虛擬修復(fù)研究。張豪遠(yuǎn)等人通過在多尺度空間中提取破損壁畫的紋理特征,充分挖掘圖像已知的可用信息對(duì)壁畫缺失內(nèi)容進(jìn)行填補(bǔ)[68];Hou等人提出一種基于回歸模型的文物幾何修復(fù)方法對(duì)重慶大足千手觀音像的手指部位進(jìn)行修復(fù)[69]。
針對(duì)上述問題,項(xiàng)目組面向兵馬俑虛擬復(fù)原問題,圍繞文物碎片的精細(xì)分類和拼接展開了以下研究。
3.2 面向兵馬俑虛擬復(fù)原的文物碎塊精細(xì)分類方法
提出了一種基于深度學(xué)習(xí)的三維文物碎塊精細(xì)分類方法[70]。由于三維文物碎塊數(shù)量有限且標(biāo)注工作耗時(shí)耗力,首先,采用對(duì)抗生成策略在訓(xùn)練過程中動(dòng)態(tài)生成增強(qiáng)樣本,以解決現(xiàn)有有監(jiān)督學(xué)習(xí)對(duì)大量訓(xùn)練樣本的依賴。隨后,在分類網(wǎng)絡(luò)的損失函數(shù)中引入焦點(diǎn)損失,使得網(wǎng)絡(luò)在訓(xùn)練過程中對(duì)少量樣本和難分類樣本給予更多關(guān)注,從而降低樣本不均衡帶來(lái)的負(fù)面影響,提高碎塊分類的準(zhǔn)確率。
3.3 面向陶瓷器類文物的碎片拼接方法
3.3.1 基于關(guān)鍵點(diǎn)描述子的三維文物碎塊拼接
提出了一種基于關(guān)鍵點(diǎn)描述子的三維文物碎塊拼接方法[71]。該方法利用完整的文物作為拼接模板,首先,在文物模板和碎塊的原始面上檢測(cè)關(guān)鍵點(diǎn),通過關(guān)鍵點(diǎn)描述子的相似性度量來(lái)確定碎塊之間的鄰接關(guān)系,從而減少匹配碎片的搜索空間。確定碎塊匹配關(guān)系后,在斷裂面的特征點(diǎn)集上定義描述符曲線,將特征點(diǎn)及其描述符曲線作為匹配特征,實(shí)現(xiàn)碎塊的精確對(duì)齊。這種方法在斷裂面幾何特征較少的情況下,能夠有效地完成文物碎塊的拼接。應(yīng)用于秦俑碎片的自動(dòng)拼合中,成對(duì)碎片拼接和多碎片拼接的效果如圖7和8所示。
3.3.2 基于鯨魚算法的文物碎塊圖像拼接方法
針對(duì)文物碎片圖像的拼接問題,提出了多階段協(xié)同優(yōu)化的直覺模糊熵鯨魚算法,以提高文物碎片圖像的拼接準(zhǔn)確率[72]。首先,利用Sobol序列[73]和動(dòng)態(tài)隨機(jī)對(duì)立學(xué)習(xí)策略實(shí)現(xiàn)種群質(zhì)量的雙重優(yōu)化;其次,構(gòu)造復(fù)合非線性自適應(yīng)慣性權(quán)重,并設(shè)計(jì)周期性正弦直覺模糊熵進(jìn)行全局優(yōu)化,引入貝塔函數(shù)作為擾動(dòng)因子以探索可能的全局最優(yōu)解區(qū)域;同時(shí),設(shè)計(jì)了非線性調(diào)節(jié)因子以在潛在全局最優(yōu)解區(qū)域進(jìn)行局部精細(xì)搜索。柯西變異策略則增強(qiáng)了優(yōu)秀個(gè)體在無(wú)序競(jìng)爭(zhēng)后存活和繁衍的能力。通過這些策略的結(jié)合,該算法在多階段迭代中能夠加速捕獲全局最優(yōu)值,并提高收斂精度。應(yīng)用該算法對(duì)陶瓷碎片圖像進(jìn)行拼接的效果如圖9所示。
3.4 文物虛擬修復(fù)方法
3.4.1 點(diǎn)云形狀補(bǔ)全框架
提出基于多尺度和折疊結(jié)構(gòu)的點(diǎn)云形狀補(bǔ)全框架[74],技術(shù)路線如圖10所示。項(xiàng)目組針對(duì)兵馬俑碎塊的不同缺損問題,采用卷積與池化對(duì)殘缺點(diǎn)云進(jìn)行編碼,結(jié)合多尺度結(jié)構(gòu)和折疊結(jié)構(gòu)進(jìn)行解碼,以實(shí)現(xiàn)對(duì)殘缺兵馬俑的補(bǔ)全操作[75]。
3.4.2 碎片顯微圖像分類網(wǎng)絡(luò)
提出融合注意力機(jī)制的無(wú)監(jiān)督文物碎片顯微圖像分類網(wǎng)絡(luò)[76],網(wǎng)絡(luò)結(jié)構(gòu)如圖11所示。針對(duì)陶瓷顯微圖像中樣式相同但文物不同的問題,采用了一種基于類別樣式的深度網(wǎng)絡(luò)作為主干網(wǎng)絡(luò)進(jìn)行分類。為了提升網(wǎng)絡(luò)在陶瓷顯微圖像中提取微觀特征的能力,引入了注意力機(jī)制模塊。該網(wǎng)絡(luò)能夠有效地將圖像的樣式信息與類別信息分離,從而避免樣式信息對(duì)分類結(jié)果的影響。
3.4.3 小樣本分割聚類方法
提出了一種基于自注意力機(jī)制與融合卷積神經(jīng)網(wǎng)絡(luò)的小樣本分割聚類方法(EGG-Net)[77],網(wǎng)絡(luò)結(jié)構(gòu)如圖12所示。設(shè)計(jì)了一種結(jié)合動(dòng)態(tài)圖卷積和邊卷積的編碼器,動(dòng)態(tài)圖卷積采用基于自注意力機(jī)制的k近鄰方法學(xué)習(xí)點(diǎn)云的局部和全局特征,邊卷積用于學(xué)習(xí)點(diǎn)云的局部拓?fù)浣Y(jié)構(gòu)。針對(duì)自注意力機(jī)制,引入了基于結(jié)構(gòu)感知的損失函數(shù),以提高訓(xùn)練效率和準(zhǔn)確率。在預(yù)訓(xùn)練模型的基礎(chǔ)上,項(xiàng)目組通過對(duì)兵馬俑數(shù)據(jù)的調(diào)優(yōu),實(shí)現(xiàn)了對(duì)小樣本的分割與聚類。
4 古人面貌虛擬復(fù)原
顱骨面貌復(fù)原和顱骨身份識(shí)別在顱面形態(tài)信息學(xué)中占據(jù)重要地位,廣泛應(yīng)用于法醫(yī)學(xué)、人類學(xué)、考古學(xué)和醫(yī)學(xué)整形等領(lǐng)域。通過顱面數(shù)字化模型,結(jié)合計(jì)算機(jī)輔助技術(shù)進(jìn)行顱骨面貌復(fù)原和身份識(shí)別,代表了信息科學(xué)與顱面形態(tài)學(xué)的跨學(xué)科應(yīng)用,并成為計(jì)算機(jī)圖形學(xué)與人類學(xué)的研究熱點(diǎn)[78-80]。然而,目前研究仍面臨以下挑戰(zhàn):① 顱面稠密點(diǎn)的對(duì)應(yīng)關(guān)系精度不足;② 顱骨生物特征識(shí)別過程主觀性強(qiáng)且測(cè)量復(fù)雜;③ 顱骨與面貌之間復(fù)雜的非線性映射關(guān)系表達(dá)不充分,導(dǎo)致內(nèi)在特征表示能力有限。
4.1 顱骨面貌復(fù)原研究現(xiàn)狀
傳統(tǒng)顱骨面貌復(fù)原依賴解剖學(xué)專家或藝術(shù)家根據(jù)經(jīng)驗(yàn)手工操作,過程主觀且耗時(shí),且不同復(fù)原者可能得出不同結(jié)果。隨著3D數(shù)字化和計(jì)算機(jī)圖形技術(shù)的發(fā)展,計(jì)算機(jī)輔助復(fù)原方法逐漸興起[81-82]。這些方法通常通過選擇通用或特定的顱面模板并進(jìn)行變形來(lái)重建面貌[83-84],或通過將參考顱骨的變形應(yīng)用于目標(biāo)人臉[85-88]。然而,這些方法未能充分考慮個(gè)體間軟組織厚度的差異,同種族人群面貌特征一致,導(dǎo)致模型偏差,并可能在模板與目標(biāo)顱骨差異較大時(shí)產(chǎn)生不自然的復(fù)原結(jié)果。
統(tǒng)計(jì)形狀模型方法[89-90]是模板變形的改進(jìn),通過構(gòu)建三維顱面數(shù)據(jù)庫(kù)挖掘人臉與顱骨之間的潛在關(guān)系,減少模型偏差,從而提高復(fù)原精度。Claes等人使用PCA構(gòu)建組合統(tǒng)計(jì)形狀模型,實(shí)現(xiàn)面部重構(gòu)[89];王琳等人通過徑向曲線表示顱面特征,結(jié)合先驗(yàn)知識(shí)進(jìn)行面皮數(shù)據(jù)的求解[91]。近年來(lái),機(jī)器學(xué)習(xí)被廣泛應(yīng)用于該領(lǐng)域,研究者采用監(jiān)督式回歸方法提取顱骨與人臉的關(guān)系[92-96]。Berar等人通過潛在根回歸預(yù)測(cè)面部形狀[92];Paysan等人使用嶺回歸重建面部外觀[93];Huang等人通過偏最小二乘回歸映射顱骨與面皮[94];Li等人使用支持向量回歸建立顱骨到人臉的映射[95];Deng等人在特征子空間中實(shí)現(xiàn)了映射建模[96]。此外,Madsen等人提出一對(duì)多的面貌復(fù)原方法[97];陳仲晗等人則采用測(cè)地回歸法結(jié)合偏最小二乘回歸建立顱骨與面部形態(tài)關(guān)系[98]。
4.2 顱面形態(tài)學(xué)體系的古人面貌分析方法
為了應(yīng)對(duì)上述挑戰(zhàn),項(xiàng)目組將體質(zhì)人類學(xué)知識(shí)作為先驗(yàn)信息,結(jié)合統(tǒng)計(jì)分析、圖像處理技術(shù)和深度學(xué)習(xí)方法,完善顱面形態(tài)信息學(xué)的研究?jī)?nèi)容,滿足相關(guān)領(lǐng)域的實(shí)際應(yīng)用需求[99]。
4.2.1 顱骨稠密點(diǎn)對(duì)應(yīng)方法
提出了一種基于分層優(yōu)化策略的顱骨稠密點(diǎn)對(duì)應(yīng)方法和基于區(qū)域曲率圖的面皮稠密點(diǎn)對(duì)應(yīng)方法[100],其算法流程如圖13所示。
顱骨稠密點(diǎn)對(duì)應(yīng)分為粗略對(duì)齊和精確對(duì)齊2個(gè)步驟。在粗略對(duì)齊階段,使用k-means算法[101]剔除誤匹配點(diǎn)對(duì);在精確對(duì)齊階段,應(yīng)用k-d樹[102]提升搜索效率,并通過幾何特征約束進(jìn)一步剔除誤匹配點(diǎn)。在面皮稠密點(diǎn)對(duì)應(yīng)過程中,采用特征點(diǎn)的區(qū)域曲率圖描述符匹配相似的局部形狀點(diǎn),利用曲率圖子區(qū)域的點(diǎn)對(duì)應(yīng)搜索策略以減少丟失區(qū)域的影響并提高搜索效率。然后,在保證幾何一致性的前提下,利用奇異值分解方法計(jì)算面皮點(diǎn)云的剛體變換實(shí)現(xiàn)粗略對(duì)齊。最后,通過引入動(dòng)態(tài)迭代系數(shù)改進(jìn)迭代最近點(diǎn)算法,實(shí)現(xiàn)面皮的精確對(duì)齊。
4.2.2 顱骨性別識(shí)別方法
提出了一種基于小波變換和傅里葉變換的顱骨性別識(shí)別方法,以及一種基于改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)的顱骨種族識(shí)別方法[103],其算法流程如圖14所示。
在性別識(shí)別中:首先,通過小波變換和傅里葉變換對(duì)顱骨的眶上緣和額骨矢狀弧形態(tài)進(jìn)行特征提取;然后,將這些特征融合,并采用支持向量機(jī)構(gòu)建分類器,實(shí)現(xiàn)性別識(shí)別。在種族識(shí)別中:首先,對(duì)卷積神經(jīng)網(wǎng)絡(luò)LeNet5模型[104]進(jìn)行改進(jìn),以提取顱骨多視圖圖像特征;接著,設(shè)計(jì)并行支持向量機(jī)模型構(gòu)建分類器,實(shí)現(xiàn)種族識(shí)別。
4.2.3 顱骨面貌復(fù)原方法
1) 提出了一種基于區(qū)域融合策略的顱骨面貌復(fù)原方法和一種基于改進(jìn)生成對(duì)抗網(wǎng)絡(luò)的顱骨面貌復(fù)原方法[105]。在區(qū)域融合的復(fù)原方法中,首先,將顱骨和面皮劃分為5個(gè)局部特征區(qū)域。接著,應(yīng)用高斯過程潛變量模型將這些區(qū)域映射到低維潛空間中,從而構(gòu)建區(qū)域間的映射關(guān)系。通過訓(xùn)練最小二乘支持向量回歸模型,可以準(zhǔn)確地實(shí)現(xiàn)顱骨區(qū)域與面皮區(qū)域之間的映射。最終,通過融合這些局部區(qū)域的信息,完成了整體面貌的復(fù)原。
在改進(jìn)的生成對(duì)抗網(wǎng)絡(luò)方法中,設(shè)計(jì)了分層結(jié)構(gòu)的生成器和鑒別器。每個(gè)生成器和鑒別器結(jié)構(gòu)都包括1個(gè)全局網(wǎng)絡(luò)和5個(gè)局部網(wǎng)絡(luò)(分別對(duì)應(yīng)左眼、右眼、鼻子、嘴巴和框架輪廓)。此外,生成器還配備了一個(gè)融合網(wǎng)絡(luò),用于合成最終的人臉圖像。自注意力機(jī)制被引入到生成對(duì)抗網(wǎng)絡(luò)中,以有效建模空間區(qū)域之間的廣泛關(guān)系,同時(shí)綜合對(duì)抗損失、像素?fù)p失、特征匹配損失和局部傳輸損失作為網(wǎng)絡(luò)的整體損失函數(shù)。這一改進(jìn)的生成對(duì)抗網(wǎng)絡(luò)模型成功實(shí)現(xiàn)了顱骨面貌的復(fù)原,具體的復(fù)原結(jié)果見圖15。改進(jìn)生成對(duì)抗網(wǎng)絡(luò)的顱骨面貌識(shí)別方法的詳細(xì)流程圖見圖16。
2) 提出了一種基于最小二乘正則相關(guān)性分析的顱骨面貌識(shí)別方法,以及一種基于視圖特征和形狀特征融合的顱骨面貌識(shí)別方法[106]。
在最小二乘正則相關(guān)性分析識(shí)別方法中:首先,構(gòu)建顱骨和面皮的統(tǒng)計(jì)形狀模型,并將這些模型投影到形狀參數(shù)空間中;接著,通過最小二乘正則相關(guān)性分析方法提取出主要的相關(guān)信息,進(jìn)而建立全局和局部的相關(guān)性分析模型,以評(píng)估整體及局部的相關(guān)性;最后,利用這些建立的模型,計(jì)算未知顱骨與面皮數(shù)據(jù)庫(kù)中每張面皮的匹配程度,從而得出最終的識(shí)別結(jié)果。在視圖特征與形狀特征融合識(shí)別方法中:首先,應(yīng)用多視圖神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)顱骨和面皮的多視圖特征,并通過特征值歸一化生成尺度不變的波核特征,以便有效提取形狀特征;然后,通過核典型相關(guān)分析(KCCA)方法,將視圖特征與形狀特征進(jìn)行融合,形成顱骨和面皮的特征向量表示;最終,通過計(jì)算這些特征向量之間的相關(guān)系數(shù)來(lái)實(shí)現(xiàn)顱骨面貌的識(shí)別。
5 面向戲曲全息展演的角色生成方法
中國(guó)戲曲擁有悠久歷史和豐富的劇種,是中華民族傳統(tǒng)文化的重要組成部分,且在中華文明中占有重要的精神和非物質(zhì)財(cái)富地位。其中,秦腔起源于陜西和甘肅地區(qū)的古代民間歌舞,但由于地域因素的限制以及時(shí)間的推移,越來(lái)越多的年輕人對(duì)這種傳統(tǒng)民俗表演的興趣逐漸減弱[107]。
為了傳承和保護(hù)秦腔這一戲曲文化,可以通過將現(xiàn)代技術(shù)與秦腔表演藝術(shù)融合,例如應(yīng)用虛擬現(xiàn)實(shí)技術(shù)等手段,實(shí)現(xiàn)秦腔表演形式的多樣化。項(xiàng)目組圍繞秦腔的全息展演展開研究,主要集中在人體動(dòng)作識(shí)別[108-109]、人臉圖像卡通化[110-111]以及三維人體姿態(tài)識(shí)別[112-113]等方法上。
5.1 人體動(dòng)作識(shí)別與風(fēng)格化方法研究現(xiàn)狀
2017年,Li等人提出了分層式共現(xiàn)網(wǎng)絡(luò)(HCN),將骨架數(shù)據(jù)重塑為2D矩陣,通過CNN進(jìn)行動(dòng)作識(shí)別[114]。但傳統(tǒng)網(wǎng)絡(luò)難以捕捉關(guān)節(jié)間的自然信息,人體骨架可通過圖形結(jié)構(gòu)表示,圖神經(jīng)網(wǎng)絡(luò)(GNN)擅長(zhǎng)處理此類數(shù)據(jù)并建模節(jié)點(diǎn)關(guān)系[115-116]。基于此,2018年,Yan等人提出了時(shí)空?qǐng)D卷積網(wǎng)絡(luò)(ST-GCN),將圖卷積網(wǎng)絡(luò)(GCN)應(yīng)用于骨架數(shù)據(jù)的動(dòng)作識(shí)別[117]。2019年,Si等人提出了圖卷積與LSTM結(jié)合的AGC-LSTM(attention enhanced graph convolutional LSTM),有效捕捉空間和時(shí)間特征[118]。同年,Shi等人提出雙流自適應(yīng)圖卷積網(wǎng)絡(luò)(2s-AGCN),將自注意力機(jī)制和預(yù)定義鄰接矩陣結(jié)合,表示關(guān)節(jié)間的關(guān)系[119]。2020年,Zhang等人提出語(yǔ)義引導(dǎo)神經(jīng)網(wǎng)絡(luò)(SGN),增強(qiáng)了節(jié)點(diǎn)特征表達(dá)能力[120]。
人臉圖像卡通化是將真實(shí)人臉圖像轉(zhuǎn)化為卡通風(fēng)格圖像,同時(shí)保持身份信息和紋理細(xì)節(jié)。隨著生成對(duì)抗網(wǎng)絡(luò)(GAN)的發(fā)展,2014年Goodfellow等人提出的GAN成為圖像轉(zhuǎn)換的主流方法[121]。2017年,Isola等人提出Pix2Pix[122],使用條件生成對(duì)抗網(wǎng)絡(luò)(CGAN)進(jìn)行圖像轉(zhuǎn)換,但需要配對(duì)數(shù)據(jù)集。Zhu等人提出CycleGAN[123],通過雙向生成對(duì)抗網(wǎng)絡(luò)實(shí)現(xiàn)無(wú)配對(duì)數(shù)據(jù)集的轉(zhuǎn)換,適用于人臉卡通化,但生成的圖像邊緣不夠清晰。2017年,基于GAN和變分自編碼器(VAE)的無(wú)監(jiān)督圖像轉(zhuǎn)換網(wǎng)絡(luò)UNIT[124]和MUNIT[125]進(jìn)一步擴(kuò)展了圖像轉(zhuǎn)換能力。2018年,AGGAN[126]通過注意力機(jī)制改善圖像轉(zhuǎn)換效果,但無(wú)法改變圖像形狀。Chen等人提出CartoonGAN[110],能在景物圖像上取得較好效果,但對(duì)人臉圖像的卡通化效果有限。2019年,U-GAT-IT[127]改進(jìn)了CycleGAN,通過自適應(yīng)圖層歸一化等技術(shù)改善了紋理和幾何形狀的轉(zhuǎn)換,取得了更理想的人臉卡通化效果。2020年,NICE-GAN[128]通過重用判別器進(jìn)行編碼實(shí)現(xiàn)簡(jiǎn)化的無(wú)監(jiān)督圖像轉(zhuǎn)換,但在人臉卡通化上的效果仍需提升。
5.2 面向智媒融合全息展演的人體動(dòng)作識(shí)別
1) 提出基于時(shí)空?qǐng)D卷積神經(jīng)網(wǎng)絡(luò)(spatial temporal graph convolutional networks,ST-GCN)的秦腔人物動(dòng)作識(shí)別模型[129]。該模型引入了多頭圖注意力和通道注意力機(jī)制。圖注意力機(jī)制能夠獲取中心節(jié)點(diǎn)與其不同鄰居節(jié)點(diǎn)之間的注意力系數(shù),有助于模型學(xué)習(xí)結(jié)構(gòu)信息;通道注意力機(jī)制則使模型能夠?qū)W⒂谥匾耐ǖ捞卣鳌Mㄟ^結(jié)合這2種機(jī)制,可以顯著提升特征提取能力。
此外,模型還提出了一種基于多流的拓展時(shí)空?qǐng)D注意力網(wǎng)絡(luò)模型。該模型首先引入時(shí)間擴(kuò)展模塊,通過為幀間多個(gè)相鄰關(guān)節(jié)對(duì)應(yīng)的頂點(diǎn)添加邊來(lái)擴(kuò)展時(shí)間維度的采樣區(qū)域。然后,利用多流網(wǎng)絡(luò)框架整合關(guān)節(jié)點(diǎn)、骨骼及它們各自的運(yùn)動(dòng)信息,以提高模型的性能。
2) 提出一種融合通道注意力模塊(SENet)的時(shí)空?qǐng)D卷積網(wǎng)絡(luò)(ST-GCN)模型進(jìn)行人體動(dòng)作識(shí)別和基于POSIT優(yōu)化的新型相機(jī)位姿估計(jì)算法[130]。
ST-GCN通過在空間和時(shí)間2個(gè)維度上對(duì)動(dòng)作骨架序列進(jìn)行建模,構(gòu)建了一個(gè)綜合性的時(shí)空?qǐng)D來(lái)提取時(shí)空特征。該網(wǎng)絡(luò)不僅考慮了動(dòng)作在空間上的分布,還分析了動(dòng)作在時(shí)間上的變化。網(wǎng)絡(luò)還集成了通道注意力模塊,這使得模型能夠更加精準(zhǔn)地識(shí)別和關(guān)注重要的特征并減少對(duì)不重要特征的干擾。這種增強(qiáng)的特征提取能力使得在動(dòng)作識(shí)別任務(wù)中的表現(xiàn)顯著提升,相關(guān)結(jié)果見圖17。針對(duì)相機(jī)位姿估計(jì)的挑戰(zhàn),開發(fā)了一種基于POSIT優(yōu)化的新型算法。該算法首先在世界坐標(biāo)系中設(shè)置了三維虛擬控制點(diǎn);然后利用相機(jī)模型計(jì)算這些虛擬控制點(diǎn)在二維圖像中的像素坐標(biāo),從而形成了3D-2D坐標(biāo)點(diǎn)對(duì);隨后,通過應(yīng)用POSIT算法處理這些點(diǎn)對(duì)數(shù)據(jù),得出相對(duì)精確的相機(jī)位姿;最后,使用高斯-牛頓法對(duì)控制點(diǎn)之間的距離進(jìn)行進(jìn)一步優(yōu)化,從而提高了相機(jī)位姿估計(jì)的精度和可靠性。
3) 提出一種結(jié)合OpenPose、TCN網(wǎng)絡(luò)與角向量計(jì)算的三維人體姿態(tài)識(shí)別方法[131]。
該方法使用OpenPose[132]完成初始二維人體姿態(tài)識(shí)別,使用TCN網(wǎng)絡(luò)[133]對(duì)二維人體進(jìn)行進(jìn)一步處理,以消除時(shí)序抖動(dòng)并生成平滑的動(dòng)作序列。此外,提出了一種基于通道冗余的人體姿態(tài)模型壓縮方法,旨在顯著提升人體姿態(tài)識(shí)別模型的檢測(cè)速度。該方法分析了壓縮模型參數(shù)中通道冗余的可行性,并設(shè)計(jì)了算法檢測(cè)模型中的冗余通道,以加快模型的推理速度。
4) 提出一種多頭注意力殘差網(wǎng)絡(luò)(MHAtt-ResNet)和卷積雙向長(zhǎng)短期記憶雙注意力網(wǎng)絡(luò)(DAtt-CBLSTM)模型[134]。
該模型以語(yǔ)譜圖作為輸入,結(jié)合殘差網(wǎng)絡(luò)(ResNet)[135]和多頭注意力機(jī)制,以增強(qiáng)對(duì)語(yǔ)譜信息的識(shí)別能力,從而有效避免關(guān)鍵情感特征的丟失。為此,提出了卷積雙向長(zhǎng)短期記憶雙注意力網(wǎng)絡(luò)(DAtt-CBLSTM)模型。在這個(gè)模型中,由于MHAtt-ResNet網(wǎng)絡(luò)在處理序列問題時(shí)可能導(dǎo)致梯度消失的問題,因此,引入了雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(Bi-LSTM),它能有效處理時(shí)序特征。通過將Bi-LSTM集成到MHAtt-ResNet網(wǎng)絡(luò)中,使得模型能夠準(zhǔn)確識(shí)別時(shí)序特征,避免梯度消失問題的發(fā)生。
5.3 圖像卡通化方法
提出一種 Multi-Class U-GAT-IT 人臉圖像卡通化方法[136],網(wǎng)絡(luò)結(jié)構(gòu)如圖18所示。
首先,在模型中使用自編碼器與類別標(biāo)簽提取圖像的類別特征,并將其與U-GAT-IT生成的風(fēng)格特征融合,以完成多類別多風(fēng)格的圖像轉(zhuǎn)換;其次,引入2個(gè)堆疊的上-下采樣卷積塊,用于增強(qiáng)模型的特征提取和重構(gòu)能力;最后,受到AdaLIN歸一化函數(shù)的啟發(fā),提出了Indirect-AdaLIN歸一化函數(shù),并將其應(yīng)用于特征融合模塊中,旨在確保生成的卡通圖像能夠更好地保留輸入圖像的語(yǔ)義內(nèi)容和人臉身份特征。
6 結(jié)語(yǔ)
自20世紀(jì)90年代起,本項(xiàng)目組開始積極從事文物數(shù)字化保護(hù)領(lǐng)域的研究。近年來(lái),項(xiàng)目組的研究重點(diǎn)包括文物的全自動(dòng)數(shù)字化建模、古人面貌復(fù)原與種族識(shí)別、文物虛擬修復(fù)與復(fù)原、智能博物館建設(shè),以及戲曲的虛擬智能展演等方面。這些研究成果已經(jīng)在多個(gè)文物保護(hù)機(jī)構(gòu)和考古現(xiàn)場(chǎng)得到了廣泛推廣和應(yīng)用。
隨著人工智能、虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)等技術(shù)的不斷發(fā)展,文化遺產(chǎn)數(shù)字化技術(shù)正在逐步改變傳統(tǒng)的文物保護(hù)與展示方式。文物三維建模與虛擬修復(fù)技術(shù),特別是在高損壞或不完整文物的修復(fù)和重建方面,未來(lái)有望實(shí)現(xiàn)更加高效和精準(zhǔn)的突破。通過應(yīng)用深度學(xué)習(xí)技術(shù),結(jié)合圖像、點(diǎn)云和文本等多模態(tài)信息,不僅能夠提升文物修復(fù)的精度,還能在展示過程中更好地呈現(xiàn)文物的歷史與文化內(nèi)涵。此外,智能化的智慧博物館系統(tǒng)將逐步從單一的數(shù)字展示向更加沉浸式、個(gè)性化的用戶體驗(yàn)轉(zhuǎn)型,虛擬現(xiàn)實(shí)與增強(qiáng)現(xiàn)實(shí)技術(shù)的發(fā)展將為觀眾提供全新的互動(dòng)體驗(yàn),使其能夠身臨其境地感受歷史文化的魅力。然而,隨著數(shù)字化文物的增多,如何確保這些數(shù)字資產(chǎn)的長(zhǎng)期存儲(chǔ)與安全性,以及如何通過區(qū)塊鏈等技術(shù)保障其版權(quán)、真實(shí)性和不可篡改性,成為亟待解決的重大挑戰(zhàn)。與此同時(shí),如何推動(dòng)技術(shù)與文化遺產(chǎn)保護(hù)的深度融合,也需要跨學(xué)科的合作和創(chuàng)新,才能實(shí)現(xiàn)更加廣泛的文化傳承與傳播。未來(lái),文化遺產(chǎn)數(shù)字化的發(fā)展不僅能夠?yàn)槲奈锏谋Wo(hù)提供更加科學(xué)、可持續(xù)的方案,還將推動(dòng)數(shù)字技術(shù)與傳統(tǒng)文化的有機(jī)融合,為全球文物保護(hù)與文化傳承開辟更加廣闊的前景。
參考文獻(xiàn)
[1] LUTZKE P, KHMSTEDT P, NOTNI G. Measuring error compensation on three-dimensional scans of translucent objects[J]. Optical Engineering, 2011, 50(6): 063601.
[2] O’TOOLE M, ACHAR S, NARASIMHAN S G, et al. Homogeneous codes for energy-efficient illumination and imaging[J]. ACM Transactions on Graphics, 2015, 34(4): 1-13.
[3] KOBAYASHI T, HIGO T, YAMASAKI M, et al. Accurate and practical 3D measurement for translucent objects by dashed lines and complementary gray code projection[C]∥2015 International Conference on 3D Vision. Lyon: IEEE, 2015: 189-197.
[4] CHIBA N, HASHIMOTO K. Ultra-fast multi-scale shape estimation of light transport matrix for complex light reflection objects[C]∥2018 IEEE International Conference on Robotics and Automation (ICRA). Brisbane: IEEE, 2018: 6147-6152.
[5] ZHAO H J, XU Y, JIANG H Z, et al. 3D shape measurement in the presence of strong interreflections by epipolar imaging and regional fringe projection[J]. Optics Express, 2018, 26(6): 7117-7131.
[6] XU Y, ZHAO H J, JIANG H Z, et al. High-accuracy 3D shape measurement of translucent objects by fringe projection profilometry[J]. Optics Express, 2019, 27(13): 18421-18434.
[7] QI Z S, WANG Z, HUANG J H, et al. Micro-frequency shifting projection technique for inter-reflection removal[J]. Optics Express, 2019, 27(20): 28293-28312.
[8] JIANG H Z, ZHAI H J, XU Y, et al. 3D shape measurement of translucent objects based on Fourier single-pixel imaging in projector-camera system[J]. Optics Express, 2019, 27(23): 33564-33574.
[9] JIANG H Z, YANG Q Y, LI X D, et al. 3D shape measurement in the presence of strong interreflections by using single-pixel imaging in a camera-projector system[J]. Optics Express, 2021, 29(3): 3609-3620.
[10]JIANG H Z, LI Y X, ZHAO H J, et al. Parallel single-pixel imaging: A general method for direct-global separation and 3D shape reconstruction under strong global illumination[J]. International Journal of Computer Vision, 2021, 129(4): 1060-1086.
[11]LI Y X, ZHAO H J, JIANG H Z, et al. Projective parallel single-pixel imaging to overcome global illumination in 3D structure light scanning[M]∥Lecture Notes in Computer Science. Cham: Springer Nature Switzerland, 2022: 489-504.
[12]DIZEU F B D, BOISVERT J, DROUIN M A, et al. Frequency shift method: A technique for 3-D shape acquisition in the presence of strong interreflections[J]. IEEE Transactions on Instrumentation and Measurement, 2022, 71: 7004919.
[13]DING D L, SUN J H. 3-D shape measurement of translucent objects based on fringe projection[J]. IEEE Sensors Journal, 2024, 24(3): 3172-3179.
[14]MINKOV E, KAHANOV K, KUFLIK T. Graph-based recommendation integrating rating history and domain knowledge: Application to on-site guidance of museum visitors[J]. Journal of the Association for Information Science and Technology, 2017, 68(8): 1911-1924.
[15]劉紹南,楊鴻波,侯霞.文物知識(shí)圖譜的構(gòu)建與應(yīng)用探討[J].中國(guó)博物館, 2019,36(4):118-125.
[16]YOON S A, ELINICH K, WANG J, et al. Using augmented reality and knowledge-building scaffolds to improve learning in a science museum[J]. International Journal of Computer-Supported Collaborative Learning, 2012, 7(4): 519-541.
[17]BORDES A, USUNIER N, GARCIA-DURN A, et al. Translating embeddings for modeling multi-relational data[C]∥Proceedings of the 26th International Conference on Neural Information Processing Systems.Lake Tahoe, Nevada: Curran Associates Inc, 2013: 2787-2795.
[18]WANG Z, ZHANG J W, FENG J L, et al. Knowledge graph embedding by translating on hyperplanes[C]∥Proceedings of the Twenty-Eighth AAAI Conference on Artificial Intelligence. Québec:AAAI, 2014:1112-1119.
[19]JI G L, HE S Z, XU L H, et al. Knowledge graph embedding via dynamic mapping matrix[C]∥Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 1: Long Papers). Beijing: Association for Computational Linguistics, 2015: 687-696.
[20]XIE R B, LIU Z Y, JIA J, et al. Representation learning of knowledge graphs with entity descriptions[C]∥Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence.Phoenix:ACM, 2016:2659-2665.
[21]LENAT D B. CYC: A large-scale investment in knowledge infrastructure[J]. Communications of the ACM, 1995, 38(11):33-38.
[22]MILLER G A. WordNet: A Lexical Database for English[J].Communications of the ACM, 1995, 38(11):39-41.
[23]BIZER C, LEHMANN J, KOBILAROV G, et al. DBpedia-A crystallization point for the Web of Data[J]. Journal of Web Semantics, 2009, 7(3): 154-165.
[24]REBELE T, SUCHANEK F, HOFFART J, et al. YAGO: A multilingual knowledge base from wikipedia, wordnet, and geonames[M]∥Lecture Notes in Computer Science. Cham: Springer International Publishing, 2016: 177-185.
[25]NAVIGLI R, PONZETTO S P. Babel Net: Building a very large multilingual semantic network[C]∥ACL 2010:In Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. Uppsala:ACL, 2010:216-225.
[26]XU B, XU Y, LIANG J Q, et al. CN-DBpedia: A never-ending Chinese knowledge extraction system[C]∥International Conference on Industrial, Engineering and Other Applications of Applied Intelligent Systems. Cham: Springer, 2017: 428-438.
[27]XU B, XU Y, LIANG J, et al. Advances in artificial intelligence: From theory to practice [M]. Arras: Spinger, 2017.
[28]WANG Q, MAO Z D, WANG B, et al. Knowledge graph embedding: A survey of approaches and applications[J]. IEEE Transactions on Knowledge and Data Engineering, 2017, 29(12): 2724-2743.
[29]JI S X, PAN S R, CAMBRIA E, et al. A survey on knowledge graphs: Representation, acquisition, and applications[J]. IEEE Transactions on Neural Networks and Learning Systems, 2022, 33(2): 494-514.
[30]HOFFART J, SUCHANEK F M, BERBERICH K, et al. YAGO2: A spatially and temporally enhanced knowledge base from Wikipedia[J]. Artificial Intelligence, 2013, 194: 28-61.
[31]DONG X, GABRILOVICH E, HEITZ G, et al. Knowledge vault: A web-scale approach to probabilistic knowledge fusion[C]∥Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York:ACM, 2014: 601-610.
[32]WU W T, LI H S, WANG H X, et al. Probase: a probabilistic taxonomy for text understanding[C]∥Proceedings of the 2012 ACM SIGMOD International Conference on Management of Data. Scottsdale:ACM, 2012: 481-492.
[33]LIANG J Q, XIAO Y H, WANG H X, et al. Probase+: Inferring missing links in conceptual taxonomies[J]. IEEE Transactions on Knowledge and Data Engineering, 2017, 29(6): 1281-1295.
[34]LIN J J, ZHAO Y Z, HUANG W Y, et al. Domain knowledge graph-based research progress of knowledge representation[J]. Neural Computing and Applications, 2021, 33(2): 681-690.
[35]DWORSCHAK F, KGLER P, SCHLEICH B, et al. Integrating the mechanical domain into seed approach[J]. Proceedings of the Design Society: International Conference on Engineering Design, 2019, 1(1): 2587-2596.
[36]徐增林,盛泳潘,賀麗榮,等. 知識(shí)圖譜技術(shù)綜述[J]. 電子科技大學(xué)學(xué)報(bào), 2016,45(4):589-606.
XU Z L, SHENG Y P, HE L R, et al.Review on knowledge graph techniques [J]. Journal of University of Electronic Science and Technology of China, 2016, 45(4):589-606.
[37]DE BOER V, WIELEMAKER J, VAN GENT J, et al.Amsterdam museum linked open data[J]. Semantic Web, 2013, 4(3): 237-243.
[38]閆曉創(chuàng). 歐洲文化遺產(chǎn)資源的在線整合實(shí)踐研究[J]. 中國(guó)檔案,2017(4):74-75.
[39]張加萬(wàn). 敦煌文物數(shù)字化保護(hù)傳承技術(shù)[J]. 敦煌研究, 2017(1): 7-8.
[40]張娜.文物知識(shí)圖譜構(gòu)建關(guān)鍵技術(shù)研究與應(yīng)用[D]. 杭州:浙江大學(xué), 2019.
[41]劉嶠,李楊,段宏,等.知識(shí)圖譜構(gòu)建技術(shù)綜述[J].計(jì)算機(jī)研究與發(fā)展,2016,53(3):582-600.
LIU Q, LI Y, DUAN H, et al. Knowledge graph construction techniques [J]. Journal of Computer Research and Development, 2016,53(3):582-600.
[42]SUNDHEIM B M. Named entity task definition, version 2.1[C]∥The Sixth Message Understanding Conference(MUC-6). Maryland: ACM, 1995: 317-332.
[43]CHINCHOR N, ROBINSON P. MUC-7 named entity task definition[C]∥Proceedings of the 7th Conference on Message Understanding. Virginia: ACM, 1997: 1-21.
[44]曾平. 基于文本特征學(xué)習(xí)的知識(shí)圖譜構(gòu)建技術(shù)研究[D]. 長(zhǎng)沙: 國(guó)防科技大學(xué), 2018.
[45]張敏.面向文物領(lǐng)域的知識(shí)圖譜構(gòu)建技術(shù)研究[D].西安:西北大學(xué), 2021.
[46]ZHANG M, GENG G H, CHEN J. Semi-supervised bidirectional long short-term memoryand conditional random fields model for named-entity recognition using embeddings from language models representations[J]. Entropy, 2020, 22(2): 252.
[47]PETERS M E, NEUMANN M, IYYER M, et al. Deep contextualized word representations[EB/OL].(2018-02-15)[2024-05-24].http:∥arxiv.org/abs/1802.05365.
[48]HUANG Z H, XU W, YU K. Bidirectional LSTM-CRF models for sequence tagging[EB/OL].(2015-08-09)[2024-05-24].http:∥arxiv.org/abs/1508.01991.
[49]LAFFERTY J, MCCALLUM A, PEREIRA F. Conditional random fields: Probabilistic models for segmenting and labeling sequence data[C]∥Proceedings of the Eighteenth International Conference on Machine Learning. San Francisco:Morgan Kaufmann Publishers Inc. 2001:282-289.
[50]ZHANG M, GENG G H. Capsule networks with word-attention dynamic routing for cultural relics relation extraction[J]. IEEE Access, 2020, 8: 94236-94244.
[51]ZHANG M, GENG G H, ZENG S, et al. Knowledge graph completion for the Chinese text of cultural relics based on bidirectional encoder representations from transformers with entity-type information[J]. Entropy, 2020, 22(10): 1168.
[52]ZENG S, GENG G H, GAO H J, et al. A novel geometry image to accurately represent a surface by preserving mesh topology[J]. Scientific Reports, 2021, 11: 22573.
[53]ZENG S, GENG G H, ZHOU M Q. Automatic representative view selection of a 3D cultural relic using depth variation entropy and depth distribution entropy[J]. Entropy, 2021, 23(12): 1561.
[54]MARK B, OTFRIED C, MARC K, et al. Computational geometry algorithms and applications[M]. Berlin: Spinger, 2008.
[55]曾升. 三維模型知識(shí)抽取與表示方法研究[D].西安:西北大學(xué).2022.
[56]耿國(guó)華, 馮龍, 李康, 等. 秦陵文物數(shù)字化及虛擬復(fù)原研究綜述[J]. 西北大學(xué)學(xué)報(bào)(自然科學(xué)版), 2021, 51(5): 709-721.
GENG G H, FENG L, LI K, et al. A literature review on the digitization and virtual restoration of cultural relics in the Mausoleum of Emperor Qinshihuang [J]. Journal of Northwest University(Natural Science Edition), 2021,51(5):710-721.
[57]王飄, 耿國(guó)華, 楊穩(wěn), 等. 結(jié)合表面紋理與斷裂輪廓的碎片拼接方法[J]. 計(jì)算機(jī)工程, 2019, 45(2): 315-320.
WANG P, GENG G H, YANG W, et al.Fragment splicing method combined with surface texture and fracture contour [J]. Computer Engineering. 2019, 45(2):315-320.
[58]袁潔, 周明全, 耿國(guó)華,等. 基于輪廓線雙向距離場(chǎng)的文物碎片拼接算法[J]. 計(jì)算機(jī)工程, 2018, 44(6): 207-212.
YUAN J, ZHOU M Q, GENG G H, et al.Heritage debris splicing algorithm based on contour line two-way distance field[J]. Computer Engineering. 2018,44(6): 207-212.
[59]周蓬勃, 李姬俊男, 稅午陽(yáng). 基于斷裂面匹配的破碎文物的虛擬修復(fù)方法[J]. 系統(tǒng)仿真學(xué)報(bào),2014, 26(9):2176-2179.
ZHOU P B, LIJI J N, SHUI W Y. Virtual restoration of broken artifacts based on fracture surface [J].Journal of System Simulation, 2014, 26(9):2176-2179.
[60]高宏娟.文物碎塊精細(xì)分類與多碎塊拼接方法研究[D].西安:西北大學(xué), 2021.
[61]HUANG R, HONG D F, XU Y S, et al. Multi-scale local context embedding for LiDAR point cloud classification[J]. IEEE Geoscience and Remote Sensing Letters, 2020, 17(4): 721-725.
[62]LIU J, CAO X, ZHANG P C, et al. AMS-net: An attention-based multi-scale network for classification of 3D terracotta warrior fragments[J]. Remote Sensing, 2021, 13(18):3713.
[63]WANG H F, ZHANG Y M, LIU W Q, et al. A novel GCN-based point cloud classification model robust to pose variances[J]. Pattern Recognition, 2022, 121: 108251.
[64]YANG M M, CHEN J J, VELIPASALAR S. Cross-modality feature fusion network for few-shot 3D point cloud classification[C]∥2023 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV). Waikoloa:IEEE, 2023: 653-662.
[65]周明全, 褚彤, 耿國(guó)華, 等. 結(jié)構(gòu)與紋理融合的三維文物孔洞修復(fù)方法[J].光學(xué)精密工程, 2022, 30(8): 894-907.
ZHOU M Q, CHU T, GENG G H, et al.Three-dimensional cultural relic hole repair method combining structure and texture[J].Optics and Precision Engineering, 2022, 30(8):894-907.
[66]魏明強(qiáng), 陳紅華, 孫楊杏, 等. 破損文物數(shù)字化修復(fù):以中國(guó)出土青銅器為例[J]. 計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào), 2021, 33(5):789-797.
WEI M Q, CHEN H H, SUN Y X, et al. Digital restoration of damaged cultural relics: A case study on Chinese unearthed bronzes [J]. Journal of Computer-Aided Design & Computer Graphics, 2021, 33(5):789-797.
[67]王樂樂. 虛擬修復(fù)技術(shù)在石造像文物保護(hù)中的應(yīng)用[J]. 北方文物, 2021(4):64-68.
WANG L L. Digitalized restoration technique applied in protection of the stone statues[J]. Northern Cultural Relics, 2021(4):64-68.
[68]張豪遠(yuǎn), 徐丹, 羅海妮, 等. 基于邊緣重建的多尺度壁畫修復(fù)方法[J]. 圖學(xué)學(xué)報(bào), 2021, 42(4):590-598.
ZHANG H Y, XU D, LUO H N, et al. Multi-scale mural restoration method based on edge reconstruction [J]. Journal of Graphics, 2021, 42(4):590-598.
[69]HOU M L, YANG S, HU Y G, et al. A novel method for the virtual restoration of cultural relics based on a 3D fine model[J]. Dyna, 2015, 90(3):307-313.
[70]GAO H J, GENG G H, ZENG S. Approach for 3D cultural relic classification based on a low-dimensional descriptor and unsupervised learning[J]. Entropy, 2020, 22(11): 1290.
[71]高宏娟, 耿國(guó)華, 王飄. 基于關(guān)鍵點(diǎn)特征描述子的三維文物碎片重組[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào), 2019, 31(3): 393-399.
GAO H J, GENG G H, WANG P. 3D archaeological fragment reassembly based on feature descriptors of key points[J].Journal of Computer-Aided Design amp; Computer Graphics,2019, 31(3):393-399.
[72]王毅, 李曉夢(mèng), 耿國(guó)華, 等. 基于直覺模糊熵的混合粒子群優(yōu)化算法[J].電子學(xué)報(bào), 2021, 49(12): 2381-2389.
WANG Y, LI X M, GENG G H, et al. Hybrid particle swarm optimization algorithm based on intuitionistic fuzzy entropy[J].Acta Electronica Sinica, 2021,49(12):2381-2389.
[73]王毅. 基于混沌反向?qū)W習(xí)的鯨魚優(yōu)化的破損傭體碎片配準(zhǔn)方法:中國(guó), 202110220089.2[P]. 2024-03-29.
[74]耿國(guó)華. 基于多尺度和折疊結(jié)構(gòu)的兵馬俑點(diǎn)云的形狀補(bǔ)全方法及系統(tǒng):中國(guó), 202110259051.6 [P]. 2021-03-09.
[75]吉曉瑤.基于深度學(xué)習(xí)的兵馬俑點(diǎn)云降采樣及形狀補(bǔ)全方法研究[D]. 西安:西北大學(xué), 2021.
[76]耿國(guó)華, 薛米妍, 周蓬勃, 等. 基于對(duì)比學(xué)習(xí)與多尺度結(jié)合的陶瓷顯微圖像分類方法[J].西北大學(xué)學(xué)報(bào)(自然科學(xué)版), 2021, 51(5): 734-741.
GENG G H, XUE M Y, ZHOU P B, et al. Ceramic microscopic image classification based on the combination of contrastive learning and multi-scale methods[J].Journal of Northwest University(Natural Science Edition),2021,51(5): 734-741.
[77]HU Y, GENG G H, LI K, et al. Self-supervised segmentation for terracotta warrior point cloud (EGG-net)[J]. IEEE Access, 2022, 10: 12374-12384.
[78]ISCAN, MEHMET Y, RICHARD P, et al. Forensic analysis of the skull[M]. New York: Wiley, 1993.
[79]WILKINSON C. Forensic facial reconstruction[M].Cambridge: Cambridge University Press, 2004.
[80]周明全, 耿國(guó)華, 李康, 等. 顱面形態(tài)信息學(xué)[M]. 北京: 科學(xué)出版社, 2016.
[81]CLAES P, VANDERMEULEN D, DE GREEF S, et al. Computerized craniofacial reconstruction: Conceptual framework and review[J]. Forensic Science International, 2010, 201(1/2/3): 138-145.
[82]SHUI W Y, ZHANG Y M, WU X J, et al. A computerized facial approximation method for archaic humans based on dense facial soft tissue thickness depths[J]. Archaeological and Anthropological Sciences, 2021, 13(11): 186.
[83]KHLER K, HABER J, SEIDEL H P. Reanimating the dead: Reconstruction of expressive faces from skull data[J]. ACM Transactions on Graphics, 2003, 22(3): 554-561.
[84]VANEZIS P, VANEZIS M, MCCOMBE G, et al. Facial reconstruction using 3-D computer graphics[J]. Forensic Science International, 2000, 108(2): 81-95.
[85]QUATREHOMME G, COTIN S, SUBSOL G, et al. A fully three-dimensional method for facial reconstruction based on deformable models[J]. Journal of Forensic Sciences, 1997, 42(4): 649-652.
[86]VANDERMEULEN D, CLAES P, LOECKX D, et al. Computerized craniofacial reconstruction using CT-derived implicit surface representations[J]. Forensic Science International, 2006, 159(Suppl 1): S164-S174.
[87]PEI Y R, ZHA H B, YUAN Z B. The craniofacial reconstruction from the local structural diversity of skulls[J]. Computer Graphics Forum, 2008, 27(7): 1711-1718.
[88]DENG Q Q, ZHOU M Q, SHUI W Y, et al. A novel skull registration based on global and local deformations for craniofacial reconstruction[J]. Forensic Science International, 2011, 208(1/2/3): 95-102.
[89]CLAES P, VANDERMEULEN D, DE GREEF S, et al. Bayesian estimation of optimal craniofacial reconstructions[J]. Forensic Science International, 2010, 201(1/2/3): 146-152.
[90]BERAR M, DESVIGNES M, BAILLY G, et al. 3D statistical facial reconstruction[C]∥Proceedings of the 4th International Symposium on Image and Signal Processing and Analysis. Zagreb:IEEE, 2005: 365-370.
[91]王琳, 趙俊莉, 黃瑞坤, 等. 顱面的徑向曲線統(tǒng)計(jì)復(fù)原模型[J]. 光學(xué)精密工程, 2020, 28(12):2729-2736.
WANG L, ZHAO J L, HUANG R K, et al. Craniofacial statistical reconstructionby radial curves[J]. Optics and Precision Engineering, 2020, 28(12):2729-2736.
[92]BERAR M, TILOTTA F M, GLAUNS J A, et al. Craniofacial reconstruction as a prediction problem using a Latent Root Regression model[J]. Forensic Science International, 2011, 210(1/2/3): 228-236.
[93]PAYSAN P, LTHI M, ALBRECHT T, et al. Face reconstruction from skull shapes and physical attributes[M]∥Lecture Notes in Computer Science. Berlin: Springer Berlin Heidelberg, 2009: 232-241.
[94]HUANG D H, DUAN F Q, DENG Q Q, et al. Face reconstruction from skull based on partial least squares regression[C]∥2011 Seventh International Conference on Computational Intelligence and Security. Sanya:IEEE, 2011: 1118-1121.
[95]LI Y, CHANG L, QIAO X J, et al. Craniofacial reconstruction based on least square support vector regression[C]∥2014 IEEE International Conference on Systems, Man, and Cybernetics (SMC). San Diego:IEEE, 2014: 1147-1151.
[96]DENG Q Q, ZHOU M Q, WU Z K, et al. A regional method for craniofacial reconstruction based on coordinate adjustments and a new fusion strategy[J]. Forensic Science International, 2016, 259: 19-31.
[97]MADSEN D, LTHI M, SCHNEIDER A, et al. Probabilistic joint face-skull modelling for facial reconstruction[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 5295-5303.
[98]陳仲晗, 趙俊莉,于晗, 等. 基于測(cè)地回歸模型的顱面復(fù)原[J]. 計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2021, 33(3):395-404.
CHEN Z H, ZHAO J L, YU H, et al. Craniofacial reconstruction based on geodesic regression model [J]. Journal of Computer-Aided Design & Computer Graphics, 2021, 33(3):395-404.
[99]楊穩(wěn), 周明全, 耿國(guó)華, 等. 基于視圖特征和形狀特征融合的顱骨身份識(shí)別方法[J].激光與光電子學(xué)進(jìn)展, 2023, 60(10): 138-146.
YANG W, ZHOU M Q, GENG G H. et al. Skull identification method based on fusion of view and shape features[J].Laser amp; Optoelectronics Progress, 2023, 60(10):138-146.
[100]楊穩(wěn), 周明全, 張向葵,等. 基于分層優(yōu)化策略的顱骨點(diǎn)云配準(zhǔn)算法[J]. 光學(xué)學(xué)報(bào), 2020, 40(6): 121-133.
YANG W, ZHOU M Q, ZHANG X K. et al. Skull point cloud registration algorithm based on hierarchical optimization strategy [J].Acta Optica Sinica, 2020, 40(6): 121-133.
[101]CHAKRABORTY S, DAS S. K-Means clustering with a new divergence-based distance metric: Convergence and performance analysis[J]. Pattern Recognition Letters, 2017, 100: 67-73.
[102]潘章明.一種基于KD樹子樣的自動(dòng)聚類方法[J].計(jì)算機(jī)工程與科學(xué), 2011, 33(1):166-170.
PAN Z M. An automatic clustering method using sub-sampling for the KD-tree[J].Computer Engineering amp; Science, 2011, 33(1):166-170.
[103]YANG W, ZHOU M Q, LIN P Y, et al. Ancestry estimation of skull in Chinese population based on improved convolutional neural network[C]∥2020 IEEE International Conference on Bioinformatics and Biomedicine (BIBM). Seoul: IEEE, 2020: 2861-2867.
[104]LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.
[105]LIN P Y, YANG W, XIA S Y, et al. CFR-GAN: A generative model for craniofacial reconstruction[C]∥2021 IEEE International Conference on Bioinformatics and Biomedicine (BIBM). Houston:IEEE, 2021: 462-469.
[106]周明全,楊穩(wěn),林芃樾,等.基于最小二乘正則相關(guān)性分析的顱骨身份識(shí)別[J].光學(xué)精密工程,2021,29(1):201-210.
ZHOU M Q, YANG W, LIN P Y, et al. Skull identification based on least square canonical correlation analysis[J].Optics and Precision Engineering, 2021,29(1): 201-210.
[107]李昆杰. 秦腔的藝術(shù)特色研究[J]. 戲劇之家,2019(21):44.
[108]KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84-90.
[109]SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL].(2014-09-04)[2024-05-24].http:∥arxiv.org/abs/1409.1556.
[110]CHEN Y, LAI Y K, LIU Y J. CartoonGAN: Generative adversarial networks for photo cartoonization[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City:IEEE, 2018: 9465-9474.
[111]王浩童. 基于隱向量控制的人臉卡通漫畫風(fēng)格遷移研究[D]. 成都:電子科技大學(xué), 2021.
[112]FANG H S, XU Y L, WANG W G, et al. Learning pose grammar to encode human body configuration for 3D pose estimation[C]∥Thirty-Second AAAI Conference on Artificial Intelligence. Palo Alto: AAAI,2018: 6821-6828.
[113]ZHAO L, PENG X, TIAN Y, et al. Semantic graph convolutional networks for 3D human pose regression[C]∥2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach: IEEE, 2019: 3420-3430.
[114]LI C, ZHONG Q Y, XIE D, et al. Co-occurrence feature learning from skeleton data for action recognition and detection with hierarchical aggregation[EB/OL].(2018-04-17)[2024-05-24].http:∥arxiv.org/abs/1804.06055.
[115]白鉑, 劉玉婷, 馬馳騁, 等. 圖神經(jīng)網(wǎng)絡(luò)[J]. 中國(guó)科學(xué): 數(shù)學(xué), 2020,50(3): 367-384.
BAI B, LIU Y T, MA C P, et al. Graph neural network [J]. Scientia Sinica (Mathematica). 2020, 50(3): 367-384.
[116]徐冰冰, 岑科廷, 黃俊杰, 等. 圖卷積神經(jīng)網(wǎng)絡(luò)綜述[J]. 計(jì)算機(jī)學(xué)報(bào), 2020, 43(5): 755-780.
[117]YAN S J, XIONG Y J, LIN D H. Spatial temporal graph convolutional networks for skeleton-based action recognition[C]∥Proceedings of the Thirty-second AAAI Conference on Artificial Intelligence. New Orleans:AAAI,2018:7444-7452.
[118]SI C Y, CHEN W T, WANG W, et al. An attention enhanced graph convolutional LSTM network for skeleton-based action recognition[C]∥2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach:IEEE, 2019: 1227-1236.
[119]SHI L, ZHANG Y F, CHENG J, et al. Two-stream adaptive graph convolutional networks for skeleton-based action recognition[C]∥2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach:IEEE, 2019: 12018-12027.
[120]ZHANG P F, LAN C L, ZENG W J, et al. Semantics-guided neural networks for efficient skeleton-based human action recognition[C]∥2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle:IEEE, 2020: 1109-1118.
[121]GOODFELLOW I J, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial networks[EB/OL].(2014-06-10)[2024-05-24].http:∥arxiv.org/abs/1406.2661.
[122]ISOLA P, ZHU J Y, ZHOU T H, et al. Image-to-image translation with conditional adversarial networks[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu:IEEE, 2017: 5967-5976.
[123]ZHU J Y, PARK T, ISOLA P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[C]∥2017 IEEE International Conference on Computer Vision (ICCV). Venice:IEEE, 2017: 2242-2251.
[124]LIU M Y, BREUEL T, KAUTZ J. Unsupervised image-to-image translation networks[EB/OL].(2017-03-02)[2024-05-24].http:∥arxiv.org/abs/1703.00848.
[125]HUANG X, LIU M Y, BELONGIE S, et al. Multimodal unsupervised image-to-image translation[M]∥Lecture Notes in Computer Science. Cham: Springer International Publishing, 2018: 179-196.
[126]MEJJATI Y A, RICHARDT C, TOMPKIN J, et al. Unsupervised attention-guided image to image translation[EB/OL].(2018-06-06)[2024-05-24].http:∥arxiv.org/abs/1806.02311.
[127]CHEN Y, LAI Y K, LIU Y J. CartoonGAN: generative adversarial networks for photo cartoonization[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City:IEEE, 2018: 9465-9474.
[128]KIM J, KIM M, KANG H, et al. U-GAT-IT: Unsupervised generative attentional networks with adaptive layer-instance normalization for image-to-image translation[EB/OL]. (2019-07-25)[2024-05-24].http:∥arxiv.org/abs/1907.10830.
[129]CHEN R F, HUANG W B, HUANG B H, et al. Reusing discriminators for encoding: Towards unsupervised image-to-image translation[C]∥2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle:IEEE, 2020: 8165-8174.
[130]米祺.基于時(shí)空?qǐng)D卷積網(wǎng)絡(luò)動(dòng)作識(shí)別的研究及其在戲曲人物表演中的應(yīng)用[D]. 西安:西北大學(xué), 2022.
[131]石興月.可交互增強(qiáng)現(xiàn)實(shí)關(guān)鍵技術(shù)研究及其在秦腔虛擬展演中的應(yīng)用[D]. 西安:西北大學(xué), 2022.
[132]劉喆.基于兩階段的三維姿態(tài)估計(jì)技術(shù)的研究與應(yīng)用[D]. 西安:西北大學(xué), 2022.
[133]CAO Z, SIMON T, WEI S H, et al. Realtime multi-person 2D pose estimation using part affinity fields[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu:IEEE, 2017: 1302-1310.
[134]BAI S J, KOLTER J Z, KOLTUN V. An empirical evaluation of generic convolutional and recurrent networks for sequence modeling[EB/OL].(2018-03-04)[2024-05-24].http:∥arxiv.org/abs/1803.01271.
[135]范力. 基于深度學(xué)習(xí)的秦腔戲曲情感分析方法研究與實(shí)現(xiàn)[D]. 西安:西北大學(xué), 2021.
[136]KOONCE B. ResNet 50[M]∥Convolutional Neural Networks with Swift for Tensorflow. Berkeley: Apress, 2021: 63-72.
(編 輯 李 靜)
作者簡(jiǎn)介
耿國(guó)華,西北大學(xué)二級(jí)教授,博士生導(dǎo)師,西北大學(xué)文化遺產(chǎn)數(shù)字化國(guó)家地方聯(lián)合工程研究中心主任。國(guó)家教學(xué)名師,“萬(wàn)人計(jì)劃”領(lǐng)軍人才,國(guó)務(wù)院政府特殊津貼專家,全國(guó)優(yōu)秀科技工作者,現(xiàn)任全國(guó)高等院校計(jì)算機(jī)基礎(chǔ)教育研究會(huì)副會(huì)長(zhǎng),教育部大學(xué)計(jì)算機(jī)教學(xué)指導(dǎo)委員會(huì)委員,陜西省計(jì)算機(jī)教育學(xué)會(huì)理事長(zhǎng),獲CCF杰出教育獎(jiǎng)。長(zhǎng)期從事智能信息處理與模式識(shí)別領(lǐng)域的創(chuàng)新性研究。主持“973”計(jì)劃前期預(yù)研、國(guó)家自然科學(xué)基金重點(diǎn)及面上項(xiàng)目、國(guó)家科技支撐計(jì)劃子課題、省部級(jí)重點(diǎn)項(xiàng)目等20余項(xiàng)。在文化遺產(chǎn)數(shù)字化保護(hù)、智能信息處理方面取得多項(xiàng)成果,出版專著5部、發(fā)表學(xué)術(shù)論文200余篇、發(fā)明專利51項(xiàng)。獲國(guó)家科技進(jìn)步獎(jiǎng)、省部級(jí)科技獎(jiǎng)18項(xiàng),主持獲國(guó)家教學(xué)成果獎(jiǎng)4項(xiàng)。
基金項(xiàng)目:國(guó)家自然科學(xué)基金(62271393);國(guó)家重點(diǎn)研發(fā)計(jì)劃(2023YFF0906500);陜西省技術(shù)創(chuàng)新引導(dǎo)專項(xiàng)基金(2024QY-SZX-11)。
第一作者:耿國(guó)華,女,教授,博士生導(dǎo)師,從事智能信息處理、虛擬現(xiàn)實(shí)與可視化研究,ghgeng@nwu.edu.cn。
通信作者:周明全,男,教授,博士生導(dǎo)師,從事虛擬現(xiàn)實(shí)與可視化、智能信息處理研究,mqzhou@nwu.edu.cn。