孫明霞,桓明姣,劉 超,梁春華,潘若癡,蔚奪魁
(中國航發沈陽發動機研究所,沈陽 110015)
數字孿生(Digital Twin)也被稱為數字雙胞胎,是一種新興事物。通過對國內外有關數字孿生文獻[1-3]的研究發現,數字孿生[4-5]具有能夠在產品研制的全生命周期提供工程分析和支撐決策的能力,實現對過去知識和經驗的傳承與重用、對當前狀態的評估與診斷、對未來發展的特性預估與趨勢預測,進而達到縮短周期與降低成本的目的,并將成為越來越重要的航空發動機輔助研制技術[6-7]。
2002年,美國密歇根大學Michael Grieves等[8]在Product Lifecycle Management課程上最早提出“與物理產品等價的虛擬數字化表達”的概念,這是數字孿生定義的萌芽;2010年,NASA在其技術路線圖中采用了這一概念[9];2012年,數字孿生概念被提議用于NASA飛行器[10]和下一代戰斗機[11];美國國家標準與技術研究院提出了MBD(基于模型的定義)和MBE(基于模型的企業)的概念;2015年之后,世界各國分別提出國家層面的制造業轉型戰略。隨著對數字孿生的研究與認識的不斷深化,美國的NASA、空軍等政府機構、工業部門、大學以及咨詢機構[12-14],先后提出了數字孿生的定義[15-17],但是該定義目前來看數量龐大但還未統一[18-20]。
通過對搜集到的64個典型數字孿生定義的文獻發表規律的統計分析發現,文獻發表數量隨時間的推移呈現逐步收斂的態勢;;通過對64個典型數字孿生定義內容要素的統計分析發現,定義內容要素基本一致。說明通過統計分析獲得數字孿生定義的條件已經基本具備。本文通過對數字孿生定義要素進行統計分析和內容研究,確定其定義的共性要素和核心要素,并建立基于共性要素的通用數字孿生定義模型,針對模型的核心要素進行詞匯和詞頻的統計分析與詞匯聚類,得到較為全面和相對準確的數字孿生定義。
在EI數據庫中,輸入檢索式“TI=‘digital twin’OR‘digital twins’AND LA=English NOT CO=China”(題名包括“digital twin”或“digital twins”,語言為英語,國家排除中國),共檢索到包括期刊論文和會議論文等文獻載體的有關數字孿生的文獻2360篇。在互聯網搜索引擎以及中國知網、萬方、重慶維普等數據庫中,輸入檢索式“‘數字孿生’或‘數字孿生體’”,共檢索到包括科技報告、企業白皮書、標準等文獻載體的有關數字孿生的文獻99篇。從這些文獻中,提取出典型的數字孿生定義64個,其定義的具體內容和來源機構見表1。在64個定義中,雖然有一些定義是來自同一個機構,但是卻代表了這一機構不同時期不同提出人對數字孿生的理解和認識。

表1 數字孿生定義采樣匯總(續表)

表1 數字孿生定義采樣匯總(續表)

表1 數字孿生定義采樣匯總(續表)

表1 數字孿生定義采樣匯總(續表)

表1 數字孿生定義采樣匯總(續表)
有關數字孿生文獻按發表時間的分布如圖1所示。從圖中可見,數字孿生的概念和內涵研究目前可能已達到峰值,甚至有所回落。64個典型數字孿生定義采樣按發表時間的分布如圖2所示。從圖中可見,關于數字孿生定義的公開發表時間主要集中于2017~2019年,2020年之后的文獻數量明顯減少。對64個典型數字孿生定義內容要素的統計分析發現,定義內容要素基本一致。從文獻基本內容來看,數字孿生已經在航空航天、機械電子、城市運行等行業從概念討論發展到應用探索階段,大量文獻的研究重心已經從概念闡釋向應用實踐方向轉移。此外,隨著數字孿生如火如荼的發展,在2020年之后美國和俄羅斯相繼發布了國家標準和行業標準。因此,綜合對數字孿生相關文獻發表規律、數字孿生定義文獻發表規律、數字孿生定義內容要素的統計分析與內容研究判斷,有關數字孿生定義的爭論和探索呈現收斂趨勢。說明通過統計分析獲得數字孿生定義的條件已經基本具備。

圖1 數字孿生文獻按發表時間的分布

圖2 數字孿生定義按采樣發表時間的分布
數字孿生64個定義來自于不同文獻類型和不同來源單位,其分布如圖3所示。

圖3 數字孿生定義文獻類型和來源單位的分布
在數字孿生定義的文獻載體中,論文占比46.9%,主要來自于政府實施數字孿生規劃、軍方引領行業發展和高校理論研究過程中關于數字孿生的總結;產品手冊、白皮書占比20.3%,主要來自于企業或咨詢機構對數字孿生實踐過程中得到的實施數字孿生的經驗以及對數字孿生定義的總結;科技報告、PPT和講座占比12.5%,主要來自于學會和咨詢機構基于不同目的對數字孿生定義進行梳理和統計。在數字孿生定義的發布單位中,高校占比43.8,包括美國國防采辦大學、賓夕法尼亞大學、密歇根大學等;企業占比35.9%,包括西門子、GE和ANSYS等大型公司;學會和機構占比14.1%,包括AIAA、德勤和IEEE等知名學會和咨詢機構;政府和軍方占比6.3%,包括NASA、美國空軍和美國國家標準與技術研究院等代表國家意愿的權威機構。
從以上統計和分析可見,定義采樣樣本具有全面性和典型性。
通過內容分析對64個數字孿生定義中的實詞進行拆分、歸類和詞頻統計,發現在64個定義中有些內容要素相對統一。這些內容要素可以被視作為共性要素,主要集中在實體、虛體、動作、數據、方法、技術和手段、模型特征、關鍵結果(KR)和目標(O)共8種。數字孿生定義共性要素的詞頻統計結果見表2。

表2 數字孿生定義共性要素的詞頻統計結果
從表中可見,定義中涉及實體、虛體、動作和數據的4種共性要素占比較高,可以被看作共性要素中的核心要素。嘗試建立基于共性要素的通用數字孿生定義結構模型,如圖4所示。

圖4 數字孿生定義結構模型
由于自然語言沒有統一標準,在詞義相同或類似的情況下可以相互替換使用,為便于統計分析,依據基于共性要素建立的通用定義模型,采用詞匯聚類與文獻計量相結合的方法,對64個采樣定義中的8種要素——實體、虛體、動作、數據、方法、技術和手段、模型特征、關鍵結果和目標進行詞頻和詞匯統計與分析。
經過對采樣數據統計,涉及實體的數字孿生定義共47條,通過對原始數據進行提煉,得到論述內容“物理實體、物理對象、物理系統、物理實例、產品實例、實體、實例、物體”等(共8項),數字孿生定義實體部分的統計結果見表3,表中序號為定義文獻的編號。

表3 數字孿生定義實體部分的統計結果
對整理結果進行歸納,把“物理實體”、“物理實例”、“物理對象”歸納為“物理實體”;把“實體產品”、“實體”、“實例”、“物體”歸納為“實體”。數字孿生定義實體部分聚類統計結果如圖5所示。根據各項內容的詞頻及來源文獻的重要程度,把表達實體部分的詞匯最終統稱為“物理實體”。

圖5 數字孿生定義實體部分聚類統計結果
經過對采樣數據的統計,涉及虛體的數字孿生定義共33條,得到論述內容“虛擬產品、數字飛行器、虛擬表達、數字模型、數字化描述、飛機的數字孿生模型”。對原始數據進行提煉,得到論述內容“虛擬實體、虛擬模型、虛擬產品、虛擬表達、虛擬實例、虛擬系統、虛擬結構、虛擬事物、數字實體、數字模型、數字表達、數字副本、數字系統、數字實例”等(共15項),數字孿生虛體部分統計結果見表4。其中,把“虛擬實體”、“虛擬實例”、“虛擬事物”、“虛擬結構”、“虛擬產品”、“數字實體”、“數字實例”、“數字副本”歸納為“虛擬實體”;把“數字表達”、“數字表征”、“虛擬表達”、歸納為“數字表達”;把“虛擬模型”、“數字模型”、“虛擬系統”、“數字系統”歸納為“虛擬模型”。數字孿生虛體部分聚類結果如圖6所示。根據各項內容的詞頻及來源文獻的重要程度,把表達虛體部分的詞匯最終統稱為“虛擬實體”。

圖6 數字孿生數據部分統計結果

表4 數字孿生虛體部分統計結果
經過對采樣數據的統計,涉及動作的數字孿生定義共28條,得到論述內容“映射、連接、數字化映射、雙向映射、交互映射、交互與共融、超寫實映射、數據交互、鏡像”等(共8項)。經整理歸納,將論述內容提煉為“連接、映射、交互、鏡像”,數字孿生動作部分統計結果見表5。根據各項內容的詞頻及來源文獻的重要程度,把表達動作部分的詞匯最終統稱為“映射和鏡像”。

表5 數字孿生動作部分統計結果
經過對采樣數據的統計,涉及數據的數字孿生定義共25條,得到論述內容“數據、實時數據、機隊歷史數據、數據源、數據和信息、機隊歷史、動態數據、實時監測數據、數據/視圖、模擬數據、維護和健康狀態數據、飛行器狀態、環境和特定歷史數據、知識、歷史和當前行為、歷史和當前行為的數字概要文件”等(共15項)。經過對原始數據進行提煉,把“數據”、“實時數據”、“機隊歷史”、“機隊歷史數據”、“數據和信息”、“歷史和當前行為”、“歷史和當前行為的數字概要文件”、“動態數據”、“實時監測數據”、“數據/視圖”、“模擬數據”、“數據、信息”、“數據源”、“維護和健康狀態數據”、“飛行器狀態、環境和特定歷史數據”提煉為“數據”,此外“知識”僅出現1次,數字孿生數據部分統計結果見表6。由于大多數的表述都可以提煉為“數據”,因此把表達數據部分的詞匯最終統稱為“數據”。

表6 數字孿生數據部分統計結果
經過對采樣數據的統計,涉及方法、技術和手段的數字孿生定義共17條,經過對原始數據進行提煉,得到論述內容“數據分析、數據挖掘、數字技術、大數據、云計算、信息技術、可視化、移動互聯網網、人工智能、仿真、建模”等(共12項),數字孿生方法、技術和手段統計結果見表7。經過對各種手段的概念的理解,將“數據分析、數據挖掘、數字技術、大數據”歸納為“數據技術”;將“云計算、信息技術、可視化、移動互聯、人工智能”歸納為“信息技術”;將“仿真、建模”歸納為建模與仿真技術。數字孿生定義方法、技術和手段部分的聚類結果如圖7所示。根據各項內容的詞頻及來源文獻的重要程度,方法、技術和手段部分歸納為“數據技術、信息技術和建模與仿真技術”。

圖7 數字孿生定義方法、技術和手段部分的聚類結果

表7 數字孿生方法、技術和手段統計結果
經過對采樣數據的統計,涉及模型特征包括2方面內容,即模型復雜度和模型精度。涉及模型復雜度的數字孿生定義共14條,得到論述內容“多物理場、多尺度、多概率仿真”、“多物理場、多尺度、多學科”、“多維度、多尺度、多學科、多物理場”等(共3項),數字孿生模型復雜度部分統計結果見表8。根據模型復雜度部分歸納為“多學科、多尺度、多物理場”。

表8 數字孿生模型復雜度部分統計結果
對于模型精度部分,經過對采樣數據的統計,涉及模型精度的數字孿生定義共6條,論述內容有“高保真、高保真度、完全和精確的”,經過對原始數據進行提煉,得到論述內容“高保真”和“精確”,數字孿生模型精度部分統計結果見表9。由于“精確”強調的也是保真度高,模型精度部分最終歸納為“高保真度”。

表9 數字孿生模型精度部分統計結果
經過對采樣數據的統計,涉及關鍵結果的數字孿生定義共10條。經過對原始數據進行提煉,得到論述內容“反映狀況、模擬行為、預測狀態、控制過程、指導實踐、支撐決策”等(共6項),數字孿生關鍵結果部分統計結果見表10。根據各項內容的詞頻及來源文獻的重要程度,關鍵結果部分歸納為“預測狀態和支撐決策”。數字孿生關鍵結果部分聚類統計結果如圖8所示。

圖8 數字孿生關鍵結果部分聚類統計結果

表10 數字孿生關鍵結果部分統計結果
經過對采樣數據的統計,涉及目標的數字孿生定義共12條。經過對原始數據進行提煉,得到論述內容“加快進度、提升指標、降低成本、提高效益”等(共4項),數字孿生目標部分統計結果見表11。根據各項內容的詞頻及來源文獻的重要程度,目標結果部分歸納為“加快進度、提升指標、降低成本”。

表11 數字孿生目標部分統計結果
通過前文對64種定義的分析提煉,可以得出以下數字孿生定義。
由核心要素可以得到數字孿生宏觀定義:數字孿生是通過對物理實體建模與仿真,建立物理實體與虛擬實體的數據交互映射,從而以虛擬實體反映物理實體的狀態。
由所有要素可以得到數字孿生的微觀定義:數字孿生是采用先進建模與信息技術對物理實體進行多學科、多物理場、多尺度、多概率、高保真度的仿真,采用先進數據技術和信息技術實現物理實體與虛擬實體全生命周期的數據交互映射,以預測物理實體狀態并支撐優化決策,從而加快進度、提高指標、降低費用。