許 婷,董秦剛
(西安航天動力研究所,西安 710100)
當前我國航天工業已進入快速發展階段,實現航天工業高質量、高效率、高效益發展,意義重大,影響深遠。為適應航天工業的快速發展,液氧煤油發動機型號研制任務越來越重、指標要求越來越高,一些制約發展的問題日益凸顯。
在過去的液氧煤油發動機設計研制過程中積累了豐富的經驗和大量技術文件資料、標準規范、圖紙等資源,但這些資源較為分散,存在專業技術知識分類管理薄弱,缺乏體系化的分類管理,共享程度較低,自動化、高效的知識積累不足,隱形知識挖掘困難,知識復用率低等問題,難以支持快速設計迭代的研發模式。
為解決上述問題,本文采用人工智能技術對液氧煤油發動機各種資源進行知識智能分類標記的研究,構建知識分類標記管理體系,結合發動機研制業務系統,形成常態化、自動化的知識資源轉化應用模式,希望能為知識資源的快速復用提供高效技術手段,為新型液氧煤油發動機設計研制提供支撐。
液氧煤油發動機研制是一項復雜的系統工程,經歷了較長時間的發展,產生了大量有關液氧煤油發動機研制設計的技術文檔、設計規范、基礎數據等資源,建立了較為完善的理論。這些資源分散存儲在不同的系統中且分類管理模式存在不同程度的差異,缺乏體系化管理,無法有效支撐液氧煤油發動機研制設計過程中的知識復用、創新。為有效管理這些資源,須對其進行分類、抽象、建模處理。
1.1.1 全生命周期階段劃分知識分類
根據文獻[1-4]可對產品全周期和知識分類進行處理。產品全生命周期是指產品從概念形式到回收的整個過程。按照產品全生命周期建模理論,可以將知識分為設計知識、制造知識、維護知識、回收知識等。
(1)設計知識。與產品設計過程相關,包括設計方法、結構設計知識等。
(2)制造知識。包括產品的BOM表、供應商知識、材料采購知識、檢驗知識等。
(3)維護知識。和產品維護過程相關知識、包括故障知識、維護方法知識、維護成本知識等。
(4)回收知識。包括回收方法、回收成本知識。
1.1.2 知識表現形式的產品知識分類
基于文獻[5-7],可根據產品知識的表現形式,將產品知識分為文檔類產品知識、數據類產品知識、程序類產品知識、協同類產品知識。
(1)文檔類產品知識是以文檔為表現形式的產品知識,包括設計文檔、工藝文檔等。
(2)數據類產品知識是以數據為表現形式的產品知識,包括設計參數、工藝參數、制造參數等。
(3)程序類產品知識是以程序來描述產品知識,包括設計中的CAE程序、計算程序等。
(4)協同類產品知識是通過協同工具來獲得的產品知識,包括設計經驗、工藝經驗、維護經驗等。
液氧煤油發動機知識有著專業技術性強、知識獲取途徑相對單一,規范化、結構化程度不同等特點。根據發動機結構組件類型可將液氧煤油發動機知識分為渦輪泵相關知識、推力室相關知識、閥門相關知識等。根據知識對象類型,液氧煤油發動機知識分為專業規范、設計文件、通用文件、基礎數據等。根據結構化程度不同,液氧煤油發動機知識分為非結構化知識(沒有特定格式的知識)、結構化知識、半結構化知識三類。
通過信息化手段對支撐相應專業技術知識的資料進行收集整理,對液氧煤油發動機在研制設計過程中應用的專業技術資源有效、規范地梳理形成了液氧煤油發動機專業技術知識體系。該知識體系的資源包括:論文、期刊、設計圖、各類標準、設計規范、故障歸零及質量分析報告、研試文件等,須進行人工分類標記。
在前述工作基礎上,構建知識分類模型及自動分類標記平臺(以下簡稱平臺),對這些資料進行文檔特征提取及分類研究[8-11]。通過對知識所屬的專業分類、知識類別、專業技術分類、關鍵技術分類等進行劃分,完成了基于不同分類的文檔知識的組織,實現新增技術成果的自動積累和分類標記,可更高效地支撐研制經驗規范傳承、輔助設計及知識重用。構建的平臺包括:文檔管理模塊、分類模型管理模塊、文檔標記模塊、詞庫管理、分類糾錯模塊等五部分功能模塊,五個模塊是平行并列關系,如圖1所示。

圖1 構建的平臺組成結構圖
基于文獻[12-13],將平臺與PDM系統(產品數據管理系統)進行集成,充分獲取液氧煤油火箭發動機研制過程積累的各類設計報告、分析報告等非結構化形式的文檔資源并進行存儲,也可將技術資料手動批量上傳。通過文檔批量特征將大量語義內容作為數據資源進行提取,再利用TF-IDF和Word2Vec等方法得到文檔語義特征,構建基于語義的文檔分類模型,并整合到知識分類標記系統中,以便對文檔數據進行加工處理,利于液氧煤油發動機詞庫的生成與展示。
平臺設計與開發基于B/S架構,平臺可實現文檔的自助標記分類,其總體框架如圖2所示。該系統在可測試性、可修改性、可靠性和可移植性等方面均可滿足需求,是穩定可靠,擴展性強的文檔管理、模型托管、文檔標記的綜合平臺。

圖2 系統總體框架圖
圖3所示為系統具體技術架構圖。由圖3可知,該系統平臺的文檔批處理、分類模型訓練、文檔自動標注、詞庫可視化展示等功能以組件化實現,便于后續擴展和系統對接。

圖3 系統具體技術架構圖
以doc、docx、pdf(非圖片類型)等非結構化文本類型的4萬多篇液氧煤油火箭發動機技術文件資料為樣本建立模型。通過模型的分類訓練,最終可實現對文檔知識分類、專業分類、專業技術分類、關鍵技術分類標記。文檔知識分類結果示于表1,專業分類結果示于表2,專業技術和關鍵技術分類結果示于表3。

表1 文檔知識分類

表2 專業分類

表3 專業技術與關鍵技術分類
文檔分類及自動標記技術共涉及兩項關鍵技術:文檔規則如何產生和文檔模型如何訓練,即構建先驗知識規則庫和卷積神經網絡模型并對結構特征文檔和內容特征文檔進行劃分。文檔劃分時先對簡單規則文檔進行篩選分類,再對技術內容的文檔采用內容訓練模型進行劃分。這樣,一方面可加快模型的訓練速度,另一方面可剔除部分干擾使得模型的準確率更高。
2.2.1 關鍵技術一:先驗規則知識庫分類
影響文檔分類結果的主要因素是數據預處理效果和對規則特征分析的效果。數據預處理用來清洗數據,去除干擾內容,進行分詞,方便分詞后對文檔結構進行分析,得到文檔的規則特征。再根據構建的先驗規則知識庫是否與提取后的規則結構特征相匹配進行判斷,匹配成功即可依據先驗規則知識庫確定文檔的準確分類[14-17]。同時,也可不斷迭代更新外部的先驗規則知識庫。
先驗規則知識庫分類技術具體包括以下幾個步驟:
(1)數據預處理,包括去停用詞,詞頻統計,單詞權重計算,分詞等;
(2)分詞后對文檔結構進行分析;
(3)提取文檔規則特征;
(4)與先驗規則知識庫匹配分類。
(2)凝汽器:凝汽器喉部焊縫;凝汽器汽側和熱井人孔門;凝汽器真空破壞門;凝汽器汽側和熱井空氣門、放水門;各真空泵進、出口管路及閥門;凝汽器熱井至凝泵進口管路,凝泵抽空氣管,凝泵軸端密封;凝汽器水幕噴水系統管路及閥門;凝結水再循環系統閥門;凝汽器檢漏裝置。
先驗規則知識庫分類如圖4所示。

圖4 先驗規則知識庫分類
2.2.2 關鍵技術二:文檔內容訓練模型分類
先驗規則知識庫分類技術具體包括以下幾個步驟:
(1)數據預處理,包括去停用詞,文本分詞,詞頻統計,單次權重計算與分詞等;
(2)文本向量化:從加權單詞向量轉化為文本向量;
(3)分類模型訓練:將文本向量輸入神經網絡訓練模型,訓練分類模型參數。其中神經網絡模型的實現基于TensorFlow與keras框架[18-20]。圖5所示為文檔內容訓練模型流程圖,圖6所示為神經網絡訓練示意圖。

圖5 文檔內容訓練模型流程

圖6 神經網絡訓練示意圖
(1)TensorFlow框架。TensorFlow是目前比較流行的深度學習框架,TensorFlow是采用數據流圖用于數值計算的開源軟件庫。流程圖中節點表示數學操作,圖中的線表示在節點間相互聯系的多維數據數組,即張量。TensorFlow靈活的架構可在多種平臺上進行計算。
先驗規則知識庫數據預處理,對先驗規則知識庫未能匹配的文檔進行進一步的訓練劃分。文檔分類模型的訓練效果,一個重要影響因素是人工標注數據集的質量,人工標注數據的準確性以及不同類別間數據的平衡性都將對分類結果造成很大影響。另一個重要影響因素是文檔特征提取,文本信息轉化為數值信息是特征轉化的一部分,當數值信息能最大程度保留文本原始語義信息時,最終分類結果準確率將明顯提高。
2.2.3 關鍵技術總結
綜合前述關鍵技術一和技術二即為平臺的總技術路線,即通過技術一對簡單規則文本進行篩選過濾后,針對主要的報告內容的目標文本再采用內容訓練模型進行劃分。這樣結合的優點在于:一方面可以加快模型的訓練速度;另一方面剔除部分干擾,將使模型準確率也明顯提高。同時,模型還具備擴展性,對各類新增文檔都可以有效地選擇適合的技術路線進行分類標注。模型訓練流程如圖7所示。模型的文檔批量分類標記流程如圖8所示。

圖7 訓練文檔模型流程圖
應用以上兩項關鍵技術對設計文檔進行語義的提取與建模,其中,語義提取中關鍵詞的提取及語義相似度的計算過程均在后臺進行。在知識標記過程中,通過對知識所屬的知識類別、專業分類、專業技術分類、關鍵技術分類等的劃分,構建基于不同分類的文檔知識的組織結構。
2.3.1 系統開發環境及使用工具
知識分類模型及自動分類平臺采用B/S架構,模型和平臺前后端均具有良好的兼容性。前端支持Google Chrome、Mozilla FireFox、Microsoft Edge等使用廣泛的瀏覽器,且支持HTTPS加密網絡傳輸協議。因設計采用了前端分離的開發模型,前端對后端不同類的框架均具有較好的兼容性。后端使用Python語言的Flask Web框架進行開發,數據庫使用主流的MySQL數據庫,Flask Web框架和MySQL數據庫均能很好地兼容Windows、Mac、Linux等主流操作系統,與此同時,系統還對外提供標準API接口。
模型和平臺的軟件環境配置如表4所示。

表4 軟件環境配置表
2.3.2 系統主要模塊構建及功能展示
(1)模型管理模塊。分類模型訓練是一個復雜的,不斷迭代的過程。將訓練好的分類模型進行集中存儲管理,如圖9所示。
點擊“應用模型”選擇需要使用的分類模型,再點擊“新建訓練任務”,對任務內容進行填寫,填寫完成后即可開始新的模型訓練,這有助完善分類模型,使得分類模型的準確率更高。
(2)文檔管理模塊。文檔管理模塊對于系統獲取的非結構化文檔資料進行管理,管理的文檔屬性包括文檔編號、文檔標題、文檔名稱、文檔版本、文檔類型等信息。同時,對于已經進行文檔分類標記后的結果進行存儲,并顯示文檔的文檔類型、所屬零組件類別、專業技術、關鍵技術等四類信息的標記結果,如圖10所示(圖中涉密詞已抹去,下同)。

圖10 文檔管理界面
2.3.3 文檔標記模塊
文檔標記模塊可以對新獲取的非結構化的文檔資料進行批量分類標記,文檔標記結束后會有彈框提示,在右側當前標記區域可顯示標記結果,如圖11所示。

圖11 文檔標記模塊
系統可對標記的歷史記錄進行瀏覽或下載導出,方便管理人員使用,如圖12所示。

圖12 文檔標記歷史記錄下載
2.3.4 詞庫管理模塊
通過分類模型的特征提取進行數據的預處理,借助分詞結果構建詞庫中的詞語數據源。對獲取的文檔中所包含的部分有實意詞語進行統計與可視化顯示。
系統會在每日定時對新增文檔進行分析,更新已有詞庫。進入系統后,首先點擊左側導航欄“詞庫管理”按鈕進入詞庫管理頁面,即可瀏覽系統中的詞庫數據。界面左側為系統中已有的關鍵詞數據,按頻率由高到低的順序排列,并顯示了關鍵詞出現的頻數和關鍵詞的類別,右側為關鍵詞所組成的詞云,如圖13所示。

圖13 詞庫管理模塊
2.3.5 文檔知識分類糾錯模塊
該模塊基于已有帶標簽文檔訓練知識分類模型,利用得到的模型分析歷史文檔數據,糾正錯誤標簽。對于提供了手動人工標注的數據源文檔,在其通過自動分類模型標注后對比前后標注情況,不同的標注可以有效幫助對人工歷史標記錯誤或者模型標注錯誤的糾正,有利于知識常態化、規范化的積累和轉換應用。文檔知識分類糾錯模塊如圖14所示。

圖14 分類糾錯模塊
知識分類模型及平臺與知識管理系統的集成,可實現一鍵登錄模式,在方便管理人員登錄查看、瀏覽知識分類標記結果的同時,知識分類模型及自動分類標記系統也實現了與PDM系統、知識管理系統之間集成,從數據源系統獲取各類技術文件資料(非結構化文檔)自動進行分類標記存儲,構建知識自動積累、轉換應用機制,為知識的快速檢索及敏捷迭代設計提供有力支撐。圖15所示為系統集成的界面圖。

圖15 系統集成界面
對于液氧煤油發動機研制的文檔資料進行分類標記處理,模型的準確率如表5所示。由表5可知,平臺穩定有效,模型的分類標記準確率高于85%。

表5 液氧煤油發動機知識分類標記驗證結果
應用結果還表明,該模型和平臺能有效自動積累知識資源,形成常態化、自動化的知識積累機制。
采用自然語言處理技術提取文檔特征,運用規則知識庫與神經網絡模型,對液氧煤油發動機文檔資料進行知識分類處理,可實現新增技術成果所屬的專業分類、知識分類、專業技術分類、關鍵技術分類等維度的自動分類標記,形成智能化、常態化知識資源自動積累機制。應用結果表明,模型與平臺的穩定性良好,準確率比較高。未來將液氧煤油發動機知識分類模型、自動分類標記平臺與MES系統、知識產權與專利成功管理系統等業務系統進行系統集成,可對數據源進行知識的抽取、自動標記,構建機器學習和深度學習模型,實現實體和實體分類識別的模型,將實體和實體關系進行融合,形成知識點,對照液體火箭發動機專業設計規范,將知識點再次按以上步驟進行訓練學習,形成專業知識條目庫,輔助研發人員開展設計工作,支撐研制經驗規范傳承、知識成果有效重用和研發效率提升。