◎中國運載火箭技術研究院研究發展中心 畢經元等
基于大數據的知識挖掘技術在航天領域應用展望
◎中國運載火箭技術研究院研究發展中心 畢經元等*

近年來,中國運載火箭技術研究院開展了知識梳理、知識采集、知識分類等多項工作,形成了專業分類、型號產品等維度的知識庫,不斷積累、完善的知識庫勢必在航天產品研制過程中發揮重要作用。知識庫的利用程度依賴于知識挖掘技術,尤其在航天產品研制過程中的知識挖掘,涉及多專業、多部門、多領域。知識庫內容龐大、維度多、交叉多,無法依賴人工手段進行系統化的知識挖掘工作,需要充分借助以人工智能、大數據以及語義網絡為基礎的知識挖掘技術,實現對知識庫的充分利用。
1.知識挖掘含義
知識挖掘是知識管理工作的關鍵環節,不僅可以提高知識管理效率,更能夠促進知識的不斷創新。知識挖掘通常包含2種方式:一種是通過分析大量知識之間的隱含關系,發現顯性知識之間的關聯,注重采用信息技術對大量結構化與非結構化知識內容進行自動化分析;另一種側重于通過引導與交流挖掘隱性知識,注重發現難以用文字、語言以及圖像等形式描述和交流的個人經驗、情感、組織文化等。
大數據技術影響著從商業、科技到醫療、政府、經濟、教育、人文以及社會的各個領域。若將數據挖掘提取“粗糙知識”稱為“一次挖掘”過程,那么可將“粗糙知識”與主觀知識相結合而產生的“智能知識”稱作“二次挖掘”過程,類似事物“量”到“質”的飛躍。結構化的“粗糙知識”可以被主觀知識加工處理并轉化,從而生成半結構化和非結構化的“智能知識”。因此,尋求“智能知識”是大數據研究的核心價值。
數據挖掘、語義處理以及大數據技術是當前主流的知識挖掘技術。其中,大數據技術涵蓋了數據挖掘、語義處理的主要技術,并融合了大容量數據處理的IT技術,形成了高效、快速的知識挖掘技術體系。
2.知識挖掘關鍵技術
大數據定義為無法在一定時間內用傳統數據庫軟件工具對其內容進行抓取、管理和處理的數據集合,且大數據具有數據量巨大、類型多、流動快及潛在價值高四大特征。
數據挖掘技術利用統計分析技術和人工智能,通過對某類對象關聯數據的匯總、分析和比較,進行關聯度分析、聚類分析、概念分類、偏差檢測、自動趨勢預測、信息摘要提取等處理,從大量數據中提取其中隱含且具有潛在價值的知識和信息。
語義處理技術可以將文字、圖像、聲音、位置等信息轉變為人與機器、機器與機器之間可以相互理解的上下文知識。目前,逐步成熟并商用的多種人機交互模式,如語音交互、姿態感知、腦波控制、眼球控制、穿戴式設備等,均需要以強大的語義處理技術作為核心。
1.專業維度知識挖掘
研究院按照專業層級構建了基于專業的知識分類體系,分類科學且內容豐富,同時在“十二五”期間完成了各專業知識資源的梳理與采集工作。屆時知識庫內容將足夠龐大,如何有效利用研究院50余年積累的寶貴知識財富已成為新的問題。針對航天產品研制知識資源的數量大、復合類型多、知識異構等特點,研究院已采用基于語義處理技術的知識地圖以及知識統一表達的技術手段實現了專業知識資源的語義管理。
2.工程維度知識挖掘
航天產品研制是系統工程,研制周期長、涉及的工程崗位多。在工程維度進行知識挖掘應用,首先需要對航天產品研制工作場景進行辨識。
一是基于知識挖掘的研發設計方法。
基于知識挖掘的研發設計是現代產品設計的一種復用方法,可實現以知識為核心的產品創新設計,大幅縮短設計周期、降低產品成本。該方法將充分借鑒和利用以往研制經驗,并將研制經驗轉化為指導航天產品研發的定量化知識,形成基于設計實例、專家經驗、流程模板等的知識庫內容,驅動產品的需求分析、方案設計、設計優化、綜合權衡與評估等多個環節。筆者以專業設計模板與成本分析技術為例進行說明。
專業設計模板技術以成熟的設計知識和專家經驗為基礎,提煉出航天產品研發設計階段專業模板的構成、接口規范化、封裝方法以及組件化等的定義,以實現研發設計的快速建模。對航天產品研發設計分析流程、支撐知識資源、軟件算法以及專業耦合關系進行深入分析,構建航天產品研發設計的專業設計模板。在設計新產品時,通過在設計模板庫中選擇合適的模板并設置相應的參數,即可利用已有知識和經驗快速生成新的方案與模型,實現設計知識的共享復用,提高航天產品快速設計的能力,提升總體設計效率。
成本分析技術是設計方案評估的重要手段。在成本分析工作中最困難、最基礎、最關鍵的是歷史成本數據的高質量搜集和管理。構建基于知識挖掘的航天產品成本知識庫,可在方案設計過程中對產品全生命周期成本進行合理、準確的估算與分析,將數據轉化為可復用的成本模型和知識,并預測成本與性能、能力、技術之間的變化趨勢。
二是基于知識挖掘的故障診斷知識庫建設。
故障診斷系統通常與設計、制造、裝配以及維護保障等工作緊密結合,其核心是對特定模型進行描述、歸納形成故障模式集。該集合可具備多種形態,如先驗知識集、邏輯規則集、設備功能模型集等,分別從專家經驗、設備運行過程以及設備數學模型等角度挖掘故障模式。通常,先驗知識與設備功能模型集都偏簡單或過于復雜,實際應用中以邏輯規則集為主。
故障診斷邏輯規則集的知識挖掘過程可分為2類:一類是注重隱性知識挖掘,主要在產品應用前完成;另一類側重于顯性知識挖掘,采用統計等知識挖掘模型歸納知識庫。
基于統計的故障診斷知識挖掘方法以統計學和人工智能為技術基礎,不需要提供除數據以外的任何先驗知識,采用從數據中提取的客觀規則對問題的不確定性進行描述,將大量數據融合成有序的層次化故障診斷知識。常用的挖掘方法包括神經網絡、粗糙集、統計分析以及模糊邏輯等,其中粗糙集方法在兼具統計優點的同時可以導出精簡的規則,因此在故障診斷知識挖掘系統中較常采用,其流程如圖1所示。

圖1 基于粗糙理論的故障知識挖掘系統典型流程
3.管理維度知識挖掘
航天產品在預研、演示驗證、研制以及運行維護過程中,產生了大量與設計、試驗、制造、維護相關的質量、進度、技術狀態、試驗結果等多維度數據,如何使這些數據有力地支撐航天產品管理是當前面臨的難題。在管理實踐中,迫切需要采用大數據技術精確衡量預研、設計工作對產品、運維的進度與質量的影響。筆者以成本管理為例,說明管理維度的知識挖掘模式。
成本管理是航天產品項目管理的重要組成部分。在航天產品的研制過程中,用戶方需要推行競爭性采辦,加大價格審查和成本控制的力度;生產者需要開展成本工程建設,實現目標化、精細化、全生命周期的成本管理。航天產品研制是典型的大協作、多元化任務模式,各分系統單位的任務分工不同,成本類型差別很大,又相互關聯,造成了成本管理和控制的復雜性。只有構建一個異構協同的成本體系,既兼顧考慮各分系統和各專業不同的成本類型特點,又具有統一計費、估算與核算的規范,才能更好地為方案評估和報價服務。
成本體系構建工作涉及單位多,需要記錄全過程各環節的成本數據,需要將數據轉化為可復用的成本模型和知識,需要分析成本與性能、能力、技術之間的變化趨勢。因此,可根據航天產品在方案評估、項目報價、成本概算等方面的需求,構建知識挖掘算法,通過對多業務系統數據抓取、分析、聚合以及抽取處理,形成型號歷史成本知識庫以及成本估算模型,對產品的全生命周期成本進行估算與分析,快速評估各備選方案的費用,為項目決策人員在經費控制、費效比分析等方面提供決策依據,從而加強項目決策的科學性、可行性。
隨著知識挖掘技術與大數據技術的深入融合,航天知識庫將反應更為快速、涵蓋更為全面、挖掘更為智能,盤活航天產品研制的歷史存量知識,將會直接影響到產品的管理決策水平、成本控制、技術選用以及生產制造等方方面面。
*其他作者:楊秋皓、張?。ㄖ袊\載火箭技術研究院),王立偉、賈倩(中國運載火箭技術研究院研究發展中心)