何薇、李宇、賈東海、魏杰 /首都航天機械有限公司
王立軍 /中國運載火箭技術研究院物流中心
檔案資源綜合管理是航天制造企業管理必不可少的重要組成部分,是航天型號產品制造過程中的重要環節之一。目前,隨著運載火箭發射任務日益繁重,科研生產管理模式的持續改進,產品數據管理系統、制造執行系統、質量系統建設不斷完善,型號產品生產過程中產生的各種二維圖紙、三維模型、設計、工藝、質量等電子文件逐年增多,這些電子文件形成的多維數據量大且離散,難以高效和直接地為檔案提供利用服務。因此,如何采用信息化手段與大數據技術從中挖掘價值數據、可視化大數據檔案資源,以輔助企業決策,提高工作效率,提升檔案管理質量,成為目前航天制造企業生產過程中需要解決的一個重要問題。
大數據這個術語,最早應用于著名開源軟件社區Apache 的Nutch 項目中,大數據基本涵蓋了數據體量大、數據服務開放、數據結構復雜3 個特征,具有數據可視化、數據挖掘、數據清洗、數據存儲、數據采集5 個核心部分技術。大數據與航天制造檔案數據密切相關,應用大數據技術發展檔案工作、建立檔案數據中心尤其重要,能夠更好地為各級決策者提供知識或洞察力。
為此,筆者首先梳理了十一門類館藏檔案數據和檔案工作中形成的過程數據,通過大數據技術建立各類角色關注的信息數據倉庫,根據檔案的特點進行數據的分類、分析及數據整合和語義挖掘,形成了不同業務領域需要的分析圖,并在此基礎上形成檔案數據中心系統,促進 “數據自下而上,決策自上而下”的協調運作機制。
航天制造企業的檔案工作主要分為五大類,分別是圖紙與型號技術文件的管理工作、綜合檔案管理工作、檔案編研工作、檔案加工工作、聲像檔案工作。其中,圖紙與型號技術文件的管理工作是航天制造企業檔案業務的重點,其在科研生產過程中是數據的源頭,負責二維圖紙、三維模型的接收、分發及管理,生產現場加工、裝配的型號產品是以檔案部門下發的圖紙、模型為依據,組織開展工藝、生產、質量等工作。
航天制造企業檔案工作的業務流程主要涉及現行技術文件分發流程與綜合檔案歸檔流程兩大類?,F行技術文件分發流程包括分發人員接收、登記和分發、更改、補發和換發、調撥和配套、銷毀;綜合檔案歸檔流程包括各單位兼職檔案人員形成十二門類預歸檔文件、檔案人員立卷歸檔、檔案人員編目著錄、借閱者借閱檔案等過程
航天制造企業檔案工作過程通過多年努力建立了檔案管理系統,基本覆蓋了檔案工作的兩大類業務流程,涉及領導、工藝、調度、工裝設計等角色,有著較復雜的業務功能以及大量的數據量。檔案管理系統解決了電子圖紙分發、工藝文件在線歸檔、底圖取消曬藍、異地瀏覽圖紙、科研產品在線歸檔等問題,積累了可用于指導生產的工藝數據,實現了檔案資源的動態管理,應用效果良好。
基于航天制造企業檔案工作的2 個主要業務流程,檔案數據可分為現行文件數據、十二門類檔案數據、標準資料數據?,F行文件數據分為3 類:第一類包含二維圖紙、三維模型“兩單”等產品設計文件,是科研生產的數據源與生產依據;第二類包含工藝路線、材料定額、工藝規程、質疑單、質控卡等工藝設計文件和質量設計文件,是科研生產過程的重要保障;第三類包含工裝二維圖紙信息等輔助產品設計文件,是科研生產進度的重要信息。十二門類檔案數據包含文書、經營、航天產品工藝檔案、科研、質量、設備、基建等信息,是科研生產的基礎。標準資料數據包含國家標準、行業標準、上級標準、企業技術標準和管理標準,是科研生產的基準。
現行文件是生產的依據,也是元數據的開始,其產生的數據分別保存在各自的業務數據庫中,通過集成的關系將其進行數據關聯。系統中一般只能進行同類數據的查詢,不能多類數據統計顯示。例如,展示“王二在2018 年3 月1 日―4 月15 日之間作為操作工人簽署的工種為銑工的工序內容、操作結果、檢驗人員姓名”,該類信息是領導者在實際生產中迫切需要的信息,但是由于數據類型較復雜,使用SQL 語句關聯數據庫的表,降低了科研數據的利用效率。再者,科研生產元數據是原始基礎維度數據,沒有經過處理,意義不明,不能使用。此時,要將科研生產或者經營管理的元數據經過分類、統計、分析,形成各類決策指標數據,如能力數據、成本數據、競爭力數據、資源數據等。科研生產檔案工作數據分析如圖1 所示。

圖1 科研生產檔案工作數據分析圖
航天制造企業檔案數據中心應用大數據技術,對科研生產檔案信息進行收集、整理和分析,將數據倉庫、Hadoop 和流計算等結合起來應用。具體過程為:先從科研生產檔案的現行文件數據源和重點檔案數據源采集數據,如質量檔案,如果數據是結構化數據,需經過提取、整理、轉換和加載進入數據倉庫;如果數據是非結構化數據,需經提取相關數據特征、特征相似度匹配,信息返回給使用者。然后,使用檢索、分析工具對信息進行有效的組織和管理,將信息轉變為輔助決策的指標報表、圖表等。
航天制造企業檔案數據中心系統是一個龐大的系統工程,由于檔案數據是一個異構數據,包括關系型數據庫產生的結構化數據,如工藝規程信息、質控卡信息等,還包括非結構化數據,如圖紙、報告等,而這些異構的檔案數據在檔案數據中心系統進行流轉和使用需要先進的信息技術進行支撐,如大數據處理技術、存儲技術、表達技術、計算平臺技術等,通過這些技術的融合,構建航天制造企業檔案數據中心。航天制造企業檔案數據平臺和應用框架如圖2 所示。

圖2 檔案數據平臺和應用框架
航天制造企業檔案數據中心系統的建設是系統性工程,需要業務部門、檔案部門、技術部門開展聯合課題攻關,建設周期可分為3 期。第一期開展的工作是基礎數據的采集,工作重點是檔案人員精準梳理工作流程、融合業務部門工作流程、建立檔案系統等;第二期開展的工作是數據組織與管理,工作重點是數據分析、數據治理、技術與業務融合等;第三期開展的工作是數據應用,工作重點是數據挖掘、分類展示、數據決策等。目前,系統建設已經完成第一期工作,正在開展第二期、第三期工作的研究和典型實踐。
航天制造企業檔案數據中心系統如同人的身體一般,海量的檔案數據就像人體的細胞,隨著大數據技術的發展,大量的檔案數據信息給檔案工作帶來巨大的挑戰,是企業決策的重要數據來源,檔案數據中心系統的建設迫在眉睫。因此,及時開展檔案數據中心建設的籌劃工作,是保證檔案工作在新形勢下“不落伍、不掉隊”的重要舉措,即便現在由于條件所限不能深入地開展建設工作,也應統籌規劃,統一建設標準,積累經驗,為將來企業決策打好基礎。