韓 超,羅釗航
(中國核動力研究設計院,四川 成都 610213)
多源異構數據是大數據時代的產物,有著多元化、非結構化的特點,大數據應用的基礎是多源異構數據管理。目前,多源異構數據管理在網絡安全[2]、氣象系統[3]、電網工程[4]等眾多領域有廣泛應用。核電數據具有數據來源多方面、數據類型、特征多樣的特點,是典型的多源異構數據[1]。
目前,針對核電數據多源異構的特點,為解決核電數據的數據規范、數據采集、數據融合、數據存儲和數據分析應用等多方面問題,提出多源異構核電數據管理系統。系統主要功能有:原始數據管理、數據采集、數據互聯互通、數據存儲、數據服務和數據挖掘。
核電站產生的各專業數據來源廣泛,結構不同,為多源異構數據,擬提出多源異構核電數據管理系統建設方案,解決多源異構反應堆數據的原始數據管理、數據采集、數據存儲、數據服務和數據挖掘問題,實現滿足統一平臺、容災備份、安全控制、接口調用的專業平臺。
圖1 展示了多源異構核電實驗數據管理系統建設的總體技術路線和總體框架,關鍵技術主要包括:
(1)制定原始數據產生規范,設計實驗裝備接口管理方案,設計原始實驗數據的不同粒度的編碼規則,設計數據全生命周期管理系統,設計適應于數據采集組件和數據存儲組件的多源核電數據融合機制和方案。
(2)從原始數據產生設備中采集不同專業類型,不同平臺來源的多專業、多平臺的多源實驗數據,提供設備數據庫采集組件,工控機網絡接口采集組件、實時數據采集組件和文件數據采集組件。
(3)在高性能存儲集群上設計多專業、多平臺實驗數據的多源異構數據庫,滿足核電各個專業數據庫的數據共享和數據融合,滿足各專業數據庫模式多樣化,支持靜態數據存儲和實時數據存儲。
(4)在多源異構數據庫基礎上,提供數據索引、數據治理、數據建模、數據查詢、數據計算和數據可視化功能,為數據分析和數據挖掘提供數據支撐。
(5)結合多源異構數據庫和數據服務內容,提供專業領域知識下的關聯分析、時序分析、文本挖掘、表征學習、機器學習和深度學習,為實驗人員提供實驗決策支持。
自從我國經濟進入“新常態”時期以后,企業更加注重可持續化的發展和持續的經濟增長,很多程度上推動了財務公司的快速發展。產業鏈金融作為財務公司現階段重要的金融服務,能夠對企業集團的資源進行科學地整合與配置,同時還能夠根據企業集團的運營特點來拓展運營的業務范圍,進一步延長和拓寬企業集團運營相關的產業鏈,有利于企業集團提高整體的競爭能力同時為集團企業戰略發展提供條件。財務公司應當加強對產業鏈金融的研究并明確產業鏈金融的服務定位和細節,通過科學的產業鏈金融服務來幫助企業集團和上下游企業的完成融資和適當的發展計劃制定,提高企業集團的資源利用效率并推動企業集團更高水平地發展。
在多源異構核電數據管理系統中,利用數據采集組件獲取實驗臺架等數據產生裝備的多源數據,利用多源數據進行數據服務,利用數據融合技術進行數據挖掘。其次,多源異構核電數據管理系統具有容災備份、安全控制和接口調用的能力(如圖1)。在第2 節,將重點介紹各個功能的設計思路和設計方案。

圖1 多源異構核電數據管理系統技術路線
根據實驗數據多專業、多平臺的特點,數據采集擬采用數據庫采集、工控接口采集、實驗數據采集和文件數據采集多種采集方式融合的方案,采集具體過程如下:
(1)數據庫采集
若各個實驗裝備系統有各自數據庫,可考慮進行數據庫采集,根據數據庫是否在同一服務器上可分為直接融合和鏈接融合。在同一服務器上的數據庫,配置其訪問權限,直接進行數據融合;在不同服務器上的數據庫,利用外圍數據庫進行鏈接,配置其訪問權限進行數據融合,從而獲取完整的實驗數據。數據庫采集流程如圖2 所示。
(2)工控接口采集
若各個實驗裝備系統有各自數據接口,可考慮進行工控接口采集。如圖2 所示,根據各個數據庫接口的協議和模式設計,確定接口對接和數據融合方案,并進行測試和驗證數據的正確性。
(3)實時數據采集

圖2 數據采集流程
針對實驗臺架實時數據傳輸的特點,考慮采用基于專用緩存的實時數據采集方案。引入專用緩存的目的是為了避免并發存儲大導致服務器崩潰,因此專用緩存的設計是實時數據采集的重點。擬計劃采用增量采集的專用緩存方案,關鍵步驟有:首先實時數據形成消息隊列,每次以增量形式進入緩存區;其次當緩存區存滿后,向數據庫寫入數據;當緩存區有空閑容量時,實時數據繼續存儲,直到存儲完畢。具體流程如圖3 所示。
(4)文件數據采集
實驗數據包括大量的設計系統和仿真系統產生的測試數據和仿真運算數據,通過常用的PDF、圖片等電子文檔格式保存,因此考慮基于OCR 識別及機器學習技術,定制開發OCR 文件采集功能,針對文件數據的收、管、存、用等管理操作,完成文件掃描檔案的文本信息識別、特征提取、數據檢索與應用,達到真正的數字化檔案應用。利用OCR 識別技術自動判斷、拆分、識別和還原各種通用型印刷體表格,自動分析文稿的版面布局,識別結果還原成掃描文稿,支持文檔轉換,使得文件非結構化數據轉換成數據庫可存儲、存儲節點可計算的結構化數據。

圖3 實時數據采集流程
(1)數據索引
在多源異構數據庫基礎上,建立專業領域知識下的數據索引,如建立各專業知識下的核電數據概念層次網絡HNNE(Hierarchical Network of Concepts on Nuclear Reactor Experimental Data),進而可以保障數據查詢、數據分析的效率。在核電數據中,按照學科類型和實驗類型進行第一層劃分,得到第一層層次節點;在第一層的層次節點上,按照設備、實驗工控等進行第二層劃分,得到第二層層次節點,根據需要可拓展更多層的層次節點。
(2)數據治理
在多源異構數據庫基礎上,為實現核電數據治理和核電數據質量評價,建立數據生命周期管理體系,主要包含:數據質量評價模型,數據風險分析模型,數據標準規范模型。數據質量評價模型主要對于實驗序列數據和實驗非序列數據進行評價。利用Markov 等機器學習模型對實驗序列數據異常點、孤立點進行質量評價,利用深度神經網絡對實驗非序列模型進行數據相似匹配。結合設備、工況等,建立數據風險分析模型,滿足實驗數據偏離預警、實驗數據存儲優化等。數據標準規范模型是元數據規范、數據融合規范、數據字典等內容,支持粗粒度和細粒度的數據清洗和預處理。
(3)數據查詢
多源異構核電數據管理系統一方面提供數據庫查詢中的精準查詢、模糊查詢功能。另一方面,利用推薦系統算法進行用戶畫像,提供相似查詢,如一用戶持續關注熱工水力方面的實驗數據,則利用Doc2Vec 等模型對核電數據表征學習,利用相似度計算在數據庫中找出相似的實驗數據,然后給用戶推薦合法合規的相似數據。需要指出的是,相似查詢和精準查詢、模糊查詢不同,相似查詢依賴于用戶操作數據庫的記錄,推薦結果因不同興趣的用戶也不同,有著較強的專業性、安全性。
結合多源異構數據庫和數據服務內容,提供專業領域知識下的數據挖掘,設計實驗序列數據中頻繁模式挖掘、周期模式挖掘、對比模式挖掘、閉合模式挖掘的關聯分析組件,設計時序數據中的時序關系挖掘、時序預測等的時序分析組件,設計文本數據中的非結構化數據處理、文本語義分析等的文本挖掘組件,設計多專業、多平臺實驗數據的特征提取、特征學習、高維特征降維等的表征學習組件,設計多專業、多平臺的回歸模型、分類模型、聚類模型等機器學習方案,設計實驗圖像分析、實驗音頻處理等多場景的深度學習模型。
為解決多源異構核電數據的數據規范、數據采集、數據融合、數據存儲和數據分析應用等多方面問題,本文提出多源異構核電管理系統,并對各個模塊功能進行設計。在未來,將結合實際核電實驗對多源異構核電數據管理系統進行實施和廣泛驗證。