郎書旭 張孝臨 畢宏剛 姜山紅 彭觀偉
(1.遼寧科技大學計算機與軟件工程學院,遼寧 鞍山 114051;2.鞍鋼集團礦業有限公司,遼寧 鞍山 114000)
AK公司(以下簡稱“公司”)是某國有大型鋼鐵集團的全資子公司,是我國掌控鐵礦石資源多、產量規模大、具有先進工藝技術、具有完整產業鏈的冶金礦山龍頭企業之一。近幾年來,該公司展開了大數據工程應用及相應改革措施。
AK公司經過多年的信息化建設,數據成爆炸式的增長,各種數據服務需求不斷涌現。雖然傳統信息系統在飛速建設,但公司內各系統和數據庫大多是獨立采購或者獨立建設的,新舊 IT 系統中沉淀的數據之間難以打通,導致公司內形成“數據孤島”“數據煙囪”式系統高達200余個,系統分散割裂且不易形成可共享的數據服務,在一定程度上已成為公司在數據化轉型過程中的一個制約。公司通過對以前采集的大量數據分析診斷,發現在數據生成、處理加工、運行維護和利用過程中存在不少問題。隨著公司的數據平臺及數據日益龐大復雜,數據環境對數據系統運行維護、數據開發帶來新的挑戰。
數據治理包括由企業數字化轉型創新方式指導并且由企業數據治理部門發起并推行關于如何制定、實施和完善針對整個企業內部數據的商業應用和數據技術創新的一整套政策措施。公司制定了相應的數據治理發展戰略,發展戰略分為數據應用管理、數據管理、數據管控,步驟缺一不可。圖1為AK公司大數據工程的發展戰略圖。

圖1 AK公司大數據工程發展戰略圖
大數據開發管控平臺是構建一站式的數據集成、數據開發、數據調度、數據運維的平臺,滿足大數據集中管理、隔離開發的要求,為數據開發提供豐富多樣的工具和工具可視化的能力,助力企業需求進行快速更新和迭代,提升開發效率,推進企業應用數據驅動業務增長進程。企業大數據工程建設的過程離不開軟件平臺的支持,對此,公司應用了STQ軟件系統。
STQ軟件系統具有強大的數據整合能力。STQ軟件系統具備多集群任務開發、統一調度、分布式運行的能力。STQ軟件平臺可以對接多個集群,進行任務開發、統一調度、分布式運行。由于公司“數據孤島”“數據煙囪”式系統高達200余個,開發STQ軟件系統需要將之前的數據標準化。在算法創新方面,應用圖計算算法,以圖表達、圖存儲和圖分析的方式,在用戶觸達領域優化了目錄式的數據資產管理方法,帶來語義化、關聯化、實時化和智能化多方面的優勢。
(1)“盤”
“盤”——有什么數據,在哪里,有什么問題。在這個階段公司通過數據資產整合和盤點,構建電子數據資產目錄,為數據服務使用建立良好基礎。
公司開發出提供數據資產掃描嗅探技術,智能化識別關系型數據庫、大數據等數據資產信息。提供數據資產維護管理和公司數據資產目錄能力,配合數據資產查詢檢索、數據資產展示功能。該技術支持常見關系型數據庫、MPP數據庫,分布式數據平臺的元數據采集。由于需要采集的數據過于龐大,所以采用元數據(Metadata)作為本系統的數據基礎,元數據也是數據治理的重要采集和管理對象。
公司定期采集數據資產分布、數據存儲情況、數據總容量、數據資產數目等信息,提供以圖表形式呈現數據資產的分布覆蓋范圍,從數據存儲位置、數據總容量、數據資產數目、變化趨勢角度進行呈現,方便數據管理人員了解數據存儲情況以及變化趨勢,為數據資產運營提供支撐和輔助。
(2)“規”
“規”——確定數據標準規則以及目標。數據標準化的過程是為了規范系統建設的過程中,本公司人員對業務的統一理解,增強業務部門、技術部門等對數據的定義的標準化和使用數據的一致性標準化,進而增強數據的易懂性和可傳遞性。
(3)“用”
“用”——基于數據價值,提供場景化應用支撐。為了提升數據的價值和場景化的考慮STQ軟件系統是基于區塊鏈開發,系統具有數據安全服務機制,數據供需求雙方依托區塊鏈技術,憑借數據監管方頒發的可信證書完成數據交互任務。系統加入了數據共享與交易網絡,更加提升了系統的安全性。數據消費方需要從區塊鏈中獲取數據提供方發布的數據資產信息,數據消費方需要選擇需要獲取的數據信息發起數據授權請求,等待批復結果。數據消費方拿到批復結果,發起數據訪問,數據訪問經代理發送到數據提供方的訪問代理,請求認證通過,則可以訪問大數據中心數據。基于區塊鏈無痕水印實現數據溯源。數據生產加工和消費使用過程中,接觸的人員多,不乏有人利用職務之便或者保管不善,有意無意將數據泄露,公司通過區塊鏈無痕水印技術,實現泄露數據的反向追溯,發現泄露人員及泄露點,及時進行補救。
(4)“治”
“治”——找到差距,針對性進行治理。公司關注數據質量,確保數據價值。“治”的具體過程是STQ軟件系統提供數據治理管理能力,STQ軟件系統支持稽核規則管理、數據治理稽核調度、稽核預警及數據治理報告。稽核提供服務能力,方便和現有ETL平臺進行整合;支持數據一致性、完整性、及時性、波動性等檢查。STQ軟件系統提供數據血緣自動化采集能力,支持通過數據庫運行日志、數據庫執行腳本、ETL工具進行數據血緣影響自動化采集,系統具備自動識別分表的邏輯的功能,提升元數據血緣影響關系采集的自動化程度,降低數據治理難度。支持數據加工血緣影響關系、任務依賴關系、任務模型依賴關系的采集;提供可視化分析能力,方便運維人員進行問題分析和故障定位。
系統構建公司數據資產知識庫,提供數據資產檢索能力,提供按照關鍵字、分類查詢檢索能力,支持模型、指標、維度、任務資產的綜合展示,方便數據運維管理人員、數據消費人員進行數據資產的探索為了方便價值評估。STQ軟件系統可以自動化采集數據庫執行日志、業務系統數據訪問日志、元數據訪問情況、數據授權情況、數據關聯數據,對以上數據進行綜合評估,形成公司數據資產價值,提供數據價值綜合分析能力,為數據運維、數據下線提供支撐。
公司通過大數據應用實踐與數據化轉型,現階段公司能及時診斷發現數據生產、產品處理加工、系統的運維和數據利用過程中存在的問題,針對問題及時分析因地制宜地提供合理的解決方法、手段以及工具。公司合理的使用大數據,已經能夠解決數生產使用過程中普遍存在數據質量、數據一致性和數據性能等問題,實現數據存儲合理,解決數據生產過程受控的問題,提升產品質量。公司根據企業發展需要,積極適應大數據時代要求,公司的數據化轉型取得了初步成效。