王輝 邢偉 曹帥 陰鵬飛 史夢瑤 姜志萍 劉佳 楊敏



摘 要:目前,根據不同的業務需求,數據庫是獨立設計和開發的。數據的異構性和不共享性限制了數據資產的有效性。本文介紹了華陽集團企業數據管理體系建設過程,描述了數據管理系統框架和數據治理系統框架,闡述了元數據、數據標準、數據質量、數據安全、數據模型、數據監管、數據生命周期管理、數據服務和數據分析算法等關鍵技術,重點展示了智能推薦、智能搜索、履約、智能問答、用戶畫像等企業數據資產與AI智能相結合的應用結果。
關鍵詞:元數據,數據模型,算法,標準數據庫,數據采集,智能檢索,智能問答,用戶畫像
DOI編碼:10.3969/j.issn.1002-5944.2023.22.021
0 引 言
隨著企業蓬勃發展,華陽集團致力于科技創新、數據驅動和企業轉型優化的發展戰略新思路,逐步形成“一主兩翼七大板塊”的產業格局。在信息技術變革大潮中,華陽集團緊跟時代步伐。為了進一步提高企業市場競爭力,適應新形勢下企業生產經營的管理需求,集團在各業務領域增強了現代化信息系統管理建設力度。隨著管理系統建設,數據量規模不斷攀升,數據的類型也呈現多樣化[1]。目前,數據庫根據業務需求的不同,研究和應用背景的不同,從語法、語義、模式等具有異構性的方向,進行獨立設計開發,使集團級數據共享、整合與集成應用面臨巨大挑戰。
多年來,集團公司從全局視角下好信息這盤棋。依托華陽集團二十多年來信息化建設的深厚底蘊,2022年6月,華陽集團數據信息部針對上述問題,根據企業信息系統建設整體情況,將高度復雜的、海量的、分散的、異構的集團整體數據進行了自上而下的科學規劃,依據國家八部委聯合發布《關于加快煤礦智能化發展的指導意見》[2]要求,結合企業實際生產經營,借助企業已有的硬件設備包括:存儲器、服務器、網絡等,搭建了數據采集管理平臺,構建了企業數據治理體系,建成了集團級數據標準庫、標簽數據庫、算法庫、知識庫和業務數據庫等數字化資源管理平臺,建成了工業算法模型、圖像處理、視頻識別和自然語言識別的AI服務平臺,為上層的業務智能化應用提供數據服務,打通了數據與智能應用之間的屏障,實現企業智能化基礎。
華陽集團數據管理平臺為實現企業的智能檢索、智能推薦、智能協同、智能問答和用戶畫像應用提供了標準化的數據接口和高精度的數學算法服務,實現了企業數字化、數字資產化的歷史性蛻變。
1 系統開發設計
1.1 建設目標
華陽集團企業級數據管理體系建設主要目標是實現“一個平臺、兩個體系、三個特征、四個統一、五個服務”的一體化數據管理全景圖。
一個平臺:搭建一個一體化的數據管理平臺;兩個體系:建立數據治理體系和數據管理體系;三個特征:確保數據的準確性、唯一性、共享性;四個統一:達到數據的統一標準、統一來源、統一接口、統一服務;五個服務:提供數據查詢、數據調用、數據分發、公共數據資源、數據即時服務。
構建企業數據治理體系,依托數據管理平臺,對企業各業務系統數據進行數據綜合治理,最終形成企業數據資產。
搭建數據管理平臺,研發智能算法,利用企業數據資產,生成數據模型和業務需求模型,實現企業數據智能檢索、智能協同、智能問答機器人和用戶畫像等AI智能業務場景應用。
1.2 建設內容
涉及數據范圍:根據企業智能應用場景將數據分為感知數據、監測監控數據、經營管控數據、外部數據、歷史數據。感知數據包括MES、GIS和地質保障系統等采集的智能掘進、智能開采、煤流監控、輔運監控、通風監控、壓風監控和工業視頻等數據;監測監控數據主要由傳感設備采集的人員定位、瓦斯監控等數據;經營管控數據指由ERP系統、SRM系統、OA系統運行過程中存儲的生產管理數據、安全管理數據、OA文件數據、人力資源數據、成本數據、物資數據、運銷數據、車輛定位數據、煤質數據等;外部數據是從外部數據接口采集的市場行情、煤價、氣象、供應商企業信息、客戶企業信息、客戶輿情、行業信息等數據;歷史數據指生產管理系統、經營管理系統、地質管理系統、綜合自動化系統、工業視頻監控系統等儲存的歷史數據。
涉及應用場景:基于數據治理體系框架和數據管理平臺,優先建設生產管理、設備管理、安全管理、經營管理等業務智能應用場景,將數字化業務場景應用納入數據管理體系中,建立統一的數據應用標準規范,實現數據統一性、復用性和共享性。智能應用場景包括智能檢索、智能推薦、智能協同(合同履約)、智能問答、用戶畫像等應用。
數據管理和數據治理的區別:數據管理和數據治理建設內容有很多重疊部分,但數據管理在范圍上講包含數據治理。數據管理包括多個不同的領域,其中最顯著的領域就是數據治理。DMM數據管理成熟度模型中數據治理是其中一個數據管理分類。數據管理協會(DAMA)[3]在數據管理職能框架中認為,數據治理是數據管理的子集。數據管理中要保證一個組織已經將數據轉換為有用的信息,這項工作所需要的流程和工具就是數據治理工作。
數據管理體系:數據管理體系建設是個系統化的工程,涉及眾多源系統的交互。數據管理體系涵蓋包含數據標準管理體系、數據管控體系、數據技術服務體系、數據質量要求、數據安全要求等內容。數據管理體系架構如圖1所示。
集團企業級數據管理體系主要通過數據匯聚整合、萃取加工、服務可現及價值變現,建立貫穿數據接入、數據存儲、數據匯聚層、數據開發和數據服務的運行管理機制;提供標準的數據規范制度和管控流程,實現數據變資產并服務于應用的總體目標。華陽集團企業級數據管理體系建設思路如圖2所示。
數據主題域:據數據主題域分類維度,在API管理中分別建立基于系統維度、業務域維度和應用維度的主題域結構。數據主題域元數據分別為主題域一級分類、主題域二級分類。其中主題域一級分類、主題域二級分類基于兩種不同維度有相應的變化。
本期主題域建設,會在生產、安全、經營、企業、專家、管理六大領域(一級類目)的基礎上,在建設過程中逐步完善二、三、四級類目。
數據治理體系:集團數據治理體系實施以DCMM數據治理體系[4]為指導,結合行業實踐,形成了“盤、規、治、用”的實施方法論,搭建了一個合理高效的業務數據監管體系,降低了企業業務運營成本,依托數據管理平臺,提升了業務處理效率,改善了數據質量,為企業管理決策進行賦能。數據治理體系主要內容包括元數據管理、主數據管理、數據標準管理、數據資產管理、數據質量管理、數據安全管理等。DCMM 數據治理體系框架如圖3所示。
元數據管理:元數據又稱為中繼數據,是描述數據的數據,主要描述數據屬性的信息,是科學數據有效共享的方法之一。元數據分為技術元數據和業務元數據。元數據基本管理包括元模型管理、元數據管理和元數據分析。元數據分析功能主要實現針對元數據的基本分析功能,包括血緣分析、影響分析、實體關聯分析、實體影響分析、主機拓撲分析、指標一致性分析等。
數據質量管理:主要針對數據的開發、應用和管理進行規范和指導,主要解決數據的不完整、數據格式不一致、空值和亂碼,提高數據準確性和標準度。數據質量管理定義數據質量評價維度和數據質量評價體系,提供質量指標定義、質量稽核、質量問題分析和統計等功能。高質量的主數據依賴于圍繞主數據構建的流程、系統和管理要求,其對應的載體為主數據管理系統。
數據安全管理:主要在傳統的安全防御基礎上,強化數據信息安全和數據使用安全,加強數據脫敏和加密處理,防止數據丟失、泄露和竊取,確保企業數據安全。
數據監督管理:對數據進行算法和人工校驗,實現自動監控和預警監督的管理過程。
數據全生命周期管理:從數據使用規劃開始,包括采集、開發、產生、建模、業務應用系統調用、更改、存儲和消亡整個生命流程管理。通過對數據的跟蹤,加強數據管理措施,降低數據管理成本,提高數據質量,升級數據安全,提高數據的兼容性和復用性,最終達到數據價值最大化。
2 關鍵技術分析
2.1 數據采集技術
本系統用到的數據采集技術主要有抓取技術、日志采集技術、數據連接技術和文件導入技術。
(1)抓取技術主要通過網絡爬蟲程序對網頁、API等進行數據抓取,實現互聯網上所有供應商和客戶的企業信息及行業關注焦點新聞。
(2)日志采集技術主要對各應用程序的日志進行采集,實現數據使用的跟蹤。
(3)數據庫連接技術是使用標準的數據接口協議和數據接口,從企業內部各業務系統中,收集非結構化、半結構化和結構化的數據,且將這些數據存儲到數據中心。
(4)文件導入技術,是通過文件導入器將各種格式的文件導入數據中心。
2.2 元數據管理設計
元數據管理是數據治理工作的重要組成部分。以元數據為抓手進行數據治理,可以幫助企業更好地對數據資產進行管理,理清數據之間的關系,實現精準高效的分析和決策;可以為數據集成、數據質量管理、數據加工整合、日常運行維護、數據安全管理和業務應用提供基礎能力支持。
元數據管理通過建立元數據模塊、元數據表、元數據視圖實現機器自動寫代碼功能。元數據管理如圖4所示。
2.3 數據標準設計
數據標準是為企業建立的一套符合自身實際,涵蓋定義、操作、應用多層次數據的標準。
數據標準可以劃分為兩類,即基礎性標準和應用性標準。前者主要用于在不同系統間,形成信息的一致理解和統一的坐標參照系統,是信息匯集、交換以及應用的基礎,包括數據分類與編碼、數據字典;后者是為平臺功能發揮所涉及的各個環節,提供一定的標準規范,以保證信息的高效匯集和交換,包括數據采集方法、數據清洗、數據資產管理、數據生命周期管理、數據安全管理等。
2.4 數據質量控制
主要關注數據記錄、關鍵字段和業務規則三個方面的數據質量控制。
系統核對記錄數據主要在數據采集、數據清理、數據轉化三個階段,將取得的數據記錄和數據總量與系統中反映的數據進行核對,確保電子數據完整性。對于非結構化的數據,系統將用文件數據量和大小與數據提供清單進行對比,核實數據的可用性和完整性。對于結構化的數據,系統將核對總數量和分類匯總項數量。
系統驗證關鍵字段采用字段長度核對、最大和最小值審核、孤立點檢測、真實性核對、范圍核對、空值替換等驗證方法對表字段的完整性和亂碼進行檢驗。
系統業務規則驗證是指利用業務專業標準和業務邏輯,設計一套有效的勾稽檢查算法,對系統收集的業務數據進行邏輯校驗的過程。
2.5 數據資產管理
數據資產管理數據提供方通過數據資產管理進行數據資產的信息錄入,對資產進行分類產生主題數據。
在交換任務的事前、事中和事后都提供實時數據資源管理來保證數據交換的質量。以元數據為核心,通過共享、使用、管理和開發實現數據資產的閉環管理,全面支撐大數據應用。
2.6 數據模型設計
數據模型設計是指從企業業務的視角,對企業業務活動相關數據采用統一、規范的定義和數據建模方法構造模型。
數據倉庫:主要存儲來自源數據系統的明細數據,基本不做數據加工,設置字段命名注釋等,均需要跟源數據系統保持一致。
數據倉庫數據結構與生產數據的源業務系統保持一致,承擔源業務系統數據全量存儲職能。數據通過數據平臺提供的數據同步工具進入數據倉庫,只存放當前或接近當前的數據,如果需要的話還可以對數據倉庫中的數據進行增、刪和更新等操作。
3 應用實踐及效果展示
華陽集團企業級數據管理體系確保了業務數據的唯一性、準確性和共享性,為企業業務應用系統和AI智能應用服務提供了來源統一、接口統一和標準統一的業務數據。
3.1 AI+搜索引擎
AI與搜索引擎的結合讓搜索引擎更加智能化,如智能推薦、智能搜索的AI應用。
3.1.1 智能推薦
智能推薦實現了針對用戶經常搜索、關注及瀏覽的內容,進行詳細數據分析;根據用戶偏好,智能推送用戶關注內容和各種數據。智能推薦如圖5所示。
3.1.2 智能檢索
智能檢索可以通過個人信息、企業信息、業務信息、行業新聞和行業政策等信息的關鍵詞、主題域和數據類型等進行信息檢索,并按照相關度或時間進行排序,實現了結構化數據和非結構化數據的搜索。AI巡檢機器人可以通過5G網絡將海量感知數據上傳至云端,從而在云端進行智能化的故障識別與檢測。智能檢索如圖6所示。
3.2 AI+主數據
A I與主數據應用實現了智能協同,如合同履約。合同履約針對集團內部所有合同的執行、支付和查詢進行全業務流程的跟蹤和監管。
3.3 AI+服務
AI與服務應用實現了人機交互,如智能問答。
智能問答:AI應用服務通過構建知識圖譜和語言模型,深入理解用戶需求和語義,建立人機對話應用場景,管理智能機器人進行語音問答,使機器人針對智能問答中豐富的使用詞進行復雜管理,增強智能機器人對未知問題的學習。
3.4 AI+行業
AI與行業結合引領行業變革,如用戶畫像。用戶畫像:用戶畫像又稱用戶角色,作為一種勾畫目標用戶、聯系用戶訴求與設計方向的有效工具,在各領域得到了廣泛的應用。實際操作的過程中往往會以最為淺顯和貼近生活的話語將用戶的屬性、行為與期待的數據轉化聯結起來。作為實際用戶的虛擬代表,用戶畫像所形成的用戶角色并不是脫離產品和市場之外所構建出來的。形成的用戶角色需要有代表性,能代表產品的主要受眾和目標群體。用戶畫像的主要作用表現在:產品定位:通過用戶畫像可以了解目標用戶的需求、行為和特征,從而幫助產品定位,確定產品的功能和目標用戶群體。
用戶需求挖掘:通過用戶畫像可以挖掘用戶的潛在需求和行為特征,從而幫助產品開發團隊更好地了解用戶需求,改進和完善產品。
產品優化和改進:通過用戶畫像可以了解產品的缺陷和不足,從而幫助產品團隊發現問題并進行優化和改進,提升用戶體驗和產品質量。
4 結 語
本文基于企業級數據管理體系建設及應用實踐,分析了數據管理體系建設對于企業生產經營的重要意義,闡述了構建企業數據管理體系的整體技術架構和實施方案,總結了集團數據資產應用到AI智能服務最前沿的實踐經驗。
參考文獻
[1]張科利,王建文,曹豪.互聯網+煤礦開采大數據技術研究與實踐[J].煤炭科學技術,2016,44(7):123-128.
[2]國家發展改革委,國家能源局,應急管理部,等.關于印發《關于加快煤礦智能化發展的指導意見》的通知[EB/OL].(2020-03-05)[2023-04-13].https://www.gov.cn/zhengce/zhengceku/2020-03/05/content_5487081.htm.
[3]數據管理協會(DAMA國際).DAMA數據管理知識體系指南[M].北京:機械工業出版社,2020.
[4]數據管理能力成熟度評價模型:GB/T 36073-2018[S].
作者簡介
王輝,本科,高級工程師,從事企業管理工作。
邢偉,本科,工程師,從事項目管理工作。
曹帥,本科,工程師,從事技術管理工作。
陰鵬飛,本科,高級工程師,從事項目管理工作。
史夢瑤,本科,工程師,從事軟件開發工作。
姜志萍, 本科,高級工程師,從事項目管理工作。
劉佳,本科,工程師,從事項目管理工作。
楊敏,本科,技術員,從事軟件開發工作。
(責任編輯:張瑞洋)