王輝 邢偉 曹帥 陰鵬飛 史夢瑤
摘 要:本文介紹了煤炭企業(yè)數據采集系統的開發(fā)背景,分析了該系統針對企業(yè)數據進行元數據體系化、數據采集標準、數據質量、數據模型、主題域、數據服務、數據分析算法等數據治理體系的建設,提出了實現數據采集、數據清洗、數據存儲等的方法,為數據分析系統和智能問答系統提供了行業(yè)數據服務和行業(yè)業(yè)務基礎服務。
關鍵詞:數據采集,煤炭企業(yè)元數據,數據清洗,數據治理
DOI編碼:10.3969/j.issn.1002-5944.2023.19.015
Research on the Construction of Metadata Collection and Governance System for Coal Enterprises
WANG Hui XING Wei CAO Shuai YIN Peng-fei SHI Meng-yao
(Shanxi Yangmei Lianchuang Information Technology CO., Ltd.)
Abstract: This paper introduces the development background of the data collection system of coal enterprises, and analyzes the construction of data governance systems such as metadata systematization, data collection standards, data quality, data models, subject domains, data services, data analysis algorithms, etc. The paper proposes the methods of data collection, data cleaning and data storage, etc., and provides industry data services and industry business basic services for data analysis systems and intelligent question answering systems.
Keywords: data collection, coal enterprise metadata, data cleaning, data governance
1 系統開發(fā)背景
當前,煤炭行業(yè)相關企業(yè)結合生產制造模式、平臺企業(yè)服務運營模式,分析梳理業(yè)務流程和系統設備,考慮行業(yè)要求、業(yè)務規(guī)模、數據復雜程度等實際情況,對企業(yè)數據和行業(yè)數據進行分類梳理、標識,基本形成行業(yè)數據分類清單。其數據分類維度包括但不限于研發(fā)數據域、生產數據域、運維數據域、管理數據域、外部數據域等[1]。
依據《工業(yè)數據分類分級指南(試行)》(工信廳信發(fā)〔2020〕6號)規(guī)定的類別,結合實際數據獲取渠道和來源,在行業(yè)數據分類基礎上,形成了煤炭行業(yè)的數據采集、治理、應用的生態(tài)化平臺體系,解決煤炭行業(yè)數據復雜性問題。
2 數據體系設計(系統開發(fā)設計)
數據治理體系主要針對煤炭企業(yè)結構化和非結構化數據進行治理。通過對元數據管理、數據標準、數據質量、數據模型、主題域、數據服務、數據分析算法庫等進行規(guī)范和設計,構建數據治理體系,并形成企業(yè)數據資產目錄和數據資產。煤炭行業(yè)數據體系如圖1所示。
本體系的主要業(yè)務范疇集中于數據源體系、數據匯聚標準建設、數據質量控制、數據模型庫設計。
2.1 數據匯聚標準建設
系統的規(guī)范化流程為煤炭企業(yè)用戶提供數據全流程及業(yè)務系統接入的規(guī)范化方案,將實現特色數據全流程和業(yè)務系統的快速統一接入[2]。
系統設置多為異構數據的匯聚、抽取、清洗、轉換、合并等,將數據整合統一,建立標準化的大數據平臺,并對平臺的數據匯聚、存儲和共享的性能進行評估測試,具備較高的穩(wěn)定性和可靠性[3]。
匯聚流程如下:
a) 資源提供方提供接口,實現通過接口調取業(yè)務數據庫中的數據;
b) 按照選擇的網絡圖譜配置前置機及網絡安全設備并打通網絡鏈路;
c)數據平臺工具通過資源提供方提供的接口地址、用戶名密碼、傳入參數進行服務調用獲取數據,并把數據采集至前置庫中;
d)數據系統把前置庫中的數據采集至中心前置庫中。
數據要求包括:
a) 明確每條記錄中數據的主鍵數據項,且不能為空;
b) 每條記錄中的數據需增加一個時間戳字段,以方便系統根據時間戳識別增量數據;
c) 按照目錄的匯聚頻率來更新數據;
d) 服務調用必須根據時間段進行數據的采集,輸入參數中必須包含起始時間參數和截止時間參數。
各業(yè)務系統以增量更新的方式按規(guī)定的頻率進行數據交換。更新頻率應為資源提供方根據業(yè)務產生的實際頻率進行定義。
2.2 數據質量控制
2.2.1 數據質量控制中的常見錯誤類型
(1)數據完整性錯誤。完整性錯誤是最常見的數據錯誤。數據不完整導致不能檢查出來,嚴重的錯誤可能導致結論錯誤。
(2)數據一致性錯誤。一些數據記錄的規(guī)則未按照數據存儲的一致規(guī)則記錄,有些數據的邏輯關系出現了錯誤,還有些數據在抽取轉化過程中,造成了數據不一致的錯誤。
(3)數據準確性錯誤。導致數據準確性錯誤原因有三種:一是數據值落在定義域之外。二是系統應用控制缺失,導致錄入錯誤未能發(fā)現。三是數據在導出、整理過程中出現的字符型數據的亂碼現象。
(4)空值錯誤。在數據庫中,空值不等同與空白或零值,其含義往往不確定。若不將空值表達成確定的值后再進行數據的匯總或分析,可能出現因為空值導致的錯誤。
2.2.2 數據質量控制的思路方法
(1)核對記錄數。可以運用在數據采集、數據清理、數據轉化等三個階段。對采集到的數據必須進行質量控制,以排除遺漏和錯誤,降低由于被刻意修改的風險。將取得數據的記錄數與被系統中反映的記錄數核對,有原始資料的還要與紙質記錄進行核對,確保取得的電子數據完整。
(2)核對總數量。一是對采集的原始數據總數量進行驗證。對非結構化數據,將數據文件數量和大小,與提供的數據清單進行比對,核實是否遺漏,同時還需要核實數據是否可用、內容是否完整;對結構化數據通過核對總數量、分類匯總分項數量,與信息系統中的數據進行核對。
(3)驗證數據表關鍵字段。對數據表中的關鍵字段進行一致性驗證、錯誤值修改、空值替換、冗余數據消除、保證數據值落入定義域等處理,以提高數據質量,為下一步工作做好準備。首先核實數據表字段是否齊備,關鍵字段值是否缺失,內容是否存在亂碼。其次通過統計計算、分類匯總等方式,核實數據表內數據是否真實可信。可采取長度核對、最大和最小值審核、孤立點檢測、真實性核對、范圍核對、空值替換等驗證方法。
(4)驗證業(yè)務規(guī)則。數據在整理標準化和分析挖掘的過程中,將原始數據中表名、字段名、記錄值代碼以及關聯的經濟含義明確標識出來,需要進行大量的查詢匯總或細分、替換修改、插入數據、更新數據、刪除數據等操作,每一步轉換工作都有可能影響到數據的完整性和準確性,這需要有非常規(guī)范和標準的統計邏輯關系約束,所有指標的計算規(guī)則必須保證一致。
3 關鍵技術分析
數據采集系統的數據來源包括擬定的6大系統、互聯網各類數據,經過本系統處理后,流向數據中臺,提供給煤炭企業(yè)數據的分析平臺。由此可見,本系統的工作要點包括數據采集和數據清洗兩個業(yè)務范疇。
3.1 元數據管理技術
基于業(yè)務域分類維度,梳理一級、二級主題,形成數據資源目錄。基于應用分類維度,收集數據應用相關設計文檔、說明文檔等,整理應用名稱、模塊名稱形成應用業(yè)務元數據。
元數據管理是數據治理工作的重要組成部分。以元數據為抓手進行數據治理,可以幫助企業(yè)更好地對數據資產進行管理,理清數據之間的關系,實現精準高效的分析和決策。可以為數據集成、數據質量管理、數據加工整合、日常運行維護、數據安全管理和業(yè)務應用提供基礎能力支持。
元數據管理通過建立元數據模塊、元數據表、元數據視圖實現機器自動寫代碼功能。如圖2所示。
3.2 數據采集技術
業(yè)務系統數據庫數據通過KETTEL工具抽取到煤炭企業(yè)數智化平臺數據庫中,如圖3所示。
煤炭企業(yè)數智化平臺數據庫數據通過KETTEL抽取到ES數據庫,如圖4所示。
3.2.1 抽取物理技術
從業(yè)務系統中采集原始物理表元數據。數據包括用戶、數據表名稱(中英文)、數據表類型、數據標識、來源方式、表中文名等。
物理表的抽取分別依據三種維度進行元數據抽取。
(1)基于系統分類維度抽取貼源層物理表。
(2)基于業(yè)務域分類維度抽取明細數據層物理表。
(3)基于應用分類維度抽取集市層物理表。
3.2.2 數據篩選
制定有效表判斷規(guī)則,梳理有效數據表,建立有效數據物理表清單。對已抽取的貼源層、明細層、集市層物理表進行自動識別,篩選出空表、備份表、系統配置表、臨時表、垃圾表等無效數據表,梳理有效數據表并進行標注,形成有效數據物理表清單。
3.2.3 數據采集
(1)互聯網數據—通過爬蟲技術方式采集煤炭行業(yè)全網數據,采集各平臺的圖文、音視頻數據。具有靈活性高、速度快的特點。適用于各種復雜場景數據采集的需求,為客戶提供基礎數據。
(2)非結構化數據—通過手機office文件、圖片、語音、視頻等煤炭企業(yè)數據,在輸出表中定義文件格式并建立輸出和字段間映射,以及存儲文件的名字和位置就能導出文件。
(3)流式數據—Spark Streaming是Spark核心API的一個擴展,可以實現實時數據的可拓展,高吞吐量,容錯機制的實時流處理框架。如圖5所示。
Spark Streaming支持的數據輸入源很多,如Kafka和簡單的TCP套接字等。數據輸入后可以用Spark的高度抽象原語如map、reduce、join、window等進行運算。而結果也能保存在很多地方,如HDFS、數據庫等。另外Spark Streaming也能和MLlib(機器學習)以及Graphx完美融合。
3.3 數據清洗技術
對重復數據、時間日期格式、空白字符、異常字符、國家權威行政區(qū)劃規(guī)范化業(yè)務系統的地理信息、文件向文本轉化等內容進行清洗。
(1)針對重復數據本系統采取的首要措施為“排序和合并”即先將數據庫中的記錄按一定規(guī)則排序,在清洗轉換階段,對于重復數據項盡量不要輕易做出刪除決策。
(2)針對時間日期格式進行轉換過的時間和日期字段的數據利用標準的時間戳給予明確的數據修正標識,確保數據的可持續(xù)和可跟蹤。
(3)針對空白字符、異常字符直接忽略空值、合理填充空值、常見的是會使用屬性的平均值進行中位數或者眾數去填充。
(4)針對國家權威行政區(qū)劃規(guī)范化業(yè)務系統的地理信息對行政區(qū)劃代碼是國家對能夠統治的行政管轄區(qū)域進行分級分層進行管轄,用信息化手段編制的對各層級行政區(qū)劃編制的替代數碼,按照國務院最新的中華人民共和國國務院令(2018)第704號《行政區(qū)劃管理條例》規(guī)定執(zhí)行[4]。
(5)針對文件向文本轉化對WPS文字文件轉換為文本數據;WPS表格文件轉換為文本數據;WPS演示文件轉換文本數據;圖片格式的文本數據轉化。
3.4 數據治理技術
數據治理完成后,會形成一系列供算法分析和業(yè)務服務的數據倉庫。數據倉庫包括詞典庫、索引庫、配置庫、規(guī)則庫、業(yè)務庫及其他庫。
(1)行業(yè)企業(yè)詞典庫內容包括主題詞管理-人名庫、主題詞管理-地名庫、主題詞管理-機構名錄庫、相關詞管理等。
(2)基礎與應用索引庫對元數據模塊管理、元數據表設計、元數據視圖管理、分組管理、分類法進行庫。
(3)數據治理配置庫包括應用API管理、前臺菜單、后臺菜單管理等。
(4)數據治理規(guī)則庫包括屬性詞管理、主題詞管理、場景詞管理、停用詞管理、形容詞管理、反義詞管理、滿意強度管理等規(guī)則配置庫。
(5)行業(yè)應用業(yè)務庫包括各類業(yè)務數據庫和表單。
(6)其它模型庫主要是其它業(yè)務庫。
4 應用效果展示
4.1 主題域
根據數據分類清單和數據主題域分類維度,在API管理中分別建立基于系統維度、業(yè)務域維度和應用維度的煤炭行業(yè)主題域結構。
初期的煤炭主題域建設,是基于戰(zhàn)略發(fā)展、財務、審計與風險管理、科技質量網絡信息化安全4大領域(一級類目)的基礎上,在建設過程中逐步完善二、三、四級類目。主題域如圖6所示。
4.2 數據服務
通過建立統一的煤炭行業(yè)服務平臺以滿足針對跨部門、跨系統的數據行業(yè)應用。通過統一的數據服務平臺來統一數據源,變多源為單源,加快數據流轉速度,提升數據服務的效率。
基于煤炭行業(yè)數據平臺將數據提供給上層訪問調用,實現數據的應用變現和數據的閉環(huán)。
4.3 跨庫檢索
為優(yōu)化數據遷移對多數據源關聯查詢性能的影響,提出一個多數據源的關聯查詢優(yōu)化模型,使用包裝器對需要查詢的存儲系統進行包裝,為用戶提供統一的多數據源關聯查詢接口;提出區(qū)域劃分策略,以存儲系統的關系表為劃分粒度,構建基于多數據源關聯查詢命令的區(qū)域有向圖,劃分出查詢子任務[5]。
5 結 語
本文通過構建煤炭企業(yè)數據平臺的數據采集系統,對大數據體系的理念和實際理論進行了探討。本企業(yè)特點和業(yè)務數據,通過大數據理念和處理技術首先進行了重新治理和優(yōu)化,為煤炭企業(yè)數據平臺的分析系統提供了必要的結構化數據支撐。理論結合實際應用,大數據數據采集和數據治理的處理,為大數據理論的實際落地提供寶貴的經驗積累,為后續(xù)業(yè)務系統的收集和整理積攢了寶貴理論經驗和實踐經驗。
參考文獻
[1]工業(yè)和信息化部辦公廳關于印發(fā)《工業(yè)數據分類分級指南(試行)》的通知(工信廳信發(fā)〔2020〕6號)[Z].
[2]袁雅涵,馮勇,朱輝,等.基于多源數據的快速統一監(jiān)控關鍵技術研究[J].電子技術與軟件工程,2022(6):241-245.
[3]張偉,張恩東,魏永長.多源異構大數據匯聚共享平臺技術研究[C]//第十五屆中國航天電子技術研究院學術交流會優(yōu)秀論文集.2018.
[4]民政部門戶網站.2021年中華人民共和國行政區(qū)劃代碼[EB/OL].(2022-03-21)[2023-05-09].https://www.mca. gov.cn/n156/n186/c110745/content.html.
[5]郭東新,張偉,徐濤.多數據源的關聯查詢優(yōu)化技術[J].計算機工程與設計,2021(4):1006-1013.
作者簡介
王輝,本科,高級工程師,從事企業(yè)管理工作。
邢偉,本科,工程師,從事項目管理工作。
曹帥,本科,工程師,從事技術管理工作。
陰鵬飛,本科,高級工程師,從事項目管理工作。
史夢瑤,本科,工程師,從事軟件開發(fā)工作。
(責任編輯:張瑞洋)