999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向石油行業的數據治理技術研究

2021-01-14 00:45:42梁光瑞
現代信息科技 2021年12期
關鍵詞:數據采集

摘 ?要:文章通過對數據治理技術的研究,從技術現狀、技術發展和數據質量需求方面剖析了其在設計、應用方面的瓶頸,提出了一種適用于石油行業的數據模型結構設計和管理方式,并基于數據模型提供線下數據匯總、數據校驗、數據采集配置等數據采集方法、數據集成方法。最后結合應用場景介紹在應用系統實施過程中遇到的難點與所提出的相應解決方案,包括關系型數據庫數據及物理文件數據的采集域同步。

關鍵詞:數據治理;數據采集;數據交換

中圖分類號:TP311 ? ?文獻標識碼:A 文章編號:2096-4706(2021)12-0162-03

Abstract: Through the research on data governance technology, this paper analyzes its bottlenecks in design and application from the aspects of technical status, technical development and data quality requirements, puts forward a data model structure design and management mode suitable for the petroleum industry, provides data collection methods and data integration methods such as offline data summarization, data verification and data collection configuration based on data model. Finally, combined with the application scenario, the difficulties encountered in the implementation of the application system and the corresponding solutions are introduced, including the collection domain synchronization for relational database data and physical file data.

Keywords: data governance; data collection; data exchange

0 ?引 ?言

數據治理是企業步入信息化的基礎,研究數據治理技術的目的是為信息應用提供安全的數據通道,通道的起點是企業各種業務系統自動或手工產生的數據,通道的終點是基于信息的各種應用,通道的中間段是數據倉庫。當前國內基于數據治理技術的研究不斷深入,但采集、存儲、集成一直是數據治理的核心需求,石油企業的數據管理員在采用通用數據處理工具時,常常會因為業務功能不匹配而造成數據集成配置任務非常繁重甚至無法滿足需求,成為數據治理的瓶頸。

1 ?數據治理技術

數據治理包括數據采集、數據存儲、數據集成三個關鍵點,管理人員的數據轉換配置工作主要集中于數據采集和數據集成,需要解決的突出問題有兩點:其一是需要設計結構合理的數據模型存儲結構,方便進行集成交換和應用;其二是數據集成需要兼顧各種數據交換的需求,提供充分的數據轉換方式和便利的人機交互配置,達到數據倉庫與集成系統轉換可配置、管理可分開的目標。

1.1 ?數據模型管理

構建數據模型的目標是為數據倉庫定義一個大而全的數據結構,由分類表、屬性表及數據表組成,屬性表和數據表均通過分類表id尋址類型,數據表采用Json格式記錄值,其優勢體現在三個方面:(1)數據按調用頻率分表,前端查看分類和屬性的速度明顯加快;(2)存取數據值時充分利用了根據Json字段對數據庫進行檢索的技術;(3)三個表僅通過id關聯,業務層對編碼或名稱修改互補影響,用戶可編輯修改與數據表關鍵項分開,減少對數據庫表的關聯修改。

1.2 ?數據采集技術

根據原始數據的多樣性需求設計適用的采集方案,將數據采集到數據倉庫,常規表數據的采集可以基于原值獲取、字典轉義、條件取值、自定義值等方法,本文著重介紹對層級路徑和文件表的采集方式,以下是解決方案。

1.2.1 ?層級路徑

例如一個數據源表是一個樹式表,即下一行數據是上一行數據的子集,需要采集子集id、父級id或層級路徑,線下數據錄入員習慣將子集數據寫在父集數據行的下面,通常不會特別標注第幾行是第幾行的子集,甚至位于同一列的內容若與上一行相同則會省略不寫,將數據采集到數據倉庫需要將所采集的數據自動生成編碼id、隸屬的父級id、層級路徑,因此在配置層級路徑采集方式時,需要選中層級目錄相關字段作為關鍵列,程序進行采集時逐行生成id,同時在內存中記錄關鍵列,以便子集數據通過與內存中數據的對比找到隸屬的父級id,構造出層級路徑。

1.2.2 ?文件表采集

基于企業標準文件編碼規范(例如文件名由設計階段-文件類型-設備位號-序號組成),實現從一個物理文件目錄下自動提取編碼生成文件表,通過對編碼的識別也可對目錄和文件名進行校驗。實現文件表采集,應首先保證對標準目錄樹管理和文檔規則管理,其中文檔規則定義了文檔的名稱,包括幾段編碼,例如文件編碼、文件描述、版本號三段編碼,每段編碼由哪些項和分隔符等組成;目錄樹管理則定義了一棵囊括企業所有目錄層級的標準樹,目錄樹節點與文檔規則一一對應,在采集配置時,只要選擇本地文件夾下的某級主目錄,其下的子目錄和文件即可以參數化的方式自動提取出分類文件表寫入數據模型。

1.3 ?數據集成技術

數據集成是通過配置將數據倉庫內的數據進行轉換并提交目標系統,提供用戶便利的配置源與目標的轉換關系。

1.3.1 ?數據分組

是指將目標表分組,分組的原值包括按導入順序分組、按源相似性分組、按使用性質分組。當某目標表的導入數據依賴于或需要查詢其他已導入數據表時,因導入存在先后順序即需要進行分組,以便用戶在數據同步時可以根據分組名稱按順序操作;當多源導入同一目標時,應區分源的多樣性中是否有不同的唯一判定字段或必填字段,系統在同步上傳數據時依據統一設定的獲取規則和校驗規則會阻斷不符合要求的數據,所以要求數據按源相似性分組后配置不同的規則;在系統運行時,有些目標表是為了寫入而進行配置,而有些目標表用于轉換過程中轉義或是查表獲取數據,用戶應按使用性質進行分組管理。

1.3.2 ?導入配置

導入配置是完成對目標選擇數據源的工作,選擇匹配的源字段與目標字段對應,方法包括自動匹配和搜索匹配,當目標與源系統采用統一的名稱編碼時,自動匹配功能將有效減少配置時間,搜索匹配功能用于在源多表中通過關鍵字獲得匹配項;當目標的獲取方式為條件取值時,需要對設置的條件字段逐個匹配目標表中的字段。

2 ?技術應用實例

數據采集工具(DPT)是根據石油行業數據治理需求而開發出的一款專用系統,如圖1所示,采用node.js框架開發,主要功能包括通用工具、數據模型、數據采集、數據歸檔、同步管理,實現對線下數據治理、線下數據校驗清洗入庫、入庫數據的后處理、入庫數據的集成交換。

2.1 ?數據采集系統

用戶首先從系統中下載Excel格式采集模板,例如采集模板分為設施、設備、文檔三大類,設備分類下包含發動機、注水泵等數百種設備的采集模板,在生產過程中可直接對新建項目應用采集模板填寫數據,對已建項目,系統提供一系列通用功能將存量數據匯總至采集模板。

數據采集設置是對采集模板數據入庫進行采集規則設置和校驗規則設置,數據采集設置的方式包括原值獲取、自動編碼、條件取值、固定值、當前用戶、當前時間等;校驗方式包括文本、數值、百分比、日期、時間、序列、正則表達式、數據字典、文件路徑、特殊項,其中文件路徑驗證用于物理文件的采集,驗證條件是指定表數據內的路徑、文件名稱、擴展名,驗證將要采集入庫的文件是否在指定的文件夾中;特殊項可以指定驗證條件為當前系統變量,如當前項目、當前工程等。

2.2 ?數據集成與數據同步系統

DPT以數據倉庫為源負責向各種數據展示平臺提供數據,將數據倉庫數據結構轉換成目標結構傳送,其實現流程如圖2所示。

2.2.1 ?數據連接設置

數據連接設置支持常用數據庫和文件系統,包括MsServer、MySQL、Oracle數據庫連接參數設置,FastDFS、MinIO文件系統參數設置,方便用戶對目標連接參數進行集中管理。

2.2.2 ?數據分組設置

數據管理員選擇數據連接來配置數據分組,將目標分為寫入表、字典表和Json表三組,將需要同步寫入數據的目標表歸入寫入表組,將僅用于數據轉換過程中查詢的表歸入字典表組,將用于讀取目標Json數據格式的表歸入Json表組,如表1所示。

其后,依次對寫入表配置獲取方式和校驗方式,配置方案如表2所示,其中原值獲取是指從數據源提取數據無須轉換,直接寫入即可;條件取值設定的條件項是Doc_base表的文檔編碼和文檔名稱,獲取項是文檔ID;文件地址是指定提取物理文件的地址。

Json屬性管理自動提取上表Doc_attr中存儲的數據結構層級樹,并對屬性表每個節點屬性配置獲取方式和校驗方式,配置方式與上表類似。

2.2.3 ?導入配置與數據同步

不同于數據分組主要面向同步目標進行配置,導入配置主要面向數據源的選擇,例如當數據分組中對文檔編碼設置了原值獲取,則導入配置中通過自動匹配或搜索匹配源中的合同、維改項目資料、設備完工資料中的文檔編碼;表2當數據分組設置條件取值時,條件項文檔名稱也應選擇數據源中合同、維改項目資料、設備完工資料中的文檔名稱,導入配置完成后,同步操作依據用戶設置完成從源到目標的提取、轉換、校驗和導入。

3 ?結 ?論

根據上文研究可得以下兩點結論:(1)數據治理為企業的生產經營活動提供助力,解決方案需要具有通用性和擴展性來滿足日益增長的線上信息化需求;同時系統的設計也應具有彈性,兼顧到生產經營活動的現狀,尤其是對線下數據治理的充分支持,從而讓數據治理工作在實施過程中可以從線下到線上循序推進。(2)數據采集和數據集成的功能設計中應區別數據源與目標,明確劃分各功能模塊,充分設計數據獲取、數據校驗的各種方法,減少人工配置的工作量。

參考文獻:

[1] 許可.2020數據治理的趨勢與大局 [J].互聯網經濟,2020(Z1):36-39.

[2] 金勵,周坤琳.數據共享的制度去障與司法應對研究 [J].西南金融,2020(3):88-96.

[3] 劉俊良.新時代數據中臺研究與設計 [J].電子世界,2020(5):119.

[4] 劉童桐.數據中臺建設中最重要的事 [J].通信企業管理,2019(7):25-27.

[5] 趙佳鑫.淺談需求元數據管理 [J].中國金融電腦,2019(7):80-81.

[6] 安暉.關于數據治理的思考和實踐 [J].軟件和集成電路,2019(8):68-69.

作者簡介:梁光瑞(1987—),男,漢族,山東泰安人,信息技術工程師,研究方向:油氣田生產數字化。

猜你喜歡
數據采集
Web網絡大數據分類系統的設計與改進
CAN總線通信技術在電梯監控系統中的應用
基于大型嵌入式系統的污水檢測系統設計
社會保障一卡通數據采集與整理技巧
基于AVR單片機的SPI接口設計與實現
CS5463在植栽用電子鎮流器老化監控系統中的應用
大數據時代高校數據管理的思考
科技視界(2016年18期)2016-11-03 22:51:40
鐵路客流時空分布研究綜述
基于廣播模式的數據實時采集與處理系統
軟件工程(2016年8期)2016-10-25 15:54:18
通用Web表單數據采集系統的設計與實現
軟件工程(2016年8期)2016-10-25 15:52:53
主站蜘蛛池模板: 日本道中文字幕久久一区| 激情网址在线观看| 日韩精品成人在线| 亚洲男人天堂网址| 久久综合结合久久狠狠狠97色| 久久久久九九精品影院| 91香蕉国产亚洲一二三区| 亚洲精品天堂在线观看| 91亚瑟视频| 中文字幕在线播放不卡| 久久综合五月婷婷| 91久久偷偷做嫩草影院免费看| 国产后式a一视频| 日韩国产一区二区三区无码| 热re99久久精品国99热| 国产成人无码Av在线播放无广告 | 国产一区二区网站| 无码又爽又刺激的高潮视频| 亚洲视频欧美不卡| 天堂成人在线| 久久精品aⅴ无码中文字幕| 免费在线a视频| 亚洲熟女偷拍| 在线一级毛片| 国产欧美在线| 日韩经典精品无码一区二区| 一级高清毛片免费a级高清毛片| 国产免费羞羞视频| 91精品视频网站| 无码专区在线观看| 尤物精品国产福利网站| 色综合日本| 无码国产伊人| 国产亚洲精品97在线观看| 蝴蝶伊人久久中文娱乐网| 99在线观看国产| 国产成人亚洲无码淙合青草| 久久不卡精品| 无码高潮喷水专区久久| 狠狠操夜夜爽| 97久久精品人人| 毛片三级在线观看| 爽爽影院十八禁在线观看| 亚洲精品第一页不卡| 日韩成人免费网站| 91无码视频在线观看| 特级做a爰片毛片免费69| 午夜欧美理论2019理论| 国产欧美精品一区aⅴ影院| 98精品全国免费观看视频| 亚洲无码高清免费视频亚洲| 伊人AV天堂| 又爽又大又光又色的午夜视频| 国产靠逼视频| 亚洲日韩欧美在线观看| 国禁国产you女视频网站| 日韩亚洲综合在线| 亚洲视频a| 毛片大全免费观看| 成人免费午夜视频| 亚洲综合专区| 国产精品久久久久久久久| 老司机精品99在线播放| 色哟哟国产精品| 国产精品久久久久久影院| 亚洲天堂高清| 精品中文字幕一区在线| 亚洲av无码成人专区| 她的性爱视频| 欧美日韩国产综合视频在线观看| 伊人91视频| 四虎精品免费久久| 一本大道视频精品人妻| 亚洲一道AV无码午夜福利| 亚洲日产2021三区在线| 国产成人AV男人的天堂| 456亚洲人成高清在线| 欧美成人影院亚洲综合图| 99免费视频观看| 中字无码精油按摩中出视频| 亚洲欧美在线综合一区二区三区| 亚洲第一国产综合|