999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于分布式處理架構的數據共享交換平臺設計

2023-01-16 05:59:34楊民志
無線互聯科技 2022年21期

楊民志

(南京市江寧區企業服務中心,江蘇 南京 211100)

0 引言

近年來,新一代信息技術不斷提升,與實體經濟融合不斷加深,大數據、5G、人工智能等行業發展速度越來越快。新一代信息技術的發展極大地豐富了數字經濟的內涵,深刻地改變了人類社會的生產生活方式,數字經濟發展模式不斷多樣,影響范圍不斷擴大。隨著數字技術的應用,社會治理、企業生產等方面產生了大量數據。這些數據類型呈現多樣性特征,包括結構化數據、半結構化數據、非結構化數據等。

目前“數據壁壘”仍普遍存在,在傳統煙囪式IT建設方式下,政企各部門都存在獨立采購或者自建業務系統等情況,在內部形成諸多“數據孤島”,缺乏數據的共享交換。互聯網時代進一步加劇了“數據壁壘”問題,系統的多樣性和多態性也增加了各單位IT架構的復雜度,使得底層數據的互聯互通共享成為困擾各單位的痛點之一。因此,亟需數據中臺類產品,整合分散在各個孤島的數據,形成數據服務能力。以政府和企業為例,政府內各個單位,企業內各個業務部門的業務系統和平臺往往無法直接實現互聯,主要因為系統是由不同的軟件服務商開發,各個服務商所采用的技術標準不統一,軟硬件平臺不統一。海量的結構化數據、半結構化數據和非結構化數據等無法共享交換,因此建設數據共享交換平臺的需求應運而生。對政府而言,數據共享交換平臺能更好地服務民生及進行社會治理;對企業而言,數據共享交換平臺可以更好地應對生產和運營等挑戰,快速響應用戶需求。

數據共享交換平臺可按照相關標準對來自不同環境的異構數據進行采集、加工、轉換,提供多個部門、多業務平臺、第三方互聯網應用等業務系統數據共享交換的技術通道,推進各部門、各行業之間的有序數據交換與共享,實現信息資源的逐步整合。

數據共享交換平臺不僅是一套軟件系統,更是一種組織運作機制和管理模式,集戰略方向、組織架構、技術架構于一體,構建了統一的協同基座,以協調和支持各業務部門,使數據最終與業務鏈條結合,真正轉化為客戶核心資產,可以看成是數字化轉型的基礎和核心。

1 技術方案

數據采集器(BD Collector)是數據共享交換平臺的核心,負責將各種形式的數據統一采集,加工處理后存儲到數據中心。數據采集器作為一種數據處理工具,提供大容量數據的采集、整合、轉換、清洗和輸出功能,并且依托于高可擴展性架構,能提供超高的系統處理性能,在數據質量上實現數據的正確性、完整性、一致性、時效性和可獲取性。

數據采集是大數據處理的第一步,需要支持各種類型的數據,包括結構化、半結構化、非結構化等類型,在對數據進行初步的采集、處理后,存儲到數據中心進行統一管理,如圖1所示。

BD Collector基于B/S架構,采用統一的流程管理視圖,使用者通過該視圖可以方便地開發、配置、管理自己的業務流程,如圖2所示。

數據采集器的服務端具有很好的系統兼容性,可以運行在Unix/Linux/Windows等主流操作系統上。客戶端支持Web瀏覽器進行訪問,使用者只要可以上網,即可通過Web瀏覽器登錄服務器進行管理,Web管理平臺提供統一的管理界面,主要有6個功能模塊。

(1)工作流WorkFlow:用來創建、編輯流程所用。使用者可以根據業務需要在此定義數據處理流程,如FTP下載上傳、流數據處理、數據清洗、轉換等;

(2)控制臺Monitor:用來監控流程執行以及異常情況,并可重新執行失敗流程。系統各個部件(調度器、執行器、控制器)以及作業的狀態監控,運行日志查詢、統計;

(3)管理平臺Admin:用來配置數據采集的部署模式;

(4)數據源管理:數據源、數據集的統一管理和維護;

(5)集群管理:執行器、調度器的注冊、版本升級;

(6)流程設計:數據流(轉換)和控制流(作業)的設計調試,流程調度配置。

圖1 數據采集器架構

圖3 Collector分布式架構

圖2 基于B/S的統一流程管理

1.1 分布式處理架構

分布式存儲最早是由谷歌提出的,其目的是通過廉價的服務器來解決大規模、高并發等場景下Web訪問問題。它采用可擴展的系統結構,利用多臺存儲服務器分擔存儲負荷,利用位置服務器定位存儲信息,不但提高了系統的可靠性、可用性和存取效率,還易于擴展。數據交換平臺支持分布式架構,可以多個采集服務器并發工作,不同的服務器可以分別運行不同的數據采集流程[1],如圖3所示。

(1)主控節點Master:Master端負責任務的創建與分發,并且根據各工作節點(Slave)的工作狀態動態的預測以及分配任務,最終提高整個系統的運行效率。

(2)工作節點Slave:Slave負責每個任務的執行,可以根據任務的情況建立多個執行端,且可以橫向動態擴展,組成一個分布式運行網絡,最終實現整個系統的執行效率和運行性能的提升。Slave在運行時根據Slave自身資源使用情況主動向Master申請一定量的任務,在一定程度上確保Slave的資源充分利用以及Slave的健康運行。

(3)工作節點網格Slave Grid:Slave支持網格化運行,同一個網格的Slave可以并行執行相同的任務。

典型的Collector任務分發流程如圖4所示。

①→②定時事件、系統外部事件等事件到達后,主控節點從資源庫獲取作業信息,并發送給引擎處理;③→④引擎啟動相應作業,生成任務;⑤動態分派給相關的工作節點;⑥→⑦工作節點執行各自的任務;⑧工作節點執行任務并反饋給主控節點。

數據交換平臺支持的分布式部署架構包括以下兩層含義:(1)在同一個物理服務器上部署多個slave服務器,用作負載均衡,充分地利用服務器的硬件性能;(2)將slave服務器部署在多個物理服務器上,實現應用的物理分離,提高系統的可靠性和可用性,保證Collector服務器能夠提供不間斷的服務。

1.2 工作流管理

1.2.1 工作流配置

使用系統提供的組件完成一個作業的流程、順序和流向的圖形化配置,支持并發調度和條件判斷配置,支持子流程,設計完成后可對該作業進行測試、調試、發布。

圖4 數據采集Collector任務分發流程

1.2.2 工作流調度

支持數據處理流程的定時執行、事件驅動執行、人工執行,可以定義定時任務的啟動時間、重復時間間隔、重復次數、異常處理方法等,可以訂閱驅動Collector流程的事件,當事件發生時數據處理流程啟動。

設置工作流計劃,一個工作流可以有多個執行計劃,執行計劃包括開始時間、結束時間和定時循環信息等,支持日歷周期的定時循環,例如,每月最后一天的晚上8點,每周一三五的晚上8點定時執行等,也支持非日歷周期的定時循環,如每兩天的晚上8點執行,每18小時定時執行等。

支持Collector組件發生錯誤時定義重試次數,重試時間間隔。支持異常發生時調用異常處理組件,自動進行運行環境恢復等異常處理動作。

當歷史數據需要處理時,可以定義流程在歷史時間段運行。當業務數據中涉及當前時間處理,可以自動以歷史時間為當前時間,保證歷史數據邏輯正確。

1.2.3 工作流組件

每個數據處理組件都可配置輸入/輸出數據對象,數據對象是存儲在資源庫里面的對Collector要操作的對象的定義,比如數據文件、數據表的定義等。

1.3 數據加工

數據加工是將數據進行數據抽取、數據清洗、數據轉換、數據加載并整合到數據層的整個流程。

1.3.1 數據抽取(數據采集)

數據抽取也被稱為數據采集,其具有豐富的數據源匯聚接口,并能夠針對數據模型進行多種方式的轉換匯總。數據采集包括周期采集和即時采集。周期采集是指根據不同的時間對數據進行抽取的方式;即時采集是系統根據設定的采集條件立刻進行一次性操作,操作完成后不再重復此動作的數據抽取方式。即時采集通常應用在歷史數據和重新采集的數據不一致的場景下。采集適配器具備可視化的配置管理能力,從源數據庫中獲取被采集側源數據的屬性信息,通過圖形化界面對不同的數據源選擇不同的采集適配器進行數據采集,并對不同的數據源定制采集的數據范圍和相應的約束條件。

從源系統抽取數據時需要綜合考慮多種因素,包括抽取效率、業務場景、運行時間等,最終來確定抽取的策略。根據不同的數據平臺、數據形式,選取不同的數據抽取接口,同時需要考慮安全方面的問題。因此進行數據抽取時必須充分考慮以下因素,制定相應的抽取策略:

(1)支持不同數據來源的抽取處理,要能靈活地支持人工輸入功能。

(2)支持多種不同類型的平臺數據進行抽取,包括各種關系型數據庫系統、各種文件系統的源數據等。

(3)要充分考慮到源數據系統的性能要求,盡量減少對源數據系統的影響。

1.3.2 數據清洗

通過數據清洗完成對“臟數據”的剔除,消除數據的不一致。發現抽取數據的錯誤是數據清洗的一個重要功能,平臺的數據清洗過程應至少包含以下內容:元素化、標準化、排錯校驗、去重匹配、錯重消除、歸檔。

數據清洗主要標準是通過關鍵字段和主要關鍵字段的關聯關系,判斷源數據的記錄是否唯一,過濾重復的記錄,這些重復的記錄很有可能是原業務系統的缺陷造成的數據重復生成[2]。

1.3.3 數據轉換

數據轉換包括格式轉換、數據翻譯、數據匹配等,同時數據交換雙方的數據都是不同類型、不同結構的,要使交換雙方能夠識別彼此的數據,必須依據相關的標準和協議對數據的格式進行轉換,以實現信息的透明傳輸,因此數據轉換需確定數據轉換格式和轉換協議[3]。

XML是一種通用的在線數據格式,因為具備分布組件在不同類型的應用程序之間傳輸信息的先天性優勢,且具有數據映射的功能,因此這里通過XML來實現數據庫之間的數據轉換。

1.3.4 數據加載

數據加載是繼數據抽取和轉換清洗后的一個階段,它負責將從數據源中抽取加工所需的數據,經過數據清洗和轉換后,最終按照預定義好的數據倉庫模型,將數據加載到目標數據集市或數據倉庫中,可實現SQL或批量加載。大多數情況下,異構數據源均可通過SQL語句進行insert,update,delete操作。而有些數據庫管理系統集成了相應的批量加載方法,如SQL Server的bcp,bulk等,Oracle的sqlldr,或使用Oracle的plsql工具中的import完成批量加載。大多數情況下會使用SQL語句,因為這樣導入有日志記錄,是可回滾的。[4]但是,批量加載操作易于使用,并且在加載大量數據時效率較高。當異構數據源的種類繁多,且數據倉庫模型復雜時,使用數據共享交換平臺專業的ETL工具將事半功倍。

1.3.5 事務管理

數據采集器支持數據處理事件的定義、發布、訂閱,實現采集處理過程的事件驅動。例如,當某目錄文件存在、文件刪除、文件更新時,可以觸發不同的事件,訂閱這些事件的Collector流程就可以啟動。

2 數據共享交換平臺的應用

本文以政務行業、零售行業、金融行業和工業行業為例,分析數據共享交換平臺使用場景。

2.1 政務行業場景

基于數據共享交換平臺構建的政務平臺可以實現數據的統一管理,實現各部門數據貫通,提升內部跨區域/跨部門/跨層級的辦公效能,促進數據共享交換與業務應用的融合,全面提升政府面向公眾的便捷服務能力、科學化決策能力,為政府帶來新的治理模式和服務模式。[5]

2.2 零售行業場景

通過數據共享交換平臺打通零售企業內外部數據,從數據流層面進行疏通,提升零售企業整體數據服務能力,協助零售企業開展經營管理、市場營銷、精準分析等輔助決策,實現對零售行業市場變化的靈活應對。

2.3 金融行業場景

金融欺詐、小微企業融資難等問題一直是全民重點關注的問題。數據共享交換平臺可以解決金融行業數據時效性較差、數據標準模型落后、數據深度應用效率較低等問題,協助金融企業從數據追蹤、業務流程等多個維度加強數據跨部門、多業務的綜合管理,增強了金融企業與前端客戶的緊密連接,依托精細化的數據服務能力,降低金融企業經營風險與成本。

2.4 工業行業場景

數據共享交換平臺的重要轉變是讓數據持續發揮價值,將成為資產的數據作為生產資料融入工業企業生產流程,形成可靠的工業數據架構和高效的工業數據服務體系,以支撐傳統工業大規模、多樣化、全鏈路的運營生產,提升傳統工業創新能力,實現精細化、智能化運營管理監測價值。

3 發展方向

數據共享交換平臺在各行業應用場景中普遍會遇到產品推廣困難、標準化困難、落地效果不佳、技術與前端業務難以融合、業務決策缺少輔助場景等問題。為此,結合數據共享交換平臺發展現狀,可從以下方向發展。

3.1 加速產品標準化建設

數據共享交換平臺大多以偏定制化的方式在項目中落地,很難以“通用數據共享交換平臺”的形式應對各行業的各類應用需求。因此,需要通過細分行業的各類定制化業務,提升數據共享和數據管理能力,豐富完善數據中臺產品的功能模塊,逐步形成標準化的通用數據中臺解決方案。

3.2 從業務場景探索建設

數據共享交換平臺距離前端業務場景很近,因此數據共享交換平臺的建設應從業務場景規劃開始。首先探索數據價值的使用需求,根據客戶需求及業務戰略目標排出優先級,然后將不同業務應用場景對于技術的需求抽象建模成相應的數據服務,再由業務應用場景牽引進行逐步建設、快速迭代。

3.3 數據共享交換平臺與SaaS融合

數據共享交換平臺是面向內部提供數據服務,并且為前端業務場景提供半成品服務,而非像SaaS為業務需求方提供標準的完整解決方案產品,兩者之間存在一定的關系,SaaS其實是數據中臺發展的下一階段演化產物。例如,企業部署了中臺以后,經過一段時間運行將數據流、業務流都打通,并且將核心服務提取歸屬到了數據共享交換平臺后,再往下發展就可以抽象出中臺+SaaS產品服務于整個行業。

3.4 數據共享交換平臺智能化發展

海量數據與多樣的業務場景使數據共享交換平臺數據量大增,積累了豐富的數據指標,可應用智能技術提供通用化智能服務,為業務決策提供直接輔助場景,比較普遍的智能應用場景有商品銷量預測、千人千面推薦算法、營銷活動預測等。同時,通過智能技術算法可以為前端員工降低數據使用的門檻,提高整體工作效率和生產效率。

4 結語

隨著數字經濟發展的深入,數字產業化、產業數字化在各個領域的重要性日益凸顯,數據成為數字經濟

發展的重要基礎。數據的流通、關聯、分析等方面是大數據實現價值的基礎。單個設備、單個部門、單個領域的數據無法有效地讓人認識全局。但是獲取不同角度、不同維度的數據,并將這些基礎數據進行匯聚、加以關聯,才能從全局范圍分析事物,掌握事物本質。推動數據開放共享是實現數據價值化的基礎,數據匯聚使數據有可能產生價值,數據關聯才能使數據實現價值。政府、企業等擁有大量數據,既要在合理范圍保障數據的供給和共享,也要合法地對數據進行開發利用,不斷推動數據價值化的提升。

主站蜘蛛池模板: 国产高清国内精品福利| 伊人国产无码高清视频| 国产jizzjizz视频| 亚洲成人在线网| 中文字幕在线视频免费| 精品国产一区91在线| 欧美第一页在线| 伊人久久久久久久| 亚洲天堂视频网站| 欧美亚洲日韩中文| 成人一区在线| 美女免费黄网站| 美女被躁出白浆视频播放| 国产精品所毛片视频| 国产精品黄色片| 91国内在线观看| 欧美精品导航| 天天综合网色| a毛片免费在线观看| 国产h视频在线观看视频| 国产成+人+综合+亚洲欧美| 亚洲午夜综合网| 国产精品成人一区二区不卡| 国产欧美专区在线观看| 亚洲精品无码抽插日韩| 精品视频福利| 人妻丝袜无码视频| 日本影院一区| 麻豆精品国产自产在线| 国产精品无码作爱| 国产午夜福利在线小视频| 欧美成人第一页| 天天操天天噜| 国产手机在线观看| 亚洲最新在线| 99青青青精品视频在线| 福利在线不卡一区| 永久免费精品视频| 五月婷婷丁香综合| 亚洲一区二区约美女探花| 国产精品55夜色66夜色| 伊人久久久久久久| 国产91线观看| 91九色国产在线| 精品视频91| 又粗又硬又大又爽免费视频播放| 老司机久久99久久精品播放| 18黑白丝水手服自慰喷水网站| 久久semm亚洲国产| 美女高潮全身流白浆福利区| 亚洲天堂久久| 四虎永久在线视频| 国产亚洲精| 美女国产在线| 成人福利一区二区视频在线| 亚洲色图另类| 亚洲综合狠狠| 国内精品小视频在线| 国产91九色在线播放| 国产精品不卡永久免费| 久久精品亚洲热综合一区二区| 欧美亚洲一二三区 | 免费一级毛片在线观看| 色噜噜狠狠色综合网图区| 国产丝袜第一页| 精品伊人久久久久7777人| 人妻熟妇日韩AV在线播放| 亚洲人成网7777777国产| 亚洲国产欧美国产综合久久| 久久精品人人做人人爽电影蜜月| 国产后式a一视频| 亚洲精品色AV无码看| 日韩精品一区二区三区大桥未久| 特黄日韩免费一区二区三区| 91年精品国产福利线观看久久 | 色九九视频| 欧美国产日韩一区二区三区精品影视| 国产精品极品美女自在线网站| 午夜视频在线观看区二区| 国产无码在线调教| 日韩欧美91| 久久精品最新免费国产成人|