999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數(shù)據(jù)資源體系在大數(shù)據(jù)中的應(yīng)用

2021-06-03 09:45:48
關(guān)鍵詞:標(biāo)準(zhǔn)資源建設(shè)

隨著互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能等先進(jìn)技術(shù)的發(fā)展,信息數(shù)據(jù)呈現(xiàn)幾何增長(zhǎng)。這些數(shù)據(jù)已經(jīng)滲透到當(dāng)今社會(huì)的各行各業(yè),為政府和企業(yè)進(jìn)行科學(xué)決策、開展各類研究、規(guī)劃未來(lái)發(fā)展方向等方面提供了充分的科學(xué)依據(jù),成為政府和企業(yè)發(fā)展中不可或缺的戰(zhàn)略資源。

隨著政府和企業(yè)智能化、信息化的轉(zhuǎn)型升級(jí),存量數(shù)據(jù)形成規(guī)模,數(shù)據(jù)質(zhì)量和可用性均不高等問(wèn)題逐漸暴露出來(lái),數(shù)據(jù)資源的利用率長(zhǎng)期處于低位,導(dǎo)致政府和企業(yè)在進(jìn)行決策過(guò)程中缺乏有效數(shù)據(jù)進(jìn)行支撐的窘境,這也是數(shù)據(jù)資源沒(méi)有發(fā)揮出其真正效應(yīng)的根本原因。數(shù)據(jù)資源體系則成為解決此類問(wèn)題的一劑良藥。

數(shù)據(jù)資源體系構(gòu)建方式

為確保數(shù)據(jù)資源體系建設(shè)工作的順利推進(jìn),依托數(shù)據(jù)資源建立便于任務(wù)推進(jìn)、促進(jìn)協(xié)調(diào)溝通、符合實(shí)際需要的數(shù)據(jù)治理工作組織,包括成立數(shù)據(jù)采集席位、數(shù)據(jù)治理席位、數(shù)據(jù)分析席位、數(shù)據(jù)運(yùn)維席位、數(shù)據(jù)管理席位,共同構(gòu)成數(shù)據(jù)資源體系建設(shè)的組織架構(gòu),并根據(jù)組織架構(gòu)層級(jí)確定角色和職責(zé),建立多層次、相互銜接的運(yùn)行機(jī)制,如圖1所示(見(jiàn)下頁(yè))。

圖1 數(shù)據(jù)治理工作組織

數(shù)據(jù)管理席位

數(shù)據(jù)管理席位由數(shù)據(jù)架構(gòu)工程師組成。負(fù)責(zé)數(shù)據(jù)資源體系的架構(gòu)設(shè)計(jì)、關(guān)鍵數(shù)據(jù)治理技術(shù)突破和技術(shù)咨詢、數(shù)據(jù)實(shí)施開展的指導(dǎo)培訓(xùn)以及數(shù)據(jù)資源共享交換的權(quán)限審批。

數(shù)據(jù)分析席位

數(shù)據(jù)分析席位由數(shù)據(jù)挖掘工程師組成。負(fù)責(zé)業(yè)務(wù)場(chǎng)景的數(shù)據(jù)分析、算法建模和模型部署以及數(shù)據(jù)共享交換服務(wù)的注冊(cè)發(fā)布,解決數(shù)據(jù)價(jià)值挖掘和數(shù)據(jù)決策支撐的痛點(diǎn)需求。

數(shù)據(jù)治理席位

數(shù)據(jù)治理席位由數(shù)據(jù)ETL工程師組成。負(fù)責(zé)結(jié)構(gòu)化數(shù)據(jù)的抽取、轉(zhuǎn)換和加載,開展數(shù)據(jù)標(biāo)準(zhǔn)區(qū)、數(shù)據(jù)主題區(qū)和數(shù)據(jù)專題區(qū)的建設(shè)工作,提升數(shù)據(jù)資產(chǎn)化價(jià)值。

數(shù)據(jù)采集席位

數(shù)據(jù)采集席位由數(shù)據(jù)爬蟲工程師和數(shù)據(jù)開發(fā)工程師組成。負(fù)責(zé)數(shù)據(jù)需求調(diào)研,實(shí)現(xiàn)對(duì)網(wǎng)頁(yè)數(shù)據(jù)、數(shù)據(jù)庫(kù)在線、物聯(lián)網(wǎng)傳感數(shù)據(jù)和離線文件四種場(chǎng)景的數(shù)據(jù)采集,進(jìn)行流程開發(fā)和運(yùn)維管理。

數(shù)據(jù)運(yùn)維席位

數(shù)據(jù)運(yùn)維席位由大數(shù)據(jù)運(yùn)維工程師組成。負(fù)責(zé)平臺(tái)應(yīng)用的部署、運(yùn)維和管理,大數(shù)據(jù)集群和數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器的運(yùn)維調(diào)優(yōu)工作。

數(shù)據(jù)資源體系實(shí)施過(guò)程

在數(shù)據(jù)資源體系建設(shè)的具體實(shí)施過(guò)程中,可分為數(shù)據(jù)需求調(diào)研,數(shù)據(jù)體系規(guī)劃,數(shù)據(jù)標(biāo)準(zhǔn)化建設(shè),數(shù)據(jù)資產(chǎn)建設(shè)四個(gè)環(huán)節(jié);而這四個(gè)環(huán)節(jié)的執(zhí)行過(guò)程都需要數(shù)據(jù)質(zhì)量稽查和數(shù)據(jù)安全管理這兩個(gè)模塊的支撐。

數(shù)據(jù)需求調(diào)研

在進(jìn)行數(shù)據(jù)需求調(diào)研時(shí),分兩個(gè)階段開展工作:首要工作是對(duì)現(xiàn)有數(shù)據(jù)資源進(jìn)行盤點(diǎn)和統(tǒng)計(jì),其次是對(duì)數(shù)據(jù)應(yīng)用進(jìn)行需求調(diào)研及規(guī)劃設(shè)計(jì)。數(shù)據(jù)資源盤點(diǎn)對(duì)數(shù)據(jù)項(xiàng)目是否能成功落地起決定性的作用:數(shù)據(jù)湖里若是連“水”都沒(méi)有,討論數(shù)據(jù)應(yīng)用的需求就是“空中樓閣”,應(yīng)用設(shè)計(jì)得再好,也無(wú)落地的可能。數(shù)據(jù)資源盤點(diǎn)完成后,需要針對(duì)實(shí)際情況,進(jìn)行數(shù)據(jù)的需求分析和規(guī)劃設(shè)計(jì),使數(shù)據(jù)資源的建設(shè)方向有的放矢。

對(duì)數(shù)據(jù)資源進(jìn)行盤點(diǎn),具體包括以下步驟:

一是從最易接入的數(shù)據(jù)類型入手,獲取數(shù)據(jù)庫(kù)中的數(shù)據(jù)。通過(guò)已有的數(shù)據(jù)庫(kù),獲取數(shù)據(jù)字典(若無(wú)則需要與業(yè)務(wù)人員進(jìn)行字段意義的逐一確認(rèn)),最終理解每個(gè)數(shù)據(jù)庫(kù)的部門歸屬、用途和意義,進(jìn)行元數(shù)據(jù)記錄及數(shù)據(jù)量統(tǒng)計(jì)。

二是盤點(diǎn)服務(wù)器數(shù)據(jù),例如系統(tǒng)日志和數(shù)據(jù)庫(kù)日志等,最終掌握每個(gè)日志的部門歸屬、用途和意義,進(jìn)行元數(shù)據(jù)記錄及數(shù)據(jù)量統(tǒng)計(jì)。

三是盤點(diǎn)IoT數(shù)據(jù),需要整理每種IoT數(shù)據(jù)所需的解析協(xié)議,進(jìn)行元數(shù)據(jù)記錄及數(shù)據(jù)量統(tǒng)計(jì);盤點(diǎn)非結(jié)構(gòu)化數(shù)據(jù),整理公司云盤、SVN等文件存儲(chǔ)器下的電子文檔及多媒體文件等,形成清單列表,表名屬性、分類、用途及歸屬等信息。

數(shù)據(jù)應(yīng)用的需求分析,從業(yè)務(wù)的實(shí)際痛點(diǎn)出發(fā),過(guò)程中需要與一線作業(yè)人員充分溝通,探求如何優(yōu)化業(yè)務(wù)人員的工作流程,提高實(shí)際業(yè)績(jī)。例如,為銷售人員提供公司客戶群體畫像,為售前人員提供能預(yù)測(cè)潛在客戶購(gòu)買概率的AI模型等。數(shù)據(jù)應(yīng)用需求分析完畢后,要對(duì)項(xiàng)目周期內(nèi)的應(yīng)用進(jìn)行規(guī)劃,即合理的應(yīng)用交付范圍,后續(xù)的數(shù)據(jù)資源建設(shè)方向都以此為目標(biāo)。

數(shù)據(jù)體系規(guī)劃

把握整體數(shù)據(jù)和應(yīng)用情況后,即可對(duì)數(shù)據(jù)體系進(jìn)行設(shè)計(jì)和規(guī)劃。

對(duì)于原始區(qū)數(shù)據(jù)引接問(wèn)題

?原始數(shù)據(jù)區(qū)需引接領(lǐng)域與類型;

?原始數(shù)據(jù)區(qū)未來(lái)采用全量同步或增量同步的引接方式;

?非結(jié)構(gòu)化數(shù)據(jù)引接前對(duì)于數(shù)據(jù)的處理及解析方式;

?歷史數(shù)據(jù)的引接范圍時(shí)間周期。

標(biāo)準(zhǔn)數(shù)據(jù)區(qū)對(duì)引接的原始數(shù)據(jù)處理方式問(wèn)題

?需要進(jìn)行數(shù)據(jù)清洗和轉(zhuǎn)化的方式及操作過(guò)程;

?對(duì)于字典標(biāo)準(zhǔn)、業(yè)務(wù)標(biāo)準(zhǔn)等標(biāo)準(zhǔn)集的抽取和制作方式;

?數(shù)據(jù)標(biāo)準(zhǔn)化的完成路徑。

主題區(qū)設(shè)計(jì)問(wèn)題

?主題區(qū)基于業(yè)務(wù)的主題庫(kù)設(shè)計(jì);

?主題庫(kù)內(nèi)的字段選擇;

?基于業(yè)務(wù)的主題庫(kù)內(nèi)容更新方式。

專題區(qū)設(shè)計(jì)問(wèn)題

?專題區(qū)基于業(yè)務(wù)和管理的專題庫(kù)設(shè)計(jì);

?主題庫(kù)至專題庫(kù)的映射關(guān)系設(shè)計(jì);

?專題數(shù)據(jù)服務(wù)提供時(shí)效;

?數(shù)據(jù)應(yīng)用與數(shù)據(jù)服務(wù)接口的交互方式。

一般來(lái)說(shuō),在這個(gè)階段,需要制定數(shù)據(jù)庫(kù)模型設(shè)計(jì)的規(guī)范、制定數(shù)據(jù)開發(fā)規(guī)范;二是進(jìn)行數(shù)據(jù)庫(kù)模型構(gòu)建,并提交評(píng)審討論。

數(shù)據(jù)標(biāo)準(zhǔn)化建設(shè)

數(shù)據(jù)標(biāo)準(zhǔn)是保障數(shù)據(jù)內(nèi)外部使用和交換一致性、準(zhǔn)確性的規(guī)范性約束,是進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化、消除數(shù)據(jù)業(yè)務(wù)歧義的主要參考和依據(jù)。數(shù)據(jù)標(biāo)準(zhǔn)管理是指數(shù)據(jù)標(biāo)準(zhǔn)的制定和實(shí)施等一系列活動(dòng),目標(biāo)是通過(guò)統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)制定和發(fā)布,結(jié)合相關(guān)約束、系統(tǒng)控制等手段,實(shí)現(xiàn)數(shù)據(jù)平臺(tái)上數(shù)據(jù)的完整性、有效性、一致性、規(guī)范性、開放性和共享性管理。

數(shù)據(jù)標(biāo)準(zhǔn)管理主要內(nèi)容包括標(biāo)準(zhǔn)規(guī)劃、標(biāo)準(zhǔn)制定、標(biāo)準(zhǔn)發(fā)布、標(biāo)準(zhǔn)執(zhí)行和標(biāo)準(zhǔn)維護(hù)五個(gè)階段。一般來(lái)說(shuō),通過(guò)將數(shù)據(jù)與標(biāo)準(zhǔn)集進(jìn)行關(guān)聯(lián)匹配來(lái)達(dá)成數(shù)據(jù)標(biāo)準(zhǔn)化的目的。需要注意的是,關(guān)聯(lián)匹配的前提是業(yè)務(wù)表與標(biāo)準(zhǔn)集之間存在可關(guān)聯(lián)字段,這就需要在標(biāo)準(zhǔn)構(gòu)建階段,甄選出業(yè)務(wù)價(jià)值最高需要進(jìn)行標(biāo)準(zhǔn)化建設(shè)的字段。

數(shù)據(jù)資產(chǎn)建設(shè)

數(shù)據(jù)資產(chǎn)建設(shè)是數(shù)據(jù)資源體系建設(shè)前期投入最大、最困難也最難看到顯著成效的模塊。但是所有數(shù)據(jù)化建設(shè)的最后,都要以數(shù)據(jù)資產(chǎn)為基礎(chǔ),圍繞資產(chǎn)去實(shí)現(xiàn)實(shí)際的數(shù)據(jù)應(yīng)用,因此數(shù)據(jù)資產(chǎn)建設(shè)階段的成果質(zhì)量好壞至關(guān)重要。

數(shù)據(jù)資產(chǎn)建設(shè)主要分為:

數(shù)據(jù)庫(kù)選型這個(gè)階段需要為不同的數(shù)據(jù)區(qū)選擇合適的數(shù)據(jù)庫(kù)產(chǎn)品(原始數(shù)據(jù)區(qū)采用HDFS文件系統(tǒng),使用HIVE進(jìn)行數(shù)據(jù)清洗轉(zhuǎn)換及查詢;專題區(qū)可以用MySQL進(jìn)行數(shù)據(jù)存儲(chǔ),提供快速的查詢反饋)。

平臺(tái)選型數(shù)據(jù)處理管道(pipeline)的開發(fā)需要平臺(tái)工具的支持,這些平臺(tái)工具能完成不同數(shù)據(jù)源的協(xié)議適配與數(shù)據(jù)引接,并能開發(fā)工作流實(shí)現(xiàn)數(shù)據(jù)的處理和流轉(zhuǎn)。

數(shù)據(jù)區(qū)建設(shè)這一步進(jìn)行實(shí)際的數(shù)據(jù)開發(fā)工作,根據(jù)前序已經(jīng)確立的方向及開發(fā)規(guī)范,引接真實(shí)數(shù)據(jù),進(jìn)行數(shù)據(jù)清洗,建設(shè)原始區(qū)、標(biāo)準(zhǔn)區(qū)、主題區(qū)及專題區(qū),并創(chuàng)建自動(dòng)化工作流,使數(shù)據(jù)得以定時(shí)化、自動(dòng)化更新。

數(shù)據(jù)資產(chǎn)建設(shè)完成后,即可按需開發(fā)數(shù)據(jù)接口,為上層應(yīng)用提供數(shù)據(jù)服務(wù)。

數(shù)據(jù)質(zhì)量稽查

數(shù)據(jù)質(zhì)量稽查需貫穿整個(gè)數(shù)據(jù)資產(chǎn)建設(shè)的過(guò)程,是數(shù)據(jù)質(zhì)量的重要保障,是數(shù)據(jù)應(yīng)用正確指導(dǎo)業(yè)務(wù)活動(dòng)的前提。通過(guò)數(shù)據(jù)質(zhì)量稽查,要求數(shù)據(jù)在提供給數(shù)據(jù)應(yīng)用前,要滿足準(zhǔn)確性、完整性、一致性、有效性、唯一性、及時(shí)性、穩(wěn)定性。

目前,業(yè)內(nèi)較為通用的校驗(yàn)規(guī)則如下:

單字段校驗(yàn)通過(guò)單一字段的約束條件進(jìn)行校驗(yàn),包含不為空、比較運(yùn)算、包含、不包含、取值范圍(區(qū)間)、取值范圍(枚舉)、字段長(zhǎng)度、字段類型、正則表達(dá)式等規(guī)則,可用于校驗(yàn)數(shù)據(jù)的準(zhǔn)確性、完整性等;

唯一性校驗(yàn)針對(duì)單一字段或者多個(gè)字段組合后做唯一性約束校驗(yàn),通過(guò)重復(fù)記錄行或其他違反唯一性約束屬性值進(jìn)行校驗(yàn);

關(guān)聯(lián)性校驗(yàn)針對(duì)字段的關(guān)聯(lián)關(guān)系校驗(yàn),通過(guò)引入其他關(guān)聯(lián)字段驗(yàn)證字段的存在和缺失進(jìn)行校驗(yàn);

記錄行統(tǒng)計(jì)型校驗(yàn)針對(duì)某個(gè)字段的記錄行總數(shù)做校驗(yàn),通過(guò)統(tǒng)計(jì)記錄行數(shù)量與合理閾值范圍比較來(lái)進(jìn)行校驗(yàn);

多源對(duì)比校驗(yàn)針對(duì)多個(gè)數(shù)據(jù)源進(jìn)行對(duì)比校驗(yàn),通過(guò)關(guān)聯(lián)字段和對(duì)比字段的對(duì)比,以校驗(yàn)通過(guò)率高或匹配率高的數(shù)據(jù)知曉哪個(gè)數(shù)據(jù)源的數(shù)據(jù)質(zhì)量高。

數(shù)據(jù)安全管理

數(shù)據(jù)治理流程中主要涉及數(shù)據(jù)采集安全和數(shù)據(jù)處理安全兩方面:數(shù)據(jù)采集安全包括數(shù)據(jù)分級(jí)分類、數(shù)據(jù)標(biāo)簽、數(shù)據(jù)采集身份管理、數(shù)據(jù)源鑒別、記錄和數(shù)據(jù)質(zhì)量管理;數(shù)據(jù)處理安全包括數(shù)據(jù)脫敏、數(shù)據(jù)分析安全、數(shù)據(jù),使用安全、數(shù)據(jù)導(dǎo)入導(dǎo)出安全和數(shù)據(jù)處理環(huán)境安全。

隨著數(shù)據(jù)資產(chǎn)的不斷積累,政府機(jī)關(guān)及企事業(yè)單位對(duì)于數(shù)據(jù)價(jià)值挖掘的需求逐漸顯現(xiàn)。數(shù)據(jù)價(jià)值挖掘的過(guò)程,不僅是使用數(shù)據(jù)分析挖掘工具進(jìn)行數(shù)據(jù)處理的過(guò)程,更是以數(shù)據(jù)規(guī)劃設(shè)計(jì)為起點(diǎn),通過(guò)構(gòu)建數(shù)據(jù)資源體系進(jìn)行系統(tǒng)化的數(shù)據(jù)資源管理的過(guò)程,也是為數(shù)據(jù)支撐業(yè)務(wù)打好最結(jié)實(shí)的基礎(chǔ),最終讓數(shù)據(jù)資產(chǎn)發(fā)揮其應(yīng)有的價(jià)值。

猜你喜歡
標(biāo)準(zhǔn)資源建設(shè)
2022 年3 月實(shí)施的工程建設(shè)標(biāo)準(zhǔn)
基礎(chǔ)教育資源展示
一樣的資源,不一樣的收獲
自貿(mào)區(qū)建設(shè)再出發(fā)
忠誠(chéng)的標(biāo)準(zhǔn)
美還是丑?
資源回收
基于IUV的4G承載網(wǎng)的模擬建設(shè)
電子制作(2018年14期)2018-08-21 01:38:28
《人大建設(shè)》伴我成長(zhǎng)
保障房建設(shè)更快了
民生周刊(2017年19期)2017-10-25 10:29:03
主站蜘蛛池模板: 免费午夜无码18禁无码影院| 国产视频 第一页| 伊人中文网| 亚洲中文字幕23页在线| 四虎精品黑人视频| 亚洲性日韩精品一区二区| 四虎综合网| 亚洲精品欧美日韩在线| 国产AV无码专区亚洲精品网站| 在线观看国产精品第一区免费| 女高中生自慰污污网站| 97视频免费在线观看| 久青草免费在线视频| 97视频免费在线观看| 亚洲av无码久久无遮挡| 亚洲热线99精品视频| 国产午夜福利在线小视频| 激情六月丁香婷婷| 成人国产精品网站在线看| 久久狠狠色噜噜狠狠狠狠97视色| 午夜成人在线视频| 精品国产欧美精品v| 日本一本正道综合久久dvd| 国产亚洲视频中文字幕视频| 91视频免费观看网站| 72种姿势欧美久久久久大黄蕉| 亚洲一级无毛片无码在线免费视频 | 欧美亚洲第一页| 激情无码字幕综合| 亚洲精品大秀视频| 成人毛片在线播放| 国产亚洲精品精品精品| 欧美亚洲第一页| 狠狠ⅴ日韩v欧美v天堂| 国产69精品久久| 久久夜夜视频| 中国美女**毛片录像在线| 国产一在线观看| 成人免费一级片| 国产伦精品一区二区三区视频优播| 福利小视频在线播放| 亚洲av无码片一区二区三区| 一区二区三区四区精品视频| 国产经典免费播放视频| 99久视频| 91精品国产一区自在线拍| 日本在线亚洲| 玖玖免费视频在线观看| 在线中文字幕日韩| 九九热视频精品在线| 四虎AV麻豆| 538精品在线观看| 国产视频大全| 久久性妇女精品免费| 黄片一区二区三区| 国产亚洲视频播放9000| 欧美日韩精品在线播放| 奇米影视狠狠精品7777| 久久久久国产精品免费免费不卡| 免费无遮挡AV| 激情乱人伦| 色老二精品视频在线观看| 中文字幕无码中文字幕有码在线| 毛片在线播放a| 国产欧美日韩免费| 不卡午夜视频| 九色在线观看视频| 综合久久五月天| 国产黄在线观看| 亚洲精品午夜天堂网页| 国产高清国内精品福利| 一本久道久久综合多人| 性激烈欧美三级在线播放| 久久久亚洲色| 在线视频精品一区| 亚洲人成人无码www| 欧美一级在线| 日韩精品一区二区三区视频免费看| 中文字幕佐山爱一区二区免费| 久久久91人妻无码精品蜜桃HD| 少妇露出福利视频| 日本道综合一本久久久88|