隨著互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能等先進(jìn)技術(shù)的發(fā)展,信息數(shù)據(jù)呈現(xiàn)幾何增長(zhǎng)。這些數(shù)據(jù)已經(jīng)滲透到當(dāng)今社會(huì)的各行各業(yè),為政府和企業(yè)進(jìn)行科學(xué)決策、開展各類研究、規(guī)劃未來(lái)發(fā)展方向等方面提供了充分的科學(xué)依據(jù),成為政府和企業(yè)發(fā)展中不可或缺的戰(zhàn)略資源。
隨著政府和企業(yè)智能化、信息化的轉(zhuǎn)型升級(jí),存量數(shù)據(jù)形成規(guī)模,數(shù)據(jù)質(zhì)量和可用性均不高等問(wèn)題逐漸暴露出來(lái),數(shù)據(jù)資源的利用率長(zhǎng)期處于低位,導(dǎo)致政府和企業(yè)在進(jìn)行決策過(guò)程中缺乏有效數(shù)據(jù)進(jìn)行支撐的窘境,這也是數(shù)據(jù)資源沒(méi)有發(fā)揮出其真正效應(yīng)的根本原因。數(shù)據(jù)資源體系則成為解決此類問(wèn)題的一劑良藥。
為確保數(shù)據(jù)資源體系建設(shè)工作的順利推進(jìn),依托數(shù)據(jù)資源建立便于任務(wù)推進(jìn)、促進(jìn)協(xié)調(diào)溝通、符合實(shí)際需要的數(shù)據(jù)治理工作組織,包括成立數(shù)據(jù)采集席位、數(shù)據(jù)治理席位、數(shù)據(jù)分析席位、數(shù)據(jù)運(yùn)維席位、數(shù)據(jù)管理席位,共同構(gòu)成數(shù)據(jù)資源體系建設(shè)的組織架構(gòu),并根據(jù)組織架構(gòu)層級(jí)確定角色和職責(zé),建立多層次、相互銜接的運(yùn)行機(jī)制,如圖1所示(見(jiàn)下頁(yè))。

圖1 數(shù)據(jù)治理工作組織
數(shù)據(jù)管理席位由數(shù)據(jù)架構(gòu)工程師組成。負(fù)責(zé)數(shù)據(jù)資源體系的架構(gòu)設(shè)計(jì)、關(guān)鍵數(shù)據(jù)治理技術(shù)突破和技術(shù)咨詢、數(shù)據(jù)實(shí)施開展的指導(dǎo)培訓(xùn)以及數(shù)據(jù)資源共享交換的權(quán)限審批。
數(shù)據(jù)分析席位由數(shù)據(jù)挖掘工程師組成。負(fù)責(zé)業(yè)務(wù)場(chǎng)景的數(shù)據(jù)分析、算法建模和模型部署以及數(shù)據(jù)共享交換服務(wù)的注冊(cè)發(fā)布,解決數(shù)據(jù)價(jià)值挖掘和數(shù)據(jù)決策支撐的痛點(diǎn)需求。
數(shù)據(jù)治理席位由數(shù)據(jù)ETL工程師組成。負(fù)責(zé)結(jié)構(gòu)化數(shù)據(jù)的抽取、轉(zhuǎn)換和加載,開展數(shù)據(jù)標(biāo)準(zhǔn)區(qū)、數(shù)據(jù)主題區(qū)和數(shù)據(jù)專題區(qū)的建設(shè)工作,提升數(shù)據(jù)資產(chǎn)化價(jià)值。
數(shù)據(jù)采集席位由數(shù)據(jù)爬蟲工程師和數(shù)據(jù)開發(fā)工程師組成。負(fù)責(zé)數(shù)據(jù)需求調(diào)研,實(shí)現(xiàn)對(duì)網(wǎng)頁(yè)數(shù)據(jù)、數(shù)據(jù)庫(kù)在線、物聯(lián)網(wǎng)傳感數(shù)據(jù)和離線文件四種場(chǎng)景的數(shù)據(jù)采集,進(jìn)行流程開發(fā)和運(yùn)維管理。
數(shù)據(jù)運(yùn)維席位由大數(shù)據(jù)運(yùn)維工程師組成。負(fù)責(zé)平臺(tái)應(yīng)用的部署、運(yùn)維和管理,大數(shù)據(jù)集群和數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器的運(yùn)維調(diào)優(yōu)工作。
在數(shù)據(jù)資源體系建設(shè)的具體實(shí)施過(guò)程中,可分為數(shù)據(jù)需求調(diào)研,數(shù)據(jù)體系規(guī)劃,數(shù)據(jù)標(biāo)準(zhǔn)化建設(shè),數(shù)據(jù)資產(chǎn)建設(shè)四個(gè)環(huán)節(jié);而這四個(gè)環(huán)節(jié)的執(zhí)行過(guò)程都需要數(shù)據(jù)質(zhì)量稽查和數(shù)據(jù)安全管理這兩個(gè)模塊的支撐。
在進(jìn)行數(shù)據(jù)需求調(diào)研時(shí),分兩個(gè)階段開展工作:首要工作是對(duì)現(xiàn)有數(shù)據(jù)資源進(jìn)行盤點(diǎn)和統(tǒng)計(jì),其次是對(duì)數(shù)據(jù)應(yīng)用進(jìn)行需求調(diào)研及規(guī)劃設(shè)計(jì)。數(shù)據(jù)資源盤點(diǎn)對(duì)數(shù)據(jù)項(xiàng)目是否能成功落地起決定性的作用:數(shù)據(jù)湖里若是連“水”都沒(méi)有,討論數(shù)據(jù)應(yīng)用的需求就是“空中樓閣”,應(yīng)用設(shè)計(jì)得再好,也無(wú)落地的可能。數(shù)據(jù)資源盤點(diǎn)完成后,需要針對(duì)實(shí)際情況,進(jìn)行數(shù)據(jù)的需求分析和規(guī)劃設(shè)計(jì),使數(shù)據(jù)資源的建設(shè)方向有的放矢。
對(duì)數(shù)據(jù)資源進(jìn)行盤點(diǎn),具體包括以下步驟:
一是從最易接入的數(shù)據(jù)類型入手,獲取數(shù)據(jù)庫(kù)中的數(shù)據(jù)。通過(guò)已有的數(shù)據(jù)庫(kù),獲取數(shù)據(jù)字典(若無(wú)則需要與業(yè)務(wù)人員進(jìn)行字段意義的逐一確認(rèn)),最終理解每個(gè)數(shù)據(jù)庫(kù)的部門歸屬、用途和意義,進(jìn)行元數(shù)據(jù)記錄及數(shù)據(jù)量統(tǒng)計(jì)。
二是盤點(diǎn)服務(wù)器數(shù)據(jù),例如系統(tǒng)日志和數(shù)據(jù)庫(kù)日志等,最終掌握每個(gè)日志的部門歸屬、用途和意義,進(jìn)行元數(shù)據(jù)記錄及數(shù)據(jù)量統(tǒng)計(jì)。
三是盤點(diǎn)IoT數(shù)據(jù),需要整理每種IoT數(shù)據(jù)所需的解析協(xié)議,進(jìn)行元數(shù)據(jù)記錄及數(shù)據(jù)量統(tǒng)計(jì);盤點(diǎn)非結(jié)構(gòu)化數(shù)據(jù),整理公司云盤、SVN等文件存儲(chǔ)器下的電子文檔及多媒體文件等,形成清單列表,表名屬性、分類、用途及歸屬等信息。
數(shù)據(jù)應(yīng)用的需求分析,從業(yè)務(wù)的實(shí)際痛點(diǎn)出發(fā),過(guò)程中需要與一線作業(yè)人員充分溝通,探求如何優(yōu)化業(yè)務(wù)人員的工作流程,提高實(shí)際業(yè)績(jī)。例如,為銷售人員提供公司客戶群體畫像,為售前人員提供能預(yù)測(cè)潛在客戶購(gòu)買概率的AI模型等。數(shù)據(jù)應(yīng)用需求分析完畢后,要對(duì)項(xiàng)目周期內(nèi)的應(yīng)用進(jìn)行規(guī)劃,即合理的應(yīng)用交付范圍,后續(xù)的數(shù)據(jù)資源建設(shè)方向都以此為目標(biāo)。
把握整體數(shù)據(jù)和應(yīng)用情況后,即可對(duì)數(shù)據(jù)體系進(jìn)行設(shè)計(jì)和規(guī)劃。
對(duì)于原始區(qū)數(shù)據(jù)引接問(wèn)題
?原始數(shù)據(jù)區(qū)需引接領(lǐng)域與類型;
?原始數(shù)據(jù)區(qū)未來(lái)采用全量同步或增量同步的引接方式;
?非結(jié)構(gòu)化數(shù)據(jù)引接前對(duì)于數(shù)據(jù)的處理及解析方式;
?歷史數(shù)據(jù)的引接范圍時(shí)間周期。
標(biāo)準(zhǔn)數(shù)據(jù)區(qū)對(duì)引接的原始數(shù)據(jù)處理方式問(wèn)題
?需要進(jìn)行數(shù)據(jù)清洗和轉(zhuǎn)化的方式及操作過(guò)程;
?對(duì)于字典標(biāo)準(zhǔn)、業(yè)務(wù)標(biāo)準(zhǔn)等標(biāo)準(zhǔn)集的抽取和制作方式;
?數(shù)據(jù)標(biāo)準(zhǔn)化的完成路徑。
主題區(qū)設(shè)計(jì)問(wèn)題
?主題區(qū)基于業(yè)務(wù)的主題庫(kù)設(shè)計(jì);
?主題庫(kù)內(nèi)的字段選擇;
?基于業(yè)務(wù)的主題庫(kù)內(nèi)容更新方式。
專題區(qū)設(shè)計(jì)問(wèn)題
?專題區(qū)基于業(yè)務(wù)和管理的專題庫(kù)設(shè)計(jì);
?主題庫(kù)至專題庫(kù)的映射關(guān)系設(shè)計(jì);
?專題數(shù)據(jù)服務(wù)提供時(shí)效;
?數(shù)據(jù)應(yīng)用與數(shù)據(jù)服務(wù)接口的交互方式。
一般來(lái)說(shuō),在這個(gè)階段,需要制定數(shù)據(jù)庫(kù)模型設(shè)計(jì)的規(guī)范、制定數(shù)據(jù)開發(fā)規(guī)范;二是進(jìn)行數(shù)據(jù)庫(kù)模型構(gòu)建,并提交評(píng)審討論。
數(shù)據(jù)標(biāo)準(zhǔn)是保障數(shù)據(jù)內(nèi)外部使用和交換一致性、準(zhǔn)確性的規(guī)范性約束,是進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化、消除數(shù)據(jù)業(yè)務(wù)歧義的主要參考和依據(jù)。數(shù)據(jù)標(biāo)準(zhǔn)管理是指數(shù)據(jù)標(biāo)準(zhǔn)的制定和實(shí)施等一系列活動(dòng),目標(biāo)是通過(guò)統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)制定和發(fā)布,結(jié)合相關(guān)約束、系統(tǒng)控制等手段,實(shí)現(xiàn)數(shù)據(jù)平臺(tái)上數(shù)據(jù)的完整性、有效性、一致性、規(guī)范性、開放性和共享性管理。
數(shù)據(jù)標(biāo)準(zhǔn)管理主要內(nèi)容包括標(biāo)準(zhǔn)規(guī)劃、標(biāo)準(zhǔn)制定、標(biāo)準(zhǔn)發(fā)布、標(biāo)準(zhǔn)執(zhí)行和標(biāo)準(zhǔn)維護(hù)五個(gè)階段。一般來(lái)說(shuō),通過(guò)將數(shù)據(jù)與標(biāo)準(zhǔn)集進(jìn)行關(guān)聯(lián)匹配來(lái)達(dá)成數(shù)據(jù)標(biāo)準(zhǔn)化的目的。需要注意的是,關(guān)聯(lián)匹配的前提是業(yè)務(wù)表與標(biāo)準(zhǔn)集之間存在可關(guān)聯(lián)字段,這就需要在標(biāo)準(zhǔn)構(gòu)建階段,甄選出業(yè)務(wù)價(jià)值最高需要進(jìn)行標(biāo)準(zhǔn)化建設(shè)的字段。
數(shù)據(jù)資產(chǎn)建設(shè)是數(shù)據(jù)資源體系建設(shè)前期投入最大、最困難也最難看到顯著成效的模塊。但是所有數(shù)據(jù)化建設(shè)的最后,都要以數(shù)據(jù)資產(chǎn)為基礎(chǔ),圍繞資產(chǎn)去實(shí)現(xiàn)實(shí)際的數(shù)據(jù)應(yīng)用,因此數(shù)據(jù)資產(chǎn)建設(shè)階段的成果質(zhì)量好壞至關(guān)重要。
數(shù)據(jù)資產(chǎn)建設(shè)主要分為:
數(shù)據(jù)庫(kù)選型這個(gè)階段需要為不同的數(shù)據(jù)區(qū)選擇合適的數(shù)據(jù)庫(kù)產(chǎn)品(原始數(shù)據(jù)區(qū)采用HDFS文件系統(tǒng),使用HIVE進(jìn)行數(shù)據(jù)清洗轉(zhuǎn)換及查詢;專題區(qū)可以用MySQL進(jìn)行數(shù)據(jù)存儲(chǔ),提供快速的查詢反饋)。
平臺(tái)選型數(shù)據(jù)處理管道(pipeline)的開發(fā)需要平臺(tái)工具的支持,這些平臺(tái)工具能完成不同數(shù)據(jù)源的協(xié)議適配與數(shù)據(jù)引接,并能開發(fā)工作流實(shí)現(xiàn)數(shù)據(jù)的處理和流轉(zhuǎn)。
數(shù)據(jù)區(qū)建設(shè)這一步進(jìn)行實(shí)際的數(shù)據(jù)開發(fā)工作,根據(jù)前序已經(jīng)確立的方向及開發(fā)規(guī)范,引接真實(shí)數(shù)據(jù),進(jìn)行數(shù)據(jù)清洗,建設(shè)原始區(qū)、標(biāo)準(zhǔn)區(qū)、主題區(qū)及專題區(qū),并創(chuàng)建自動(dòng)化工作流,使數(shù)據(jù)得以定時(shí)化、自動(dòng)化更新。
數(shù)據(jù)資產(chǎn)建設(shè)完成后,即可按需開發(fā)數(shù)據(jù)接口,為上層應(yīng)用提供數(shù)據(jù)服務(wù)。
數(shù)據(jù)質(zhì)量稽查需貫穿整個(gè)數(shù)據(jù)資產(chǎn)建設(shè)的過(guò)程,是數(shù)據(jù)質(zhì)量的重要保障,是數(shù)據(jù)應(yīng)用正確指導(dǎo)業(yè)務(wù)活動(dòng)的前提。通過(guò)數(shù)據(jù)質(zhì)量稽查,要求數(shù)據(jù)在提供給數(shù)據(jù)應(yīng)用前,要滿足準(zhǔn)確性、完整性、一致性、有效性、唯一性、及時(shí)性、穩(wěn)定性。
目前,業(yè)內(nèi)較為通用的校驗(yàn)規(guī)則如下:
單字段校驗(yàn)通過(guò)單一字段的約束條件進(jìn)行校驗(yàn),包含不為空、比較運(yùn)算、包含、不包含、取值范圍(區(qū)間)、取值范圍(枚舉)、字段長(zhǎng)度、字段類型、正則表達(dá)式等規(guī)則,可用于校驗(yàn)數(shù)據(jù)的準(zhǔn)確性、完整性等;
唯一性校驗(yàn)針對(duì)單一字段或者多個(gè)字段組合后做唯一性約束校驗(yàn),通過(guò)重復(fù)記錄行或其他違反唯一性約束屬性值進(jìn)行校驗(yàn);
關(guān)聯(lián)性校驗(yàn)針對(duì)字段的關(guān)聯(lián)關(guān)系校驗(yàn),通過(guò)引入其他關(guān)聯(lián)字段驗(yàn)證字段的存在和缺失進(jìn)行校驗(yàn);
記錄行統(tǒng)計(jì)型校驗(yàn)針對(duì)某個(gè)字段的記錄行總數(shù)做校驗(yàn),通過(guò)統(tǒng)計(jì)記錄行數(shù)量與合理閾值范圍比較來(lái)進(jìn)行校驗(yàn);
多源對(duì)比校驗(yàn)針對(duì)多個(gè)數(shù)據(jù)源進(jìn)行對(duì)比校驗(yàn),通過(guò)關(guān)聯(lián)字段和對(duì)比字段的對(duì)比,以校驗(yàn)通過(guò)率高或匹配率高的數(shù)據(jù)知曉哪個(gè)數(shù)據(jù)源的數(shù)據(jù)質(zhì)量高。
數(shù)據(jù)治理流程中主要涉及數(shù)據(jù)采集安全和數(shù)據(jù)處理安全兩方面:數(shù)據(jù)采集安全包括數(shù)據(jù)分級(jí)分類、數(shù)據(jù)標(biāo)簽、數(shù)據(jù)采集身份管理、數(shù)據(jù)源鑒別、記錄和數(shù)據(jù)質(zhì)量管理;數(shù)據(jù)處理安全包括數(shù)據(jù)脫敏、數(shù)據(jù)分析安全、數(shù)據(jù),使用安全、數(shù)據(jù)導(dǎo)入導(dǎo)出安全和數(shù)據(jù)處理環(huán)境安全。
隨著數(shù)據(jù)資產(chǎn)的不斷積累,政府機(jī)關(guān)及企事業(yè)單位對(duì)于數(shù)據(jù)價(jià)值挖掘的需求逐漸顯現(xiàn)。數(shù)據(jù)價(jià)值挖掘的過(guò)程,不僅是使用數(shù)據(jù)分析挖掘工具進(jìn)行數(shù)據(jù)處理的過(guò)程,更是以數(shù)據(jù)規(guī)劃設(shè)計(jì)為起點(diǎn),通過(guò)構(gòu)建數(shù)據(jù)資源體系進(jìn)行系統(tǒng)化的數(shù)據(jù)資源管理的過(guò)程,也是為數(shù)據(jù)支撐業(yè)務(wù)打好最結(jié)實(shí)的基礎(chǔ),最終讓數(shù)據(jù)資產(chǎn)發(fā)揮其應(yīng)有的價(jià)值。
中國(guó)自動(dòng)識(shí)別技術(shù)2021年1期