999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數據治理技術*

2019-10-24 05:50:08吳信東董丙冰堵新政
軟件學報 2019年9期
關鍵詞:方法

吳信東,董丙冰,堵新政,楊 威

1(明略科技集團,北京 100084)

2(合肥工業大學 大知識科學研究院,安徽 合肥 230009)

3(大數據知識工程教育部重點實驗室(合肥工業大學),安徽 合肥 230009)

4(合肥工業大學 計算機與信息學院,安徽 合肥 230601)

通訊作者:吳信東,E-mail:wuxindong@mininglamp.com

隨著信息技術的迅速發展,數據規模逐漸擴大.與此同時,劣質數據也隨之而來,極大地降低了數據挖掘的質量,對信息社會造成了嚴重的困擾[1].劣質數據大量存在于很多領域和機構,國外權威機構的統計表明:美國的企業信息系統中,1%~30%的數據具有各種錯誤和誤差[2];13.6%~81%的關鍵數據不完整或陳舊情況存在于美國的醫療信息系統中[3].根據Gartner 的調查結果:在全球財富1 000 強的企業中,超過25%的企業信息系統中存在錯誤數據[4].

大多數組織不考慮數據質量對大數據平臺建設、分析應用等方面的重要影響而盲目投入,缺乏對大數據資源的整體規劃和綜合治理,最終導致一些項目實施的終止和失敗.項目的失敗和數據量的激增,使得數據治理的重要性逐步得到工業界和學術界的共識.隨著國家政策支持以及產業實際需求的增長,如何通過數據治理提升組織數據管理能力、消除數據孤島、挖掘數據潛在的價值,將成為重點發展領域.

數據治理的重要前提是建設統一共享的數據平臺,信息系統的建設發展到一定階段,數據資源將成為戰略資產,而有效的數據治理才是數據資產形成的必要條件.同時,在數據共享的時代,享受大數據帶來便利的同時,也帶來如個人隱私泄露的問題[5].個人隱私信息泄露事件頻繁發生,使得人們更加注重保護個人的隱私信息,通常采取一些措施,如在進行網站注冊時故意填寫虛假信息,這將會嚴重的影響數據的質量和完整性,低質量的數據將導致低質量的挖掘結果.數據治理不僅要規范數據,實現數據的價值和管控風險,還要做到隱私保護.

本文首先對數據治理做全面的分析,然后介紹我們自己設計的大數據治理模型.本文第1 節介紹數據治理的定義和發展趨勢.第2 節介紹數據規范技術的內涵以及應用方法.第3 節介紹數據清洗的背景以及清洗的基本方法.第4 節對數據交換的基本概念及其實現模式進行闡述.第5 節介紹數據集成技術的基本概念和數據集成的方法,并說明這些方法的應用場景.第6 節從數據治理的成熟度模型開始,引出數據治理框架.第7 節對我們提出的HAO 治理模型進行詳細說明.第8 節以公安數據治理為例,具體介紹治理模型的具體應用.最后是對數據治理技術的總結與展望.

1 數據治理的研究現狀

1.1 數據治理的定義

至今為止,數據治理還沒有統一標準的定義.IBM 對于數據治理的定義是,數據治理是一種質量控制規程,用于在管理、使用、改進和保護組織信息的過程中添加新的嚴謹性和紀律性[6].DGI 則認為,數據治理是指在企業數據管理中分配決策權和相關職責[6].

數據治理的目標,總體來說就是提高數據質量,在降低企業風險的同時,實現數據資產價值的最大化,包括:

· 構筑適配靈活、標準化、模塊化的多源異構數據資源接入體系;

· 建設規范化、流程化、智能化的數據處理體系;

· 打造數據精細化治理體系、組織的數據資源融合分類體系;

· 構建統一調度、精準服務、安全可用的信息共享服務體系.

其次,我們還需理解數據治理的職能——數據治理提供了將數據作為資產進行管理所需的指導.最后,我們要把握數據治理的核心——數據資產管理的決策權分配和指責分工[7].

由此,數據治理從本質上看就是對一個機構(企業或政府部門)的數據從收集融合到分析管理和利用進行評估、指導和監督(EDM)的過程,通過提供不斷創新的數據服務,為企業創造價值[6].

數據治理與數據管理是兩個十分容易混淆的概念,治理和管理從本質上看是兩個完全不同的活動,但是存在一定的聯系,下面我們對這兩個概念進行詳細的解讀.

COBIT5(control objectives for information and related technology)對管理的定義:管理是按照治理機構設定的方向開展計劃、建設、運營和監控活動來實現企業目標[6].所以,治理過程是對管理活動的評估、指導和監督,而管理過程是對治理決策的計劃、建設和運營.具體分析:首先,數據治理與數據管理包含不同的活動即職能,數據治理包括評估指導和監督,數據管理包括計劃建設和運營;其次,數據治理是回答企業決策的相關問題并制定數據規范,而數據管理是實現數據治理提出的決策并給予反饋;最后,數據治理和數據管理的責任主體也是不同的,前者是董事會,后者是管理層.

1.2 大數據治理——數據治理新趨勢

近年來,大數據已成為國內外專家學者研究的熱點話題,目前基本上采用IBM 的5V 模型描述大數據的特征:第1 個V(volume)是數據量大,包括采集、存儲和計算的量都非常大;第2 個V(velocity)是數據增長速度快,處理速度也快,時效性要求高;第3 個V(variety)是種類和來源多樣化,包括結構化、半結構化和非結構化數據;第4 個V(value)是數據價值密度相對較低,可以說是浪里淘沙卻又彌足珍貴;第五個V(veracity)是各個數據源的質量良莠不齊,需要精心甄別[8].隨著數據量的激增,可以用“5V+I/O”——體量、速度、多樣性、數據價值和質量以及數據在線來概括其特征.這里的“I/O”是指數據永遠在線,可以隨時調用和計算,這個特征是大數據與傳統數據最大的區別.

2014 年,吳信東等人基于大數據具有異構、自治的數據源以及復雜和演變的數據關聯等本質特征,提出了HACE 定理[9].該定理從大數據的數據處理、領域應用及數據挖掘這3 個層次(如圖1 所示)來刻畫大數據處理框架[8].

框架的第1 層是大數據計算平臺,該層面臨的挑戰集中在數據存取和算法計算過程上;第2 層是面向大數據應用的語義和領域知識,該層的挑戰主要包括信息共享和數據隱私、領域和應用知識這兩個方面;架構的第3層集中在數據挖掘和機器學習算法設計上:稀疏不確定和不完整的數據挖掘、挖掘復雜動態的數據以及局部學習和模型融合[9].第3 層的3 類算法對應3 個階段:首先,通過數據融合技術對稀疏、異構、不確定、不完整和多源數據進行預處理;其次,在預處理之后,挖掘復雜和動態的數據;最后,通過局部學習和模型融合獲得的全局知識進行測試,并將相關信息反饋到預處理階段,預處理階段根據反饋調整模型和參數[9].

Fig.1 A big data processing framework[9]圖1 大數據處理框架[9]

面對大數據興起帶來的挑戰,為了促進大數據治理的發展和變革,目前業界比較權威的大數據治理定義是:大數據治理是廣義信息治理計劃的一部分,它通過協調多個職能部門的目標,來制定與大數據優化、隱私與貨幣化相關的策略[10].此定義指出:大數據的優化、隱私保護以及商業價值是大數據治理的重點關注領域,大數據治理是數據治理發展的一個新階段,與數據治理相比,各種需求的解決在大數據治理中變得更加重要和富有挑戰性[6].

· 海量數據存儲:根據本地實際數據量級和存儲處理能力,結合集中式或分布式等數據資源的存儲方式進行構建,為大數據平臺提供PB 級數據的存儲及備份能力支撐.云計算[11,12]作為一種新型的商業模式,它所提供的存儲服務具有專業、經濟和按需分配的特點,可以滿足大數據的存儲需求;

· 處理效率:大數據治理提供多樣化的海量數據接入及處理能力,包括對各類批量、實時、準實時及流式的結構化、非結構化數據提供快速的計算能力和搜索能力,比如數據加載能力≥130MB/s、億級數據秒級檢索、百億數據實時分析≤10s、千億數據離線分析≤30m 等等.對于大數據的搜索能力方面,為了保證數據安全,大數據在云計算平臺上的存儲方式一般為密文存儲,因此,研究人員設計了很多保護隱私的密文搜索算法[13-22],基于存儲在云平臺上大數據的計算安全問題的解決方法一般采用比較成熟的完全同態加密算法[23-29];

· 數據可靠性:圍繞行業數據元相關標準規定,基于行業元數據體系打造大數據平臺采集匯聚、加工整合、共享服務等全過程的、端到端的數據質量稽核管控體系,確保數據準確可靠;

· 數據安全性:數據價值是大數據平臺的核心價值,所以數據的安全是保證平臺運行的基礎.數據安全包括數據存儲的安全、數據傳輸過程中的安全,數據的一致性、數據訪問安全等,如圖2 所示.數據安全的總體目標是保證數據的存儲、傳輸、訪問、展示和導出安全.數據安全措施主要有數據脫敏控制[30]、數據加密控制、防拷貝管理、防泄漏管理、數據權限管理、數據安全等級管理等.

Fig.2 Data application security schematic圖2 數據應用安全示意圖

而數據治理技術就是在數據治理的過程中所用到的技術工具,其中主要包括數據規范、數據清洗、數據交換和數據集成這4 種技術,下面具體介紹這4 種技術.

2 數據規范

2.1 數據規范的含義

數據治理的處理對象是海量分布在各個系統中的數據,這些不同系統的數據往往存在一定的差異:數據代碼標準、數據格式、數據標識都不一樣,甚至可能存在錯誤的數據.這就需要建立一套標準化的體系,對這些存在差異的數據統一標準,符合行業的規范,使得在同樣的指標下進行分析,保證數據分析結果的可靠性.例如,對于數據庫的屬性值而言,可以建立唯一性規則、連續性規則以及空值規則等來對數據進行檢驗和約束:唯一性規則一般是指為主鍵或其他屬性填寫unique 約束,使得給定屬性的每個值與該屬性的其他值不同;連續性規則是指屬性的最大值和最小值之間沒有缺失值并且每個值也是唯一的,一般用于檢驗數;空值規則是指使用其他特殊符號來代替空值,以及對于這樣的值應該如何處理.

數據的規范化能夠提高數據的通用性、共享性、可移植性及數據分析的可靠性.所以,在建立數據規范時要具有通用性,遵循行業的或者國家的標準.

2.2 數據規范方法

數據治理過程中可使用的數據規范方法有:規則處理引擎、標準代碼庫映射.

(1)規則處理引擎

數據治理為每個數據項制定相關聯的數據元標準,并為每個標準數據元定義一定的處理規則,這些處理邏輯包括數據轉換、數據校驗、數據拼接賦值等.基于機器學習等技術,對數據字段進行認知和識別,通過數據自動對標技術,解決在數據處理過程中遇到的數據不規范的問題.

· 根據數據項標準定義規則模板,圖3 中“出生日期”的規則如下所示。

? 值域稽核規則:YYYY:MM:DD 或YYYY-MM-DD;

? 取值范圍規則:1900

· 將數據項與標準庫數據項對應。

借助機器學習推薦來簡化人工操作,根據語義相似度和采樣值域測試,推薦相似度最高的數據項關聯數據表字段,并根據數據特點選擇適合的轉換規則進行自動標準化測試.根據數據項的規則模板自動生成字段的稽核任務.

規則體系中包含很多數據處理的邏輯:將不同數據來源中各種時間格式的數據項,轉化成統一的時間戳(timestamp)格式;對數據項做加密或者哈希轉換;對身份證號做校驗,檢驗是否為合法的18 位身份證號,如果是15 位的,則將其統一轉換成18 位;將多個數據項通過指定拼接符號,連接成一個數據項;將某個常量或者變量值賦給某個數據項等.

規則庫中的規則可以多層級迭代,形成數據處理的一條規則鏈.規則鏈上,上一條規則的輸出作為下一條規則的輸入,通過規則的組合,能夠靈活地支持各種數據處理邏輯.例如:對身份證號先使用全角轉半角的規則,對輸出的半角值使用身份證校驗轉換規則,統一成18 位的身份證號;再對18 位身份證號使用數據脫敏規則,將身份證號轉成脫敏后的字符串.

Fig.3 Rule processing schematic圖3 規則處理示意圖

(2)標準代碼庫映射

標準代碼庫是基于國標或者通用的規范建立的key-value 字典庫,字典庫遵循國標值域、公安裝備資產分類與代碼等標準進行構建.當數據項的命名為XXXDM(XXX 代碼)時,根據字典庫的國標或部標代碼,通過字典規則關聯出與代碼數據項對應的代碼名稱數據項XXXDMMC(XXX 代碼名稱).

例如,我們想要將所有表示性別“男”的字段都轉換成“男”這種同一的表示方式,可以先建立一個數據字典,其中的鍵的取值范圍是所有不同表示方式的集合,值為最終我們想要歸一化表示的“男”.

使用數據轉換規則時查找數據字典,將所有不同的表示方式統一成一種表示方式.

3 數據清洗

3.1 數據清洗背景

數據質量一般由準確性、完整性、一致性、時效性、可信性以及可解釋性等特征來描述,根據Rahm 等人在2000 年對數據質量基于單數據源還是多數據源以及問題出在模式層還是實例層的標準進行分類,將數據質量問題分為單數據源模式層問題、單數據源實例層問題、多數據源模式層問題和多數據源實例層問題這4 大類[31].現實生活中的數據極易受到噪聲、缺失值和不一致數據的侵擾,數據集成可能也會產生數據不一致的情況,數據清洗就是識別并且(可能)修復這些“臟數據”的過程[32].如果一個數據庫數據規范工作做得好,會給數據清洗工作減少許多麻煩.對于數據清洗工作的研究基本上是基于相似重復記錄的識別與剔除方法展開的,并且以召回率和準確率作為算法的評價指標[33,34].現有的清洗技術大都是孤立使用的,不同的清洗算法作為黑盒子以順序執行或以交錯方式執行,而這種方法沒有考慮不同清洗類型規則之間的交互簡化了問題的復雜性,但這種簡化可能會影響最終修復的質量,因此需要把數據清洗放在上下文中結合端到端質量執行機制進行整體清洗[35].隨著大數據時代的到來,現在已經有不少有關大數據清洗系統的研究[36,37],不僅有對于數據一致性[38-40]以及實體匹配[41]的研究,也有基于MapReduce 的數據清洗系統的優化[42]研究.下面對數據清洗具體應用技術以及相關算法進行分析.

3.2 數據清洗基本方法

從微觀層面來看,數據清洗的對象分為模式層數據清洗和實例層數據清洗[43].數據清洗識別并修復的“臟數據”主要有錯誤數據、不完整的數據以及相似重復的數據,根據“臟數據”分類,數據清洗也可以分為3 類:屬性錯誤清洗、不完整數據清洗以及相似重復記錄的清洗,下面分別對每種情況進行具體分析.

3.2.1 屬性錯誤清洗

數據庫中很多數據違反最初定義的完整性約束,存在大量不一致的、有沖突的數據和噪聲數據,我們應該識別出這些錯誤數據,然后進行錯誤清洗.

(1)屬性錯誤檢測

屬性錯誤檢測有基于定量的方法和基于定性的方法.

· 定量的誤差檢測一般在離群點檢測的基礎上采用統計方法來識別異常行為和誤差,離群點檢測是找出與其他觀察結果偏離太多的點,Aggarwal 將關于離群點檢測方法又分為6 種類型:極值分析、聚類模型、基于距離的模型、基于密度的模型、概率模型、信息理論模型[44],并對這幾種模型進行了詳盡的介紹;

· 定性的誤差檢測一般依賴于描述性方法指定一個合法的數據實例的模式或約束,因此確定違反這些模式或者約束的就是錯誤數據.

圖4 描述了定性誤差檢測技術在3 個不同方面的不同分類,下面我們對圖中提出的3 個問題進行分析.

· 首先,錯誤類型是指要檢測什么.定性誤差檢測技術可以根據捕捉到的錯誤類型來進行分類,目前,大量的工作都是使用完整性約束來捕獲數據庫應該遵守的數據質量規則,雖然重復值也違反了完整性約束,但是重復值的識別與清洗是數據清洗的一個核心(在后續小節將會單獨介紹);

· 其次,自動化檢測.根據人類的參與與否以及參與步驟來對定性誤差檢測技術進行分類,大部分的檢測過程都是全自動化的,個別技術涉及到人類參與;

· 最后,商業智能層是指在哪里檢測.錯誤可以發生在數據治理的任何階段,大部分的檢測都是針對原始數據庫的,但是有些錯誤只能在數據治理后獲得更多的語義和業務邏輯才能檢測出來.

Fig.4 Classification of qualitative error detection techniques[45]圖4 定性誤差檢測技術分類[45]

不僅可以使用統計方法來對屬性錯誤進行檢測,使用一些商業工具也可以進行異常檢測,如數據清洗工具以及數據審計工具等.Potter’s Wheel[46]是一種公開的數據清洗工具,不僅支持異常檢測,還支持后面數據不一致清洗所用到的數據變換功能.

(2)屬性錯誤清洗

屬性錯誤清洗包括噪聲數據以及不一致的數據清洗.

· 噪聲數據的清洗也叫光滑噪聲技術,主要方法有分箱以及回歸等方法:分箱方法是通過周圍鄰近的值來光滑有序的數據值但是只是局部光滑,回歸方法是使用回歸函數擬合數據來光滑噪聲;

· 不一致數據的清洗在某些情況下可以參照其他材料使用人工進行修改,可以借助知識工程工具來找到違反限制的數據,例如:如果知道數據的函數依賴關系,通過函數關系修改屬性值.但是大部分的不一致情況都需要進行數據變換,即定義一系列的變換糾正數據,也有很多商業工具提供數據變換的功能,例如數據遷移工具和ETL 工具等,但是這些功能都是有限的.

3.2.2 不完整數據清洗

在實際應用中,數據缺失是一種不可避免的現象[42].有很多情況下會造成數據值的缺失,例如填寫某些表格時需要填寫配偶信息,那沒有結婚的人就無法填寫此字段,或者在業務處理的稍后步驟提供值,字段也可能缺失.處理缺失值目前有以下幾種方法.

· 忽略元組:一般情況下,當此元組缺少多個屬性值時常采用此方法,否則該方法不是很有效.當忽略了此條元組之后,元組內剩下的有值的屬性也不能被采用,這些數據可能是有用的;

· 人工填寫缺失值:這種方法最大的缺點就是需要大量的時間和人力,數據清理技術需要做到最少的人工干預,并且在數據集很大、缺失很多屬性值時,這種方法行不通;

· 全局變量填充缺失值:使用同一個常量來填充屬性的缺失值.這種方法雖然使用起來較為簡單,但是有時不可靠.例如,用統一的常量“NULL”來填寫缺失值,在后續的數據挖掘中,可能會認為它們形成了一個有趣的概念;

· 中心度量填充缺失值:使用屬性的中心度量來填充缺失值.中心度量是指數據分布的“中間”值,例如均值或者中位數,數據對稱分布使用均值、傾斜分布使用中位數;

· 使用最可能的值填充:相當于數值預測的概念.回歸分析是數值預測最常用的統計學方法,此外也可以使用貝葉斯形式化方法的基于推理的工具或決策樹歸納確定缺失值.

鑒于現在很多人為了保護自己的隱私或者為了方便,隨意地選擇窗口中給定的值,Hua 等人于2007 年提出了一種識別偽裝缺失數據的啟發式方法,當用戶不愿意泄露個人信息時故意錯誤地選擇窗口上的默認值(如生日字段),這時數據就會被捕獲[47].

3.2.3 相似重復記錄清洗

· 相似重復記錄識別

消除相似重復記錄,首先應該識別出相同或不同數據集中的兩個實體是否指向同一實體,這個過程也叫實體對齊或實體匹配.文本相似度度量是實體對齊的最基礎方法,大致分為4 種:基于字符的(例如編輯距離、仿射間隙距離、Smith-Waterman 距離、Jaro 距離度量、Q-gram 距離[48])、基于單詞的(例如Jaccard 系數)、混合型(例如softTF-IDF)和基于語義的(例如WordNet).隨著知識表示學習在各個領域的發展,一些研究人員提出了基于表示學習的實體匹配算法,但均是以TransE 系列模型為基礎構建的.TransE[49]首次提出基于翻譯的方法,將關系解釋為實體的低維向量之間的翻譯操作,隨之涌現出一些擴展的典型算法,下面對這些算法進行簡單介紹.

a)MTransE 算法[50]:基于轉移的方法解決多語言知識圖譜中的實體對齊.首先,使用TransE 對單個的知識圖譜進行表示學習;接著,學習不同空間的線性變換來進行實體對齊.轉移方法有基于距離的軸校準、翻譯向量、線性變換這3 種.該知識模型簡單復用TransE,對于提高實體對齊的精度仍存在很大局限;

b)JAPE 算法[51]是針對跨語言實體對齊的聯合屬性保護模型,利用屬性及文字描述信息來增強實體表示學習,分為結構表示、屬性表示.IPTransE 算法[52]使用聯合表示的迭代對齊,即使用迭代的方式不斷更新實體匹配.該方法分為3 部分:知識表示、聯合表示、迭代對齊.但這兩種算法都是基于先驗實體匹配,將不同知識圖譜中的實體和關系嵌入到統一的向量空間,然后將匹配過程轉換成向量表示間距離的過程;

c)SEEA 算法[53]分為兩部分:屬性三元組學習、關系三元組學習.該模型能夠自學習,不需要對齊種子的輸入.每次迭代,根據前面迭代過程所得到的表示模型,計算實體向量間的余弦相似度.并選取前β對添加到關系三元組中更新本次表示模型,直到收斂.收斂條件:無法選取前β對實體對.

實體對齊方法不僅應用于數據清洗過程中,對后續的數據集成以及數據挖掘也起到重要的作用.除此之外,也有很多重復檢測的工具可以使用,如Febrl 系統、TAILOR 工具、WHIRL 系統、BigMatch 等,但是很多匹配算法只適用于英文不適合中文,所以中文數據清洗工具的開發還需要進一步的研究.

· 相似重復記錄清洗

相似重復記錄的清洗一般都采用先排序再合并的思想,代表算法有優先隊列算法、近鄰排序算法、多趟近鄰排序算法.優先隊列算法比較復雜,先將表中所有記錄進行排序后,排好的記錄被優先隊列進行順序掃描并動態地將它們聚類,減少記錄比較的次數,匹配效率得以提高,該算法還可以很好地適應數據規模的變化.近鄰排序算法是相似重復記錄清洗的經典算法,近鄰排序算法是采用滑動窗口機制進行相似重復記錄的匹配,每次只對進入窗口的w條記錄進行比較,只需要比較w×N次,提高了匹配的效率.但是它有兩個很大的缺點:首先是該算法的優劣對排序關鍵字的依賴性很大,如果排序關鍵字選擇得不好,相似的兩條記錄一直沒有出現在滑動窗口上就無法識別相似重復記錄,導致很多條相似重復記錄得不到清洗;其次是滑動窗口的值w也很難把控,w值太大可能會產生沒必要的比較次數,w值太小又可能會遺漏重復記錄的匹配.多趟近鄰排序算法是針對近鄰排序算法進行改進的算法,它是進行多次近鄰排序算法每次選取的滑動窗口值可以不同,且每次匹配的相似記錄采用傳遞閉包,雖然可以減少很多遺漏記錄,但也會產生誤識別的情況.這兩個算法的滑動窗口值和屬性值的權重都是固定的,所以也有一些學者提出基于可變的滑動窗口值和不同權重的屬性值來進行相似重復記錄的清洗.以上算法都有一些缺陷,如都要進行排序,多次的外部排序會引起輸入/輸出代價過大;其次,由于字符位置敏感性,排序時相似重復的記錄不一定排在鄰近的位置,對算法的準確性有影響.

4 數據交換

4.1 數據交換的基本概念

數據交換是將符合一個源模式的數據轉換為符合目標模式數據的問題,該目標模式盡可能準確并且以與各種依賴性一致的方式反映源數據[54,55].

早期數據交換的一個主要方向是在關系模式之間從數據交換的上下文中尋求一階查詢的語義和復雜性.2008 年,Afrati 等人開始系統地研究數據交換中聚合查詢的語義和復雜性,給出一些概念并做出了技術貢獻[56].在一篇具有里程碑意義的論文中,Fagin 等人提出了一種純粹邏輯的方法來完成這項任務[55].從這時起,在數據庫研究界已經對數據交換進行了深入研究.近年,Xiao 等人指出,跨越不同實體的數據交換是實現智能城市的重要手段,設計了一種新穎的后端計算架構——數據隱私保護自動化架構(DPA),促進在線隱私保護處理自動化,以無中斷的方式與公司的主要應用系統無縫集成,允許適應靈活的模型和交叉的服務質量保證實體數據交換[57].隨著云計算和Web 服務的快速發展,Wu 等人將基于特征的數據交換應用于基于云的設計與制造的協作產品開發上,并提出了一種面向服務的基于云的設計和制造數據交換架構[58].

完善合理的數據交換服務建設,關系到大數據平臺是否具有高效、穩定的處理數據能力.

4.2 數據交換的實現模式

數據整合是平臺建設的基礎,涉及到多種數據的整合手段,其中,數據交換、消息推送、通過服務總線實現應用對接等都需要定義一套通用的數據交換標準,基于此標準實現各個系統間數據的共享和交換,并支持未來更多系統與平臺的對接.平臺數據交換標準的設計,充分借鑒國內外現有的各類共享交換系統的建設經驗,采用基于可擴展標記語言(XML)的信息交換框架.XML 定義了一組規則,用于以人類可讀和機器可讀的格式編碼文檔,它由國際萬維網聯盟設計.XML 文檔格式良好且結構化,因此它們更易于解析和編寫.由于它具有簡化、跨平臺、可擴展性和自我描述等特征,XML 成為通過Internet 進行數據傳輸的通用語言[59].XML 關心的重點是數據,而其他的因素如數據結構和數據類型、表現以及操作,都是有其他的以XML 為核心的相關技術完成.基于基本的XML 語言,通過定義一套數據元模型(語義字典)和一套基于XML Schema 的描述規范來實現對信息的共同理解,基于此套交換標準完成數據的交換.數據交換概括地說有以下兩種實現模式.

(1)協議式交換

協議式數據交換是源系統和目標系統之間定義一個數據交換交互協議,遵循制定的協議,通過將一個系統數據庫的數據移植到另一個系統的數據庫來完成數據交換.Tyagi 等人于2017 年提出一種通用的交互式通信協議,稱為遞歸數據交換協議(RDE),它可以獲得各方觀察到的任何數據序列,并提供單獨的性能序列保證[60];并于2018 年提出了一種新的數據交換交互協議,它可以逐步增加通信大小,直到任務完成,還導出了基于將數據交換問題與秘密密鑰協議問題相關聯的最小位數的下限[61].這種交換模式的優點在于:它無需對底層數據庫的應用邏輯和數據結構做任何改變,可以直接用于開發在數據訪問層.但是編程人員基于底層數據庫進行直接修改也是這種模式的缺點之一,編程人員首先要對雙方數據庫的底層設計有清楚的了解,需要承擔較高的安全風險;其次,編程人員在修改原有的數據訪問層時需要保證數據的完整性和一致性.此外,這種模式的另一個缺點在于系統的可重用性很低,每次對于不同應用的數據交換都需要做不同的設計.下面我們舉一個通俗易懂的例子:安徽人和新疆人有生意上的往來,但由于彼此說的都是家鄉話,交易很難進行,于是雙方就約定每次見面都使用安徽話或者新疆話.假如他們規定一個協議,每次見面都以安徽話來交談,那么新疆人每句話的語法結構和發音標準都按照安徽話來修改,同時要保證每句話的完整性和準確性,保證雙方順利的交談.然而在下次的生意中,新疆人可能面對的是一位廣東人,那么交流依舊出現了困難,此時新疆人又需要把自己的新疆話轉換為廣東話.

(2)標準化交換

標準化數據交換是指在網絡環境中建立一個可供多方共享的方法作為統一的標準,使得跨平臺應用程序之間實現數據共享和交換.下面我們依舊以安徽人與新疆人作交易為例來解釋這種交換模式.為了解決雙方無法溝通的困境,雙方約定每次見面交易都使用普通話這種標準來交流,當下次即使遇到全國各地的人,也可以使用普通話來交流,而且大家只需要熟悉普通話的語法規則即可,不需要精通各地的語言.這種交換模式的優點顯而易見,系統對于不同的應用只需要提供一個多方共享的標準即可,具有很高的可重用性.

實現基于XML 的數據交換平臺確實需要一系列的努力和資源來創建/管理交換,但它不是對現有系統的大規模改變而是有限的改變,所以使用基于XML 數據交換的關鍵優勢是信息共享的組織不需要更改其現有的數據存儲或標準,使得異構系統之間可以實現最大限度的協同,并能在現有數據交換應用的基礎上擴展更多新的應用,從而對不同企業間發展應用集成起到促進作用.

5 數據集成

5.1 數據集成的基本概念

在信息化建設初期,由于缺乏有效合理的規劃和協作,信息孤島的現象普遍存在,大量的冗余數據和垃圾數據存在于信息系統中,數據質量得不到保證,信息的利用效率明顯低下.為了解決這個問題,數據集成技術[62]應運而生.數據集成技術是協調數據源之間不匹配問題[63-67],將異構、分布、自治的數據集成在一起,為用戶提供單一視圖,使得可以透明地訪問數據源.系統數據集成主要指異構數據集成,重點是數據標準化和元數據中心的建立.

· 數據標準化:數據標準化的作用在于提高系統的可移植性、互操作性、可伸縮性、通用性和共享性.數據集成依據的數據標準包括屬性數據標準、網絡應用標準和系統元數據標準.名詞術語詞典、數據文件屬性字典、菜單詞典及各類代碼表等為系統公共數據,在此基礎上促成系統間的術語、名稱、代碼的統一,促成屬性數據統一的維護管理;

· 元數據中心的建立:在建立元數據標準的基礎上,統一進行數據抽取、格式轉換、重組、儲存,實現對各業務系統數據的整合.經處理的數據保存在工作數據庫中,庫中所有屬性數據文件代碼及各數據文件中的屬性項代碼均按標準化要求編制,在整個系統中保持唯一性,可以迅速、準確定位.各屬性項的文字值及代碼,也都通過詞庫建設進行標準化處理,實現一詞一義.建立元數據中心的基本流程如圖5所示.

Fig.5 Metadata center圖5 元數據中心

5.2 數據集成方法

數據規范和數據交換的完成,對數據集成的有效進行提供了很大的幫助,但在數據集成時仍然需要解決以下難題.

首先是異構性.數據異構分為兩個方面:其一,不同數據源數據的結構不同,此為結構性異構;其二,不同數據源的數據項在含義上有差別,此為語義性異構;其次是數據源的異地分布性;最后是數據源的自治性.數據源可以改變自身的結構和數據,這就要求數據集成系統應具有魯棒性.

為了解決這些難題,現在有模式集成方法、數據復制方法和基于本體的方法這幾種典型的數據集成方法:

(1)模式集成方法

模式集成方法為用戶提供統一的查詢接口,通過中介模式訪問實時數據,該模式直接從原始數據庫檢索信息(如圖6 所示).該方法的實現共分為4 個主要步驟:源數據庫的發現、查詢接口模式的抽取、領域源數據庫的分類和全局查詢接口集成[68-73].

Fig.6 Schematic diagram of a pattern integration approach圖6 模式集成方法示意圖

模式集成方法依賴于中介模式與原始源模式之間的映射[74],并將查詢轉換為專用查詢,以匹配原始數據庫的模式.這種映射可以用兩種方式指定:作為從中介模式中的實體到原始數據源中的實體的映射——全局視圖(GAV)方法[75],或者作為從原始源中的實體到中介模式——本地視圖(LAV)方法的映射[76].后一種方法需要更復雜的推理來解析對中介模式的查詢[67,77,78],但是可以更容易地將新數據源添加到穩定中介模式中.

模式集成方法的優點是為用戶提供了統一的訪問接口和全局數據視圖;缺點是用戶使用該方法時經常需要訪問多個數據源,存在很大的網絡延遲,數據源之間沒有進行交互.如果被集成的數據源規模比較大且數據實時性比較高更新頻繁,則一般采用模式集成方法.

(2)數據復制方法

數據復制方法是將用戶可能用到的其他數據源的數據預先復制到統一的數據源中,用戶使用時,僅需訪問單一的數據源或少量的數據源.數據復制方法提供了緊密耦合的體系結構,數據已經在單個可查詢的存儲庫中進行物理協調,因此解析查詢通常需要很少的時間[79],系統處理用戶請求的效率顯著提升;但在使用該方法時,數據復制需要一定的時間,所以數據的實時一致性不好保證.數據倉庫方法是數據復制方法的一種常見方式[80],第一個數據集成系統便是使用該方法于1991 年在明尼蘇達大學設計的.該方法的過程是:先提取各個異構數據源中的數據,然后轉換、加載到數據倉庫中,用戶在訪問數據倉庫查找數據時,類似訪問普通數據庫.

對于經常更新的數據集,數據倉庫方法不太可行,需要連續重新執行提取、轉換、加載(ETL)過程以進行同步.根據數據復制方法的優缺點可以看出:數據源相對穩定或者用戶查詢模式已知或有限的時候,適合采用數據復制方法.數據倉庫方法示意圖如圖7 所示.

下面舉例說明這兩種集成方法具體應用的區別:目前我們想要設計一個應用程序,該應用程序的功能為用戶可以利用該程序查詢到自己所在城市的任何信息,包括天氣信息、人口統計信息等.傳統的思想是,把所有這些信息保存在一個后臺數據庫中,但是這種廣度的信息收集起來難度大且成本高,即使收集到這些資源,它們也可能會復制已有數據庫中的數據,不具備實時性.

此時,我們選擇模式集成方法解決該應用程序面臨的問題,讓開發人員構建虛擬模式——全局模式,然后對各個單獨的數據源進行“包裝”,這些“包裝”只是將本地查詢結果(實際上是由相對應的網站或數據庫返回的結果)轉換為易于處理的表單,當使用該應用程序的用戶查詢數據時,看似是本地查詢,實則數據集成系統會將此查詢轉換為相應數據源上的相應查詢.最后,虛擬數據庫將這些查詢的結果反饋給用戶.

如果我們選擇使用數據復制方法來解決此問題的話,首先,我們需要把所有的數據信息復制到數據倉庫中,每當數據(如天氣情況)有所更新時,我們也要手動集成到系統中.所以,兩種數據集成方法的使用需根據具體的情形來選擇.

Fig.7 Schematic diagram of data warehouse method圖7 數據倉庫方法示意圖

(3)基于本體的數據集成

根據上述介紹,數據異構有兩個方面:前兩種方法都是針對解決結構異構而提出的解決方案;而本體技術致力于解決語義性異構問題.語義集成過程中,一般通過沖突檢測、真值發現等技術來解決沖突,常見的沖突解決策略有如下3 類:沖突忽略、沖突避免和沖突消解.沖突忽略是人工干預把沖突留給用戶解決;沖突避免是對所有的情形使用統一的約束規則;沖突消解又分為3 類:一是基于投票的方法采用簡單的少數服從多數策略;二是基于質量的方法,此方法在第1 種方法的基礎上考慮數據來源的可信度;三是基于關系的方法,此方法在第2 種方法的基礎上考慮不同數據來源之間的關系.

本體是對某一領域中的概念及其之間關系的顯式描述,基于本體的數據集成系統允許用戶通過對本體描述的全局模式的查詢來有效地訪問位于多個數據源中的數據[81].陶春等人針對基于本體的XML 數據集成的查詢處理提出了優化算法[82].目前,基于本體技術的數據集成方法有3 種,分別為:單本體方法、多本體方法和混合本體方法.

由于單本體方法所有的數據源都要與共享詞匯庫全局本體關聯,應用范圍很小,且數據源的改變會影響全局本體的改變.為了解決單本體方法的缺陷,多本體方法應運而生.多本體方法的每個數據源都由各自的本體進行描述,它的優點是數據源的改變對本體的影響小,但是由于缺少共享的詞匯庫,不同的數據源之間難以比較,數據源之間的共享性和交互性相對較差.混合本體方法的提出,解決了單本體和多本體方法的不足:混合本體的每個數據源的語義都由它們各自的本體進行描述,解決了單本體方法的缺點.混合本體還建立了一個全局共享詞匯庫以解決多本體方法的缺點,如圖8 所示.混合本體方法有效地解決了數據源間的語義異構問題.

Fig.8 Hybrid ontology approach圖8 混合本體方法

6 數據治理框架

6.1 數據治理成熟度模型

一個機構的數據治理能力越高,所享受到數據治理帶來的價值也會越多,如增加收入、減少成本、降低風險等.于是,很多機構想要準確地評估本公司的數據治理能力,可以利用數據治理成熟度模型方法,包括DQM,Dataflux 和IBM 在內的一些組織都開發了相類似的數據治理成熟度模型.

我們先介紹一下DQM 集團的數據治理成熟度模型[83],此數據治理成熟度模型共分為5 個階段.

(1)意識階段:當公司數據不統一的情況隨處可見,數據質量很差卻難以提高,數據模型的梳理難以進行時,公司會意識到數據治理對于數據平臺的建設發揮著至關重要的作用,但并沒有定義數據規則和策略,基本不采取行動;

(2)被動的反應階段:公司在出現數據上的問題時,會去采取措施解決問題,但并不會尋其根源解決根本問題,也就是說,公司的行動通常是由危機驅動的.該類反應性組織的數據仍然是“孤立”存在的,很少進行數據共享,只是努力達到監管的要求;

(3)主動的應對階段:處在這個階段的組織最終可以識別和解決根本原因,并可以在問題出現之前將其化解.這個階段的組織將數據視為整個企業的戰略資產,而不是像第1 階段將數據作為一種成本開銷;

(4)成熟的管理階段:這個階段的組織擁有一組成熟的數據流程,可以識別出現的問題,并以專注于數據開發的方式定義策略;

(5)最佳階段:一個組織把數據和數據開發作為人員、流程和技術的核心競爭力.

IBM 的數據治理成熟度模型也分為5 個階段[84],分別是初始階段、基本管理、定義階段(主動管理)、量化管理、最佳(持續優化)階段(影響數據治理成熟度的關鍵因素有以下3 個:嚴格性、全面性以及一致性).

(1)IBM 的初始階段是指企業缺乏數據治理流程,沒有跟蹤管理,也沒有一個穩定的數據治理的環境,僅僅只能體現個人的努力和成果,工作尚未開展;

(2)基本管理階段是指該階段有了初始的流程定義,開展了基本的數據治理工作,但仍然存在很多問題;

(3)定義階段是指企業在相關成功案例的基礎上積累了相關的經驗,形成了部分標準但仍不完善的流程;

(4)量化管理階段的企業能夠運用先進的工具對數據治理的效果進行量化,數據治理已經能取得持續的效果,并且能根據既定的目標進行一致的績效評估;

(5)最佳階段是持續地關注流程的優化,達到了此階段的企業已經具有創新能力,成為行業的領導者.

從這些企業的數據治理模型可以看出:數據治理從來都不是一次性的程序,而是一個持續的過程,這個過程必須是漸進式迭代型的,每個組織必須采取許多小的、可實現的、可衡量的步驟來實現長期目標.

6.2 數據治理框架

Khatri 等人使用Weill 和Ross 框架進行IT 治理,作為設計數據治理框架的起點[85],IBM 的數據治理委員會以支撐域、核心域、促成因素和成果這4 個層次來構建數據治理框架[84],如圖9 所示.

圖9 的數據治理框架所包含的11 個域并不是相互獨立運行的而是相關聯的,例如,數據的質量和安全/隱私要求需要在整個信息生命周期中進行評估和管理.IBM 的數據治理框架注重數據治理的方法以及過程,IBM 數據治理委員會最關鍵的命題是數據治理的成果,在下面3 層的支撐作用下,組織最終實現數據治理的目標提升數據價值.

在IBM 數據治理框架的基礎上加以擴充,文獻[6]設計了一個大數據背景下的數據治理框架,如圖10 所示.

結合IBM 公司的數據治理框架,我們對文獻[6]給出的大數據治理框架進行了幾處修改得到圖10.為了與圖9 保持一致,將文獻[6]中大數據治理框架圖的“范圍”修改為“核心域”,文獻[6]的大數據治理框架圖的“大數據質量”修改為“數據質量管理”,文獻[6]的大數據治理框架圖的“大數據生命周期”修改為“數據生命周期管理”.圖10從原則、核心域、實施與評估這3 個方面來對大數據治理全面地進行描述,企業數據治理應該遵循戰略一致、風險管理、運營合規以及價值創造這4 個基本的指導性原則,治理的核心域或者說叫決策域包括戰略、組織、數據生命周期管理、數據質量管理、大數據服務創新、大數據安全以及大數據架構這7 個部分,實施與評估維度指出大數據治理在實施評估時重點需要關注促成因素、實施過程、成熟度評估以及審計這4 個方面.一個大數據治理組織要在4 個基本原則下對7 個核心域進行數據治理,不斷地推進大數據治理的工作.

Fig.9 IBM data governance framework[84]圖9 IBM 數據治理框架[84]

Fig.10 Big data governance framework[6]圖10 大數據治理框架[6]

框架頂部的4 個原則是數據治理自上而下的頂層設計,對大數據治理的實施具有指導作用,它為所有其他的管理決策確定方向.戰略一致是指數據治理的戰略要和企業的整體戰略保持一致,在制定數據治理戰略時要融合企業的整體戰略、企業的文化制度以及業務需要,來繪制數據治理實現藍圖;大數據的到來不僅伴隨著價值同時也會帶來風險,企業要保持風險可控有計劃地對風險進行不定期的評估工作;運營合規是指企業在數據治理過程中要遵守法律法規和行業規范;企業的數據治理要不斷地為企業提供創新服務創造價值.

框架的核心域也可以叫做決策域,指出數據治理需要治理的核心對象,下面對數據治理的7 個核心域進行一一介紹,其中:戰略制定要根據大數據治理目標來制定,根據戰略的制定,企業應該設置對應的組織架構把戰略實施落到實處,明確各個部門相關職責;數據生命周期管理是從數據的采集、存儲、集成、分析、歸檔、銷毀的全過程進行監督和管理,根據出現的問題及時優化的過程;數據質量管理不僅要保障數據的完整性、準確性、及時性以及一致性,而且還包括問題追蹤和合規性監控.

2014 年10 月,美國摩根大通公司電腦系統發生數據泄露,被竊取的信息包括客戶姓名、地址、電話號碼和電子郵箱地址,將對7 600 萬家庭和700 萬小企業造成影響.2018 年1 月,有一家數據分析公司對Facebook 超過8 700 萬用戶進行非法的數據挖掘,接下來的3 月、9 月以及12 月,Facebook 又多次發生用戶數據泄露事件.大數據背景下的信息開放和共享,使得隱私和信息安全問題被顯著放大,IBM 數據治理專家Soares 在其著作《Big Data Governance an Emerging Imperative》中以清晰的案例介紹電信行業利用地理位置數據來侵犯個人隱私[10],因此在大數據治理過程中,采取一定的措施和策略保證信息安全和隱私保護尤為重要.下面從大數據安全防護和隱私保護兩個方面來介紹它們的關鍵技術.

(1)首先,大數據安全防護主要包括以下關鍵技術.

· 大數據加密技術:對平臺中的核心敏感數據進行加密保護,結合訪問控制技術,利用用戶權限和數據權限的比較來防止非授權用戶訪問數據;

· 大數據安全漏洞檢測:該技術可以采用白/黑/灰盒測試或者動態跟蹤分析等方法,對大數據平臺和程序進行安全漏洞檢測,減少由于設計缺陷或人為因素留下的問題;

· 威脅預測技術:利用大數據分析技術,對平臺的各類信息資產進行安全威脅檢測,在攻擊發生前進行識別預測并實施預防措施;

· 大數據認證技術:利用大數據技術收集用戶行為和設備行為數據,根據這些數據的特征對使用者進行身份判斷;

(2)其次,對于隱私保護,現有的關鍵技術分析如下.

· 匿名保護技術:針對結構化數據,一般采用數據發布匿名保護技術;而對于類似圖的非結構化數據,則一般采用社交網絡匿名保護技術;

· 數據水印技術:水印技術一般用于多媒體數據的版權保護,但多用于靜態數據的保護,在大數據動態性的特點下需要改進;

· 數據溯源技術:由于數據的來源不同,對數據的來源和傳播進行標記,為使用者判斷信息真偽提供便利;

· 數據審計技術:對數據存儲前后的完整性和系統日志信息進行審計.

大數據架構是從系統架構層面進行描述,不僅關心大數據的存儲,還關心大數據的管理和分析.我們首先要明確元數據和主數據的含義:元數據是對數據的描述信息,而主數據就是業務的實體信息.所以對于元數據和主數據的管理是對基礎數據的管理.數據治理不僅要降低企業成本,還要應用數據創新服務為企業增加價值,大數據服務創新也是大數據治理的核心價值.

大數據治理的實施與評估主要包括促成因素、實施過程、成熟度評估和審計:促成因素包括企業的內外部環境和數據治理過程中采用的技術工具;大數據治理是一個長期的、閉環的、循序漸進的過程,在每一個階段需要解決不同的問題,有不同的側重點,所以應該對數據生命周期的每個階段有一個很好的規劃,這就是實施過程的內涵所在;數據治理成熟度模型我們已經在本節的上半部分介紹了它的內容,但成熟度評估主要是對數據的安全性、一致性、準確性、可獲取性、可共享性以及大數據的存儲和監管進行評估;審計是第三方對企業數據治理進行評價和給出審計意見,促進有關數據治理工作內容的改進,對于企業的持續發展意義重大.

在企業的數據治理過程中,治理主體對數據治理的需求進行評估來設定數據治理的目標和發展方向,為數據治理戰略準備與實施提供指導,并全程監督數據治理的實施過程.通過對實施成果的評估,全面了解本公司數據治理的水平和狀態,更好地改進和優化數據治理過程,以致達到組織的預期目標.

7 HAO 治理模型

下面介紹我們自己設計的HAO 治理模型.該模型從大數據開始,為HI(人類智能)、AI(人工智能)和OI(組織智能)三者協同的HAO 智能[86]提供數據治理支持.

HAO 治理模型旨在實現以下需求.

(1)建立全面、動態、可配置的數據接入機制,滿足數據采集、數據匯聚、任務配置、任務調度、數據加密、斷點續傳等需求;

(2)建立標準化的數據處理流程,形成面向數據內容的數據規范、清洗、關聯、比對、標識等轉換處理規范模式,為一個組織的數據融合建庫提供支撐;

(3)統籌建設多元集成、融合建庫的數據組織模式,按照業務類型、敏感程度、隱私內容等關鍵要素分級分類推進云建庫和存儲管理,采用特征標簽、歸一集成等多種手段實現不同來源的數據資源關聯融合;

(4)構建知識圖譜分類,建設多渠道、多維度的數據服務模式,面向使用者提供查詢檢索、比對排序等基礎數據服務,面向專業人員提供挖掘分析、專家建模等智能數據服務;

(5)HI 和AI 通過知識圖譜和OI 實現交互和協同,存取和共享治理過的集成數據,并利用大數據處理模型(以HACE 定理開始的三級結構,如圖1 所示)、云計算和霧計算機制來實現數據服務和隱私保護.

HAO 治理模型如圖11 所示.

Fig.11 Architecture diagram of HAO governance model圖11 HAO 治理模型架構圖

該模型具備以下功能.

· 支持不同種類、不同數據源、不同目標庫的數據抽取傳輸.常用數據源、目標庫類型包括Oracle,SqlServer,MySql,Hbase,Hive,GreenPlum,Gbase,PostgreSQL,SOLR,Redis,ODPS,OTS,GDS 等主流數據庫,常用文件類型包括FTP,XML,CSV,JSON,EXCEL 等,常見消息處理類型包括Kafka 和Webservice;

· 支持不同類型的抽取匯聚任務配置,主要包括異構數據庫之間數據傳輸匯聚,不同類型、跨服務器的文件型數據傳輸,數據庫和文件類、服務接口間相互傳輸等;

· 支持數據清洗和數據規范的規則自定義,主要包括NULL 值替換、字符串操作、數據類型轉換、函數依賴、正則處理、組合字段、數據比對、自定義SQL 腳本執行、JSON 輸出等數據轉換規則,以及對相似重復記錄和屬性值異常等問題數據清洗規則,以及MD5 加密規則;

· 實現基于數據元的異構數據自動解析,并能按照業務場景進行自定義配置,實現智能化、可視化、組件式數據匯聚整合任務構建;

· 通過構建知識圖譜實現作業流程的可視化設計,各組件、連接線等以圖形控件形式提供,并按不同功能分組,支持復制、粘貼、剪切、撤銷等功能,數據整合任務在流程設計器中可直觀顯示;

· 支持插件二次開發:提供第三方開發平臺,方便根據現場實際業務需求,定制項目插件.

HAO 治理模型的設計準則包括:(1)數據源和治理功能的模塊化;(2)模型的可分解性;(3)快速原型系統構建;(4)數據更新和融合能力;(5)交互的靈活性和(6)實時反應.

下面對HAO 治理模型包括的3 個核心模塊——數據接入模塊、數據治理模塊、數據服務模塊分別進行介紹.

7.1 數據接入模塊

大數據工程的數據來源包含企業內部數據和企業外部數據,其中:企業內部數據由資源服務平臺、綜合資源庫、各業務系統生產庫中的結構化數據和文件服務器上的文本、圖片等非結構化數據組成,其中包括人財物記錄、財物報表、原材料、顧客信息、氣測數據以及企業的文化和規章制度等;企業外部數據由社會數據、互聯網數據和設備采集數據組成,外部數據一般包括地理環境、人口數據、經濟市場、金融數據、社會關系、社交數據等等.

在數據接入之前,首先需要進行數據采集,如圖12 所示.數據采集基于云計算和分布存儲之上的采集工具,采用標準化、規范化的抽取模式,實現結構化、半結構化、非結構化資源的統一抽取、整合、加工、轉換和裝載.數據采集工具主要包括了數據層、接入層、交互層和監控層.其中,工具的數據層即涉及整個采集平臺中總體架構的數據層即數據支撐層,工具背后的接入層是采集邏輯處理部分,交互層即對應總體架構的采集門戶.

Fig.12 Data acquisition tool architecture diagram圖12 數據采集工具架構圖

數據層指出企業內部和企業外部數據的主要數據來源方式,數據庫可以是指業務系統的Oracle;文件方式是各種文件或FTP 接入的文件包;接口主要是用來企業對接外部系統使用的;數據流是指可以使用Kafka 平臺處理的實時數據流式方式這種來源.接入層主要提供豐富的工具集,針對不同的數據接入方式提供相應的工具組件,依賴作業配置引擎和作業調度引擎實現數據抽取.監控層可監控作業執行情況,采集作業日志,對問題作業及時告警,方便后期用戶排除故障、維護作業.交互層提供可視化頁面便捷地實現數據接入與作業管理.

對采集后各種類型的源數據進行數據抽取,該模型的數據抽取支持3 種方式:全量抽取、增量抽取、實時抽取,將經過數據抽取后的數據匯入到匯聚庫中;對于其他的數據庫系統,可以直接通過數據交換平臺,把數據匯入到匯聚庫中.

7.2 數據治理模塊

數據治理模塊主要包括對匯聚庫中的數據進行數據清洗和數據規范,必要時進行主題劃分和數據關聯,然后進行數據集成,治理完成后的數據匯聚到數據共享中心中.

數據清洗是對數據進行審查和校驗,過濾不合規數據、刪除重復數據、糾正錯誤數據、完成格式轉換,并進行清洗前后的數據一致性檢查,保證清洗結果集的質量.數據清洗的方法除了以上介紹的幾種基本方法以外,該模型還支持自定義清洗規則,數據清洗規則是由業務需求人員與開發人員配合制定數據處理邏輯,經過這些規則進行數據清洗后,保證數據的一致性、準確性和規范性更能滿足業務上的需求.

數據治理技術及基本方法在前面幾節進行了詳細介紹.

7.3 數據服務模塊

數據服務模塊以數據共享中心構建知識圖譜為起點,早在2006 年,Web 創始人Berners-Lee 就提出數據鏈接的思想,隨后掀起了語義網絡的狂潮[87],知識圖譜在此基礎上形成.但是直到2012 年,知識圖譜的概念才被谷歌正式提出[88].知識圖譜是由節點和邊組成的巨型知識網絡,節點代表實體,邊代表實體之間的關系,每個實體還由(key-value)鍵值對來描述實體的內在特性.新的知識圖譜中還增加了實體與實體之間的事件,即邊表示關系或事件.楊玉基等人提出用四步法來構建知識圖譜,即領域本體構建、眾包半自動語義標注、外源數據補全、信息抽取[89].

數據服務模塊基于知識圖譜面向不同用戶提供多渠道、多維度的數據服務,面向使用者提供模型管理、智能發現、模型探索、數據探索、數據訂閱等數據服務,面向專業人員提供挖掘分析、專家建模等智能數據服務.模型管理主要是對實體、關系進行編輯和處理;智能發現是根據日志等元信息,將配置到系統的數據源反向推導出物理模型關系,將多個異構物理模型歸一到同一實體后自動生成語義層的業務視圖;模型探索是支持關鍵詞搜索實體、關系等,將搜索結果拖拽到畫布探索實體之間以及關系之間的核對關系,用戶在了解業務模型的同時,也可以了解到業務模型背后對應的物理模型,以及物理數據表的生產血緣關系;數據探索是對業務模型視圖可以進行知識問答式的搜索,在路徑的任意節點上設置標簽的條件,再在另外的節點上設定對應標簽的答案,使得用戶對數據的業務關系充分地了解;數據訂閱滿足外部其他平臺對本平臺各類數據的需求,通過對不同用戶下放的不同權限,再結合數據資源目錄服務的開放數據內容,為外部用戶提供數據訂閱/退訂流程,并通過資源總線服務完成最終的數據投遞.

領域專家們(人類智能,HI)可以根據知識圖譜中的實體、關系、屬性等核心數據進行建模,并進行高層次的數據挖掘分析和加工,可以同知識圖譜、數據分析與加工模塊(AI)和組織智能(OI)相互交互和協同,實現HAO智能的大智慧問題求解[86].吳信東等人于2008 年所編著的《數據挖掘十大算法》一書詳細地介紹了用途最廣、影響最大的10 種數據挖掘算法[90],并于2018 年,吳信東等人基于分布式計算對大數據分析的兩種算法——MapReduce 與Spark 從背景、原理以及應用場景進行了具體的分析與比較[91].HACE 定理的大數據處理框架中(如圖1 所示),第1 層架構解決了流數據存儲的計算問題,第2 層架構考慮了隱私保護和模式發現,第3 層架構主要描述復雜的數據挖掘算法,HACE 定理在數據服務模塊如關聯分析與計算以及數據挖掘得到了廣泛應用[8];自然語言處理的應用更加廣泛,例如我們平時使用的私人助手Siri 以及出行助手等,都能給人們帶來更加便利的服務.HAO 治理模型涵蓋了數據治理的全過程,從數據的采集、交換、清洗、規范、集成、應用等融為一體,完成了智能數據治理.

HAO 智能的核心是在大數據問題環境下,用人機協同來實現組織智能(HI+AI+OI),所以數據治理功能的模塊化和交互的靈活性是上面提到的HAO 治理模型6 個設計準則中的兩個.

8 數據治理具體應用

下面以公安數據治理為例,具體介紹HAO 治理模型的大數據治理過程.

8.1 公安數據治理架構

圖13 描述的是公安數據治理框架,平臺架構主要包括數據存儲、數據計算、數據管理、數據應用這4 個部分.

(1)數據存儲:基于分布式的大數據存儲平臺,具有很強的存儲能力和擴張能力;

(2)數據計算:這是數據治理的最主要部分,包括數據的探查、提取、清洗、轉換、集成等.這些計算任務都是基于大數據分布式的計算能力,應用MapReduce 批處理和spark streaming 流式處理技術,通過scheduler 任務調度器,實現對調度任務的執行、管理與監控.

? 數據探查:通過對數據量、數據質量、數據特征等指標的分析來評估后續數據治理任務的工作量;

? 數據提取:抽取分布在各個系統中的各種類型的源數據,提取元數據,基于深度學習的語音識別、圖像識別、視頻處理技術,實現對非結構化的數據提取;

? 數據清洗:對缺失數據的處理,過濾掉重復相似的記錄,清除值錯誤的數據;

? 數據轉換:將不符合規范的數據,按照規范化的處理規則,轉化成符合標準的數據,如編碼統一、格式統一、元數據統一等;

? 數據集成:將轉化后的規范化數據進行整合,按照一定方式重新組織,如數據屬性的融合、關系融合、數據的主題化、標簽化等;

(3)數據管理:對集成后的數據統一維護與管理,包括對數據質量的檢測、數據安全控制、數據血緣的監控、元素管理等.

? 數據質量檢測:從各個維度(唯一性、準確性、完整性、合法性等)檢測,并形成數據質量報告;

? 數據安全控制:對數據的使用與訪問,進行權限的管理與控制;

? 數據血緣監控:追蹤數據的來源與去向的整個過程;

? 元數據管理:數據知識庫的建立與維護,包括對代碼庫、標準庫、標簽庫、模型庫、圖譜庫等的管理;

(4)數據應用:這是數據價值最直接的體現,基于自然語言處理、數據挖掘算法模型等技術對數據分析挖掘,包括統計分析、比對碰撞、關聯分析、數據挖掘等,將分析結果提供給上層應用,如構建專題庫、主題庫、構建知識圖譜等.

8.2 數據處理流程

數據處理流程是對源數據到目標數據整個處理過程的監管,并描述了數據采集、數據處理及數據展現這3個方面所用到的技術架構和處理邏輯.本節主要介紹了處理流程中數據接入、數據預處理、數據規范化、數據清洗、數據標簽化、數據主題化、構建知識圖譜以及數據分析與挖掘8 個方面的內容.

(1)數據接入

公安系統中的源數據,包括結構化文本、關系型數據庫、非結構化的文本及視頻、hadoop 平臺中的數據以及流式數據,經過批處理引擎或流式計算引擎,接入到統一的數據源系統中,形成最初的數據集市.

(2)數據預處理

在對數據集市中的數據做處理前,根據數據規則庫定義的規則,首先對數據進行預處理,包括數據質量的評估、空值率的計算、數據特征分析、數據格式的分析等;然后判斷數據是否有治理的價值;然后提取需要治理的數據、提取元數據,經過統一的編碼轉換處理后,過濾掉臟、亂、差的數據;然后進行數據去重等清洗處理.

(3)數據規范化

數據規范是將預處理后的數據,根據數據標準知識庫的標準,將數據統一處理成符合行業標準、省部級標準及國標等標準的規范化數據,提高數據的可移植性、共享性及復用性.數據規范過程(標準化過程)中所依賴的數據規范來源于權威性的行業規范、國標、部標等,對數據、名稱、字段及元數據等進行標準化.

(4)數據清洗

數據清洗是對不完整的數據、不一致的數據以及異常的數據進行清洗,并過濾掉重復相似的記錄.

(5)數據標簽化

數據標簽根據數據標簽庫可以分為技術標簽和業務標簽:技術標簽是基于表、字段的技術元數據,例如空間占用、條目數、最新更新時間、更新頻率、訪問頻率、數據格式、字段數據類型、是否壓縮等,通過規則引擎進行規則計算,為庫、表、字段等打上相應的技術標簽,例如最近一天更新的數據、大數據集、小數據集、頻繁更新數據集、壓縮文件、圖片、視頻等;業務標簽基于庫、表、字段的業務定義、描述,值域的具體內容,對于數據進行業務標簽生成,例如對于庫表來說,數據來源/數據種類(人口、教育、醫療等)標簽、數據內容標簽(姓名、組織、地址、電話、商品等).

(6)數據主題化

數據按照一定的主題進行關聯來構造一個模型.公安數據治理分別以人、物、時空、組織、虛擬標識、案件等作為主題,分別建立模型,如圖14 所示.

· 以人作為主題時,提取自然人為主體進行描述的數據資源,并按照公安部的數據分類進行主題模型的構建;

· 以物作為主題構建模型時,提取特定的物為主體進行描述的數據資源,針對不同情況涵蓋不同的內容,包括物品、物證、微小痕跡、尸體等;

· 以時空作為主題時,提取以時間、地點為主體進行描述的數據資源來構建時空主體模型;

· 以組織作為主題時,提取法人、單位、特定人群組織結構(如:戶)為主體進行描述的數據資源來構建組織類主題模型;

· 以虛擬標識作為主題時,以一個物品的標簽或者分類信息作為主題進行構建模型;

· 以案件作為主題構建模型時,根據執行主體的不同,案件又分為偵查調查行為和違法犯罪行為:偵查調查行為是指公安機關行使打擊犯罪,維護社會治安進行偵查破案的行為;而違法犯罪行為是指犯罪嫌疑人進行違法犯罪的行為.

Fig.14 Public security governance theme model diagram圖14 公安治理主題模型圖

(7)知識圖譜構建

知識圖譜按照目標數據可以分為實體、事件、關系這3 種類型來建立數據之間的關聯關系,將數據抽象化的內在聯系,以可視化的形式有效表現出來.圖15 是以人為中心實體構建的一個簡單的知識圖譜.以人為中心實體,建立人與電話號碼所屬關系、人與護照所屬關系及人與人的關系,同時建立了人與航班的出行事件、人與旅館的住宿事件.

Fig.15 Knowledge gragh of character tracking圖15 人物追蹤知識圖譜

(8)數據分析與挖掘

對治理后的標準化數據,采用一定的數據挖掘算法模型,對數據進行統計分析、關聯分析、比對碰撞、數據挖掘等,為上層應用提供數據服務.公安機關作為偵查一線的最實用的技術是數據比對碰撞分析,數據比對碰撞分析是指運用計算機對數據進行分析,將兩組以上同類型的數據集進行梳理,通過關聯查詢,篩選數據集取交集的一種方法.

9 總結與展望

身處于大數據時代,數據已經成為一個組織最寶貴的財富之一,組織如果想要利用龐大且寶貴的數據資產來挖掘其中的商業價值,在數據挖掘之前就需要使用數據治理技術,提高數據質量,減少實際挖掘所需要的時間.通過第8 節對公安數據治理流程的具體介紹我們會發現:數據治理技術融入到數據治理的每一個階段中,而不是孤立使用的,每一個階段都可能用到多個數據治理技術.

數據治理的核心目標是在降低風險的同時,為企業增加價值.合理的數據治理,能夠建立規范的數據應用標準,消除數據的不一致性,提高數據質量,推動數據廣泛共享,充分發揮數據對政府及企業的業務、管理以及戰略決策的重要作用.大數據治理對于確保大數據的優化、共享和安全是至關重要的,有效的大數據治理計劃可通過改進決策、縮減成本、降低風險和提高安全合規等方式,將價值回饋于業務,并最終體現為增加收入和利潤[6].根據上述幾節的描述,數據治理包括元數據管理、數據質量管理、數據安全合規、數據模型設計以及數據的應用這5 個基本功能.

一個組織數據治理的好壞是否達到自己預期的目標,可以通過以下幾個方面進行評價.

· 從數據的質量方面考慮;

a)數據的準確性:經過數據治理后的數據應該是準確的,而不能在治理過程中給正確的數據帶去噪音;

b)數據的完整性和一致性:數據治理之后,數據的完整程度以及數據的一致性;

c)數據的安全性:好的數據治理要充分地保護敏感數據;

· 從數據治理的效率進行考慮:使用每秒處理多少條數據進行直觀對比,這直接影響到數據的及時性;

· 數據治理模型的成熟度:數據治理過程中,選擇的數據模型的成熟度直接影響數據治理的結果;

· 從是否能追根溯源,找到數據質量問題產生的原因;

· 人工干預程度:發現質量問題以后,是系統自動處理,還是需要人工干預處理.然而,現在大數據治理也面臨一系列的問題和挑戰.

· 隨著數據產生方式的不斷擴展,大數據不僅量大、類型多樣,而且數據內容的維度和知識范疇的粒度也以多樣性展現,體現的是數據與知識之間的立體關系[92],所以大數據治理技術的復雜性也將加大;

· 數據量的龐大和增長速度之快,就要求數據清洗活動要具有可伸縮性和及時性,雖然已經提出了多種錯誤檢測的方法,但是仍然有很多錯誤不能被檢測到.要設計更具表現力的完整性約束語言,使得數據所有者可以輕松地指定數據的質量規則,并有效地讓人類專家參與錯誤檢測[45];

· 數據治理技術面臨著更加嚴峻的隱私安全的挑戰.多源數據的集成技術使得數據之間的關聯性無形地被公開化,很可能會暴露用戶的個人隱私.所以,需要研究主動降低隱私泄露風險的策略和風險評估模型,用來有效地預測隱私泄露的風險程度并提供風險預警[92].Ni 等人于2010 年提供了一種支持隱私感知訪問控制機制的綜合框架,即,一種適用于對包含個人身份信息的數據實施訪問控制的機制[93];

· 由于數據治理是一個長期的過程,短期投入的人力、技術不一定能夠得到實質性的回報,所以數據治理面臨著更大的投資回報風險.

本文主要介紹了數據治理技術,數據治理方法不僅需要數據治理技術,還需要企業的制度規范以及生態運營來配合加強數據治理工作.在制度保障方面,一個組織應當定義模型設計規范、數據開發規范、數據變更規范、數據質量管理規范、數據安全規范、元數據規范等;在組織保障方面,組織應當設立數據委員會包括決策小組、安全小組、質量小組以及穩定性小組等來執行管理職責,設立數據資產部門包括部門數據負責人和數據生產團隊來執行建設職責.一個組織應該對數據治理進行長期的規劃,建立有效的數據治理體系,挖掘數據資產的潛力,從而發揮數據資產在企業中的核心價值.

猜你喜歡
方法
中醫特有的急救方法
中老年保健(2021年9期)2021-08-24 03:52:04
高中數學教學改革的方法
河北畫報(2021年2期)2021-05-25 02:07:46
化學反應多變幻 “虛擬”方法幫大忙
變快的方法
兒童繪本(2020年5期)2020-04-07 17:46:30
學習方法
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
最有效的簡單方法
山東青年(2016年1期)2016-02-28 14:25:23
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 综合成人国产| 亚洲性视频网站| 九九久久99精品| 久久这里只精品国产99热8| 日韩毛片免费观看| 亚洲一区二区精品无码久久久| 视频一区视频二区日韩专区| 国产91视频免费| 日韩精品一区二区三区免费在线观看| 欧美激情伊人| 小说区 亚洲 自拍 另类| 99精品影院| 亚洲成a人片| 中国一级特黄大片在线观看| 色综合天天综合| 中文成人在线视频| 精品亚洲欧美中文字幕在线看| 国产精品人人做人人爽人人添| 久久人午夜亚洲精品无码区| 综合久久五月天| 久久人午夜亚洲精品无码区| 日韩东京热无码人妻| 欧美成a人片在线观看| 午夜人性色福利无码视频在线观看| 欧美国产日本高清不卡| 日韩东京热无码人妻| 91色国产在线| 黄色免费在线网址| 国产精品短篇二区| 精品欧美一区二区三区在线| …亚洲 欧洲 另类 春色| 欧美亚洲欧美区| 国产免费怡红院视频| 成人中文在线| 国产第二十一页| 亚洲欧美一区二区三区麻豆| 国产91精品久久| 爆乳熟妇一区二区三区| 午夜福利视频一区| 亚洲欧洲天堂色AV| 黄色网页在线播放| 亚洲天堂视频在线播放| 国产色婷婷| 天天综合天天综合| 久久青草精品一区二区三区| 色综合天天综合| 色窝窝免费一区二区三区 | 91青草视频| 国产精品精品视频| 先锋资源久久| 无码国产伊人| 色综合久久久久8天国| 伊人色综合久久天天| 四虎精品国产永久在线观看| 亚洲精品777| 亚洲Aⅴ无码专区在线观看q| 亚洲天堂精品在线| 国产人成午夜免费看| 国产午夜人做人免费视频中文| 国产精品久久久久久久伊一| 久久久久亚洲精品成人网| 国产精品久久久久久久伊一| 在线欧美日韩| 青青久视频| 国产欧美精品一区aⅴ影院| 久久熟女AV| 蜜芽一区二区国产精品| 国产高清在线丝袜精品一区| 欧美一道本| AV天堂资源福利在线观看| 久久精品aⅴ无码中文字幕| 国产一区二区三区视频| 久久久久88色偷偷| 国产成人精品日本亚洲| 亚洲色图另类| 色香蕉影院| 亚洲视频色图| 亚洲欧美在线综合一区二区三区| 成人在线亚洲| 国产激情在线视频| 天天综合网在线| 国产激爽大片在线播放|