宋嘉鵬,周西平
(中國人民公安大學 國家安全學院,北京 100038)
大數據時代下,數據在理解個體行為與防控社會風險中的地位愈加凸顯[1]。數據治理作為保證數據質量與安全的重要手段,也愈加不可或缺。2019 年6 月28 日,大阪G20 數字經濟特別會議,習近平主席指出要共同完善數據治理規則,確保數據的安全有序使用。運用大數據提升國家治理現代化水平成為政府部門的核心任務之一。2019 年12 月27 日,全國公安科技信息化暨大數據智能化建設工作會議,國務委員、公安部部長趙克志同志提出要把大數據智能化建設作為科技興警的重要抓手,并上升為公安部黨委的一項戰略工程。作為運行和存儲數據的有效載體,云的出現促進了大數據技術的進一步發展。美國國家標準技術研究院(NIST)將云技術定義為“一種模型,用于使人們能夠對共享的可配置計算資源(例如網絡、服務器、存儲、應用和服務),可以通過少量管理工作或服務提供商的交互實現快速配置和發布”[2]。云技術的創建聚合了多種服務,使用戶可以隨時隨地享受這些服務[3]。對于警務部門來說,云技術可以提供低成本的存儲設施、全天候的運行機制、托管服務以及數據自動化分析功能。所以針對警務數據搭建專屬的云基礎架構、建立私有云服務是一個不錯的選擇。需要注意的是,警務數據關聯大量國家機密和個人隱私,如何在合理利用云技術的同時確保數據安全,良好的數據治理策略更必不可少,也是警務部門需要考慮的問題。鑒于NIST 向云消費者提供了許多建議,其中之一就是組織在使用云技術之前必須考慮數據治理策略。因此警務部門在利用云技術、建立警務云平臺的同時,也應重視相應的數據治理工作。為評估警務機關的云端數據治理水平,本文根據現有研究,采用綜合集成研究視角,借鑒文獻中關于數據治理的成熟度評估模型,提出符合警務工作特點的云端數據治理成熟度評估指標與成熟度等級,為制定不同地區的警務云端數據治理政策提供合理依據。
云端數據治理,顧名思義,是對存儲于云端的數據進行治理,本質上也為數據治理。因此必須要明確數據治理的概念。目前,國內外學者對此有不同解釋。國際數據管理協會(DAMA)認為:數據治理是對數據資產的管理活動行使權力和控制的活動集合[4];數據治理協會(DGI)認為數據治理是對數據相關事務的決策和授權,是一個針對信息相關流程的決策權和問責制的系統,該系統根據商定的模型執行[5]。國內對于數據治理的定義也莫衷一是,包冬梅[6]和單勇[7]以及張寧等人都各自給出了數據治理的概念[8]??傮w來看,不同領域的數據治理均有共通點,即通過明確參與方各自職責、協調數據相關方達成數據利益一致,來實現組織掌握數據的價值最大化。對數據治理的概念明晰后,程廣明等人提出了云端數據治理的概念:云端數據治理是以云端數據為主要治理對象,制定與云端數據戰略、數據管理、數據優化、數據安全與隱私保護等相關策略,指導組織規劃、構建、評估和優化數據治理體系的活動集合[9][10]。由此可見,數據治理是保證云端數據質量與安全性、提升云用戶滿意度的必要手段。
成熟度評估已經在信息系統領域中應用幾十年之久。該方法起源于質量管理領域,隨后擴展到IT 領域以管理軟件開發[11]。數據治理成熟度模型是為了評估組織當前在對于數據的應用、管理的等級,方便組織或第三方針對具體情況制定下一步數據治理方案。IBM 公司于2007 年建立了數據治理成熟度模型,通過衡量組織在11 個領域的進展,對組織的數據治理成熟度進行評級[12];DataFlux公司的數據治理成熟度模型將組織的數據治理成熟度分為無組織紀律、非主動求變(被動反應)、積極主動、管理支配四個級別,由參與者、政策規定、技術水平、面臨風險四個方面進行評估[13];斯坦福大學[14]、Gartner[15]、Oracle 等公司或科研機構也給出了一套完整的數據成熟度模型。國內方面,數據治理成熟模型也在不斷普及。張宇杰等人通過六個要素、十六個具體指標對政府的大數據治理進行成熟度評估[16];程廣明構建了人與組織、策略和能力的三維架構的大數據治理模型,并將組織的大數據治理成熟度分為五個等級進行評估[17]。模型同樣被應用在高校[18]、公共安全[19]等多個領域。雖然各模型在分級、標準、具體條件等有所不同,但都是遵循由無序到成熟的數據評定等級,組織通過不斷優化數據質量,提升管理能力、技術手段、法律意識等來提高數據治理評定等級,以期最終達到既定成熟度等級。
作為一項新興技術,云技術被認為是具有顛覆性的,因此需要嚴格的數據治理策略[20]。由于技術的更新,國內外專注于非云數據治理的成熟度模型并不能完全適用于云端數據治理領域。關于云端數據治理成熟度模型的文獻數量較少,Al-Ruithe 建立了一個模型對組織在云端數據治理方面的成熟度進行評估,該模型將云端數據治理分為十個域進行評估,成熟度被分為五個等級:非云數據治理,初始云數據治理,基本云數據治理,可接受的云數據治理和全面的云數據治理,通過對組織在十個域的表現進行評級,確定其云端數據治理能力[21]。同年,程廣明等人也提出了一種評估云端數據治理成熟度的模型,其分為六個職能域,通過對組織六個職能域評估后得出評級;評級由低到高為初始級、管理級、定義級、量化級和優化級。該模型采用的是“木桶定律”,即每個職能域下,評分最低的過程域,其得分即為所在職能域的得分。該模型可供組織進行自評,也可由中立的第三方進行評估,從而得出更加客觀、真實的評估結果,更清楚的發現組織在云數據治理方面的不足,以達到優化數據治理的目的[22]。本文選取了7 個具有代表性的云與非云數據治理成熟度模型進行要素梳理,見表1。

表1 較為成熟的數據治理成熟度模型
由此看出,云端數據治理成熟度評估與數據治理成熟度評估雖有相似之處,但是在評估指標、衡量等級以及評估難度方面均有著一定差異,關于云端數據治理的成熟度評估的文獻也并不豐富。國內對于數據治理的成熟度評估多集中于電子政務、高校、金融等行業,且多為對數據安全、數據質量等某一環節進行評估,缺乏針對警務部門云端數據治理成熟度的全面評估機制。
云技術在警務部門的應用主要體現在各警務部門打造的警務云平臺中。近年來,為適應大數據時代,豐富破案手段,增強預警能力,提升警務數據的處理效率,各地公安機關開始構建“警務云”。
由于警務數據較為特殊,包含大量國家機密及公民隱私,因此警務云被建設為“私有云”。云技術的引入,解決了服務器的負荷問題,靈活分配了閑置的IT資源,民警可通過手機、電腦等多種終端調取數據,數據運轉流暢度提升。但云技術作為一項新興技術,實施云端數據治理依然繁瑣復雜。因此各地公安機關仍然面臨以下問題:一是云中數據實時共享難度大。由于審批手續繁瑣、部分地區不同警種間仍存在“競爭”,再加上警務平臺相互獨立,因此云端數據無法做到實時共享。二是數據安全存在隱患。警務數據內包含大量國家機密與個人隱私,將數據放置云端存儲,由于透明度缺失、控制難度大,可能造成數據泄露、數據丟失等問題。三是多地公安機關缺乏完備的云端數據治理計劃,數據治理的目標與愿景不明晰。第四是缺乏云端數據法規。對于數據的管控難度大,且容易造成法律糾紛。五是部分地區公安機關領導層缺乏對云端數據治理的關注。數據治理是公安機關制定政策、流程和標準以管理、使用和開發數據重要支柱,必須給予足夠重視。
基于以上現狀及問題,為有效評估各地警務部門對于云數據的治理程度,有針對性的制定下一步治理政策,本文根據相關文獻,構建一個警務云端數據治理成熟度的評估體系。
1.云端數據治理要素設計原則
反映問題、促進數據驅動警務發展是警務云端數據治理成熟度評估的核心目標。在選取數據治理構建要素時,既要結合IBM、斯坦福大學、DataFlux 等已有文獻的數據治理成熟度模型,又要認識到在云環境下,數據相比起在傳統的IT環境中已經發生了變化;并且警務數據又有著不同于一般公司、組織數據的特殊性,因此不可完全套用已有成熟度模型的構建要素。在此基礎上,本文圍繞數據治理的目標和公安工作重點,構建一套既能對比各地公安機關云端數據治理水平,又簡單可行的評估體系,以期提高公安機關對于云端數據治理的重視程度。
圍繞上述思路,在具體要素的選取上,應遵循以下基本原則:
代表性。盡可能準確反映出警務部門對于云數據管理、數據安全、云法規、人員配備等方面的具體情況,權重在各評估要素間的分配都應該與我國警務云發展水平相適應。
導向性。要素應當體現衡量云數據治理成熟度等級的具體標準。如此,被評估單位方可明確自身云端數據治理情況,找出與評級較高單位的差距,確定未來發展目標,部署下一步云端數據治理建設計劃。
全面性。要素選擇應涵蓋成熟度評估的每一方面,一個良好的成熟度評估體系不會只像調查問卷一樣簡單詢問幾個問題,而是通過關鍵維度就能對警務云端的數據治理水平定級。
可行性。選取要素時,應確保評估要素的數據是可以獲取的;要盡量選取客觀的定量要素;為確保該體系在全國各個地區的警務部門均可實行,選取要素時要考慮到全國警務云端數據治理狀況,便于各地公安機關進行評估和對比。
2.具體構建要素
將表1 引用文獻中數據治理成熟度要素進行統計并歸類,再結合警務數據的特點,由戰略規劃、組織結構、數據管理、安全與隱私四個關鍵維度出發,針對專業性極強的警務云數據,本文選取了13個具體要素作為具體評估指標,形成了本文針對警務云的數據治理成熟度要素,并對每個要素進行了詳細說明,見表2:

表2 警務云端數據治理成熟度評估構建要素
3.成熟度級別設定
作為警務云的使用者,公安機關的警務人員很難知道他們對于云數據治理的投資是否收獲了相等的數據治理水平[23]。為了使各地公安機關在云數據治理方面認清他們當前所在的位置,獲得對本單位云數據治理成熟度的客觀評價,詳細了解所使用警務云數據治理功能的優缺點。本文參考CMM能力成熟度模型,將警務云的數據治理等級分為了五個級別:初始級別,被動接受級別,主動認知級別,管理控制級別,優化完善級別,見圖1:

圖1 警務云端數據治理成熟度評級
每個級別都有認定標準,只有當被評估單位達到這一級別的所有認定標準后才可被評為該級別,見表3。隨著被評估單位不斷建設云中的數據治理體系,其評級會隨著升高,整個警務云的數據治理水平也會不斷完善。下面將會對每一級的標準進行具體描述:

表3 警務云端數據治理成熟度評級標準
初始級別:處在這一級別的公機關,缺乏有關數據治理的知識,并且缺乏在云計算環境中管理數據的策略,標準,原則和程序[24]。領導層不具備數據治理意識,警務云平臺運營人員沒有明確的職責與分工。云端數據的質量粗糙。個別警種或部門針對相關數據開展了臨時性的數據治理項目,未開展情報共享。警務部門尚未意識到存儲在云端的敏感數據隨時處在被泄露或篡改的危險中。
被動接受級別:處在這一級別的公安機關,意識到警務云中可能存在數據治理問題,但是依然沒有制定相應的數據治理策略。警務人員花費了大量時間進行數據清洗,因此數據的質量得到了一定的改善。公安機關中尚未建立數據治理辦公室等數據機構。
主動認知級別:在這一級別中,警務領導層開始制定云端數據治理戰略、標準、規范、事后反饋機制,云平臺負責人員有了較為明確的分工,負責數據治理的警務人員接受過培訓。領導層設置了專門的數據治理辦公室。數據質量受到重視。公安機關制定了跨部門的數據治理流程,并且對數據使用進行追蹤、記錄,保證治理質量和數據安全,但仍未形成相應法規。
管理控制級別:公安機關開始針對自己所使用的警務云劃定具體的數據治理指標,方便評估數據治理水平。管理層將警務云端數據治理辦公室定性為正式組織結構,明確提出了各警種之間的協同合作。SLA(服務水平協議)中對數據治理的級別、要求和功能有了明確協定。公安機關開始通過量化分析提升治理效果,并建立了完善的反饋機制。數據采集方式得到改善。數據安全得到足夠重視,領導層開始強化風險管理。
優化完善級別:這一級別中,公安機關使用的警務云已經具備相當完善的數據治理功能,云工作人員受過完整的數據治理培訓,各司其職,相互溝通,保障了數據的時效性。數據采集有了一套完整流程,基層警員采集的數據只需略加清洗即可使用,數據質量得到保證,過期數據被有效清理。元數據歸類清晰,導引作用明顯。存儲在云中的警務數據可快速共享至各部門,且被記錄,方便日后倒查。大量創新性技術被引入,提升了治理效率。領導層可根據數據治理結果進行下一步決策部署。數據訪問權限規定嚴格。
為使本文提出的評估具有實踐可行性,應制定一套完整的質量完善方法。PDCA(戴明環)作為全面質量管理的方法依據,其基本原理是迭代循環,即通過不斷循環執行直至問題解決[25]。而成熟度評估作為一個需要不斷更新、改進的現實應用型機制,PDCA的過程方法有助于將評估要素集成、形成一套不斷完善的可更新流程,以實現對于公安機關云端數據治理能力的全方位評估。見圖2:

圖2 警務云端數據治理質量評估流程
云技術為公安機關海量數據存儲解決了大問題,同時也為云端數據治理帶來了挑戰。當前,數據治理在云端應用尚處于初步階段,有關警務云端數據治理研究還是空白。在警務工作中,存在對警務云端數據治理重視度不足、警務人員IT知識缺乏、云端警務數據安全性無法得到保證等一系列問題。因此,本文將成熟度評估引入警務云端數據治理中,結合治理戰略、組織、數據管理、數據安全與隱私四個維度對警務部門的云端數據治理水平評估,并通過PDCA 流程不斷提升評估質量。為警務云端數據治理能力的評估提供有力參照。需要明確的是,數據治理成熟度評估并非方法論,其雖然可能包含某些促進組織云端數據治理發展的做法,但成熟度評估并非針對某一組織的具體工作計劃。隨著云端數據資源的不斷豐富,云端數據治理實踐不斷深入,云端數據治理成熟度模型構建也指日可待。