陳靜
大數據時代的到來,數據共享與開放機制成熟,大數據融合分析應用中新角色和職責隨之產生。本文介紹了在大數據融合分析應用中主要扮演的多角色,各角色的分工任務及配合。
一、引言
隨著計算機和信息技術的迅猛發展和普及應用,行業應用系統的規模迅速擴大,行業應用所產生的數據呈爆炸性增長。大數據相關技術緊緊圍繞數據價值化展開,數據價值化將開辟出廣大的市場空間,重點在于數據本身將為整個信息化社會賦能。隨著大數據的落地應用,大數據的價值將逐漸得到體現。
黨中央、國務院高度重視大數據在經濟社會發展中的作用,黨的十八屆五中全會提出“實施國家大數據戰略”,黨的十九大明確提出要加快推進信息化,建設“數字中國”、“智慧社會”,黨的十九屆四中全會提出“推進數字政府建設,加強數據有序共享”。推進政務數據匯聚共享和綜合應用,是新時代推進國家治理體系和治理能力現代化的必然要求。
為搶抓大數據發展重要戰略機遇,圍繞加強政務、行業、互聯網數據共享利用,促進“數字政府”建設和經濟社會發展,大數據融合分析應用至關重要。
二、大數據的特征
大量:隨著信息技術的高速發展,數據開始爆發性增長。社交網絡(微博、推特、臉書)、移動網絡、各種智能工具,服務工具等,都成為數據的來源。淘寶網近4億的會員每天產生的商品交易數據約20TB;臉書約10億的用戶每天產生的日志數據超過300TB。迫切需要智能的算法、強大的數據處理平臺和新的數據處理技術,來統計、分析、預測和實時處理如此大規模的數據。
高速:大數據對處理速度有非常嚴格的要求,服務器中大量的資源都用于處理和計算數據,很多平臺都需要做到實時分析。數據無時無刻不在產生,誰的速度更快,誰就有優勢。數據類型繁多也對數據的處理能力提出了更高的要求。
多樣:大數據時代,數據格式越來越多樣化,包含了文本、音頻、圖片、視頻、網絡日志、地理位置信息、模擬信號等不同類型;數據來源也越來越多樣化,不僅產生于內部平臺,也來自外部數據,從而決定了大數據形式的多樣性。
價值:現實世界所產生的數據中,有價值的數據所占比例很小。相比于傳統的小數據,大數據最大的價值在于通過從大量不相關的各種類型的數據中,挖掘出對未來趨勢與模式預測分析有價值的數據,并通過機器學習方法、人工智能方法或數據挖掘方法深度分析,發現新規律和新知識。
三、大數據融合分析的基礎支撐環境
從大數據融合分析應用的角度來看,基礎支撐環境離不開軟硬件和大數據技術的支撐,包括資源池層、服務層、管理層、輔助技術平臺層。從大規模數據融合分析的需求考慮,大數據架構平臺技術選型上要求采用開源的分布式技術架構為基礎進行搭建,以具備開放融合的數據采集、數據存儲、數據分析的服務能力。采用云計算技術構建統一的基礎設施、支撐軟件、應用功能、信息資源、運行保障和信息安全等服務,為數據融合分析應用提供敏捷、可靠、安全、彈性的IT基礎支撐環境。
(一)資源池層
資源池層包含了基礎設施、及通過云平臺軟件和大數據平臺軟件在基礎設施之上抽象出云資源池和大數據資源池,云資源池包括云計算、云存儲、云網絡等資源池,大數據資源池包括Hadoop資源池和MPPDB資源池,各種資源池可以根據大數據融合分析應用進行構建。
(二)服務層
服務層通過對資源池層各類資源的封裝,通過分布式的算法進行資源的分配,從而消除物理邊界,提升資源利用率,統一資源池分配。實現資源服務的發現、路由、編排、計量、接入等功能,顯現從資源到服務的轉換。云資源池服務主要包括計算資源服務(虛擬機服務、物理機服務、鏡像服務等)、存儲資源服務(塊存儲服務、對象存儲服務、文件存儲服務等)、網絡資源服務(虛擬私有云、安全組服務、虛擬防火墻服務、彈性負載均衡、彈性IP服務等)、虛擬數據中心、硬件托管服務等。
大數據資源池服務主要包括H a d o o p資源服務(HDS、RDS)、MPPDB資源服務(ADS)等。
(三)管理層
管理層包含整體運營、運維管理及公共組件的管理,包括VDC管理、租戶管理、服務控制臺、資源管理、拓撲管理、性能管理以及安全管理等。其中安全管理包括主機安全、數據安全、應用安全、管理安全等方面的相關管理。
(四)輔助技術平臺層
采用大數據技術構建海量數據的存儲、計算平臺,為大數據融合分析應用務提供開放、高效的大數據存儲、分析、挖掘等服務。
大數據融合分析應用需要通過輔助技術平臺,實現多種數據源融合、處理、分析,完成大數據融合分析協調工作,進行數據分析、指標預警、專題報告、輿情分析、報表分析、決策支持等綜合性分析服務工作。應用以自然語言處理、數據挖掘、機器學習等算法模型為手段,能夠支撐輔助決策分析的數據分析人員及其他使用者對數據進行一系列的操作,最終實現數據分析工作人員在線交互式的大數據協同分析工作。
四、應用角色的分工配合
大數據融合分析應用由于大數據的特點和技術創新,對應用開發提出了新的要求和規范,增加了應用難點,對專業人員提出了更新、更高的標準,從而需要多角色分析人員進行應用設計和維護,確定各角色分工任務及邊界就至關重要。
(一) 主題管理角色
主題管理角色需要根據大數據融合分析應用的要求,開展需求調研,掌握需求調研方法,能協助業務部門進行需求的分析和梳理,并輸出系統建設或優化需求;善于分析和歸納總結,將需求逐級分解,創建主題管理,理解需求的基礎上進行主題任務需求拆解,針對大數據融合分析應用需求特色需要包括數據分析需求、平臺需求、模型需求、數據治理需求、數據采集需求等多方面;需要具備極強的溝通表達能力與其它角色進行有效溝通和配合。
大數據融合分析應用的建立依賴于自頂向下的數據規劃和自底向上的數據發掘。其中數據規劃是面向業務主題的,針對需求管理師確定的需求進行采集、主題拆解規劃、產生主題數據規劃,和已有業務主題的應用管理,對各個服務內容進行匯總編排。整體過程對后期的數據治理有重要的指導意義。自底向上的數據挖掘是進行多維度數據智能挖掘,從而推動動態主題的形成,這部分新發掘主題也要按需進行管理。
(二)規范管理角色
在大數據融合分析應用中,規范尤其重要,需遵循國家相關標準規范,參考借鑒國內外類似標準規范,以及大數據融合分析應用主要主題、流程和特點,研究制定項目工程技術標準、數據標準、業務規范、管理規范等。同時,規范管理角色還需要解決應用中數據采集、數據開放、指標口徑、交換接口、訪問接口、數據元標準、基礎代碼標準、接口開發規范、數據質量管理規范、技術產品、安全保密等關鍵共性規范,從而推動建設有規范、維護清晰化、數據安全化、數據資產保護化,保障和規范大數據應用發展。
(三)數據治理角色
數據治理角色主要承擔日常的數據治理及新增治理工作,接收主題管理角色派發的主題數據治理任務,快速響應新的數據治理工作需求,將零散數據治理開發成“可見、可得、可用”的數據資源。同時,數據治理角色還需要配合規范管理角色,快速構建一套確保數據質量的標準,對數據標準進行實時跟蹤,確保數據質量,更好地為應用提供數據支撐。
數據治理角色可以利用數據治理工具實現數據采集之后的數據集成、數據建模、元數據管理、數據質量管控和數據服務,將零散的數據通過治理開發形成統一的數據資源,保障數據質量和數據安全,確保數據資源在授權范圍內可用。
數據治理離不開輔助技術平臺的支持,數據治理角色通過數據交換平臺和數據資源目錄平臺,能夠實現大數據分析應用所需數據源的統一接入;通過數據治理平臺和數據集成平臺,實現數據資源的統一匯聚、融合和分發,將零散的數據通過治理開發形成統一的數據資產,并保障數據資源安全;通過以自然語言處理、數據挖掘、機器學習等算法模型為手段,能夠支撐治理人員對數據特殊要求進行基本操作。
(四)融合分析角色
數據融合分析是以產生決策智能分析為目標,融合分析角色通過主題需求制定主題指標,實現數據和指標的業務保障;并通過數據分析挖掘,完成指標模型的機器學習、深度學習、模型評估等工作,保證業務應用可用性和可靠性。
數據融合分析角色還需基于數據分析挖掘系統承擔主題模型的開發實現工作,基于業務需求的模型詳細設計,進行接入數據預處理、模型設計、模型訓練、模型推理結果輸出、模型評估和部署落地,并可以服務的形式發布以備隨時調用。數據分析挖掘系統需具備以下三種能力:
1.通用算法能力
數據分析挖掘系統需要為用戶提供封裝好的、可簡單可視化調用的通用封裝算法(如特征工程、圖計算、時間序列、回歸、分類、聚類、推薦、異常值檢測等),并支持用戶進行便捷的參數調節能力,完成數據處理、模型訓練等工作。
2.業務模型訓練能力
數據分析挖掘系統需支持用戶上傳、獲取業務數據,并基于用戶業務數據,調用平臺封裝的通用算法完成數據處理及模型訓練工作,使得模型具備解決實際業務場景問題的能力,將通用的算法轉化為實際業務模型。
3.模型服務能力
數據分析挖掘系統需支持用戶將訓練的業務模型發布為服務并注冊至應用支撐中心。模型服務為模型輕量化的應用方式,基于數據分析挖掘系統的計算資源,用戶可通過在線接入業務數據的形式,調用業務模型并得到推理結果,從而支撐其他系統的應用需求。
(五)可視化角色
可視化角色需要滿足多終端訪問的需求,包括大屏展示、PC機、智能手機、PAD等,同時采用BI可視化工具,建立大數據分析業務應用豐富的可視化展現。服務包括基于GIS的全景精細呈現;GIS信息、GPS數據、建筑物三維數據、統計數據、攝像頭畫面等多類型數據融合呈現;支持時間、空間、屬性等多維度呈現和查詢能力,如二三維聯動查詢、歷史回放、圈選查詢、篩選查詢等;設置儀表盤,讓圖表展示效果更加靈活有特色。
(六)安全管理角色
大數據在為數據治理提供方便的同時,也會給個人隱私、企業機密、政府公信乃至國家安全帶來挑戰。數據如同一把雙刃劍,在帶來便利的同時也帶來了很多安全隱患,隨著各地用戶信息安全事件頻出,讓人們開始感受到“數據”與生活接觸如此緊密,數據泄露可以對個人的生活質量造成極大的威脅。數據安全和隱私保護不僅是公民個人的責任,對采集數據和共享數據的政府單位,也有義務保障數據的安全和隱私,此過程中,政策、技術、意識缺一不可。
安全管理角色需要根據應用主題確定數據采集、質量保障和安全管理標準,明確數據安全責任、主體風險和權利義務,處理好創新發展與保障安全的關系,建立完善安全保密管理規范措施。同時加強關鍵信息基礎設施安全防護,做好平臺及服務商的可靠性安全性評測、應用安全評測。
五、結語
在大數據融合分析應用中,各角色的分工越來越細致,角色任務邊界愈來愈明顯,分清各角色任務是實施大數據融合分析應用的前提保障,為后期應用實施規范化管理及解決快速應用快速服務帶來優勢。未來隨著大數據技術發展日益成熟,后期會對大數據融合分析應用各類角色提出更高更專業的要求。