楊 宇 中國聯通研究院大數據關鍵技術小分隊隊長,博士王 蓉 中國聯通研究院平臺與產品實驗室產品開發實驗室組長,高級工程師王志軍 中國聯通研究院平臺與產品實驗室兼云計算實驗室主任,高級工程師
?
大數據技術總結和標準化工作研究進展
楊宇中國聯通研究院大數據關鍵技術小分隊隊長,博士
王蓉中國聯通研究院平臺與產品實驗室產品開發實驗室組長,高級工程師
王志軍中國聯通研究院平臺與產品實驗室兼云計算實驗室主任,高級工程師
摘要:總結了大數據相關處理技術,介紹了國內外大數據標準化工作進展,并對大數據標準化工作提出了展望。
關鍵詞:大數據;大數據處理技術;大數據標準化
隨著移動互聯網、物聯網、云計算等技術的快速發展以及智能手機、可穿戴設備的飛速增長,當前信息數據呈現出爆炸式的增長,人類社會開始邁入大數據時代。大數據意味著大價值,各個行業都已經積極地開展了大數據相關的研究和實踐工作。目前,大數據已經不再局限于傳統的信息學科領域,而是成為跨越信息科學、經濟學、社會學和工程學等諸多領域的新興交叉學科,盡管業界對大數據的定義與表述不盡相同,但是基本認同大數據的4V特征,即大規模(Volume)、多樣性(Veracity)、高時效性(Velocity)和低價值密度(Value)。大數據的4V特性給數據的收集、處理和可視化等多方面帶來了極大的困難,也對大數據的標準化工作提出了更高的要求。
從不同的維度可以對大數據進行不同的劃分:
●從大數據生命周期的角度考慮,大數據涉及到數據的采集、預處理(清洗、標注等)、存儲、處理(分析、建模)和可視化(解釋)等處理流程。
●從面向應用的角度考慮,大數據屬于一種資源,其又涉及集成、管理、服務、安全等多個方面,進而又涉及到使用大數據資源的相關角色包括數據生產者、數據消費者、代理人等。
目前,大數據處理技術已經大體涵蓋了大數據生命周期的各個階段,現有的應用軟件和平臺采用分布式的處理方法基本解決了大數據“難處理、難分析”的問題,大數據處理和分析平臺已經初具規模。大數據標準化工作相對滯后,在多方的努力和推動下,國內外各大標準組織已經初步制定了大數據標準的路線圖,大數據應用的多個維度的標準化工作也在蓬勃發展。
傳統的數據存儲和處理技術已經無法滿足大數據處理的需求,從Goolge發表的GFS、MapReduce和Bigtable3篇論文開始,針對大數據在采集、計算、存儲、分析等方面帶來的問題,各種處理技術如雨后春筍般涌現,大數據技術的發展基本進入了成熟期。表1總結了現有大數據相關技術和典型應用軟件。
標準化是指對重復性事物和概念通過制定和實施標準使得各參與方能夠對事物的認知和應用達到統一從而獲得最佳秩序和社會效益。從大數據的生命周期來看,大數據從產生,到收集處理再到分析、可視化是一個復雜的系統工程,涉及到不同的參與方、多樣化的處理系統平臺并且有著多元化的應用需求和應用場景,這就要求整個大數據系統在不同的維度實現上高度的一體化和規范化,而大數據標準化正是解決上述問題的有效手段。
截止目前,ISO/IEC、ITU和NIST等國外標準組織已經積極開展大數據標準化工作,涉及到大數據術語、總體架構、處理流程和安全、應用等方面;在國內,工業和信息化部電子4院組織成立了全國信標委大數據標準工作組牽頭制定大數據國家標準并對接ISO/IEC標準組織,CCSA在各個委員會開展了大數據研究工作,探討大數據在云計算、物聯網、移動互聯網等方面的應用并對接ITU方面的標準。

表1 大數據相關技術和典型應用軟件總結
3.1國外標準工作進展
3.1.1ISO/IEC
ISO/IECJTC1WG9是ISO/IEC專門設立的大數據工作組,負責總體規劃大數據標準以及指導ISO/IEC JTC1中其它小組的大數據標準化工作。目前,WG9在研的大數據國際標準包括ISO/IEC20546《大數據概述和詞匯》和ISO/IEC20547《大數據參考架構》。其中,《大數據參考架構》又劃分為框架和應用過程、用例和派生要求、參考架構、安全和隱私保護以及安全路線圖5個子標準。
3.1.2NIST
美國國家標準與技術研究所(NIST)的NBG-WG小組是最早開展大數據標準工作的國外組織,目前發布了第一版《NIST大數據互操作框架》系列標準,包括大數據定義、大數據分類法、用例和一般要求、安全和隱私權、架構白皮書調查、參考架構和標準路線圖7個部分。
3.1.3ITU
ITU-T早在2013年就召開了關于大數據的討論會,并發布了《大數據:今天巨大,明天平常》的技術報告,初步探索了大數據的用例和標準化路線。目前,ITU-T的大數據標準化工作主要是在SG13和SG20開展。其中,SG13 Q17是大數據標準化工作的主要小組。截止目前,ITU-T發布了1項正式標準,并有5項在研的標準和補充草案。
(1)Y.3600(《大數據—基于云計算的需求和能力》)
Y.3600是ITU-T發布的第一項關于大數據的標準,給出了大數據的定義、大數據生態系統中相關角色的定義,分析了大數據和云計算之間的關系,重點介紹了基于云計算的大數據在其生命周期的不同處理階段的需求,并根據這些需求制定了基于云計算的大數據在上述處理階段所需要提供的能力。該標準從云計算的角度,特別是從云計算中不同角色的角度來確定大數據在其生命周期中的需求和能力。
(2)Y.Suppl.BigData-RoadMap(《大數據路線圖》)
Y.Suppl.BigData-RoadMap補充草案由SG13 Q17小組牽頭制定,從ITU的角度制定大數據標準化的路線圖,是ITU在大數據標準化方面的指導性文件,該草案分析大數據與云計算、物聯網、軟件定義網絡、數據開放的關系,并關注了大數據在安全和隱私方面的問題。目前,該草案認為ITU在大數據標準化工作上應從以下幾方面入手:
●大數據通用需求和用例。
●大數據定義、架構、數據模型和API。
●網絡驅動的數據分析。
●個性化網絡體驗。
●數據安全(保護、匿名化、個人數據的隱私化)。●數據質量和框架。
●電信行業大數據的法律影響。
●電信大數據交易的框架和相關標準。
(3)Y.IoT-BigData-reqts(《面向大數據的物聯網具體需求和能力要求》)
Y.IoT-BigData-reqts標準草案是SG20Q2小組在研的標準,重點關注物聯網在面向大數據時的具體需求和能力要求。該標準草案從物聯網的4層結構(設備層、網絡層、服務層和應用層)的角度探討物聯網在大數據不同處理階段(包括收集、預處理、存儲、分析、傳輸、可視化)的需求,并根據這些需求制定了物聯網在面向大數據應用時應該提供的能力。
(4)Y.BigDataEX-reqts(《大數據交易框架和需求》)
Y.BigDataEX-reqts標準草案是SG13 Q17小組在研的標準,重點關注大數據在共享、交易和互操作方面的需求和框架。該標準草案詳細描述了大數據交易生態系統中的角色、活動等,從而提煉出大數據在交易過程中的功能需求,包括大數據發現、查詢、請求、抓取、提供、元數據發布和導入等方面的問題。
(5)Y.BDaaS(《云計算—大數據即服務》)
Y.BDaaS標準草案是SG13Q18小組在研的標準,該標準草案從云計算的角度分析大數據可以對外提供的服務,重點關注大數據即服務的功能組件、功能架構等方面的工作。
(6)Y.bDDN-fr(《基于深度包檢測的大數據驅動的網絡架構》)
Y.bDDN-fr標準草案是SG13Q7小組在研的標準,該標準草案分析利用在網絡的各個節點(包括無線網絡和固定網絡)收集的信息(包括用戶數據、信令數據等)解決現有網絡在管理、運營和優化方面的問題。該標準定義了大數據驅動的網絡架構,將網絡分為感知層、大數據存儲層、網絡分析層和數據智能服務層,并制定了在這些層次的功能需求標準。
3.2大數據國內標準工作進展
3.2.1全國信標委大數據工作組
全國信標委大數據工作組主要制定和完善我國大數據領域標準體系,組織開展大數據相關技術和國家標準的研究。大數據工作組設立了大數據總體專題組、大數據國際專題組、大數據技術專題組、大數據產品和平臺組、大數據安全專題組、工業大數據專題組、電子商務大數據組共7個工作子組展開工作。
目前,主要在研的大數據相關國家標準有:
●《信息技術大數據術語》。
●《信息技術大數據技術參考模型》。
●《信息技術數據交易服務平臺交易數據描述》。
●《信息技術數據交易服務平臺通用功能要求》。
●《信息技術數據溯源描述模型》。
●《信息技術科學數據引用》。
●《多媒體數據語義描述要求》。
●《數據能力成熟度評價模型》。
●《信息技術數據質量評價指標》。
●《信息技術通用數據導入接口規范》。
3.2.2CCSA
CCSA作為通信行業的標準化研究組織與管理單位在2013年左右也開始了大數據標準化的相關研究工作,截止目前,共有11個在研的大數據標準化項目。主要集中在TC11、TC1、TC10、TC7、TC5、TC8等幾個工作組,涉及大數據質量、可視化、安全、開放、測試、運維以及大數據應用等多個方面。
(1)大數據需求、場景及架構研究
該標準項涉及大數據的應用場景、系統需求和體系架構方面的研究。
(2)面向大數據的數據可視化需求與技術研究
該項目關注大數據可視化的重點與難點、大數據可視化與其他大數據處理流程的關系和大數據可視化的商業價值與價值模式。
(3)大數據環境下數據質量要求與數據質量評估方法研究
該項目主要關注大數據處理流程不同階段對數據質量的要求、數據質量評估的定義和意義、數據質量評估指標和數據質量評估模型。
(4)電信互聯網大數據開放平臺標準化研究
該標準分析國內外大數據技術應用發展的趨勢和大數據開放平臺的建設實踐,重點圍繞數據開放、數據安全和隱私保護等目標,分析大數據開放平臺建設、運營、監管中的標準化需求。
(5)大數據平臺基準測試指標和測試技術要求
該標準主要規定了大數據平臺基準測試的基本原理,以及測試對象、測試負載、測試數據和指標體系的總體要求。
(6)移動大數據安全技術研究
該標準關注的主要方面有:
●大數據安全的基本定義與科學內涵。
●大數據安全的技術體系框架。
●大數據安全保障的關鍵技術。
●大數據應用安全的關鍵技術。
●大數據安全技術的實施建議。
●大數據安全的法律法規和標準研究。
●大數據安全的產業動態與最佳實踐。
(7)大數據管理功能框架研究
該項目主要研究大數據管理框架,分析大數據管理所涉及的功能及活動,研究一種對大數據管理框架進行描述的方法,并對采用該方法對大數據管理框架進行描述。
(8)大數據運維技術與標準研究
該項目提出電信運營支撐系統大數據應用總體技術要求,包括:
●電信運營支撐系統大數據分析應用場景。
●電信運營支撐系統大數據分析數據模型。
●電信運營支撐系統大數據分析系統參考模型,數據存儲要求、數據質量管理要求、數據安全總體技術要求等。
(9)電信運營商的大數據應用業務安全技術要求
該項目主要工作為:
●提出大數據應用業務流程與安全管控框架。
●大數據采集安全技術要求。
●大數據存儲安全技術要求。
●大數據挖掘安全處理技術要求。
●大數據輸出審計安全技術要求。
●大數據傳輸安全技術要求。
●大數據運營安全技術要求。
(10)物聯網大數據處理技術要求
該項目主要工作為:
●物聯網大數據的特點和類型。
●物聯網大數據的業務需求(從物聯網業務角度提出需求)。
●物聯網大數據的技術框架等方面。
(11)移動互聯網大數據技術研究
該項目主要是分析國內外移動互聯網大數據技術發展的趨勢和建設實踐,探索移動互聯網大數據應用中的標準化需求,梳理國內外已有研究基礎。
4.1大數據標準化工作總結
總體來看,在大數據技術發展進入成熟期后,大數據標準化工作駛入了快車道,從大數據的基礎標準(包括術語、架構、平臺、角色定義)到大數據具體處理技術的標準,再到行業大數據標準,已有和在研的標準工作基本覆蓋了大數據生態系統的所有方面。
在國際上,以ISO/IEC和ITU為代表的標準組織已經明確了大數據標準工作的方法和工作路線圖,后續的大數據相關系列標準應該會快速涌現。
在國內,信標委大數據工作主要負責制定大數據基礎性和通用性標準,通過對接現有的ISO/IEC大數據標準工作,推動并制定本地化的大數據標準;CCSA通過吸收和借鑒互聯網企業以及電信運營商已有的大數據工作成果,充分考慮大數據與云計算、大數據與物聯網的關聯性,制定面向通信行業的大數據標準工作,制定的大數據相關標準對通信行業的大數據發展具有指導意義。
表2介紹了各個標準組織的現有標準工作成果和主要內容。
4.2大數據標準化工作展望
大數據的技術發展需要大數據標準的支撐。同樣,大數據的標準化工作也需要大數據技術的推動,二者相輔相成,互相促進。從目前發布和在研的大數據標準來看,標準化工作與處理技術的耦合度較低,進一步推動大數據處理技術與大數據標準的融合是未來需要考慮的問題。
另外,大數據標準化工作還不夠完善,仍需要加強如下兩方面的標準工作:
(1)融合各行業的大數據需求并擴展大數據標準化工作的廣度,實現跨平臺、跨領域的數據互通需要盡快制定大數據語義、元數據等方面的標準。
(2)發揮大數據的價值需要,盡可能地搜集所有數據,但數據開放與隱私保護永遠是一個相悖的問題。因此,避免數據過度保護和保護數據隱私之間需要尋
找制定標準的平衡點。

表2 大數據標準化工作總結
大數據已成為經濟發展的新引擎,將會為社會的發展帶來新的活力。在大數據發展的關鍵階段,各行業應以此為契機,努力推動大數據技術和標準化的協同發展,建立大數據學科的體系框架,形成產業規模,促進大數據產業的快速發展。
參考文獻
[1]魏凱.大數據的技術挑戰及發展趨勢[J].信息技術與標準化,2013(6):20-25.
[2]韓晶,王健全.大數據標準化現狀及展望[J].信息通信技術,2014(6):38-42.
[3]張群.大數據標準化現狀及標準研制[J].信息技術與標準化,2015(7).
[4]Ghemawat Sanjay,Gobioff Howard,Leung Shun- Tak. The google file system[C].19th ACM Symposium on Operating SystemsPrinciples,2003,10.
[5]Chang Fay,Dean Jeffrey,Ghemawat Sanjay,etal. Bigtable:A distributed storage system for structured data[C].seventh Symposium on Operating System DesignandImplementation,2006,11.
[6]Dean Jeffrey,Ghemawat Sanjay. MapReduce:simplified data processing on large clusters[C].Sixth Symposium on Operating SystemDesignandImplementation,2002,4.
[7]ISO/IEC JTC 1.Study Group on Big Data(BD-SG)[EB/OL]. [2016-03-21].http://jtc1bigdatasg.nist.gov/home.php.
[8]NIST.BigDataWorkingGroup[EB/OL].[2015-11-01].http:// bigdatawg.nist.gov/home.php.
[9]詹劍鋒,高婉鈴,王磊等.BigDataBench:開源的大數據系統評測基準[J].計算機學報,2016(1).
Big data technologysummaryand standardizationtrends
YANGYu,WANGRong,WANGZhijun
Abstract:This paper summarizes the processing technology of big data, and then introduces the trends of domestic and foreign big data standardization work. Finally, prospects of big data standardizationworkare presented.
Keywords:big data; big data process technology; big data standardization
收稿日期:(2016-03-20)