王德政 汪紹飛 王梅
摘要:大數據已在各行業中落地應用,從某種意義上說,已成為“隱身”基礎通用技術。一方面數據需要被更嚴密地組織與管理,才能切合各行業上層應用的需要;另一方面大數據需要與人工智能(AI)、物聯網(IoT)等技術緊密結合,才能更好地為行業應用挖掘其自身價值。大數據與數據治理、人工智能、物聯網等技術的融合,將促進大數據技術的普及,為行業應用的開發降低成本。
關鍵詞:大數據;數據治理;AI;IoT
1 大數據技術的發展趨勢
大數據已經成為一種通用的基礎技術。作為基礎數據平臺,一方面數據需要被更嚴密地組織與管理,才能切合上層應用的需要;另一方面大數據必須與各行業緊密結合,才能被深度挖掘出價值。
各行各業在數據組織與管理上普遍存在數據標準不統一、數據質量低、數據管理困難等挑戰。這些挑戰一方面需要通過管理手段來解決,另一方面也需要通過合理的技術手段進行輔助。
大數據作為基礎技術與基礎平臺,必須與各個行業應用相結合,在解決實際問題中創造價值。從行業角度看,幾乎所有的行業都可以結合大數據構建更好的系統解決方案;從技術角度看,大數據與人工智能、物聯網之間有較為明顯的技術融合趨勢,未來這些領域將以數據為紐帶,一體化協同發展。
2 大數據治理技術的發展趨勢
大數據應用在其組織與管理上遇到了很多困難與挑戰:
(1)數據缺少業務定義,難以進行業務分析;
(2)數據往往來自不同的系統,缺乏統一的標準,互通受阻;
(3)數據質量參差不齊,其完整性、準確性、一致性、時效性難以保證,分析結果的可信度大打折扣;
(4)數據間的內在關聯未能建立,跨業務、跨領域的分析難以開展;
(5)數據使用中安全與隱私保護不足,存在違反法律法規的風險。
大數據要真正成為企業的核心資產,其治理是必由之路。從2017年伊始,大數據治理已成為產業生態圈中的研發重點。不少企業正在積極地開展實踐,一般步驟為“建立組織架構和規范→梳理應用需求→梳理企業數據信息→引進大數據治理技術平臺→治理數據”,治理后的數據成為企業資產為數據應用與數據運營提供基礎。
大數據治理的最終目標不僅僅是為了管理數據,更是為了應用數據。數據只有被使用不斷流通,才能最大限度地發揮其價值。因此大數據治理不能只關注數據本身,還要面向業務需求,根據用戶所需開展治理活動。大數據治理是一個系統工程,總體來看需要具備6方面的關鍵能力與技術:
(1)統一元數據管理。元數據指“所有系統、文檔和流程中包含的所有數據的語境,是生數據的知識”[1],統一元數據管理已成為大數據治理的重要一環,為大數據的質量提升提供基礎,使大數據的維護管理工作更加有效。
(2)數據標準管理。大數據治理要能夠有序開展,必須建立統一的數據標準,為元數據的統一、數據的集成融合、數據的質量提升等提供依據。
(3)大數據質量管理。數據質量是數據應用的基礎,通過大數據質量管理工作,可以獲得干凈、可靠的數據。這是大數據治理的重要目標,也是發揮大數據價值的必要前提。
(4)主數據管理。主數據是跨系統、跨模塊、跨部門、跨地區、有高質量要求、高時效要求、被各項業務反復使用的基礎性和敏感性數據。主數據是業務信息系統的神經中樞,是業務運行和決策分析的基礎,也被認為是黃金數據[2]。通過對主數據的管理,保證了其完整性、一致性、精確性、及時性,這樣才能更好地支撐跨部門、跨應用的數據融合的一些應用需要。
(5)大數據集成[3]。大數據集成不僅僅是將數據在物理上集中存儲起來,還要依據數據標準、統一元數據的定義,將外部數據加工轉換為業務所需要的目標數據,建立數據之間的內在關聯。
(6)大數據安全與隱私保護。數據信息化為人類生產和生活帶來便利的同時,也帶來前所未有的數據安全與隱私威脅,大到國家安全、企業經營,小到個人隱私,都需要從不同的角度加強數據安全與隱私威脅。
通過大數據治理,獲得及時、準確、可靠、安全脫敏后的高質量數據,可為大數據深入廣泛的應用、企業的數據化轉型提供強有力的抓手。
3 大數據與AI協同的發展趨勢
人工智能(AI)在廣義上是指任何能夠讓計算機通過圖靈測試的方法和系統;而狹義上則是指通過研究人類智能產生的方式來讓電腦模擬人的智能。
進入21世紀,隨著神經網絡算法的不斷優化,面向圖形處理器(GPU)的編程接口帶來了計算力的提升,這使得可以針對結構更復雜(多層神經元)的網絡高效完成訓練。傳統的神經網絡也因其復雜度和層數大幅度增加而改名為深度學習。我們可以把深度學習理解為以數據為基礎的復雜神經網絡學習系統,是傳統神經網絡在數據模式驅動下的演進和發展[4-5]。
Google在2016年將其戰略從“移動優先”轉變為現在的“AI優先”。在移動時代,通過其知識圖譜、自然語言處理、翻譯、語音識別、圖像識別、地圖等相關產品積累大量的數據和技術,為今天Google的AI優先戰略構建堅實的基礎。所以,Google本質上是一個以數據為基礎的公司,是一個大數據公司。
我們可以看到:隨著互聯網/移動互聯網的發展,數據量迅速增加。云計算和大數據的興起,使得計算機存儲和處理數據的能力快速提升。從某種意義上說,大數據為AI提供數據處理能力,而AI為大數據提供應用場景。例如:當數據治理涉及跨多個系統與業務時,往往需要借助AI技術以提升其處理能力,才能滿足快速激增的海量數據以及快速發展的大數據應用需要。
大數據與AI相互融合,已經成為事實。AI技術通過大數據,獲取突破性成果,而以AI技術為特征的大數據應用則遍地開花,逐步滲透到各個行業和各個領域。我們面對的是一個以大數據應用為標志,以人工智能技術為特征的新時代。為客戶提供融合大數據平臺的AI解決方案是適應當前技術發展趨勢并且具備良好的市場需求的產品。
4 大數據與IoT協同的發展趨勢
物聯網本身不是新概念,在20世紀90年代就已被提出。最近,以物聯網為基礎的智慧生活、智慧城市、智慧地球等設想正在不斷成為現實,物聯網成為各技術巨頭競相布局的技術高地。
物聯網廣泛融合了大量的現有技術,涉及到通信、大數據、人工智能、數據挖掘、云計算、自動化、電子、材料等眾多領域。其最核心的特性是連接與數據:在連接方面,物聯網拓展了傳統通信網絡的功能和范圍,將其延伸到更為廣泛的物理世界;在數據方面,物聯網接入了種類繁多的海量設備,極大地拓展了網絡信息數據的來源渠道。據統計,新近全球創建、獲取和復制的數據總量中,20%來自物聯網,而且增速最快。憑借越來越無處不在的連接、越來越豐富的數據,物聯網正成為各類技術進步的新動力和助推器[6]。
簡單的、局部的物聯網孤島應用,其數據類型簡單、數據量小,很難形成規模和產業效應,影響力極其有限。而大數據存儲、大數據分析、云計算、人工智能等新興數據存儲和處理技術的出現,滿足了物聯網的大數據存儲、智能化處理的要求,大大加速了物聯網的前進步伐,加快了物聯網孤島應用的融合。
在存儲方面,大數據擁有豐富的分布式云存儲系統,可以滿足物聯網在大規模數據存儲方面的要求[7]。例如:Hadoop分布式文件系統(HDFS)、分布式列存儲系統(HBASE)、亞馬遜S3云存儲、微軟azure云存儲等。
在處理方面,面對不同的應用場景,大數據提供了不同的大規模數據處理框架,可以實現對物聯網大規模數據的離線和實時分析,發掘物聯網大規模數據中更多潛在的價值,催生物聯網更多的應用,如:MapReduce、Spark、Storm等。
在交換及共享方面,為解決物聯網應用碎片化、孤島化的痛點,業界相關標準化組織正致力于對物聯網的數據模型和業務流程進行規范化和標準化,如:開放移動聯盟(OMA)提出的輕量級機器到機器(LWM2M)架構;歐洲電信標準化協會(ETSI)發起的、由多個標準化組織共同成立的物聯網國際化標組織oneM2M提供的oneM2M架構;由微軟、英特爾、三星、高通、思科等多家企業組成的開放連接基金會(OCF)提出的物聯網設備標準等。這些架構和標準的提出,有力促進了物聯網的發展[8]。
物聯網提供了廣泛海量的連接,可以獲得大規模的數據;而大數據以及AI的相關技術提供了智能分析能力,包括機器學習以及深度學習,可以用于分類、預測、自動決策以及視頻、圖像、語音的識別等。隨著物聯網采集數據的增多,智能化程度的提高,從這些數據中挖掘更多價值的需求就更加迫切,物聯網與大數據之間的技術融合將更加緊密。
5 結束語
一個技術的成熟,只有當大眾意識不到其存在時,才算是真正成熟,例如:歷史上文字的發明、金屬冶煉的發明等。這些深刻改變人類社會的技術,在當今社會或被“視而不見”,或被視為如砂石一般理所當然存在的外部環境。
隨著市場應用的深入,大數據與其他技術結合得越強,其作為基礎技術的特征也就越顯著。或許在不久的將來,大數據將“無跡可尋”,但同時又無處不在。
參考文獻
[1] 麥考.元數據倉儲的構建與管理[M]. 北京: 機械工業出版社, 2004
[2] 中國信息通信研究院. 數據資產管理實踐白皮書[C]//大數據產業峰會.北京: 中國信息通信研究院、數據中心聯盟, 2018
[3] 董欣. 大數據集成[M]. 北京: 機械工業出版社, 2017
[4] 孫運雷. 物聯網服務質量動態保障方法研究[D]. 北京: 北京郵電大學, 2014
[5] 鄧雪峰.設施農業物聯網系統建模與模型驗證[D]. 北京: 中國農業大學, 2016
[6] 劉. 物聯網中多層/跨層接入管理關鍵技術[D]. 大連: 大連理工大學, 2014
[7] 李開復. 人工智能: 李開復談AI如何重塑個人、商業與社會的未來圖譜[M]. 北京:文化發展出版社,2017
[8] 吳軍.智能時代: 大數據與智能革命重新定義未來[J]. 榆林科技, 2017(1): 66