宋德瑞,曹可,張建麗,景昕蒂,王相海,孫書翰,解鵬飛
(1.遼寧師范大學城市與環境學院 大連 116029;2.國家海洋環境監測中心 大連 116023;3.國家海洋局海域管理技術重點實驗室 大連 116023)
大數據視域下的海洋信息化建設構想
宋德瑞1,2,3,曹可2,3,張建麗2,3,景昕蒂2,3,王相海1,孫書翰1,解鵬飛2,3
(1.遼寧師范大學城市與環境學院 大連 116029;2.國家海洋環境監測中心 大連 116023;3.國家海洋局海域管理技術重點實驗室 大連 116023)
美國的“大數據研究與發展計劃”提出后,引發了世界各國大數據研究的高潮。我國也在近期將大數據上升到國家政策的高度,大數據產業得到全面支持。海洋大數據作為海洋綜合管理的基礎,對于維護國家海洋權益、準確掌握海洋狀況具有重要意義。文章在我國大數據技術快速發展的背景下,分析了國內外大數據技術發展的基本情況,提出了基于大數據資產化管理模式、大數據思維模式、大數據可視化模式來構建海洋大數據平臺思路,進而挖掘海洋數據中隱藏的“智慧”,全面提升海洋綜合管控能力。
大數據;數據資產化;海洋信息化;數據可視化;數據挖掘
隨著互聯網、云計算[1]等技術的高度發展,移動智能設備的快速普及,爆炸式增長的大數據時代已經來臨,據IDC的研究估計[2]:到2020年,全球數據使用量將達到35.2 ZB,大概需要376億個1 TB硬盤來存儲數據。2012年3月美國奧巴馬政府公布了“大數據研究和發展計劃”[3],提高政府從海量復雜數據中獲取知識和遠見的能力。繼美國之后歐盟、日本、韓國等也紛紛提出大數據相關舉措,法國政府在其發布的《數字化路線圖》,日本也公布了發展開放公共數據和大數據為日本新IT國家戰略的核心。我國于2012年批復了“十二五”國家政務信息化建設工程計劃,開始關注大數據的研究,并構建我國大數據產業鏈和大數據研究平臺,2014年上海市率先實行政府部門數據對外開放。
隨著各國大數據國家戰略的實施,大數據技術成為當前最熱的關注研究領域。2003—2006年谷歌工程師發表了有關Map reduce、GFS 和Big Table等核心技術的學術論文,引發了雅虎、Facebook 等公司開始關注該領域。目前在數據處理和存儲方面應用最為廣泛的為ApacheHadoop系列開源平臺,Google公司針對大數據的需求又提出了Dremel和Pregel技術[4],而后IBM結合云計算和自主計算提出“認知計算”[5];在大數據分析方面,除了傳統的BI技術,人工智能技術領域的統計分析(R HIPE)、機器學習(K 均值聚類算法、Apriori算法、FP-Growth 算法等[6])、數據挖掘(IBM SPSS、SGIineSet、Oracle Darwin,開源的有Weka等商業工具)、自然語言處理(OpenNLP、FudanNLP和哈工大的LTP[7])、知識與推理等方法也發揮著巨大的作用;TableauSoftware 公司在數據可視化分析領域走在前列,主要有Tableau Desktop、Tableau Server、Tableau Reader、Tableau Public 等,其創新應用VizQL數據庫實現增加了用戶的體驗[8];針對Hadoop和MapReduce計算框架架構下數據加密、訪問控制、區別隱私保護和審計[9]等方面,IBM已成功實現了同態加密技術,解決了云環境下大數據的加密保護問題[10]。
海洋信息化作為國家信息化的重要基礎[11]。在大數據研究的熱潮下,如何運用大數據思維和技術,管理海量的海洋大數據,實現海洋大數據信息共享,發掘海洋大數據對國民生產生活的最大價值,獲取海洋大數據資產的最大權益,是海洋信息化戰略面臨的重要問題。本文從數據資產、數據思維和數據可視化3個維度加以分析論述。
大數據及各類大數據技術的不斷發展,大數據被認為具有4V特點,即:規模性(volume)、多樣性(variety)、實時性(velocity)[12]和價值性(value)[13]的特點。大數據的價值性特點在現代社會和經濟活動中愈來愈凸顯,故大數據被稱為新的經濟資產類別[14]。
李志剛認為大數據的價值是指數據正在成為一種新型資產,一種形成競爭力的重要基礎[15]。Mayer-Sch認為,只有以需求為導向,通過不同數據的重組、挖掘再生的能支持預測的大數據才會變成資產[16]。海洋數據資產化是指整合海洋數據,針對不同的需求,運用數據重組或者數據挖掘技術,實現海洋數據的決策支持,實現海洋數據的最大價值,逐步建立數據財產權理論,從功能價值轉向數據價值,如圖1。借鑒維克托·邁爾的數據、思維和技術的重要性,考慮到我國海洋洋信息化建設中存在的信息共享困難、重復建設、盲目建設問題及現有的技術孤島、資源孤島和信息孤島[11]等問題,建立以數據資產化管理模式為主導的海洋數據服務需從以下方面入手。

圖1 數據資產化價值
(1)構建海洋數據資源庫。海洋數據設計的專題領域較多[17],目前海洋數據多按獲取部門分散存儲于不同的系統和數據庫,各個系統和數據庫的存儲格式大不相同,增加了海洋數據的共享難度。海洋數據資產化管理的基礎是建立海洋數據資源庫,制定海洋大數據信息化的標準和規范,通過數據松散耦合方式,邏輯整合分散存儲于各個數據庫和系統的海洋數據,以便對數據進行組織和分析,通過數據資產交換模式奠定海洋大數據資產化基礎。
(2)增強海洋大數據技術研究。因海洋數據存在的復雜性、多源化、敏感性、不同比例尺等不同問題,對數據進行資產化分類,總體分為自有產權、他人產權(共享)、公共產權(互聯網)三大類,在此基礎上,加強海洋數據預處理技術,積極探索海洋數據挖掘方法和分析方法,從海洋大數據中獲取更多的信息,提升數據資產價值,實現數據資產價值的二次升值。
(3)增強海洋數據服務功能。海洋數據價值的實質是產品和服務[18],海洋大數據資產化的關鍵是可以生產多少有效的信息和服務。海洋信息和服務應從公眾需求、海洋管理、海洋研究、海洋環保、海島保護、海洋科技等方面入手,開發出既可服務于單一部門的基礎信息,又可服務于綜合部門的分析信息,并且通過整合海洋大數據,分析海洋大數據之間的關聯關系,以提供更多專題的海洋信息產品和服務。
所謂思維就是人類頭腦活動的內在程序,是一種習慣性的思考問題和解決問題的模式,并由此引導自我行為。按照舍恩伯格的說法:“所謂大數據思維,是指一種意識,認為公開的數據一旦處理得當就能為千百萬人急需解決的問題提供答案”。大數據思維導致信息化出現了三大改變[19]:全部樣本代替了隨機抽樣的樣本;在大趨勢正確的前提下效率較精度重要;不再單純追求因果相關而追求事物演變的主流趨勢。
海洋數據是典型的大數據,涉及海洋水文、生態環境、氣象氣候、地質地貌、海洋化學、經濟、海洋物理化學等方面,其數據類型有矢量、圖像、視頻、文本等,擁有的資產難以估算,但多源化、復雜化、動態性、敏感性等特點加大了海洋信息化的難度。2015年3月,馬云提出人類正由IT(Information Technology)時代進入了DT(Data Technology)時代,他認為二者最大的區別在于:IT時代以“我”為中心,DT時代則以“別人”為中心,讓別人更強大,開放和承擔更多的責任[20]。DT更加注重的是用戶和客戶的需求,從大數據的思維的來看,就是要多挖掘出數據的價值,滿足各類用戶的需求。
近年來,我國海洋管理部門積極提倡海洋電子政務工程,研發了海洋環保、海域使用、海島保護、海洋預報等多個業務系統[21],如全國海洋生態環境監督管理系統、國家海域動態監視監測管理系統、國家海島監視監測系統等,不斷發展和完善了國家海洋局政府網站、各海洋專題服務網站,海洋信息化發展迅速。從海洋大數據發展思維來看,我國在數據獲取、存儲管理和分享技術取得了一定的成就,但是隨著海洋經濟的快速發展,海洋信息需求不斷增大,需求產品和服務不斷增多,海洋信息的采集、存貯、檢索、分析、交換和集成等簡單的信息化過程已經不能滿足時代的發展要求,而是需要通過海洋信息的整合過程,挖掘更大數據價值,特別是在大數據思維的背景下,需要建立全球視野的大數據平臺。
我國海洋信息化需要借鑒Google、百度、騰訊等網絡公司運營數據資產的成功經驗,堅定數據就是資源這一實質,將體現數據價值凝聚于信息化之中,從用戶需求出發,在數據架構、數據獲取、數據傳輸、數據存儲、數據管理、數據分析以及數據安全等方面重新構建以數據為核心的信息化體系,挖掘出海洋數據的綜合利用價值。當前基于大數據的挖掘技術是研究熱點,傳統數據分析方法的升級和拓展應用于大數據分析是研究難點。
數據可視化主要是借助于圖形化手段,清晰有效地傳達與溝通信息,數據可視化主要是將復雜的數據借助空間圖形,便于人們理解和觀察,同時采用不同的空間分析方法還可以發現大數據內部隱含的規律和發展趨勢,便于研究者判斷和模擬未來的發展趨勢。在大數據時代,大數據可視化分析的研究與發展將為科學新發現創造新的手段和條件[22],數據可視化與可視分析技術水平以及信息可視化表達能力,體現著信息化建設成果的先進性和有效性[23]。在大數據環境下,利用各種技術分析數據,用形象直觀的方式展示結果,這樣能夠快速發現數據中蘊含的規律特征[24]。數據信息可視化參考模型見圖2[25]。

圖2 信息可視化參考模型
海洋大數據的可視化,是海洋大數據思維的直觀展現,也是進一步提升海洋大數據資產價值的重要手段之一。因海洋數據具有時態性、動態多變性、模糊性等,海洋數據的可視化不但要將數據以圖形形式表現出來,實現實時空間查詢、選擇、分析等功能,而且要借助二維和三維的地理信息軟件或可視化數值分析工具,如:ArcGIS、Skyline、Supermap等,實現海洋大數據多維圖表統計功能,同時結合數據挖掘方法實現空間分析,增強多維動態模擬與預測可視化技術的研究,具體可從下面3個方面來研究。
(1)海洋數據實時動態的可視化即數據本身的可視化。采用位置信息、區域統計、多維圖表等方式,關注多源、動態、有效等海量數據的可視化,選取合適的符號,實現海洋數據的實時動態美觀的可視化。
(2)海洋數據挖掘方法與可視化的結合。結合(非)監督分類、直方圖分類、聚類、粗集分類、智能分類等分析算法,空間自相關、疊加、提取、領域分析等空間分析工具,還包括柵格的重分類、柵格表面運算(坡向、坡度、曲率、等值線等)等傳統數據分析方法,同時采用選擇分類、回歸分析、聚類、關聯規則、特征、變化和偏差分析、Web頁挖掘等數據挖掘方法挖掘出海洋信息最大的潛在價值。
(3)海洋數據多維動態模擬與預測的可視化。以時相為索引,采用海洋數據動態模擬技術,直觀表達基于時間段(點)的連續抽樣動態變化,提高認知效果,使得海洋要素的變化規律更易顯現。
自從美國的“大數據研究與發展計劃”提出后,大數據在各國和各個領域受到了極大關注。隨著“信息化”上升到國家戰略的高度,基于海洋大數據的信息化必將成為國家信息發展的重要基礎。海洋信息化需進入“智慧”階段,立足本土,走向深藍,以數據資產化管理模式為主導運用大數據思維建立海洋大數據服務平臺,鼓勵海洋行業內外建立本機構、本單位的數據資產化管理模式,在此基礎上以松耦合模式迅速擴充海洋基礎信息庫,大力發展海洋數據挖掘和可視化技術,創新開發數據產品和服務,逐步利用行業外、社會公眾力量,形成“百花爭鳴,百花齊放”態勢,挖掘出海洋數據的最大價值,提升海洋信息化整體能力水平和實力,進而全面提升海洋綜合管控能力。
[1] SONSINSKY B.Cloud computing bible [M].Indianapolis:John Wiley amp; Sons Inc,2011.
[2] HAO Yulu,SONG Meina,HAN Jing,et al.A Cloud computing model based on hadoop with an optimization of its task scheduling algorithms[C]//The 13th International Conference on Enterprise Information Systems,2011:524-528.
[3] Office of Science and Technology Policy,Executive Office of the president.Obama administration unveils “big data” initiative:announces MYM200 million in New R amp; D investments[EB/OL].(2012-05-29)[2017-01-06].http://www.whitehouse.gov.
[4] 劉軍.Hadoop大數據處理[M].北京:人民郵電出版社,2013:45-60.
[5] 王博.IBM亮劍新互聯時代[EB/OL].(2014-04-14)[2017-01-06].http://www.dooland.com/magazine/online.php?pid=MTAzMDEx.
[6] HARRINGTON P.機器學習實戰[M].李銳,李鵬,曲亞東,譯.北京:人民郵電出版社,2013:184-239.
[7] 百度.自然語言處理[EB/OL].(2014-05-23)[2017-01-06].http://baike.baidu.com/view/18784.htm?fr =aladdinBaiDu.
[8] WAN R.Data Visualization star:tableau software[EB/OL].(2013-07-01) [2017-01-06].http://www.kuailiyu.com/article/3901.html.
[9] ZHANG Xuyun,LIU Chang,SURYA N,et al.Privacy reservation over big data in cloud systems[J].Security,Privacy and Trust in Cloud Systems,2014(3):239-257.
[10] GENTRY C.Fully homomorphic encryption using ideal Lattices [C]//Proceedings of the 41st annual ACMsymposium on theory of computing (STOC’09).USA:Stanford University and IBM Watson,2009:169-178.
(內容)
[11] 許莉莉,湯海榮,張燕歌.海洋信息化標準體系研究[J].中國標準導報,2015 (1):49-51.
[12] DUMBILL E.What Is Big Data[EB/OL].(2013-01-24)[2017-01-06].http://strata.oreilly.com/2012/01/what-is-big-data.html.
[13] 俞立平.大數據與大數據經濟學[J].中國軟科學,2013(7):177-183.
[14] DICKERSON R,LU J,LU J,et al.Stream feeds-an abstraction for the worldwide sensor web[C]//The Internet of Things.Springer Berlin Heidelberg,2008:360-375.
[15] 李志剛.大數據:大價值、大機遇、大變革[M].北京:電子工業出版社,2012.
[16] MAYER-SCHNBERGER V,CUKIER K.Big Data:A Revolution That Will Transform How We Live,Work and Think[M].Eamon Dolan/Houghton Mifflin Harcourt.中文版《大數據時代》.盛揚燕,周濤,譯.杭州:浙江人民出版社,2013.
[17] 劉高嶺.海洋信息元數據目錄服務系統的設計與實現[D].青島:中國海洋大學,2008.
[18] 祁冬梅,于婷,鄧增安.IODE海洋數據共享平臺建設及對我國海洋信息化進程的啟示[J].海洋開發與管理,2014,31(3):57-61.
[19] 維克托·邁爾·舍恩伯格,肯尼思·庫克耶.大數據時代:生活、工作與思維的大變革[M].盛楊燕,周濤,譯.杭州:浙江人民出版社,2012.
[20] 馬云.IT時代和DT時代的區別是什么?[EB/OL].(2015-03-22).[ 2017-01-06] http://tech.qq.com/a/20150322/019206.htm
[21] 國家海洋局規劃司.海洋信息工程總結[EB/OL].[ 2017-01-06] http://www.cgs.gov.cn/dzzs/zt_more/xxh/news/036.htm.
[22] 李國杰.大數據研究的科學價值[J].中國計算機學會通訊,2012,8(9):8-15.
[23] 戴勤奮,魏合龍,王圣潔,等.大數據時代的海洋地質信息化建設[J].海洋地質前沿,2014,30(1):67-70.
[24] 陳明.大數據可視化分析[J].計算機教育,2015(5):028.
[25] CARD SK,MACKINLAY JD,SHNEIDERMAN B.Readings in Information Visualization:Using Vision To Think[M].San Francisco:Morgan-Kaufmann Publishers,1999:1-712.
TheConceptionofMarineInformationConstructionfromthePerspectiveofBigData
SONG Derui1,2,3,CAO Ke2,3,ZHANG jianli2,3,JING Xindi2,3,WANG Xianghai1,SUN Shuhan1,XIE Pengfei2,3
(1.School of Urban and Environmental,Liaoning Normal University,Dalian 116029,China;2.National Marine Environmental Monitoring Center,Dalian 116023,China;3.State Oceanic Administration Key Laboratory of Marine Management Technology,Dalian 116023,China)
After the presentation of America’s “Big Data Research and Development Program”,it aroused a surge in the world’s big data research.China has also recently raised big data to the level of national policy.Big Data industry has been fully supported.Being a basis of comprehensive marine management,oceanic big data has important sense to protect national maritime rights and interests and accurately grasps the developing conditions of ocean.Based on the background of the rapid development of large data technology in China,this paper analyzed the basic situation of the development of large data technology both at home and abroad,and put forward the idea of building large ocean data platform based on large data asset management mode,large data thinking mode and large data visualization model.The hidden “wisdom” of ocean big data was also mined,to enhance the comprehensive marine management and control capacity.
Big Data,Data assets,Marine informatization,Data visualization,Data mining
2017-03-13;
2017-07-19
海洋公益性行業科研專項(201005011、201405028);國家海洋局海域動態監視監測與評價業務化項目.
宋德瑞,高級工程師,碩士,研究方向為海域監測業務信息化研究
G2;P7
A
1005-9857(2017)09-0050-05