程飛飛

【摘 要】隨著互聯網技術(包括移動互聯網)的持續發展和進步,人們生活生產中所累積的數據越來越多,并且越來越發現數據的價值超乎尋常,越來越多的科技企業巨頭投入到大數據的研究中,越來越多的互聯網企業意識到擁有數據的意義。地理學領域,地理空間的各種觀測數據逐年累積,現已達到地學大數據級別,那么地學大數據相比以往的地理學研究有什么樣的變化和發展機遇,現階段又遇到了什么樣的瓶頸和技術難題,下面將就這些問題來論述。
【關鍵字】大數據 地理學 地學數據
【Abstract】With Internet technology (including mobile internet) development and progress, more and more data has been created, more and more people discover the extraordinary value of the data, more and more top Tec-company start to giant big data, more and more Internet business aware of the sense of the data. In Geography, various observation geospatial data accumulated from year to year, and now has reached the level of big-geodata, so what kind of new changes and new opportunities in big geodata era compared to the previous study of geography, the following issues will be discussed. at this stage what they encountered bottlenecks and technical problems.
【Keyword】Bigdata;Geography;Geodata
0 引言
伴隨著以微博、社交網絡、基于位置的服務(LBS)為代表的新型信息發布方式的不斷涌現,以及云計算、物聯網等技術的興起,數據正以前所未有的速度在不斷地增長和累積,大數據時代已經來到.學術界、企業界甚至于政府機構都已經開始密切關注大數據問題,并對其產生濃厚的興趣.就學術界而言,《Nature》早在2008年就推出了Big Data專刊[1]。計算社區聯盟(Computing Community Consortium)在2008年發表了報告“Big Data Computing:Creating revolutionary breakthroughs in commerce,science,and society”[2],闡述了在數據驅動的研究背景下,解決大數據問題所需的技術以及面臨的一些挑戰。《Science》在2011年2月推出專刊“Dealing with Data”[3]。美國一些知名的數據管理領域的專家學者則從專業的研究角度出發,聯合發布了一份白皮書《Challenges and Opportunities with Big Data》[4]。全球知名的咨詢公司麥肯錫(Mckinsey)2011年6月份發布了一份關于大數據的詳盡報告“Big data:The next frontier for innovation,competition,and productivity”[[5],對大數據的影響、關鍵技術和應用領域等都進行了詳盡的分析。2012年1月份的達沃斯世界經濟論壇上,大數據是主題之一,會議針對大數據發布了報告“Big data,big impact:New possibilities for intrenational development”[6],探討了新的數據產生方式下,如何更好地利用數據來產生良好的社會效益。3月份美國奧巴馬政府發布了“大數據研究和發展倡議”[7](Big data research and development initiative),投資2億以上美元,正式啟動“大數據發展計劃”。計劃在科學研究、環境、生物醫學等領域利用大數據技術進行突破。與此同時,聯合國一個名為“Global Pulse”的倡議項目在今年5月發布報告“Big data for development:challenges&opportunities”[8],該報告主要闡述大數據時代各國特別是發展中國家在面臨數據洪流(data deluge)的情況下所遇到的機遇與挑戰,同時還對大數據的應用進行了初步的解讀.《紐約時報》的文章“the age of big data”[9]則通過主流媒體的宣傳使普通民眾開始意識到大數據的存在,以及大數據對于人們日常生活的影響。
大數據作為一種新型戰略資源,提供了一個在虛擬信息世界中透過該資源了解和掌握客觀現實世界的前所未有的機會[10]。隨著社會與經濟調查與統計、對地觀測技術、計算機網絡和地理信息系統的快速發展和普及,具有空間位置的自然環境與社會經濟數據近幾十年快速增長,形成了海量的時空數據集[11]和時空大數據[12]。現在國際地理學的發展聚焦在:揭示復雜系統中的不平衡和動態,認識全球化 (包括環境" 經濟“人口”政府和文化等)的潮流及其影響,建立從地方到全球的空間連續系列研究[13]。地理學的重要性越來越凸顯,在國家的宏觀發展策略、城市規劃、軍事武裝等領域,地理學有著重要的作用,在這個大數據時代,如何正確認識地學大數據的意義,如何抓住地學大數據所帶來的技術和應用的發展新機遇,如何助推地學大數據的快速發展,如何思考地學大數據的未來是接下來要探討的問題。
1 大數據概述
1.1 大數據的定義
大數據尚未有一個公認的定義,不同的定義基本是從大數據的特征出發,通過這些特征的闡述和歸納試圖給出其定義。在這些定義中,比較有代表性的是3V定義[14],即認為大數據需滿足3個特點:規模性(volume)、多樣性(variety)和高速性(velocity)。除此之外,還有提出4v定義的,即嘗試在3v的基礎上增加一個新的特性。關于第4個v的說法并不統一,國際數據公司(International Data corporation)認為大數據還應當具有價值性(value)[15],大數據的價值往往呈現出稀疏性的特點。而IBM認為大數據必然具有真實性(veracity)[16]。維基百科對大數據的定義[17]則簡單明了:大數據是指利用常用軟件工具捕獲、管理和處理數據所耗時間超過可容忍時間的數據集。
1.2 大數據的來源
根據國際數據公司(IDC)的《數據宇宙》報告顯示:2008 年全球數據量為0.5ZB,2010 年為1.2ZB,人類正式進入ZB 時代。更為驚人的是,2020 年以前全球數據量仍將保持每年40%多的高速增長,大約每兩年就翻一倍,預計2015 年全球數據量將達到7.9ZB,2020 年將突破35ZB。同時,根據互聯網數據中心的《中國互聯網市場洞見:互聯網大數據技術創新研究2012》報告顯示:截至2011 年年底,中國互聯網行業持有的數據總量已達到1.9EB,預計2015 年該規模將增長到8.2EB 以上。
這些大數據都是從哪里產生?大致可以分為以下幾個方面:(1)大型專業研究機構產生大量的數據外(CERN 的離子對撞機每秒運行產生的數據高40TB);(2)觀察測量性的數據(如對地觀測,遙感衛星等等);(3)科學實驗產生的數據(物理、化學或者生物實驗);(4)越來越多的機器配備了連續測量和報告運行情況的裝置。幾年前,跟蹤遙測發動機運行僅限于價值數百萬美元的航天飛機。現在,汽車生產商在車輛中配置了監視器,連續提供車輛機械系統整體運行情況。這些機器傳感數據屬于大數據的范圍;(5)計算機產生的數據可能包含著關于因特網和其他使用者行動和行為的有趣信息,從而提供了對他們的愿望和需求潛在的有用認識;(6)使用者自身產生的數據信息。人們通過電郵、短信、微博等產生的文本信息;(7)至今最大的數據是音頻、視頻和符號數據。這些數據結構松散,數量巨大,很難從中挖掘有意義的結論和有用的信息。
1.3 大數據的應用現狀
大數據目前最主要的應用還是在企業中,當然科學研究中的應用也在不斷拓展,大數據讓企業找到許多不曾解決的問題答案,而在此之前企業甚至不知道問題是什么。這可能會產生引出新產品的想法,或者幫助確定改善運營效率的方法。不過,也有一些已經明確的大數據用例,無論是互聯網巨頭如谷歌、Facebook、LinkedIn還是國內的淘寶、騰迅QQ、新浪微博既是大數據的產生者、應用者,也是研究者。“大數據的工程技術研究已經走在了科學前面。”-- 李國杰院士
但是當技術解決不了的問題越來越多時,就需要科學家找出共性的問題。可是科學家并不了解每個領域的特點和問題,目前各個領域中“數據界”的共性還不太清楚。 在科學家如何與企業界相結合、共同解決大數據問題上,香港中文大學教授華云生提出,大數據的研究要結合實際用戶問題,把問題、數據、平臺集中起來解決。
大數據的研究對于科學家來說,具有“顛覆性”的意義,長期以來,許多領域都是在用小數據做科學實驗,找出一個模型和規律。現在越來越復雜,有一堆數據看上去沒有規律。科學家要找到新的研究方法,這種模式和方法的改變需要探索。要研究大數據的問題在哪兒,在應用中發現什么技術難題,這些有針對性的問題,不是憑空想出來的,是需要實踐總結出來的。所以如何把大數據和科學研究很好地結合起來也是當今面臨的一個問題。
2 地理學的大數據
2.1 地理數據是大數據的重要組成
“地理信息”是指自然地理要素或者地表人工設施的形狀、大小、空間位置及其屬性信息的總稱,因具有空間位置特征, 通常又被稱為“地理空間信息” 或“ 空間信息”(下文統一使用空間信息代指地理信息)。空間數據是空間對象具有了空間分布和地理位置的屬性,因而不難發現,一切與位置相關的數據都具有空間特征。用于獲取空間數據的手段很多,數據來源也十分廣泛,如圖1所示。
2.2 地理數據的特征
從地理學定義可以看出,數據是地理學的血液。從通過圖件掃描、格式轉換、實地測繪等方法的數據獲取,到采用各種先進數據庫技術對數據進行存儲、管理,再到利用計算機圖形學、地圖學等綜合可視化技術對數據進行展示,以及最終以數據為基礎的借助于計量地理學、拓撲學、圖論等學科的決策分析等,這些過程都是以據為核心的。隨著地理學的發展,其數據呈現出數量大、種類多和結構復雜的特征。
2.2.1 地學數據量大
地學數據量大具有兩層含義,第一層含義是指數據存儲量大,這主要是針對柵格數據及多媒體數據而言的。 “天地圖”在2011年正式上線的時候,集成了海量的基礎地理信息資源數據,總數據量約有30TB,處理后的瓦片數近30億。資源三號測繪衛星是中國第一顆民用高分辨率光學傳輸型測繪衛星,截止到2013年6月底,在運行的不到一年半的時間中,總共存檔衛星影像37萬多景,數據量達到249TB。而地里信息空間數據產生的商業價值每年正以15.5%的速度增加,是地理信息軟件和服務的兩倍。地理學數據量大的第二層含義是指數據單位個數多。“天地圖”各類地名和POI(Point of Interest,興趣點)有1100多萬條,2011年8月竣工的國家西部1∶50000地形圖空白區測圖工程和國家1∶50000基礎地理信息數據庫更新工程兩個國家級重大測繪工程,成果有20多萬航片和8000多景衛星遙感影像,地名近600萬條,描繪了1.4億個地理要素。另外,其他專業領域比如土壤數據、氣象數據在全數據模式下數量也是非常可觀的。
2.2.2 地學數據種類多
地理學的數據種類多樣,從大的方面看,具有矢量數據、柵格數據、屬性數據,以及與地理位置相關的音頻、視頻等多媒體數據等;而從小的角度看,主要是因為數據來源廣泛和不同應用的需求而體現為數據格式多樣,資源三號衛星TLC(三線陣相機)標準產品中的1A級產品(預處理級輻射校正影像產品)包括的文件格式就有tiff、rpb、xml、jpeg等四種格式的15個文件。GDAL/OGR是地理空間數據轉換的類庫,多用來讀取地理空間數據,根據GDAL官方網站的資料顯示,GDAL/OGR支持的柵格數據多達132種,矢量數據有71種,這其中也包括了PostGIS、Spatialite、ArcSDE這樣的數據源。
2.2.3 地學數據結構復雜
隨著科技的發展,人們獲取信息的方式越來越多,獲取的數據量也呈爆炸式增長,而這些信息中大概85%是非結構化的。傳統的地理信息主要有空間數據和屬性數據兩類數據,空間數據以二進制文件的方式進行存儲,屬性數據以二維表的方式進行存儲,具有固定字段,另外還有以文本存儲的投影信息等。如今在地學中,非結構化的數據越來越多,如Google Earth中用戶可以上傳基于地理位置的圖片,iOS的相冊提供了在地圖上顯示照片和視頻信息的功能,像是LBS(Location Based Service,基于位置的服務)一類的應用,更是需要在地理信息的基礎上,集成周邊不同類型POI的詳細信息、用戶實時發布的文本或多媒體信息等,這些信息絕大多數都是非結構化的。在用于人口普查的地理信息系統中,基本的人口信息是結構化的,但是如果詳盡一些的信息或是存儲個性化的信息,若加入個體從小到大的教育經歷、特長及獎項等信息,數據就會變為非結構化的,因為不是每個人都會有大學的教育經歷,也不是每個人具有某種特長并得過獎項,這在數據庫中表現為每個人需要有不同的數據項來記錄這些細化的信息。
3 大數據對地理學的影響
現如今,地理信息不再只是把符號和數字作為其代名詞,也不在僅僅局限于地理行業的需要。信息的使用者對地理信息的需求也不再局限于靜態的、定期更新的信息,而更加倚重于公眾參與更新的實時或準實時信息。大數據中包含空間位置信息的數據量激增給地理信息的發展擴大了“交際圈”。
物聯網技術背景下的傳感器數據、視頻監控流媒體數據等,尚屬新型待收納和待管理的數據,這些海量新資源將有力拓寬地理學發展的平臺,地理研究者能管理好、使用好這些新數據、新資源。
現在,地理學服務的對象不再局限于政府部門或者對地理信息有特殊需求的企業和單位,而是面向所有對位置信息有需要甚至僅僅是有興趣的個人,這就使得服務端的需求呈現“大客戶化”,數量龐大、類型眾多的服務需求將嚴重挑戰傳統服務模式的承受度,使得服務商在服務資源的可伸縮性、服務效率的平衡性、服務類別的兼顧性上,都需要進行改革和創新,使新的地理信息服務模式能更加快速、友好、科學。
最后還要提及的便是,大數據給我們提供了非常有意義的認識,即地理信息技術在行業應用中所實現的信息共享,將能夠為更多的用戶提供有效且統一的數據展示手段。
4 地理信息對大數據技術的要求
4.1 數據的存儲
一位美國大學的學者在其2012年文章里說:“Among all the definitions offered for “big data,” my favorite is that it means data thats too big,too fast,or too hard for existing tools to process。”所以現在大數據的規模、涌現速度和處理難點超出目前常規技術能管理、處理和分析的數據。傳統的數據庫技術面對大數據已經不敷使用。
地理空間的數據量正以爆發式速率不斷的增長著,并且地理空間數據又多呈現出非結構化的屬性,因此地理空間數據具有典型的大數據特征。于是對海量的空間數據存儲這一問題,一直都是地理學的重點研究方向之一。如何將地學中的大數據進行共享,如何對大數據的文件進行管理與保護,如何解決大量的重復數據等問題,都將成為地理學在大數據時代下所面臨的新挑戰。
4.2 數據的處理和分析
全球數據量每兩年翻一番。如此多的數據只有轉化為信息才能有其價值,地學數據也只有被各個領域的地學研究者應用到實際研究中才能有意義,對地理學研究來說,發現空間知識是利用空間數據挖掘方法從大數據中抽取事先未知、潛在有用、最終可解的規則的技術,也是一個由空間數據到空間信息、再到空間知識的循序漸進、逐漸升華的過程。通過處理龐大地學數據集,有效的獲取、描述、認知現有地理空間。分析地學大數據進行相關地學事件的預報預測。分析地學大數據對國家的重大決策進行支持,調控現有地理空間上發生的事件,合理分配資源。如在“一帶兩路”上基于現有龐大地理數據給出合理的建議。
5 結語
信息技術時代背景下,大數據、物聯網、云計算等技術的出現,給地理信息帶來了前所未有的機遇,同時也帶來了巨大的挑戰。在此之前,我國的地理信息技術的發展道路一直是向國外學習,但是現在我國和國外的同行站到了同一起跑線,怎么樣實現追趕并超越是我國地理信息方面的學者、企業、以及相關配套人員應該著重研究的,現在我國的超級計算機技術已經實現世界領先,利用這一技術來進行大數據的處理和分析肯定更得心應手,大數據就是一座持續循環的金礦,等待我們去挖掘。現如今大數據在商業、搜索引擎、金融等領域已經廣泛應用并取得很好的效果,我們應該把地理信息的大數據應用到實際中,并讓它產生一定價值,這樣才能更好的使其得到發展。
參考文獻:
[1] Nature.Big Data[EBOL].[2012-10-02].
[2] Bryant RE,Katz RH,Lazowska ED.BigData computing:Creating revolutionary breakthoughs in commerce,science,and society[R].[2012-10-02].
[3] Science.Special online collection:Dealing with data [EBOL].[2012-10-02].
[4] Agrawal D,Bernstein P,Bertino E,etal.Challenges and opportunities with big data-A community white paper developed by leading researchers across the United States[ROL].[2012-10-02].
[5] Manyika J,Chui M,Brown B,et al.Big data:The next frontier for innovation,competition,and productivity[Rol].[2012-10-02].
[6] World Economic Forum.Big data,big impect:New possibilities for international development[ROL].[2012-10-02].
[7]王勁峰,葛詠,李連發等.地理學時空數據分析.201409,69(9)10.11821/dlxb201409007
[8]蔡運龍,陸大道,周一星等.地理科學的中國進展與國際趨勢.地理學報,200411,59(6)803-810.
[9]《中國互聯網市場洞見:互聯網大數據技術創新研究2012》.
[10]李國杰,程學旗. 大數據研究:未來科技及經濟社會發展的重大戰略領域——大數據的研究現狀與科學思考,中國科學院院刊,10.3969/j.issn.1000-3045.2012.06.001.
[11]王明才,姚承寬.對發展我國地理信息產業的若干建議[J].現代測繪,2010,33(2):62-64.
[12]周順平,徐 楓.大數據環境下地理信息產業發展的幾點思考.地理信息世界1672-1586(2014)01-0045-06.
[13]尤文辰,徐躍通,高尚.淺析GIS大數據.電腦知識與技術.ISSN 1009-3044.
[14]張德政,張萍萍.非結構化信息管理[J].微計算機信息,2006,22(3-3):218-219,239.
[15]袁磊,趙俊三,李紅波.物聯網空間倉庫框架體系及關鍵技術分析[J].地理信息界,2013,11(1):58-62.
[16] 邊馥苓.用數字的眼光看世界[M].武漢:武漢大學出版社,2011.
[17]王勁峰,李連發, 葛 詠等. 地理信息空間分析的理論體系探討.0375-5444 ( 2000) 01-0092-12.