◆李東興
作者:李東興,北京師范大學全球變化與地球系統科學研究院助理工程師,研究方向為高性能計算、大數據分析與處理(100875)。
李克強總理在2014年國務院會議上曾指出:“積極支持云計算、物聯網與移動互聯網絡的發展,催生基于云計算的在線研發設計、教育醫療、智能制造等新業態。在疾病防治、災害預防、社會保障、電子政務等領域開展大數據應用示范。”大數據洶涌來襲,同互聯網的出現一樣,絕不僅僅是信息技術領域的革命,還是啟動透明政府、創造無限商機、加快企業創新、引領社會變革的利器[1]。互聯網、SNS和傳感器技術的發展使得每一個網民成為大數據的貢獻者,當然也是大數據的消費者和受益者。隨著人們對數據重視程度的提升和收集數據意識的增強,大數據正在不斷改變人們的工作、生活和思維方式。
數據指客觀事物的符號表示,包括文字、聲音、圖形圖像等多種表現形式。信息是把數據放置到一定的情境中,對數字的解釋。與信息不同,數據是信息的數字化記錄,是信息的載體,是與語義不可分隔的。大數據(Big Data),指的是數據規模巨大到無法通過傳統工具,在合理的時間內達到收集、存儲、管理、處理、維護并整理成為服務于企業和社會的更積極的信息[1]。
從大數據的定義可以看出,之所以稱為大數據,其一是數據量大到一定程度。但是,具體多大的數據才能稱之為“大”,業界也沒有統一的標準。當前,數據正在呈指數級增長趨勢,十年之前TB甚至GB級別的數據可能是大數據,現在達到PB級別的數據才能稱為大數據,再過一段時間,也許ZB級別的數據方能稱為大數據。其二是數據價值大。大數據之“大”更多的意義在于人類可以“分析和使用”的數據在大量增加,通過對這些數據本身及它們內在聯系的整合和分析,人類可以發現新的知識,創造新的價值,帶來“大知識”“大智慧”,更好地服務全社會,推動智慧地球朝著更文明的方向發展。
大數據技術是指從各種各樣類型的海量數據中,快速獲得有價值信息的技術。整個過程包括大數據采集、大數據預處理、大數據存儲與管理、大數據分析及挖掘、大數據展現和應用。其中大數據的存儲與管理、大數據的分析與挖掘是整個過程的核心。
與小數據相比,大數據有4V特征,即:Volume、Velocity、Variety、Value。
Volume 數據量巨大,表現為存儲量和計算量巨大。目前達到PB級容量的大數據出現在眾多領域,據麥肯錫估計,全球企業2010年硬盤上存儲了超過7 EB的新數據,消費者在PC等設備上存儲的新數據超過了6 EB(相當于美國國會圖書館中存儲數據的4000多倍[1])。我國建成的四大超級計算機中心,不僅存儲容量達到PB級,其浮點計算能力也達到億萬億次每秒。
Velocity 高速,表現為大數據量的增長速度日新月異;大數據的存儲、傳輸、更新、處理等技術發展突飛猛進。據Facebook統計,每秒有4.1萬張照片上傳,2011年以發圖1400億張成為世界上最大的照片庫。
Variety 多樣性,表現為:數據來源增多;數據類型繁多;數據表現形式不斷擴展。從數據來源上看,傳統數據以交易事務型數據為主,而互聯網和物聯網的發展,則帶來了微博、社交網絡、傳感器等多種數據來源;從數據類型上看,傳統數據以結構化數據為主,互聯網數據以半結構化和非結構化數據為主,大數據的數據類型是幾種類型的復雜組合,其中半結構化和非結構化數據占80%左右;從數據的表現形式上看,從傳統的聲音、文字、圖片不斷擴展到網絡日志、系統日志、視頻、地圖等形式。
Value 價值,表現為數據價值大和價值密度低。從數據價值上看,小數據的價值適用于小眾群體和對小范圍地區更有實用意義,大數據的價值不僅具有普及性、普遍性和說服力,而且更有個性化,能說明任何實體之間的相關性;從價值密度上看,大數據的價值密度低,假如同種類型的數據的潛在價值是固定的,數據量越大,價值密度必然越小。以機房網絡監控日志為例,要查看的僅僅是報警和錯誤日志。
大數據的核心和本質是預測,通過分析方法和工具探索隱藏在數據表面背后的本質和規律,從而使企業在未來的商業活動中更具有主動性,政府制定社會治理決策更準確、更有針對性,個人在未來的生活和學習活動中更能找到適合自己的方式方法。這一過程又稱“知識發現”。著名的“啤酒與尿布”理論,沃爾瑪超市利用大數據發現了這一規律并應用到商業活動中,從而使自身的利潤獲得質的飛躍;美國管理學家、統計學家愛德華·戴明所言“除了上帝,任何人都必須用數據說話”,引領奧巴馬政府上任伊始就樹立了開放型政府的目標;作為“世界上量化最極致的人”,美國人克里斯·丹西克里斯利用谷歌眼鏡等無線傳感設備每天記錄自己的飲食、情緒變化等,通過這些數據,他可以把自己的身體和情緒調整到最健康的狀態。
大數據分析是一門涉及計算機科學、信息科學、統計學等多門學科的交叉學科,大數據的應用可以擴展到與人類相關的任何領域、任何角落,尤其是社會學、新聞學、教育學等社會學科。隨著計算機技術的進步、統計分析水平的提高,越來越多的方法和技術會應用到大數據的分析過程中。以下重點介紹目前大數據分析涉及的相關技術。
人工智能 人工智能是關于知識的一門學科,是關于如何表示知識以及怎樣獲得知識和使用知識的學科[2]。隨著互聯網和社交網絡的發展,大數據中的非結構化數據占據了主要地位,如電子郵件、圖形圖像、視頻等數據資源。結構化數據的管理一般通過關系數據庫實現,由SQL進行分析;非結構化的數據分析需要利用自然語言處理、圖像解析、語音識別等技術,而這些技術正是人工智能的研究領域。將大數據與人工智能結合運用的經典是Google語義搜索和Apple的語音識別技術Siri,這些技術的進步,不僅需要理論的支撐,更需要大數據作為基礎[3]。大數據與人工智能的結合已經給傳統行業帶來新的創新模式,其也必將在更廣的領域改變人類的思維方式和實踐能力。
數據倉庫 數據倉庫之父W. H. Inmon認為,數據倉庫(Data Warehouse,DW)是一個面向主題的、集成的、隨時間而變化的、不容易丟失的數據集合,支持管理部門的決策過程。從W. H. Inmon對數據倉庫的定義可以看出,數據倉庫有四方面的特征,即面向主題、數據集成、隨時間而變化、數據不易丟失,這也是數據倉庫與關系數據庫的區別所在。
在大數據中,數據類型繁多,既有結構化數據,更存在大量的非結構數據,針對異構數據的存儲和融合,應采用混合存儲方式。結構化數據存儲與處理借助于傳統的關系型數據庫,大量的非結構化數據則需要借助于NoSQL非關系型數據庫。當前大量的非關系型新型數據庫應用到大數據的存儲中,如面向集合模式自由的文檔數據庫MongoDB、基于內存的鍵值存儲數據庫Redis、分布式MPP架構/列存儲數據庫HBase等。除了基本的存儲功能,數據倉庫還可以用來進行信息處理和分析處理,特別是對大數據的聯機分析處理是其最重要的用途。
數據挖掘 數據挖掘是指通過特定的計算機算法對大數據進行自動分析,從而揭示數據的價值、發展趨勢和數據之間的相關關系,為決策者提供新的依據。在大數據中挖掘知識就像在礦山中掘金一樣,困難重重,任務繁重,是一個長期的反復的過程。大數據的積累使得從中提取有用的數據成為巨大的挑戰。由于大數據與傳統數據相比,具有4V特性,無法使用傳統工具達到用戶的訴求。數據挖掘很好地將傳統的數據分析方法和處理大數據的復雜算法相結合。數據挖掘不僅要發現隱藏在數據內部的客觀規律,而且對相關領域未來趨勢進行預測。預測是大數據的核心,預測的技術支撐就是數據挖掘,挖掘數據的價值和內含的規律。數據挖掘是大數據分析的核心技術,只有尋求到更合理的挖掘算法,才能準確有效地挖掘出大數據的真正價值,而且更能實現對動態發展數據的分析。
分布式技術 分布式技術是一種基于網絡的技術,把網絡上物理位置不同的、分散的、閑置的資源整合起來,完成大型、復雜、大數據的計算與存儲[4]。該技術主要是應對傳統集中式技術存在的缺陷而產生的。它的目標是充分利用資源和提高大型任務的完成效率。所以它主要是針對那些大型任務,為了縮短時間,提高效率,通常把任務按照一定的規則或算法分配到不同的子節點,由子節點完成子任務,然后對每個子結果進行匯總,各個子任務在不同的子節點上并行執行,在充分利用子節點資源的同時,也降低了單個節點的負載。
分布式技術從20世紀80年代至今經歷了網格計算、對等計算、并行計算、云計算等幾個階段。進入21世紀,Google推出分布式技術領域的三大典型技術——GFS、MapReduce、BigTable。當前國內外把分布式技術廣泛應用于高性能計算領域。分布式技術在國內成功應用的案例是我國四大超算中心的建立,使得分布式技術廣泛應用于氣候、環境、醫療衛生、經濟等領域。另外,很多NoSQL數據庫也是借助分布式技術實現的,如HBase、MogoDB等。
可視化技術 1983年,耶魯大學的政治學教授愛德華·塔夫特系統地考證了人類用“圖形”表達“數據”和“思想”的淵源,整理了種種歷史古籍中的圖形瑰寶,并結合計算機的發展給統計領域帶來的革命,出版了《定量信息的視覺展示》一書[5]。這本書后來被公認為是“數據可視化”作為一門學科的開山之作[5]。
人工智能、數據倉庫、數據挖掘等大數據技術是面向機器和數據分析專業人員的,而可視化技術面向的是最終用戶。不管是數據分析專業人員還是普通的用戶,數據可視化是數據分析的最終目標。可視化可以直觀展示數據之間的內在聯系以及可能的潛在趨勢,讓數據說話,讓觀眾看到更形象的結果,決策才能更有信服力,目標才更能接近成功。
互聯網、通訊技術和傳感器技術的發展使得全球數據量呈指數級增長趨勢。美國互聯網中心和IBM研究中心統計,從2011年開始,數據每年增長50%,每兩年翻一番。而大數據技術只有飛速發展方能解決不斷增長的數據分析需求。
人類已經進入一個無時不網、無處不網的“智慧世界”時代,大數據將在人們的社交網絡、電子商務等互聯網領域更好地服務人們的生活。更重要的是,其將在社會管理、經濟管理、醫療與健康、數據新聞、物聯網、教育科技等諸多領域有更好的應用并推動各領域的發展與進步。但大數據的發展也面臨諸多挑戰。大量的數據中心每年正在成倍出現,1998年,美國擁有432所數據中心,專門負責各類數據的存儲和維護工作;2010年,數據中心的總數躍升到2094所,翻了幾倍。就像物流成為電子商務的發展瓶頸一樣,制約數據中心發展的核心難題是日益攀升的能耗問題。未來可能通過收集更多的數據中心的能耗數據并進行大數據挖掘技術,破除影響其發展的屏障。
另外,隨著互聯網的發展,數據收集的途徑多種多樣,數據門類繁雜,可能會造成大量私密數據泄露和“人肉搜索”等不道德現象。因此,針對未來大數據運動的狂潮,應該法律法規先行,并在數據收集、管理、處理和共享過程中建立完善的道德規范。
數據的整理和管理也是大數據時代面臨的重大挑戰。在這個數據爆炸時代,數據的數量、速度和多樣性都在呈現爆炸式增長,大量數據相互聯系、緊密交織在一起,而且呈螺旋狀發展,因此,開發高效的工具、方法和規范以及有效地歸類、整理、管理這些數據是必要的。■
[1]朱淑華.暨南大學公開課:開啟“智慧生活”的大數據[EB/OL].http://www.icourses.cn/viewVCourse.action?course Code=10559V003.
[2]張妮,徐文尚,王文文.人工智能技術發展及應用研究綜述[J].煤礦機械,2009,30(2):4-7.
[3]王喜文.人工智能與大數據怎樣結合?[N].中國電子報,2014-7-17(3).
[4]寧葵,嚴毅.分布式計算技術發展研究[J].微機發展,2004,14(8):14-16.
[5]涂子沛.大數據:正在到來的數據革命,以及它如何改變政府、商業與我們的生活[M].廣西:廣西師范大學出版社,2012.