
大數據的應用和技術是在互聯網快速發展中誕生的,起點可追溯到2000年前后。當時互聯網網頁爆發式增長,每天新增約 700 萬個網頁,到 2000 年底全球網頁數達到 40 億,用戶檢索信息越來越不方便。谷歌等公司率先建立了覆蓋數十億網頁的索引庫,開始提供較為精確的搜索服務,大大提升了人們使用互聯網的效率,這是大數據應用的起點。當時搜索引擎要存儲和處理的數據,不僅數量之大前所未有,而且以非結構化數據為主,傳統技術無法應對。為此,谷歌提出了一套以分布式為特征的全新技術體系,即后來陸續公開的分布式文件系統(GFS,Google File System)、分布式并行計算(MapReduce)和分布式數據(BigTable)等技術,以較低的成本實現了之前技術無法達到的規模。這些技術奠定了當前大數據技術的基礎,可以認為是大數據技術的源頭。
伴隨著互聯網產業的崛起,這種創新的海量數據處理技術在電子商務、定向廣告、智能推薦、社交網絡等方面得到應用,取得巨大的商業成功。這啟發全社會開始重新審視數據的巨大價值,于是金融、電信等擁有大量數據的行業開始嘗試這種新的理念和技術,取得初步成效。與此同時,業界也在不斷對谷歌提出的技術體系進行擴展,使之能在更多的場景下使用。2011 年,麥肯錫、世界經濟論壇等知名機構對這種數據驅動的創新進行了研究總結,隨即在全世界興起了一股大數據熱潮。
雖然大數據已經成為全社會熱議的話題,但到目前為止,“大數據”尚無公認的統一定義。我們認為,認識大數據,要把握“資源、技術、應用”三個層次。大數據是具有體量大、結構多樣、時效強等特征的數據;處理大數據需采用新型計算架構和智能算法等新技術;大數據的應用強調以新的理念應用于輔助決策、發現新的知識,更強調在線閉環的業務流程優化。因此說,大數據不僅“大”,而且“新”,是新資源、新工具和新應用的綜合體。
大數據來源于互聯網、企業系統和物聯網等信息系統,經過大數據處理系統的分析挖掘,產生新的知識用以支撐決策或業務的自動智能化運轉。從數據在信息系統中的生命周期看,大數據從數據源經過分析挖掘到最終獲得價值一般需要經過 5 個主要環節,包括數據準備、數據存儲與管理、計算處理、數據分析和知識展現。每個環節都面臨不同程度的技術上的挑戰。
◆數據準備環節:在進行存儲和處理之前,需要對數據進行清洗、整理,傳統數據處理體 系中稱為 ETL(Extracting,Transforming,Loading)過程。與以往數據分析相比,大數據的來源多種多樣,包括企業內部數據庫、互聯網數據和物聯網數據,不僅數量龐大、格式不一,質量也良莠不齊。這就要求數據準備環節一方面要規范格式,便于后續存儲管理,另一方面要在盡可能保留原有語義的情況下去粗取精、消除噪聲。
◆數據存儲與管理環節:當前全球數據量正以每年超過 50%的速度增長,存儲技術的成本和性能面臨非常大的壓力。大數據存儲系統不僅需要以極低的成本存儲海量數據,還要適應多樣化的非結構化數據管理需求,具備數據格式上的可擴展性。
◆計算處理環節:需要根據處理的數據類型和分析目標,采用適當的算法模型,快速處理數據。海量數據處理要消耗大量的計算資源,對于傳統單機或并行計算技術來說,速度、可擴展性和成本上都難以適應大數據計算分析的新需求。分而治之的分布式計算成為大數據的主流計算架構,但在一些特定場景下的實時性還需要大幅提升。
◆數據分析環節:數據分析環節需要從紛繁復雜的數據中發現規律提取新的知識,是大數據價值挖掘的關鍵。傳統數據挖掘對象多是結構化、單一對象的小數據集,挖掘更側重根據先驗知識預先人工建立模型,然后依據既定模型進行分析。對于非結構化、多源異構的大數據集的分析,往往缺乏先驗知識,很難建立顯式的數學模型,這就需要發展更加智能的數據挖掘技術。
◆知識展現環節:在大數據服務于決策支撐場景下,以直觀的方式將分析結果呈現給用戶,是大數據分析的重要環節。如何讓復雜的分析結果易于理解是主要挑戰。在嵌入多業務中的閉環大數據應用中,一般是由機器根據算法直接應用分析結果而無需人工干預,這種場景下知識展現環節則不是必需的。
總的來看,大數據對數據準備環節和知識展現環節來說只是量的變化,并不需要根本性的變革。但大數據對數據分析、計算和存儲三個環節影響較大,需要對技術架構和算法進行重構,是當前和未來一段時間大數據技術創新的焦點。
我國大數據發展的宏觀政策環境不斷完善。2012 年以來,科技部、發改委、工信部等部委在科技和產業化專項陸續支持了一批大數據相關項目,在推進技術研發方面取得了積極效果。2013年6月工信部發布的《電信和互聯網用戶個人信息保護規定》,根據《全國人民代表大會常務委員會關于加強網絡信息保護的決定》,進一步界定了個人信息的范圍,提出了個人信息的收集和使用規則、安全保障等要求,為大數據應用中的個人信息保護設立了法律法規屏障。2014年《政府工作報告》明確提出,“以創新支撐和引領經濟結構優化升級;設立新興產業創業創新平臺”,在新一代移動通信、集成電路、大數據等方面趕超先進,引領未來產業發展。
地方政府積極推動大數據發展,2013年以來陸續出臺了推進計劃??傮w上看各地大數據發展政策各有側重,形成了不同的模式。
模式一是強調研發及公共領域應用。如上海市《推進大數據研究與發展三年行動計劃》提出,將在三年內選取醫療衛生、食品安全、終身教育、智慧交通、公共安全、科技服務 6 個有基礎的領域,建設大數據公共服務平臺。
模式二是強調以大數據引領產業轉型升級。如北京中關村《關于加快培育大數據產業集群推動產業轉型升級的意見》提出,要充分發揮大數據在工業化與信息化深度融合中的關鍵作用,推動中關村國家自主創新示范區產業轉型升級。
模式三是強調建立大數據基地,吸納企業落戶。如重慶、貴州、陜西、湖北等地都提出建設大數據產業基地的計劃,力圖將大數據培育成本地的支柱產業。在地方積極推動大數據發展的同時,也應警惕將“大數據”簡單等同于“大數據中心”、盲目上馬大規模園區建設的潛在過熱風險。
總體上,我國的大數據產業具備良好基礎,發展前景廣闊。
一是一批世界級的互聯網公司在大數據應用上不斷推陳出新,智能搜索、廣告、電商、社交等借助大數據技術持續進化,互聯網金融、O2O(online to offline)等應用借助大數據向線下延伸。
二是大數據技術緊跟國際先進水平,具備建設和運營世界最大規模大數據平臺的能力,單集群規模達 5000 到 10000 臺服務器,數據管理規模達到 EB(1EB=10 18 B)級別,在機器學習等方面也有所突破。
三是當前和未來一段時間,我國面臨著經濟結構轉型升級、政府和公共服務改進提升等緊迫任務,這些方面大數據都有廣闊的應用前景。
應該認識到,大數據在全球的發展還都處于初期,技術、制度、觀念等方面都需要改變。對我國來說,數據資源不豐富、技術差距大和法律法規不完善是當前大數據發展面臨的主要問題。
一是我國數據源不夠豐富,數據開放程度較低。豐富的高質量數據資源是大數據產業發展的前提。近幾年在互聯網產業及金融、電信信息化快速發展的帶動下,我國數據資源總量有了快速增長,已達到全球的 13%,但其他行業受信息化水平制約,數據儲量仍不豐富。已有數據資源還存在標準化、準確性、完整性低,利用價值不高的情況。
同時,我國政府、企業和行業信息化系統建設中受到各種因素制約,形成了眾多“信息孤島”,數據開放程度嚴重滯后。建立良性發展的數據資源儲備與共享體系,是我國大數據發展的首要問題。
二是我國大數據技術存在水平不高,技術擴散不暢的問題。我國大數據技術的發展模式也與全球類似,互聯網企業具備快速將國際先進的開源大數據技術整合到自身系統中的能力,并構建了單集群上萬節點的大型系統,但仍缺乏原創技術,對開源社區的貢獻不足,進而對前沿技術路線的影響比較微弱。同時,由于本土開源社區等產業組織發育滯后,國內領先企業在大數據方面的技術創新也難以向社會擴散。
三是大數據相關的法律法規有待進一步完善。隨著大數據挖掘分析將越來越精準、應用領域不斷擴展,個人隱私保護和數據安全變得非常緊迫。在隱私保護方面,現有的法律體系面臨著兩個方面的挑戰:
一是法律保護的個人隱私主,要體現為“個人可識別信息(PII,Personally identifiable information”,但隨著技術的推進,以往并非 PII的數據也可能會成為 PII,使得保護范圍變得模糊。
二是以往建立在“目的明確、事先同意、使用限制”等原則之上的個人信息保護制度,在大數據場景下變得越來越難以操作。而我國個人信息保護、數據跨境流動等方面的法律法規尚不健全,這成為制約大數據產業健康發展的重要原因之一。需要結合我國法治建設的實際情況,探索通過行業自律等方式彌補法律體系不完善的弊端。

在總體思路上,需要首先明確我國大數據發展的戰略目標和戰略重點,統籌謀劃大數據應用、關鍵技術研發與產業培育、數據開放與數據保護、市場監管、法律法規等關鍵布局,引導國內各地大數據發展方向,避免一哄而上的盲目發展。
在大數據應用上,一是政務和公共服務領域的應用,重點面向改善民生服務和城市治理等方面,積極推動環保、醫療、教育、交通等關鍵領域的大數據整合與集成應用,進一步提高政務和公共服務效率。
二是市場化應用方面,重點在跨行業的大數據應用方面出臺推動政策,促進互聯網、電信、金融等企業與其他行業開展大數據融合與應用創新,帶動全社會大數據應用不斷深化。
在技術創新上,一是要加強大數據技術研發方向的前瞻性和系統性,近期重點支持深度學習與人工智能、實時大數據處理、海量數據存儲管理、交互式數據可視化和應用相關的分析技術。二是要聚集產學研用力量形成合力,力爭在大數據平臺級軟件上實現突破,以此為核心發展開源生態。三是創新科研項目支持方式,將開源和開放標準作為考核指標,通過直接補助或后補助方式激勵企業和科研機構參與開源技術發展,促進大數據技術擴散。
在政府數據開放上,建議推進政府和公用事業領域數據資源的普查工作,并按照相關法規制定政府和公共數據開放中的安全和隱私保護檢查表,對可能涉及國家安全和公民隱私的風險點進行嚴格控制。
在此基礎上,按敏感性對政府和公共數據進行分類,確定開放優先級,制定分步驟的數據開放路線圖。同時,政府也應積極規范和引導商業化的大數據交易活動,為數據資源的流通創造有利條件。
在個人信息保護上,國際上一些機構提出,為了釋放大數據潛力, 監管的重點應該“從數據收集環節,轉移數據使用環節”。我們要密切關注國際上立法理念的演變趨勢,結合技術發展趨勢和我國國情對相關制度進行前瞻性研究。同時,為了解決當前個人信息和數據保護的緊迫需求,可依托行業組織及時總結業界的最佳實踐,逐步形成行業共識,在試點成熟后上升為標準或法律法規并推動實施,為大數據的健康發展保駕護航。
(摘自工業和信息化部電信研究院大數據白皮書·2014)