工業和信息化部電信研究院5月12日在北京舉行了《大數據白皮書(2014)》發布會。《大數據白皮書(2014)》提出了我國推動大數據發展、開放政府和公共數據資源、保護數據安全與個人隱私等方面的策略。
當前,全球大數據產業日趨活躍,技術演進和應用創新加速發展,各國政府也逐漸認識到大數據在推動經濟發展、改善公共服務,乃至保障國家安全方面的重大意義,紛紛積極出手推動。在全球大數據蓬勃發展的大背景下,我國也面臨難得的發展機遇。如何抓住機遇,將我國擁有的數據資源轉化為經濟發展動力,是擺在政府和產業界面前的緊迫課題。
大數據的價值體現在大數據的應用上,人們關心大數據,最終是關心大數據的應用,關心如何從業務和應用出發讓大數據真正實現其所蘊含的價值,從而為我們的生產生活帶來有益的改變。對“大數據應用”,不同行業和不同應用者理解不同。《大數據白皮書(2014)》將大數據應用界定為:“利用分布式并行計算、人工智能等技術對海量異構數據進行計算、分析和挖掘,并將由此產生的信息和知識應用于實際的生產、管理、經營和研究中”。
整體而言,全球的大數據應用處于發展初期,中國大數據應用才剛剛起步。目前,大數據應用在各行各業的發展呈現“階梯式”格局:互聯網行業是大數據應用的領跑者,金融、零售、電信、公共管理、醫療衛生等領域積極嘗試大數據。
互聯網是大數據應用的發源地,大型互聯網企業是當前大數據應用的領跑者。搜索引擎作為最早的互聯網大數據應用,其不斷的發展推動谷歌在2000年左右提出了MapReduce/BigTable 等技術,從此開啟了大數據技術的新篇章。經過十多年的發展,互聯網上形成了多種相對成熟的大數據應用模式,按照用途分為以下三類:
第一,商業大數據應用,即主要以盈利為目的的大數據應用。目前常見的應用有:一是基于用戶個人信息、行為、位置、微博等數據而進行的個性化推薦、交叉推薦、品牌監測等營銷類大數據應用。由于其商業模式清晰可見,市場需求廣泛旺盛,因此這是目前互聯網上最熱門最普遍的應用,被互聯網廣告、電子商務、微博、視頻、相親等公司普遍采用。二是基于用戶、商鋪的交易數據而進行的經營分析報告、反欺詐、反虛假交易、促銷和團購選品、產業集聚判斷等交易輔助類大數據應用,這些應用目前已經逐漸成為電子商務企業的必備工具。三是利用網站動態數據對網絡狀態進行實時監控預警、網站分析優化和網絡信息安全保護的網絡安全大數據應用。
第二,公共服務類大數據應用,即不以盈利為目的、側重于為社會公眾提供服務的大數據應用。典型案例如谷歌開發的流感、登革熱等流行病預測應用能夠比官方機構提前一周發現疫情爆發狀況。國內也有搜索引擎公司提供諸如春運客流分析、失蹤兒童搜尋的公益大數據服務。
第三,技術研發類大數據應用,即利用大數據技術促進前沿技術研發、持續改進產品性能的應用。互聯網應用在新版本的研發中,常常進行A/B 測試就是大數據在產品開發中的典型應用。A/B 測試中,服務商同時收集新老版本下的用戶行為數據(如點擊行為、訪問時長、鼠標停留等),并進行分析比對,用以指導產品后續的改進方向。另外,利用各種語言版本的網頁數據不斷提高翻譯質量的機器翻譯、利用更多話音指令不斷提升質量的話音識別技術,以及無人汽車等前沿技術的研發也廣泛應用了大數據技術。
大數據應用起源于互聯網,正在向以數據生產、流通和利用為核心的各個產業滲透。目前金融、零售、電信、公共管理、醫療衛生等領域在積極地探索和布局大數據應用,主要呈現兩種發展方向:
一是積極整合行業和機構內部的各種數據源,通過對整合后的數據進行挖掘分析,從而發展大數據應用。例如,一些新興的大型百貨商場利用大數據平臺整合POS(point of sale)機、企業CRM(CustomerRelationship Management)系統、免費無線網絡、客流監控設備等數據,對用戶進行聚類分析,支撐包括商品位置擺放、打折信息投放、移動端營銷、客戶習慣查詢、客戶群路徑分析等應用,提高商場營銷效率和營業額。基于大數據的智慧城市決策系統也是大數據應用的重要領域,可整合來自經濟、統計、民政、教育、衛生、人力等政府部門內部數據和來自物聯網、移動互聯網等網絡數據,設計經濟社會運行分析模型,支撐智慧人口、智慧醫療、智慧教育、智能物流、智能環保等相關決策應用。
二是積極借助外部數據,主要是互聯網數據,來實現相關應用。例如,金融機構通過收集互聯網用戶的微博數據、社交數據、歷史交易數據來評估用戶的信用等級;證券分析機構通過整合新聞、股票論壇、公司公告、行業研究報告、交易數據、行情數據、報單數據等,試圖分析和挖掘各種事件和因素對股市和股票價格走向的影響;監管機構將社交數據、網絡新聞數據、網頁數據等與監管機構的數據庫對接,通過比對結果進行風險提示,提醒監管機構及時采取行動;零售企業通過互聯網用戶數據分析商品銷售趨勢、用戶偏好等等。
從目前發展的情況來看,金融、零售和公共管理領域開展大數據應用時,兩個方向都有所涉足,而電信和醫療衛生等領域更關注第一個發展方向。
我國大數據快速發展緣于國家宏觀政策環境不斷完善。2012年以來,科技部、發改委、工信部等部委在科技和產業化專項陸續支持了一批大數據相關項目,在推進技術研發方面取得了積極效果。2013年6月工信部發布的《電信和互聯網用戶個人信息保護規定》,根據《全國人民代表大會常務委員會關于加強網絡信息保護的決定》,進一步界定了個人信息的范圍,提出了個人信息的收集和使用規則、安全保障等要求,為大數據應用中的個人信息保護設立了法律法規屏障。2014年《政府工作報告》明確提出,“以創新支撐和引領經濟結構優化升級;設立新興產業創業創新平臺”,在新一代移動通信、集成電路、大數據等方面趕超先進,引領未來產業發展。
各地大數據發展政策各有側重,形成了不同的模式。模式一是強調研發及公共領域應用。如上海市《推進大數據研究與發展三年行動計劃》提出,將在三年內選取醫療衛生、食品安全、終身教育、智慧交通、公共安全、科技服務6 個有基礎的領域,建設大數據公共服務平臺。模式二是強調以大數據引領產業轉型升級。如北京中關村《關于加快培育大數據產業集群推動產業轉型升級的意見》提出,要充分發揮大數據在工業化與信息化深度融合中的關鍵作用,推動中關村國家自主創新示范區產業轉型升級。模式三是強調建立大數據基地,吸納企業落戶。如重慶、貴州、陜西、湖北等地都提出建設大數據產業基地的計劃,力圖將大數據培育成本地的支柱產業。在地方積極推動大數據發展的同時,也應警惕將“大數據”簡單等同于“大數據中心”、盲目上馬大規模園區建設的潛在過熱風險。
《大數據白皮書(2014)》數據顯示,我國的大數據產業具備良好基礎,發展前景廣闊。一是一批世界級的互聯網公司在大數據應用上不斷推陳出新,智能搜索、廣告、電商、社交等借助大數據技術持續進化,互聯網金融、O2O(online to offline)等應用借助大數據向線下延伸。二是大數據技術緊跟國際先進水平,具備建設和運營世界最大規模大數據平臺的能力,單集群規模達5000 到10000臺服務器,數據管理規模達到EB(1EB=1018B)級別,在機器學習等方面也有所突破。三是當前和未來一段時間,我國面臨著經濟結構轉型升級、政府和公共服務改進提升等緊迫任務,這些方面大數據都有廣闊的應用前景。
應該認識到,大數據在全球的發展還都處于初期,技術、制度、觀念等方面都需要改變。對我國來說,數據資源不豐富、技術差距大和法律法規不完善是當前大數據發展面臨的主要問題。
豐富的高質量數據資源是大數據產業發展的前提。近幾年在互聯網產業及金融、電信信息化快速發展的帶動下,我國數據資源總量有了快速增長,已達到全球的13%,但其他行業受信息化水平制約,數據儲量仍不豐富。已有數據資源還存在標準化、準確性、完整性低,利用價值不高的情況。同時,我國政府、企業和行業信息化系統建設中受到各種因素制約,形成了眾多“信息孤島”,數據開放程度嚴重滯后。建立良性發展的數據資源儲備與共享體系,是我國大數據發展的首要問題。
我國大數據技術的發展模式也與全球類似,互聯網企業具備快速將國際先進的開源大數據技術整合到自身系統中的能力,并構建了單集群上萬節點的大型系統,但仍缺乏原創技術,對開源社區的貢獻不足,進而對前沿技術路線的影響比較微弱。同時,由于本土開源社區等產業組織發育滯后,國內領先企業在大數據方面的技術創新也難以向社會擴散。
隨著大數據挖掘分析將越來越精準、應用領域不斷擴展,個人隱私保護和數據安全變得非常緊迫。在隱私保護方面,現有的法律體系面臨著兩個方面的挑戰:一是法律保護的個人隱私主,要體現為“個人可識別 信 息(PII,Personally identifiable information”,但隨著技術的推進,以往并非PII 的數據也可能會成為PII,使得保護范圍變得模糊。二是以往建立在“目的明確、事先同意、使用限制”等原則之上的個人信息保護制度,在大數據場景下變得越來越難以操作。而我國個人信息保護、數據跨境流動等方面的法律法規尚不健全,這成為制約大數據產業健康發展的重要原因之一。需要結合我國法治建設的實際情況,探索通過行業自律等方式彌補法律體系不完善的弊端。
《大數據白皮書(2014)》提出了推動我國大數據產業發展的思路:首先明確我國大數據發展的戰略目標和戰略重點,統籌謀劃大數據應用、關鍵技術研發與產業培育、數據開放與數據保護、市場監管、法律法規等關鍵布局,引導國內各地大數據發展方向,避免一哄而上的盲目發展。
在大數據應用上,政務和公共服務領域的應用,重點面向改善民生服務和城市治理等方面,積極推動環保、醫療、教育、交通等關鍵領域的大數據整合與集成應用,進一步提高政務和公共服務效率。市場化應用方面,重點在跨行業的大數據應用方面出臺推動政策,促進互聯網、電信、金融等企業與其他行業開展大數據融合與應用創新,帶動全社會大數據應用不斷深化。
在技術創新上,加強大數據技術研發方向的前瞻性和系統性,近期重點支持深度學習與人工智能、實時大數據處理、海量數據存儲管理、交互式數據可視化和應用相關的分析技術。聚集產學研用力量形成合力,力爭在大數據平臺級軟件上實現突破,以此為核心發展開源生態。創新科研項目支持方式,將開源和開放標準作為考核指標,通過直接補助或后補助方式激勵企業和科研機構參與開源技術發展,促進大數據技術擴散。
在政府數據開放上,建議推進政府和公用事業領域數據資源的普查工作,并按照相關法規制定政府和公共數據開放中的安全和隱私保護檢查表,對可能涉及國家安全和公民隱私的風險點進行嚴格控制。在此基礎上,按敏感性對政府和公共數據進行分類,確定開放優先級,制定分步驟的數據開放路線圖。同時,政府也應積極規范和引導商業化的大數據交易活動,為數據資源的流通創造有利條件。
在個人信息保護上,國際上一些機構提出,為了釋放大數據潛力,監管的重點應該“從數據收集環節,轉移數據使用環節”。我們要密切關注國際上立法理念的演變趨勢,結合技術發展趨勢和我國國情對相關制度進行前瞻性研究。同時,為了解決當前個人信息和數據保護的緊迫需求,可依托行業組織及時總結業界的最佳實踐,逐步形成行業共識,在試點成熟后上升為標準或法律法規并推動實施,為大數據的健康發展保駕護航。

>>圖1 大數據技術框架