摘 要:大數據是從各種各樣來源中搜集得到的海量數據信息的總稱。從大數據的數據結構看,大約90%的數據是非結構化的,同時也也面臨復雜性、安全和隱私風險等新挑戰。文章分析了企業的大數據應用,也提出了國家和政府部門未來建設大數據戰略應用項目的建議。
關鍵詞:大數據; 政府部門; 企業;數據結構
政府使用大數據是為了提升和改善公共服務,這與企業利用其追求利潤異曲同工。
大數據是從各種各樣來源中搜集得到的海量數據信息的總稱。對于傳統的關系型數據分析技術來說,其數據量太大,未經處理,同時也是非結構化的。據統計,現在每天產生2.5艾字節(quintillion bytes)的數據信息,全球將近90%的數據是過去兩年創造出來的。
此外,從大數據的數據結構看,大約90%的數據是非結構化的。來源于網絡和云的海量數據,為發現、創造價值,以及豐富商業智能支撐機構決策提供了新的機遇。不過,大數據也面臨復雜性、安全和隱私風險等新挑戰。同時,對于新技術和人類技能的開發來說,大數據是一種需要。
大數據重新定義了數據管理的范圍,由數據提取、轉換、加載,或稱為ETL(Extraction-Transformation-Loading),演變為在大數據應用中凈化和組織非結構化數據的新技術(如分布式架構技術)。
盡管企業部門正引導大數據應用的發展,公共部門也開始對迅速增長的大數據具有洞察力,為實時決策提供幫助和支持。
大數據有多個來源,包括互聯網、生物和產業部門、視頻、電子郵件和社交媒體。許多白皮書、期刊論文和商業報告已經提出了政府利用大數據,幫助其服務公眾和應對傳統挑戰(如醫療成本上升、創造就業、自然災害和恐怖主義等)的路徑。
也有一些觀點,就大數據是否真能改進政府運作效率提出質疑,因為政府必須發展新的能力,并采用新技術(比如分布式和非結構化查詢語言),通過數據組織和分析,將大數據轉變為有用的信息。
本文就政府是否能與企業一樣,將大數據應用于公共服務部門進行了研究。我們首先比較了政府和企業在目標、任務、決策制定過程、決策者、組織架構和戰略的差異,接著考察了部分技術領先的國家當前大數據應用的狀況,這些國家包括澳大利亞、日本、新加坡、韓國、英國和美國等。
本文也分析了一些企業的大數據應用,這些技術也能應用在政府事務中。最后,我們提出了國家和政府部門未來建設大數據戰略應用項目的建議。
1文章主要觀點
企業、政府和研究機構都能夠從他們搜集的海量大數據中獲取價值;
大數據應用領先的國家已實施大數據應用項目,以提高國家運行效率、透明度、民眾福利和公共事務參與度,確保經濟增長和國家安全;
分析政府部門采用的大數據應用項目,為其他國家提供未來大數據行動的引導。
2企業和政府的大數據應用比較
雖然企業和政府的主要任務并不沖突,但各自的舉措具有不同的目標和價值。企業的主要目標是通過提供產品和服務獲取利潤,發展或維持自身的競爭優勢,創造令消費者和其他利益相關者滿意的價值。政府的主要目標則是維持國內穩定,實現可持續發展,確保公民的基本權利,改善國民福利和促進經濟增長。
在競爭的市場環境下,大部分企業著眼于制定短期決策,并且執行人員數量也很有限。而政府的決策制定過程通常需要更長的時間,經過不同群體(包括官員、利益集團和普通民眾)反復討論和磋商,在彼此間達成一致后才能有最終結果。因此,政府制定決策要完成很多程序性步驟,以降低決策風險,提高決策效率和確保其效果。由此看來,大數據在政府部門和私有部門的應用具有很大不同。
2.1數據集屬性比較
大數據環境是以信息技術為基礎的決策支持系統的演進:從上世紀60年代的數據處理,到70-80年代的信息應用,再到90年代的決策支持模型,進入2000年后的數據存儲和挖掘,再就是今天的大數據。大部分與大數據相關的技術和分析應用是從2010年左右開始出現的,故大數據時代正處于早期階段/發展初期。
大數據的屬性和挑戰可用3V來描述:海量(volume)、速度(velocity)和多樣性(variety)。海量是大數據的基本屬性,各類機構和組織在業務活動過程中產生數以百萬億字節的數據,數據容量越來越大;速度是指數據量增長越來越快,對處理速度和響應速度提出更高要求,運用傳統的信息技術手段難以有效處理,以及從中提取有價值的信息;多樣性是指數據以各種各樣類型的出現,包括結構化的(SQL等傳統的數據庫);半結構化的(具有關鍵字和規則,但數據結構不規則或不完整)和非結構化的(非組織性的數據,沒有商業智能)。
大數據的概念已經表明,大數據不僅僅是海量的數據,還包括通過處理大數據從中獲取價值。如今,大數據與商業智能、商業分析和數據挖掘是同義詞,已經使商業智能從報告和決策支持轉移到預測和制定未來行動綱領。新的數據管理系統旨在應對大數據帶來的挑戰,如分布式架構技術是一個開源平臺,目前是在管理存儲和接入,以及高速并行處理大規模數據集等方面應用最為廣泛的技術。然而,對于很多企業,特別是不少中小企業來說,分布式技術是一個挑戰。因為這些中小企業往往不具備應用大數據需要的專業人員和經驗,他們需要外部資源幫助。應該看到,大數據應用需要的不是純粹基于技術的技能,找到正確的分析大數據的技能,或許是企業應用大數據面臨的最大難題。對于大部分企業來說,發現和選擇勝任的數據專家(在數據挖掘、可視化、操作和發現等方面)是困難而昂貴的。
其他商業大數據技術包括Casandra數據庫,它是一個動態的數據庫工具,采用行存儲格式,每一行能存儲二百萬個數據單元。對于企業的另一個挑戰是選擇最適合他們的大數據技術:開源技術(如分布式架構技術)或者商業技術(如Casandra, Cloudera, Hortonworks, MapR)。
政府在應用大數據時,不僅要處理多個來源、不同格式數據集成等一般問題,而且還面臨一些特殊挑戰,最大的挑戰就是數據搜集。因為政府搜集的數據不僅來自于多種渠道(如社交網絡、互聯網、眾包),也來自于不同的來源(如國家、機構和部門),搜集難度可想而知;其次,在國家之間分享數據和信息是一個特殊的挑戰。跨國分享信息,由于涉及到語言轉換和不同的文化背景(內容的表現形式),分享和傳遞的信息有可能失真;第三個挑戰是在一個國家不同的政府部門和機構之間分享數據。政府數據與商業數據最重要的不同就在范圍和區域,其差異近幾年都在平穩增長。政府(包括地方政府和中央政府)在實施法律和規章、提供公共服務和監管金融交易的過程中積累了大量數據。這些數據的屬性、價值和帶來的挑戰,都不同于公司運營中產生的數據。政府的大數據特征屬性可以表述為存儲、安全和多樣性。通常,每個政府機構或部門都有自己的存儲機構,用于存儲公共或機密信息,而且并不愿意分享各自的專有信息。
每個系統都保存有與其他系統隔絕的信息,這使得政府機構和部門之間的數據集成更加復雜。彼此溝通的失敗有時是影響數據集成的重要原因。例如,在英國,警察機構和醫院之間曾經打算在暴力犯罪方面分享信息,但這一項目最終失敗,原因就是兩者之間溝通不足。另一個分享政府信息的挑戰是建立統一的數據格式,能夠允許不同機構進行分析。盡管大部分政府數據是結構化的,但是從多種渠道和來源去搜集數據仍然是一個更大的困難。缺乏標準化的數據格式和軟件,以及從多個政府機構的離散數據庫中提取有用信息的跨機構解決方法,也是政府推進大數據應用面臨的挑戰。但由于政府的緊縮措施,導致其缺乏相應資金去發展和推進解決上述問題。
在使用大數據時,政府必須解決相關的法律、安全和許可要求等問題。在搜集和使用大數據用于預測分析與保障公民隱私權之間,應該有一條清晰的界限。表1所列是企業與政府大數據項目的屬性比較。
表1企業與政府大數據項目的屬性對比
屬性企業政府
目標為股東創造利潤國家穩定和持續發展
愿景發展競爭力優勢,
顧客滿意基本權利安全(平等、公主、自由),改善全民福利,經濟增長
決策制定基于自身利益最大化和成本最低的短期
決策制定基于自身利益最大化和改善公共利益的長期決策制定過程
決策制定人有限數量的決策制定人多種類型的決策制定人
組織結構等級體系治理
融資來源收入稅收
搜集活動的性質競爭和參與合作和核實
在美國,美國愛國者法案允許合法監控,有時還可以監控公民;電子通訊隱私法案允許相關部門不經授權便可進入電子郵件系統;要對網絡情報共享和保護法案(CISPA)加以注意,它將允許安全機構和私人網絡公司之間的信息共享,這增加了人們對誤解信息不適當應用的關注。
數據安全是政府大數據最基本的屬性,因此,搜集、存儲和使用大數據都需要特別注意。然而,目前大部分大數據技術,包括 Casandra數據庫和分布式技術,都缺乏足夠的安全保護工具。對政府而言,確保安全則是又一個挑戰。
對于政府的大數據項目而言,確保獲取高度管制行業(比如金融服務和醫療機構)信息的合規性,是搜集數據的另一個障礙。比如,當從與醫療相關的大數據獲取有效信息的時候,必須解決美國醫療管制制度對數據保護的問題。針對醫療行業的大數據分析,美國與醫療相關的兩個法案健康保險攜帶和責任法案(HIPAA)、經濟和臨床健康醫療信息技術法案(HITECH)均設置了很大障礙。圖1所示是美國的企業和政府的大數據集屬性比較圖。
圖1企業和政府的數據集屬性比較圖
HIPAA保護涉及個人隱私的健康信息,并提出了保護電子數據和病人檔案的國家標準,而且制定了保護在分析病人安全事件中病人身份和信息的規則。2009年,HITECH延伸了HIPAA在保護醫療記錄和醫療信息被不同機構以電子方式使用方面的規定。這些法律規定限制了醫療記錄數據信息用于大數據分析的數量和類型。因為大數據定義涉及到大范圍的數據,而這些法規把搜集數據和進行分析限定在一個狹小的范圍。目前在美國,能夠用于大數據分析的醫療信息只能來自于志愿者提供。
企業使用大數據,目的是了解消費者的需求和行為,發展獨有的核心競爭力,并創新產品和服務;政府使用大數據,是為了通過預測性分析,提高政策透明度,增加公民對公共事務的參與度和預防犯罪,改善國家安全,通過更好的教育和醫療提高居民福利。
開發從大數據中提取更多價值的技術,對于政府和企業來說都是持久挑戰。然而,對于政府的挑戰來得更尖銳,因為其必須打碎部門間的阻隔以推進數據集成,實現各部門信息共享,并建立統一的數據調控中心(如美國聯邦數據中心)。
2.2美國的大數據應用
目前,世界上有一些發達國家已經在政府部門開始推廣大數據應用。通過分析和比較這些先發國家的大數據應用,我們能了解當前和未來需要大數據應用聚焦和服務的地方,并為其他國家開展大數據應用提供借鑒。
(美國)
為了對海量數據流的實時分析管理,美國政府和IBM在2002年合作開發了一個容量巨大、聚集性強的大數據基礎架構。IBM基于Hadoop、流計算、數據倉庫等開發的InfoSphere Stream和Big Data,被政府機構和商業組織廣泛應用于海量實時數據源的分析和可視化、二次應用程序開發和系統管理等。
2009年,美國政府“一站式數據下載”網站data.gov正式上線,并作為向政府透明化和問責制邁進的一個步驟。該網站包括了420 894個數據集(截至2012年8月),囊括了交通、經濟、醫療、教育和人口服務等方面的數據。數據來源于多個方面,其中1 279個由政府提供,236個由居民提供,103個由移動設備提供。
2010年,美國總統科學技術顧問委員會(聯邦政府協調非分類網絡和信息技術投資的主要機構)在《規劃數字化的未來》中建議,“聯邦政府的每一個機構和部門,都需要制定一個應對‘大數據’的戰略”,標志著大數據時代已經正式來臨。
2012年,奧巴馬政府頒布了《大數據的研究和發展計劃》,通過提高從大型復雜的數字數據集中提取知識和觀點的能力,進而加快美國在科學與工程中的步伐,加強國家安全,并改變教學研究。這是一個數額高達2億美元的投資計劃,涉及多個聯邦部門和機構,包括白宮科學技術政策辦公室、美國國家自然基金會、美國國立衛生研究院、美國國防部、美國能源部、美國衛生與公眾服務部、美國地質調查局等機構。這個投資項目的主要目的是提高大數據核心技術的發展水平,加速科學和工程開發,加強國家安全,轉換大數據教育和學習方式,擴展開發和使用大數據技術的工作力量。
截至2014年2月,美國國立衛生研究院(NIH)在亞馬遜網絡服務中心已經積累了數以百萬億字節的人類遺傳變異數據,研究人員因此能獲得和分析巨量數據,而不用再去發展自身的超級計算能力。在2012年,美國國家科學基金會聯合美國國立衛生研究院(NIH)實施了提高大數據科學與工程核心技術規劃,目的在于推進從大量、多樣化、分布式、異質性的數據集合中管理、分析、可視化和提取有用信息的核心科學技術。
美國其他政府機構也開始進行大數據分析。美國國家稅務局已經在它的返回審查程序中集成了大數據分析能力。通過分析大量的數據,美國國家稅務局能夠檢查、預防和處理避稅和詐騙案。美國國防部也在大數據相關項目花費了數百萬美元,其目標之一就是利用大數據發展自主機器人系統(學習機器)。
美國地方政府也開發了大數據項目。例如,在2011年,美國紐約州錫拉丘茲市政府與IBM合作開展了一個智慧城市項目,使用大數據幫助預測并阻止住宅空置。密歇根州政府信息技術部構建了一個數據庫,提供密歇根州居民的相關信息,以便政府機構提供更好的服務。
(2) 歐盟
2010年,歐盟正式發布“歐洲數字化議程”,旨在建立一個統一的“數字市場”,推動歐盟內部高速和極速互聯網互聯互通和應用共享,進而促進歐盟經濟社會可持續發展,造福歐盟人民。2012年,歐盟委員會在“歐洲數字化議程及其挑戰”中制訂了大數據戰略,并強調了公共數據安全及挖掘公共機構數據的價值潛力,同時滿足日益強烈的對個人數據安全保護的訴求;發展物聯網,確保網絡安全及在線交易的數據處理安全。
(3)英國
英國政府是最早推進大數據規劃的歐洲國家。2004年,英國設立了水平掃描中心(HSC)項目,以提升政府處理跨部門和多學科挑戰的能力。2011年,水平掃描中心(HSC)啟動氣候變化的未來國際影響計劃,通過對多數據源進行深度分析,研究解決氣候變化對食品和水的可獲得性,以及對地區或國際形勢的影響等問題。英國政府發起的另外一個項目是,2009年建立了http://data.gov.uk公共網站,來自七個政府部門的1 000多個既有數據集對外開放,后來增到8 633個數據集。
荷蘭、瑞士、英國和其他17個國家與IBM合作開發了一個名為 DOME的超級計算系統項目。該系統每天能處理超過1 EB的數據,數據來源于射電望遠鏡平方公里陣列(SKA),旨在通過探索百億億次的計算、數據傳輸和存儲等新興技術,以及對每日采集的數據流進行讀取、存儲和分析,解決一系列宇宙科學問題。這個大數據項目的總部位于英國曼徹斯特的Jodrell Bank天文臺。
(4)韓國
2011年,韓國總統國家ICT戰略委員會發布了“大數據倡議”。該委員會是最高層次的政府信息通信技術協同機構,其使命是在建立必要的基礎設施過程中發揮領導作用。“大數據倡議”旨在建立泛政府大數據網絡和分析系統,推進政府與私有部門之間的數據共享融合,建立公共數據診斷系統,培養和培訓合格的大數據專業人員;保障個人信息安全,以及改善相關法律,發展大數據基礎設施和技術,發展大數據管理和分析技術。
很多韓國政府機構已經提出了相關的行動計劃。例如,韓國衛生部建立了社會福利綜合管理網絡,分析來源于35個機構的385個不同類型的公共數據,綜合管理中央政府和地方政府提供的福利和服務。食品、農業、森林與漁業部、公共行政與安全部(MOPAS)計劃推出預防手足口病的綜合系統,該系統依托于分析動物疾病相關的海外大數據、海關出入境記錄、養殖場的跟蹤調查、牲畜遷移和養殖工人活動等相關的大數據,實現預防目的。MOPAS的另一計劃是推出災害預報系統,該系統基于過去的災害記錄和自動實時的天氣和地震預報進行預測。此外,韓國生物信息中心計劃開發和運營國家DNA管理系統,該系統集成大量的DNA和病人醫療信息,為個人提供個性定制化的診斷和治療。
(5)新加坡
2004年,針對國家安全、傳染病和其他國家層面關心的問題,新加坡政府與國家安全協作中心合作發布了風險評估和水平掃描計劃(RAHS)。通過對大數據的采集和分析,積極把控威脅國家安全的相關問題,包括恐怖襲擊、傳染病傳播和金融危機等。風險評估和水平掃描計劃實驗中心(REC)于2007年開放,它聚焦于風險評估和水平掃描計劃相關政策制定的新技術工具,并通過大數據基礎設施系統升級來維持和強化這一能力。為通過大數據研究、分析和應用創造價值,新加坡政府還推出了門戶網站 http://data.gov.sg/,50多個政府部門的5 000多個數據集通過此網站向公眾開放。
(6)日本
日本政府已啟動多個利用既有大數據的計劃。從2005到2011年,文部科學省與相關的大學和研究機構合作,設立了信息爆炸時代的新IT基礎設施項目。從2011年起,政府優先解決地震、核電站災難和受污染區域的重建和災民安置,以及相關的社會和經濟救濟。文部科學省與國家科學基金會合作提高研究和利用大數據的技術,以預防、減輕和管理自然災害。作為內務省的兩個分支機構,信息和通信委員會和ICT戰略委員會,把“大數據應用”作為日本面向2020年的關鍵使命。日本已經成立了一個大數據專家組。
(7)澳大利亞
澳大利亞政府信息管理辦公室(AGIMO)實施政府2.0計劃,為公眾獲取政府數據提供了渠道,政府2.0計劃推出了http://data.gov.au/ 網站,通過這一網站,讓公眾便捷、高效檢索和獲取政府數據。
2.3政府大數據項目實施情況比較
回顧大數據應用領先國家的大數據項目情況,有三個顯著特點:首先,現有的大多數大數據項目充其量只是數據量較大的應用。這些國家的政府大數據應用項目,大部分是基于共享存儲的結構化數據庫,并不使用實時、動態和非結構化或半結構化的數據;第二,公共部門致力于規范大型而復雜的數據集,政府期望大數據應用來提升政府服務民眾的能力,以及解決國家面臨的重大挑戰問題,包括經濟、醫療、就業、自然災害和恐怖襲擊等。然而,大部分大數據應用于居民(參與到公共事務)和商業部門,而不是政府部門;第三,政府設立的大部分大數據項目剛剛開始或計劃未來實施,美國國家科學基金會和國家衛生機構的大數據計劃就是如此。這意味著,大數據在政府部門的應用仍然處于發展的初級階段,只有少數項目在運營(比如美國的RRP、新加坡的 RAHS和英國的 HSC)。
3結語
對不同來源和不同格式(結構化/存儲的,半結構化的/滯后的,非結構化的/即時更新的)的數據進行分析和管理并創造價值,是一種新的差異競爭形式。大部分政府運行或計劃的大數據項目需要循序漸進,設定正確的目標。項目的成功,取決于他們整合和分析信息的能力(譬如利用Hadoop),開發支持系統(如大數據控制系統)和分析支持決策制定的能力。
本文討論了政府在大數據應用中面臨的挑戰和機遇,將為其他國家政府開發和利用大數據提供幫助。通過仔細分析先行國家已有項目的經驗和教訓,特別是利用移動服務、移動互聯等,將有利于這些國家的政府更好地利用大數據。
未應用大數據的政府,應重視和認識公共部門應用大數據的幾個問題:
(1)國家優先發展戰略。大數據應用領先國家的所有大數據項目,都具有國家優先發展的相關目標(比如數據的開放和已獲得,公民更好參與公共事務)。對大數據應用的主要關注點集中于安全、速度、交互性、分析能力,和缺少勝任的專業人員。然而,每個國家的政府基于其獨有的環境,有自身的優勢、機會和威脅。
(2)分析機構。對于跨部門的數據,管理和綜合數據需要一個自上而下的統籌。政府應建立一個大數據控制中心以綜合各部門既有數據的數據庫,包括結構化和非結構化的。此外,政府還需要建立一個先進的分析機構負責開發戰略,處理大數據如何通過新技術平臺進行管理和分析,如何招募到熟練的從業人員。
(3)實時分析。政府需要管理即時更新的大數據,并進行實時分析,同時保護個人信息安全,還需要探索的新技術平臺(比如云計算,先進分析和安全技術)。相當多的政府數據在性質上是全球化的,而且能夠被用于預防和解決全球事務,因此必須開展全球合作。
(4)國際化。各國政府間努力集成和共享地球觀測數據。全球地球觀測系統,是一個全球性的公共基礎設施,產生了綜合的、接近實時性的環境數據,目的是為全球使用者和決策制定者提供信息以供分析。政府也需要共享與安全威脅、詐騙和非法活動相關的數據。這種大數據需求不僅需要轉換技術,還需要國際化的協作去共享和綜合數據。
(5) ICT專業公司。政府應該與ICT專業公司合作。例如,亞馬遜AWS關聯很多公共數據集,包括日本、美國人口調查數據和許多基因組及醫療數據庫。