一、大數據的膨脹
近年來,美國各級政府開始面對由數據的數量、種類和速度劇增所引發的變革浪潮。例如,2011年全球產生的數據量達1.8ZB(即1.8×1012GB),并且預計將每年翻番。這一數據量相當于2000億部時長2小時的高清電影,一個人要連續看4700萬年才能看完。這種現象對企業和政府是立桿見影的,也是無法回避的。
隨著互聯網的發展以及多種來源的信息匯集至政府機構,政府部門需要繼續設法管理大量的數據。政府部門可以從傳感器、衛星、社交媒體、移動通訊、電子郵件、無線射頻識別設備和企業應用程序持續不斷地接收數據。因此,政府領導人面臨的挑戰是,捕集、攝取、分析、存儲和分配數據,保障數據安全,并將其轉化為有意義、有價值的信息。
自2000年以來,美國聯邦政府收集的數據量呈指數級增長。2009年,美國政府產生的數據達848PB(即848×106GB),并且僅美國的醫療數據就達150EB(即150×109GB)。而5EB就相當于全世界的人們曾經講過的話語。照此速度,美國醫療部門的數據將很快達到ZB(即1012GB)規模,然后很快達到YB(即1015GB)規模。
美國聯邦政府接收的數據量之大,令人難以置信,這使信息過載成為一項根本挑戰。在數據量急速膨脹的過程中,新信息要么是未曾發現的信息,要么是未曾有過的信息。產生的問題是,如何有效地捕捉新的真知灼見。對大數據進行恰當地管理、建模、分享和轉化,為從中提取新的深刻見解,并以過去根本不可能的方式做出決策,提供了機遇。簡言之,政府領導面臨的任務和工作挑戰日益加劇,可利用的數據激增,并且過時落伍的信息管理能力完全限制了其應對能力,于是政府領導陷于進退兩難之地。他們面臨的問題包括:
*如何收集、管理和利用所有的新數據?
*如何保護和控制數據?
*如何提高組織間的信息共享,以獲得更加綜合且相互聯系的情報?
*如何通過更好地了解數據的出處,并回溯至經過驗證的可信數據源,從而提高數據的可信度?
*有哪些先進的可視化技術、工具和格式可用于表達信息,從而實現快速分析,并提出新的深刻見解?
*為抓住機遇,如何縮小人力資本的缺口?
二、大數據的特征
大數據是指大量、高速、復雜、變化不定的數據,需要用先進的方法和技術實現信息的收集、存儲、分配、管理和分析。
體量大、類型多和速度快是大數據的顯著特征。目前,15%的信息是結構化信息,便于存儲在關系型數據庫中。電子郵件、視頻、呼叫中心對話和社交媒體等非結構化信息占85%,這對于運用常規的業務情報工具來提取有意義的信息造成了挑戰。傳感器、平板電腦和移動電話等產生信息的設備繼續成倍增加。隨著全世界的聯系更加緊密,社交網絡也在加速發展。這些共享信息的選擇意味著公眾、政府和企業間互動方式的根本轉變。
從大數據的特征來看,數據源增加,傳感器的分辨率提高,使得大數據的體量大。數據源增加,數據通訊的吞吐量提高,數據生成設備的計算能力提高,使得大數據的速度快。移動設備、社交媒體、視頻、聊天、基因組學研究和各種傳感器使得大數據的類型多。以數據為基礎的決策要可追溯,要有理有據,這使得大數據還應具備準確性的特征。
大數據的這些特征將決定政府在大數據業務和整個大數據生態系統中收集、分析、管理、存儲及分配數據的方式。
三、大數據的價值
駕馭大數據,在整個政府和全球經濟中創造價值,其影響是廣泛而深遠的。
政府善政的許多重要原則與大數據有相通之處。從根本上說,大數據能夠通過改進政府機構和整個政府的決策,使政府機構更加英明地提高政府工作效率,為利益相關者服務。利用各種渠道的各種數據,快速獲得關鍵、準確的深刻見解,將顯著改進政府的各項關鍵政策和工作。
此外,駕馭大數據還將為私營部門創造新的市場和商業機遇,使企業能夠完善市場情報,從而為客戶創造更多價值。它還能夠幫助小企業減少商業上的不確定性。
四、大數據的應用
雖然大數據帶來的挑戰讓人望而生畏,但不是不可克服,并且其機遇令人無法抗拒。為處理政府事務,并體現利益相關者的要求,管理和利用大數據有許多潛在應用和方法。大數據的各種應用需要以服務對象為中心,需要具備以創新的方式重用和利用數據的能力。
醫療服務質量和效率
對于醫療服務的提供方和支付方來說,在減少醫療成本的同時不斷提高醫療質量和效率仍然是一個難以實現的目標,但這也是改善民生的重大機遇。2010年,全美醫療支出占國內生產總值的17.9%,比2000年增長13.8%。而且,某些慢性疾病如糖尿病的患病率正在增加,正在消耗更多的醫療資源。對這些疾病和其他相關健康服務的管理將深刻地影響國家的福祉。在這方面大數據可以發揮作用。為在廣大人群中取得最有效的醫療效果,更多地使用電子健康記錄(電子健康檔案),并與新的分析工具相結合,將提供挖掘信息的機會。研究人員可以利用信息尋找有效的統計趨勢,并依據真實的醫療服務質量開展醫療評估。
疾病的早期發現
在醫療保健領域,大數據可能涉及在醫院或家中使用傳感器,對關鍵的生物化學標記進行連續監測,對高風險患者的數據進行實時分析。如果分析檢測到健康異常,分析系統會向患者及其選定的醫療機構發出警報,讓患者去看病。這有可能改善和提高無數老百姓的生活質量。
交通
通過完善信息和自動駕駛功能,大數據有可能在許多方面徹底改變交通的面貌。開車的人多,交通堵塞就多,其后果是浪費能源,造成全球氣候變暖,耗費時間和金錢。手持設備、車輛和道路上的分布式傳感器則可以提供實時交通信息。這些信息,再加上更好的自動駕駛功能,可以使駕駛更安全,交通堵塞更少。智能汽車日益互聯的新型交通生態系統有可能徹底改變道路使用方式。
教育
大數據可以對美國教育及其在全球經濟中的競爭力產生深遠影響。例如,通過深入地跟蹤和分析學生的在線學習活動——精細至每個鼠標點擊動作,研究人員能夠確定學生的學習方式和提高學習的方法。這種分析可以針對成千上萬的學生進行,而不是孤立的小型研究。課程和教學方法,無論是在線的,還是傳統的,都可以根據大規模分析所收集到的信息進行修訂。
網絡安全
政府機構面臨著與防止網絡攻擊相關的無數挑戰。它們繼續著眼于提供創新的網絡分析工具和數據密集型的計算解決方案。網絡情報和其他機器生成的數據快速增長,超出了傳統的數據庫和設備供應商的極限。因此,需要迅速地攝取數據,共享數據和開展協作。
政府機構正計劃集成多個數據流,以利于人工分析和自動分析。心理、政治和文化信息正在與計算機主機、網絡和萬維網信息等網絡數據相交融,這會對敵人、動機和社交網絡構成更加全面的認識。此外,深度檢查取證、關鍵基礎設施的保護、數據采集與監視控制系統的安全和內部威脅的防護都是大數據網絡安全能力的重點領域。
欺詐檢測——醫療服務
大數據可以改變不當支付的檢測,并從根本上改變個人對不適當、不正確或欺騙性的補償申請的風險與回報的看法。例如,美國聯邦醫療保險與醫療補助服務中心(CMS)面臨的一個重大挑戰是根據醫療服務收費計劃(FFS)控制不當支付。據估計,該計劃的不當支付額達數十億美元。目前,識別不正支付的方法僅是挑選一小部分索賠樣本,要求申請補償者提交醫療文檔,對照醫療文檔對補償申請進行審查,以驗證申請補償者是否遵守醫療保險政策。
這既是挑戰,也是機遇。可以探索性地運用大數據技術和方法,對醫療文檔進行非結構化的數據分析,以提高減輕不當支付的效率。使不當支付的檢測過程自動化,并利用大數據的管理過程、工具和技術,會更好地預防或收回不當支付。可以通過圖像分類工作流程對文檔分類,并按規定的路徑發送文檔,實現數據的管理和分配。其數據分析方法將以非結構化的文檔分析技術和模式匹配知識為基礎。其好處是將會改變不當索求的文化。大數據的管理過程、工具和技術將對全部數據進行評估,并顯著提高合規檢測與識別的速度,從而提高預防和收回不當支付的效果。
欺詐檢測——征稅
由于迅速發現異常的能力日益增加,政府稅務部門可以縮小“稅收缺口”,即納稅人應付稅款與其自愿繳稅額之間的差額,并且對于那些試圖進行不當納稅申報的人,會深刻地改變他們的行為方式。大多數稅務機構實行“自愿繳稅與追討欠稅并舉”的模式。在這種模式下,它們接受納稅人的納稅申報單并辦理退稅,并對一部分納稅申報單進行抽查,以找出有意或無意欠稅的情況。大數據則能夠提高欺詐檢測的水平,在納稅申報之初就揭露違規情況,減少問題退稅的發放。
天氣預報
更好地認識天氣和氣候在頻率、強度和區域方面的變化,可以使無數依賴天氣的百姓和企業受益,包括農民、旅游業、交通業和保險公司。與天氣和氣候有關的自然災害每年會造成數百億美元的損失,并影響到無數百姓的生活。在認識和預測天氣方面,已經取得了很大進展,但遠談不上完美。運用新的傳感器和分析技術,有望開發出更好的長期氣候模型和短期天氣預報。
總之,政府機構不應把大數據看作是應對信息分析挑戰的信息技術解決方案,而應該把它作為一項戰略資產,可用來取得更好的工作成果,可在戰略規劃、業務架構和人力資本方面作出部署。
(作者:劉潤生,中國科學技術信息研究所助理研究員,科技參考研究室負責人,主要從事科技戰略與政策研究。)