胡昭陽/編譯
●為了充分利用迅猛增長的電子數據,奧巴馬政府于去年3月29日發出了“大數據研究和發展倡議”,并為之投入2億美元研發經費。
倡議書宣布將發展從巨量復雜電子數據中獲取知識和洞見的能力,幫助美國應對當前的緊迫挑戰。超過2億美元的落實資金來自美國聯邦政府的6個部門,他們承諾將大力改善從大數據中獲取、組織和收集各種新發現的工具和技術。
據總統助理、白宮科技政策辦公室(OSTP)主任約翰·P·霍爾德倫(John P.Holdren)博士介紹,“過去聯邦政府曾用類似的方式投資信息技術領域,促進了超級計算的顯著進步和互聯網的誕生。今天我們提出的這一倡議是為了變革我們使用大數據的能力,為科學發現、環境保護、生物醫學研究、教育以及國家安全領域提供支持。”
為了抓住此次機遇,OSTP將和多個聯邦政府部門合作,提出的大數據研發倡議包括:推進收集、存儲、保存、管理、分析和共享巨量數據的尖端核心技術研發;利用上述技術加速科學和工程的新發明,加強國家安全,變革教與學的模式;增強開發和運用大數據技術需要的人才力量。
此次倡議是對2011年總統科學和技術顧問委員會提出的一份建議的回應,該建議認為聯邦政府對大數據相關技術投入力度不足。作為響應,OSTP成立了大數據高級指導小組,以協調和拓展政府在這個關鍵領域的投資。根據發出的公告,政府響應該倡議的第一輪項目包括以下內容。
美國國家科學基金會(NSF)和美國國立衛生研究院(NIH)將聯合招標“大數據”項目,推進信息管理、分析、可視化以及從大量多樣化數據集中提取有用信息的核心技術。這將加快科學研究發現,并將開啟一些原本不可能實現的新領域。NIH還對與影像、分子、細胞、電生理學、化學、行為學、流行病學、臨床和其他與健康和疾病相關的數據集特別有興趣。
除了提供資金招標大數據項目之外,NSF的舉措還包括:鼓勵研究型大學開發交叉學科研究生項目,培養下一代數據科學家和工程師;向加州大學伯克利分校提供1 000萬美元的項目經費,研究集成三種將數據轉化為信息的重要方法:機器學習、云計算和眾包;為“地球立方”系統提供第一輪資金,該系統將允許地學科學家訪問、分析和共享地球信息;向研究訓練機構撥款200萬美元,培訓本科生使用復雜數據圖形和可視化技術;提供140萬美元,支持一個測定蛋白質結構和生物通路的統計學家和生物學家重點研究小組;召集跨學科研究人員,確定大數據如何改變教與學。
美國國防部為大數據擲下大賭注,每年將向一系列跨軍事部門的項目投入2.5億美元 (6 000萬美元用于新研究項目),包括:使用新方法管理和利用海量數據,集成傳感、感知能力和決策支持,建立真正的自治系統以實現操作和決策的自動化;提高情境感知意識幫助作戰人員和分析師,為他們提供更多的操作支持。國防部正在探尋比分析師高100倍的能力,以從所有語言文本中提取信息;該能力還將實現在目標、活動和時間上都顯著超過分析師能觀察的數量。
為了加快大數據創新速率,達到上述及其他目標,國防部將在接下來的數月公布了一系列開放式有獎競賽。
此外,美國國防部高級研究計劃局啟動了XDATA計劃,該計劃每年將投資約2 500萬美元,開發計算技術和軟件工具,分析半結構化(如表格、關系、分類數據和元數據等)和非結構化(如文本文檔、數據流量等)海量數據。該計劃的主要挑戰和目標包括:開發處理分布式數據存儲中不完整數據的可擴展算法;開發高效的人機交互工具,并可以根據不同任務的視覺推理需求迅速進行定制服務。
XDATA計劃還將支持開發源代碼軟件工具包,方便用戶在進行特定時間、特定需求的目標防御任務中靈活開發軟件,處理大量數據。
NIH宣布,已經在亞馬遜網絡服務(AWS)平臺上,免費共享了世界上最大的人類基因組數據集,也即全球千人基因工程項目的研究結果。該數據集是大數據的一個典型案例,這些數據共有200TB,大小相當于1 600萬個文件柜的文本信息量,或3 000張標準DVD的容量,有運算能力處理這些海量數據的研究人員少之又少。AWS已經將千人基因工程數據作為公共資源免費共享,研究人員使用這些數據時只需要支付計算費用。
作為該項目的一部分,美國能源部將提供2 500萬美元的基金來建立可擴展的數據管理、分析和可視化研究機構。勞倫斯·伯克利國家實驗室將牽頭組織6個國家實驗室和7所大學的專業研究力量,目標是研發新工具并改善現有工具,幫助科學家們對數據進行管理和可視化操作。由于能源部所使用的超級計算機的容量和復雜性都在不斷增長,對于能在這些計算機上進行模擬運行的新工具的要求也在相應提高。
美國地質勘探局宣布將最新的研究獎勵授予其下屬的約翰·衛斯理·鮑威爾中心,以表彰該中心在分析和綜合工作的成就。該中心通過向科學家提供場所和時間,以及深度分析、尖端運算和協同合作理解大數據集的工作條件,催生地球系統科學的創新思維。這些大數據項目將增強人類對于氣候變化、地震復發率,以及下一代地址指標等問題的理解和應對。