科技進步的方式正在發生根本性變革。微軟研究院副總裁托尼·海博士認為,在大數據時代,數據密集型科學如今已經與理論科學、實驗科學和計算科學比肩,共同成為一種根本的研究范式,這為產業界、學術界和政府機構之間開展合作帶來了新機遇。
數據洪流
由于研究方法的轉變以及多種快速發展的技術相互融合,科技進步的方式正在發生根本性變革。
首先,科學數據體量十分龐大,今后20年還會繼續增加。媒體頻繁使用“數據洪流”來描述數據的急劇增長,而且這種現象不僅出現在科學領域,同樣也出現在社交媒體、商業和金融領域。計算模型受到更多應用,各種網絡廣泛可用,數據傳感器商品化,這些都是科學數據的規模超出過去想象的關鍵因素。
其次,一些科學數據在生成并經過分析后,需要存儲、管理、注解、歸檔和共享。過去研究人員歷來在本地存儲數據。這種方式不僅不可靠,難以持久,并且隨著科學研究日益全球化和跨學科化,其有效性也日漸降低。研究人員日益需要使用彼此的數據,追求研究成果的可重復性,并通過將分散的多學科數據集加以綜合來增加科研價值。因此,有必要提供新的數據存儲、共享、獲取和管理服務,而這將超出研究人員在本地創建和維護數據的能力范圍。
第三,科學數據的數量與可用性對先進分析方法產生了迫切需求。面對龐大的數據集,研究人員將需要強大的數據可視化引擎、復雜的系統建模工具和前沿的機器學習算法。在這方面研究人員同樣會感受到本地計算機系統分析能力的局限性。
管理大數據
創建云計算是為了應對互聯網帶來的大數據挑戰。為了支持全球范圍的互聯網搜索、電子商務、社交網絡和電子郵件,一些公司不得不建起龐大的云數據中心網絡。每個云數據中心都包含數十萬個服務器,它們使用計算機可視化等先進的管理技術向數百萬并發用戶提供24小時應需服務。由于這些中心匯總的是海量數據,它們也成了海量數據的分析基地。由于受大公司和初創公司的需求推動,以“現用現付”方式訪問云數據中心的市場應運而生,并快速增長。
研究人員發現,云計算資源能夠高效地滿足科學數據分析的某些新興計算需求。通過云計算,研究人員能訪問更多的處理器,使用更多的存儲空間,操作常用的科學應用軟件,而無需購置、安裝或維護這些系統。通過這種方式,科學家能夠成本有效地存儲、共享和訪問大型數據集,而在此之前,這些數據集可能是孤立地存儲在本地主機中。
云計算也有一些較大的局限性。例如,超級計算機對于計算科學仍將至關重要,云數據中心無法取而代之。互聯網架構和局域網的容量將繼續制約龐大數據集的流動,使某些數據的本地化存儲更加實際,也更加成本有效。
多學科合作
對于數據密集型研究而言,隨著科研界對云計算的使用向前發展,產業界、學術界和政府之間的合作方式和機制將同技術一樣重要。
學術研究人員將繼續作為領域專家而擔當獨特的角色,他們要實施數據創建和采集技術,建立復雜的仿真和系統模型,部署各種傳感器網絡,并對產生的數據進行分類和分析。不過,在數據共享和多學科研究合作這些優勢的推動下,研究人員將需要花費更多時間來制定并遵守數據共享標準。
由于受到商業需求和機遇的推動,云計算技術行業正在大力擴建基礎設施,并確定能夠維持云計算發展的經濟模式和商業模式。未來20年,產業界很可能是大部分大規模云計算資源的主要業主和運營商。產業界將需要尋找與學術界合作的合適贏利機制,而這些機制可能根本不同于商業部門所使用的機制。
政府科研管理機構將繼續擔當資助者和政策制訂者的獨特角色。在云計算時代,合作研究和多學科研究將日益普遍,政府機構需要更加積極地開展協調,制訂數據標準,倡導公共元數據,確保廣泛、公平存取,推動公共資助的研究成果向公眾開放。
云計算模式
云計算通常有三種模式:一是“基礎架構即服務”模式,程序員對虛擬機操作系統的配置有全部的訪問權限;二是“平臺即服務”模式,提供更高級的編程模型和數據庫服務;三是“軟件即服務”模式,用戶能夠訪問全部軟件服務。這三種模式都能很好地應用于數據密集型科學。
一類新出現的科學家將著眼于“研究即服務”的模式來發揮云計算的優勢。隨著科學家們創建高度定制化的應用程序來開展各學科獨有的深入研究,有些科學家將會選擇通過云計算提供研究服務和咨詢服務,以此作為一種業務。例如,擅長地球科學數據整合與分析的研究人員或許能找到愿意補貼數據存儲和服務成本的商業客戶。這類新服務有可能建立一種有助于持續收集數據的市場經濟。
總之,數據密集型科學已經興起,而不斷成熟的云計算服務框架將為處理數據的研究人員提供重要能力。通過對云計算的開發與采用,產業界、學術界和政府將在科學家采用云計算資源方面發揮各自獨特且相互倚重的重要作用。