文/本刊記者 傅宇凡
本期特邀編輯 王偉 王勝開
大數據的研究與利用是數據科學的一個重要領域,當務之急,不是一哄而上的大肆炒作,而是腳踏實地地大規模開展數據科學的研究,用以提高中國信息資源開發利用的水平。
伴隨著信息技術在科學活動中的應用,特別是與科學行為的無間結合,科學已經置身于大數據時代?;仡欀Z貝爾獎的歷程,我們能夠看到,1981年、1998年、2013年三次諾貝爾化學獎,均與計算化學大數據有關。大數據為科學帶來了重大的機遇,當所能利用的數據規模、復雜性、關聯度與價值增大時,人們才能做出很多之前無法完成的事情。因此,數據規模與數據質量是現代科研活動的前提。
調研中,關于共享障礙與困難,我們收集到的最多的意見是“數據共享缺乏標準規范”。具體呈現有:
首先,數據重復建設,各自為政:基礎建設是支撐國家發展的保證,國家對收集、整理基礎數據缺少統一規劃,各單位、領域、各學科存在各自為政的現象,有關資金和數據項目化、課題化,重復投資、短期效應。我國沒有專門的機構和隊伍、從國家層面來做“慢工出細活”的數據收集和整理工作,從而不斷地提高數據的質量。
其次,缺乏數據共享政策:在數據公開與共享方面,沒有國家政策、制度與規定,缺少標準規范;實驗室內部、不同課題組之間也很難做到數據的充分共享。應制定一定的政策、建立一定的機制,使國家項目支持、國家資金資助而產生的數據能成為一種“國有的”公共財產數據財產,實現共享。
第三,共享缺少正向激勵:大家都把數據握在手里不拿出來共享,主要是缺少正向激勵機制,同質化競爭太嚴重,使得拿著數據的一方不愿意公開數據。
第四,數據內容挖掘不夠、數據服務不夠到位:以專利數據庫為例,只能通過專利名稱等簡單信息進行檢索,基于內容的挖掘不夠,不能查看基于具體內容的專利信息。
目前,我國有兩千多所高校,其中985/211高校等研究型大學百余所,每個高校教師數以千計,不同的學科申請不同的課題,而課題項目存在重復雷同情況比比皆是,但從事相關研究的課題組之間相互不了解,尤其在交叉學科。并且,各高校相關學科之間也缺乏系統性的交流平臺。
“這也涉及到提供數據方的評價和激勵機制。美國海洋數據質量評價是由NODC聘用專家。NODC的數據分為五個等級,等級越高,權威性越高。有一套完整規范的數據使用和共享規范。”中國海洋大學的錢教授說。
比如,美國環保局的觀測數據,經過質量控制后也是及時發布到網上供研究用。這些數據主要是政府機構出資但是由各類研究機構和人員具體制造的,有很多研究性的數據成果,最后是私人出資制造的數據。
當然,國內科研數據共享不理想的背后原因,也還有研究成果如何認定與成果被抄襲的顧慮。喬治亞理工學院的胡泳濤介紹說,“在美國,比較難處理的,是政府資助的課題完成后的數據,一般在項目合同里也會要求數據上交和分享,有時因為財力不足,共享不夠,但是,如果寫信索取,沒有人會不給,原因是研究人員需要得到認可。”并且,私人出資制造的公益性的研究成果數據,出資者更愿意公開和分享數據,因為那也是它出資的目的。

建立數據共享平臺,向社會公眾開放科技信息資源,促進科研創新成果不斷向企業轉移轉化,帶動國家和地方產業發展。
針對現狀,專業人士分析認為,當前科研數據共享首先需要從頂層設計著手,統一標準規范,建立開放共享的機制,尤其是基礎科學數據的開放;其次,需建立第三方評價機構,對數據進行質量控制;第三,大數據開放共享,也應建立一套分級規范,對數據進行分級處理,對使用數據的科研人員進行界定與區分;第四,數據格式交由市場決定,不同專業的人員發明了不同的數據格式,便于數據共享,是自然產生的一個過程,最得到認可的數據格式留存了下來。第五,未來大數據挖掘應引入市場機制,以服務業的形態進入科研活動。
無處不在的IT,進入以云計算和大數據為特征的科研信息化

2011 年,澳大利亞發布了題為《云計算戰略方向》的咨詢報告,旨在為相關機構合理化使用信息通信技術(Information CommunicationTechnology,ICT)資源和因地制宜地采用云計算開辟一條途徑。各機構需要認識到云計算只是眾多的資源利用模式之一,無需完全替代現有的資源利用模式。澳大利亞首個國家科研云(NeCTAR)已于2012 年2 月正式上線,并在兩個月內為500 多位用戶提供了云服務。
2011 年8 月,歐盟提出《歐洲科學云計算基礎設施戰略規劃》,該規劃提出了2020 年歐洲科學云計算基礎設施的發展愿景,屆時歐洲所有學科的科學家將優先選擇這一基礎設施進行數據存儲、訪問、處理和分析,它將擁有海量的數據和開源工具,擁有可以從任何計算機、智能電話或平板終端訪問和使用的無限計算能力?!暗仄骄€2020”戰略規劃計劃投入巨資支持建設具備無限計算和數據處理能力的網格和云計算基礎設施。
美國也通過“麥哲倫計劃”(Magellan)全方位評估了云計算在科研創新中的作用,并指出通過在云應用軟件庫、編程工具、客戶端工具、云安全和用戶培訓等方面的努力,可以建設更加適用于科研任務的科技云。

高性能計算能力競爭成為常態高性能計算能力快速增長,運算速度日新月異。目前,開發具備百億億次計算能力的高性能計算機正成為各國及其科研機構新的追求目標。
2013年11月18日,國際TOP500組織公布了最新全球超級計算機500強排行榜,中國國防科技大學研制的“天河二號”以每秒33.86千萬億次、超過第二名近一倍的浮點運算速度輕松登頂。排在第二的是美國的“泰坦”號,運算速度為每秒17.59萬億次。如果每人每秒鐘進行一次計算,那么13億人同時用計算機算上1000年,才相當于“天河二號”運算一小時。這臺每秒運算次數以千萬億次計的“超級計算機”,日前蟬聯“全球最快計算機”桂冠。
我國預計2015年底前將研制成功10億億次級的天河高效能計算機。
歐洲先進計算合作伙伴(Partnership for Advanced Computing inEurope,PRACE)計劃部署一個泛歐Peta-Scale生態系統,并計劃在2020 年之前達到Exa-Scale 的運算性能?!皻W洲百億億次級軟件計劃(European Exascale Software Initiative,EESI)”將聯合產業界和政府機構,幫助用戶在未來十年內從千萬億次超級計算提升至百億億次超級計算。
美國能源部的“先進科學計算研究(Advanced ScientificComputing Research,ASCR)”計劃也致力于解決數據密集型科學和百億億次計算面臨的問題。
1982年起,中國科學院在國內率先提出了建設科學數據庫的設想,旨在將專業數據庫利用不斷發展的計算機技術、數據庫技術和網絡建設實現集成和共建共享,開國內科研數據共享的先河。三十多年來,各類科學數據庫及平臺紛紛建立,在資源建設、標準規范及應用和共享服務環境等各方面都取得了顯著的成績。但總體上看,國內科研數據的質量及數據利用水平上,與國外相比,仍有差距。
“大數據的研究與利用是數據科學的一個重要領域,建立在多年來許多科學家和技術專家所獲得的一系列數據科學成果之上,不是一個可以隨意炒作的概念。當務之急,不是一哄而上的大肆炒作,而是腳踏實地地大規模開展數據科學的研究,用以提高中國信息資源開發利用的水平?!眹鴦赵盒畔⑥k專委會副主任周宏仁說。
北京科技大學新金屬材料國家重點實驗室建設了國家材料環境腐蝕平臺(http://www.ecorr.org/),在全國選擇60個點,收集我國境內材料腐蝕方面的數據。該平臺上共享大量的基礎數據,在國內應用相當廣泛。但即便如此,也仍然需要與國外的研究機構建立共享數據,大量材料研究數據來自國外。
北京科技大學新金屬材料材料重點實驗室負責人認為:“計算模擬準不準取決于數據準不準,目前實驗室之所以要買國外的數據,是由于我們國家尚無此方面的戰略聯盟,沒有一個機構能夠收集完整的數據,基本各自為戰,大的數據聚集不起來,形成不了規模效應?!备鼮楸粍拥氖?,許多數據來自美國的數據庫和相關網站,2013年底美國政府“停擺”,導致學校的部分科學研究也出現“停擺”。
該重點實驗室的相關負責人認為:“國家級學科基礎數據的建設依靠一、兩個單位的力量是不夠的,需要國家的整體投入。”他建議可以通過三個途徑來整理數據:集中收集常用的傳統數據、基礎數據;不斷補充、完善新的數據;前期投入研究產生的數據。
的確,在大數據成為熱炒概念時,最容易出現的問題是低水平重復建設,各自為戰,因此,頂層設計在這時顯得尤其重要。
提高信息資源開發利用的水平,是科研工作者一致的需求。在面向高??蒲行畔⒒恼{研過程中,我們發現幾個突出的問題受到高校的關注:第一,希望從國家層面統籌協調;第二,統一標準規范;第三,統一評價機制;第四,建立信息技術人才隊伍激勵機制。這些內容與頂層設計不無關系。
那么如何進行頂層設計?眾多專家提出了自己的思路。來自信息科學、地理學、氣候學、高能物理學、天文學、生物信息學、農學、醫學、中醫學、情報與文獻學、科技政策與管理學等學科領域的46位專家在關于“數據密集時代的科研信息化”的會議上,就如何推動我國數據密集時代開展科研信息化研究,如何建立我國的科研信息化政策法規、人才隊伍等提出如下建設性意見:
1. 在國家有關部門設立國家層面的科研信息化咨詢專家組,組織制定國家科研信息化戰略規劃;
2. 針對當前數據密集時代的科技研究的新需求、新特點和新技術、新政策等問題,建議科技部、基金委、中國科學院等部門部署國家層面的科研信息化研究計劃,加大對科研信息化基礎設施和應用的投入;
4. 建議將數據科學的人才培養納入研究生培養體系,同時將數據人才的崗位納入國家相關崗位體系,為提升國家科研信息化水平培養儲備人才;
5. 制定《科學數據資源共享條例》及相關配套政策,建立數據共享平臺,向社會公眾開放科技信息資源,促進科研創新成果不斷向企業轉移轉化,帶動國家和地方產業發展。
業界廣泛認同,2014年的中國互聯網,大數據已經從幕后走到臺前,中國互聯網協會副理事長、國務院信息化領導小組咨詢專家委員會委員高新民認為:“當前已具備從海量信息中提取有價值數據的能力,將數據信息流動起來,交換起來,服務于實體?!贝髷祿呀洺蔀?014年中國互聯網的一大期待,相信在國家戰略層面的重視及各界的共同努力下,科研大數據將會真正地流動起來,交換起來,培養出新一代跨學科新型教學人才、數據科學家,推動數據科學的發展,提升我國科技創新能力。