文/陳文波 張洋
昆士蘭大學和莫納什大學是兩所澳大利亞著名的高等學府,都以其卓越的教學和精湛的科研在國際享有聲譽。在最新的QS大學排名中,昆士蘭大學位居世界第47位,莫納什大學位居第60位。昆士蘭大學在21個領域的教研水平達到或超過國際一流水平,其中生物和臨床醫學、應用生物、環境科學、物理等7個領域達到世界領先水平。莫納什大學有27個專業位列世界大學學科排名前50內,其中藥劑與藥理學專業位列全球第2位,僅次于哈佛大學。隨著澳大利亞國家e-Research研究計劃的實施,兩所大學都開始利用其優勢和學校各學院、國際組織、國外大學共同開展跨學科的合作創新科學研究。其中昆士蘭大學研究計算中心和莫納什大學e-Research中心以獨特的優勢為該校的科研信息化帶來新的發展和活力。

昆士蘭研究計算中心
昆士蘭研究計算中心(QRCC)成立于2011年,它受到昆士蘭大學在e-Research上的大量可持續投資支持,幫助昆士蘭大學的研究人員跨越學科,充分利用如高性能計算、數據存儲、數據管理、可視化、工作流和視頻會議等e-Research技術,通過研究協作,整合先進的計算手段、數據分析和其他數字研究工具,促進該學校自然科學、工程、人文和社會科學的發展。該中心利用政府在昆士蘭大學的網絡基礎設施基金會(QCIF)、國家e-Research協作工具和資源(NeCTAR)、研究數據存儲基礎設施(RDSI)和澳大利亞國家數據服務(ANDS)等方面的投資,與QCIF、云計算和數據存儲服務中心以及澳大利亞云計算研究中心的昆士蘭大學節點合作,充分利用自身、學院、研究中心、研究所和其他支持團體的專業知識,在生物科學(特別是生物信息學和基因組學)、計算工程、環境與生態、人文社會科學、高級成像等方面取得了很大的成就[1]。
QRCC由多部門和團隊組成,研究涉及多項e-Research研究方法的關鍵技術,如云計算、數據管理、高性能計算、工作流程工具和可視化,將這些技術、計算設施和其他學科的研究緊密結合,對加速本校的科學研究進程起到了至關重要的作用。
昆士蘭大學有三個比較大的國家級高性能計算資源:Tinaroo、FlashLite、Awoonga[2]。其中Tinaroo是一個傳統的高性能計算集群,擁有6000個核心和30TB的內存,主要用于緊耦合的并行應用;FlashLite主要用于一些數據密集型研究(例如基因組學和天文學);Awoonga是QRCC與QCIF2017年合作建立的一個新集群。Awoonga具有強大的計算環境,支持Nimrod參數掃描和工作流程工具,主要用于串行或適度并行計算優化、高吞吐量的工作。而且Awoonga和Tinaroo 、FlashLite共享文件系統、軟件和環境,使得三個集群之間的作業遷移變得非常方便。VLSCI是在維多利亞州一個專為生命科學計算(大腦研究所、生物與納米科技研究所、生物分子所)提供的超級計算中心,在該地區有非常大的影響力,主要提供維多利亞州的研究人員使用。
QRIScloud是QRCC和QCIF合作建立為該校的研究人員提供云計算和數據存儲服務,目的是為了激勵各個學科的研究人員對云計算的研究,并加強與國內外其他研究人員的合作。在QRIScloud平臺,研究人員可以與全球合作者共享數據集;隨時管理訪問他們的數據集;利用存儲在各州和國家研究數據存儲基礎架構(RDSI)節點中的數據集,整合訪問昆士蘭的高性能計算設施和專業化的云服務;虛擬實驗室訪問等。
QRCC也從事數據存儲技術方面的研究。他們開發了用于大學內部的高性能數據存儲架構MeDiCI(Metropolitan Data Caching Infrastructure)。MeDiCI是一個分布式文件系統,研究者無論在何時何地創建數據、操作數據、存儲數據,MeDiCI都可以無縫訪問到這些數據。另外學校的圖書館主要負責數據管理計劃、元數據設計和管理、研究數據出版標準。
現代科學是一個復雜的過程,它通常涉及多個資源的協調,如儀器、計算機和數據存儲,以及多個邏輯和學科交叉。多年來,研究人員一直在努力構建網格中間件來彌合不同硬件和軟件之間的差距。雖然網格中間件功能強大,但對于普通科學家來說卻相當復雜,而科學工作流不需要他們對網格計算有廣泛的了解。科學工作流主要涉及科學研究中各個步驟的自動化、管理和執行,有助于科學研究的重復性。它可以提供廣泛的預定義組件,比如從傳感器獲取需要輸入的數據、查詢數據庫、數據挖掘、數據執行再到可視化結果。目前有很多的工作流工具,QRCC主要使用Nimrod、kepler和 Galaxy[3]。
可視化是幫助研究人員深入了解數據和計算模型的圖形說明,可以讓研究者獲得更加直觀的體驗。可視化工具和服務幫助研究人員通過使用圖形、色彩和交互性來從他們的數據中建立影像。隨著世界研究數據的增長,可視化越來越多地用于顯示數據的變化趨勢或模式,并有效地傳遞研究信息和研究結果。QRCC的可視化專家與本校研究人員合作,幫助他們實現研究需求,目前有Matlab、VTK、ParaView和POV-Ray等可視化工具。
Bill & Melinda Gates基金會資助的項目主要涉及美國、非洲、南美和澳大利亞的研究人員,旨在改善作農物生長和甘薯的遺傳構成,幫助撒哈拉以南世界上最貧窮的非洲地區。在全球研究合作中,昆士蘭大學的科學家使用FlashLite高性能計算設備來開展此項工作,以提高紅薯的質量。該學校分子生物學研究所開發了基因組、遺傳和生物信息學軟件工具的數字平臺,可以幫助全世界的研究人員有效地對甘薯基因組測序。而這些工作依賴于有足夠內存、存儲空間和快速I / O速度的超級計算機[4]。
目前澳大利亞政府列出全國有1800多種動植物瀕臨滅絕,但是迄今為止卻沒有關于受威脅物種趨勢的全國性報告,這種情況對政府來說會造成重大的政策和管理后果。該項目由澳大利亞各地的研究人員組成,并與澳大利亞環境和能源部門合作,意在開發一種工具能夠對澳大利亞生物多樣性的廣泛狀況進行全面的報告。項目得出的指數為澳大利亞瀕危和瀕臨滅絕的物種變化提供了可靠而有力的衡量標準。另外項目還將得到一些更加一致和透明的報告如澳洲生物多樣性的變化,并幫助那些致力于保護受威脅物種的工作者。這是澳大利亞首次發布瀕危物種指數,在全球范圍內也是首次。該項目的結果是建立一個綜合的國家瀕危物種數據庫,以便將指數永久地結合起來。推動這一項目的博士后研究員Elisa Bayraktarov博士說,這種指數不僅需要一種可靠的方法來計算和可視化瀕危物種數量的變化,還需要大量的數據處理。該項目用到了工作流軟件Nimrod,并且使用了QRIScloud存儲數據和多核的并行計算來完成數據的處理,最后對結果進行可視化顯示并對公眾開放[5]。
研究結果的重現性長期以來是科學家們的熱門話題。科學研究中數據快速增加、計算日益密集,重現他人的研究變得越來越難。所以由陸地生態系統研究網絡(TERN)和QRCC開發了虛擬桌面形式的可再現科學基礎設施CoESRA。CoESRA是一個免費的虛擬桌面環境,為研究人員提供一個可移植的、強大的計算環境來運行實驗并分享他們的工作。它配備Kepler和Nimrod科學工作流系統軟件,同時QRIScloud為CoESRA提供計算和存儲基礎服務。CoESRA旨在使生態系統科學研究以其他方式重現、構建、執行、共享可重復的基于工作流的科學實驗。用戶不需要下載任何軟件就能夠通過云平臺創建、執行和共享數據模擬、可視化、數據和分析結果,而且整個過程鏈可以被存儲并與其他科學家共享,從而提高了研究結果的可重復性和透明性,也大大降低他人重新啟動實驗的成本[6]。
莫納什大學e-Research中心(MeRC)建于2006年,一直致力于將先進的計算和信息技術應用于重要的研究問題來加速科學研究。中心的主要作用是與大學的研究團體合作,和他們一起提高研究團隊的e-Research研究能力并使之達到一個新的水平,然后將他們連接到最適合的機制或服務,以使該研究團體能夠維持這種能力。該中心與學校老師、澳大利亞研究機構和設施以及全球研究團體開展合作,也是國際e-Research項目的領導者,運營著多個國家項目,包括大型高性能計算設施、Petascale數據存儲基礎設施以及國家特色虛擬實驗室[7]。中心主要提供包括 Collect、Compute、Comprehend、Collaborate、Communicate 和Customize等特色服務。

莫納什大學e-Research中心
在研究項目中,研究人員需要有效地管理、安全地存儲和備份他們的數據來確保研究數據的可用性。Collect服務為研究人員提供了從儀器和實驗中獲取數據、管理數據、共享數據到數據重用的解決方案。VicNode是該中心為研究者提供的一個千兆億級集中式存儲項目[8]。它能夠為各種研究數據提供一個安全、可持續的輕松存儲和共享研究數據服務。VicNode也是澳大利亞國家研究數據服務的一部分,存儲位于維多利亞州的墨爾本大學,并和AARNet高速連接。除此之外,莫納什大學還部署了一個專門連接科學儀器設施的數據平臺MyTardis,它可以協助研究人員儲存、管理、分享和傳播科學儀器產生的數據[9]。如該平臺和基因測序儀器整合,通過提供一種自動和結構化的方法來捕獲、存儲和共享該測序儀器運行的結果,并與相關的質量報告和元數據共享,從而使設施管理人員和基因測序器用戶受益。目前MyTardis應用在顯微鏡、顯微分析、粒子物理學、下一代測序和醫學成像等研究人員的數據管理,澳大利亞10多所大學和研究機構都在使用這套系統。
該項服務主要是利用高性能計算設施來進行數據的處理、模擬、仿真和可視化。莫納什大學的高性能計算設施包括國家計算基礎設施(NCI);澳大利亞多模態科學成像和可視化環境 (MASSIVE)[10]; 莫納什大學集群(MonARCH)和莫納什研究云 (R@CMon)。其中MASSIVE是澳大利亞的一個用于科學數據成像和可視化應用的專業級高性能計算設施,它提供軟硬件和專家驅動了該校生物醫學的研究。尤其適合一些需要高速并行處理的圖像分析、交互式可視化、建模和仿真以及渲染的大型可視化項目。該設施產生的CVL(Characterisation Virtual Laboratory)是由NeCTAR項目支持的一個虛擬實驗室。它將澳大利亞研究成像的設備、計算與數據存儲基礎設施和工具結合起來,通過一個基于云的遠程桌面環境提供可以訪問成像工具和數據的在線環境,并用它提供的一系列工具為原子探針、神經成像、結構生物學、X光影像和一般數據成像等項目進行數據處理。這個項目對澳大利亞科學家未來的研究能力至關重要。在2017年的一個評估中,它和其他三個國家級虛擬實驗室被認為投資回報(ROI)至少是對每個虛擬實驗室每個指標投資的兩倍,也表明該服務具有顯著的經濟和用戶影響。
沉浸式可視化(Immersive Visualization)技術促進了對研究數據的理解,并有可能導致新的研究發現。Comprehend服務提供的莫納什大學可視化平臺(MIVP) 運營著莫納什大學許多先進的、大規模的可視化設備,目標是通過與科研團隊合作,創新和促進沉浸式、協作式的數據和環境可視化的新范式來改變可視化實踐,并支持和加速大數據時代協同、可視化發現在學術和商業研究中的應用[11]。CAVE2項目,一個混合2D和3D的虛擬現實環境讓莫納什大學在數據可視化領域展現卓越的能力。Encube項目,一個用于定性、定量、對比的可視化和分析應用,適用于高分辨率、沉浸式三維環境。該項目被用來觀察和比較大腦的擴散MR圖像、星系的中性氫圖和斑馬魚的共聚焦顯微鏡圖像。Supercell項目是對澳大利亞內陸地區以及珊瑚礁的精密激光掃描和攝影測量進行的渲染,可以讓這些水下環境一覽無余。
研究人員通常需要與世界各地其他研究機構的同事合作,并跨越研究領域。該項服務為研究人員提供各種解決方案,以促進和加強他們之間的研究合作。其中一個比較有特色的項目就是Confluence,它是一個企業wiki,為用戶提供一個安全、穩定和可定制的wiki環境。利用Confluence研究者可以查詢、創建、共享和討論的文件、思想、會議記錄、模型、圖表和項目,成為莫納什大學團隊協作和共享知識的地方[12]。Sakai是一個旨在幫助導師、研究人員和學生創建合作網站的一套軟件工具。不同的用戶可以根據自己的需求建立不同特色的站點,如項目發布和資源共享、在線討論、電子提交作業等[13]。
這項服務有助科研人員于發現、訪問和重用研究數據,支持他們的研究結果,增強研究的影響,并幫助研究人員遵守項目資助的規則。莫納什大學RDA(Research Data Australia ) 項目可以讓師生在100多個澳大利亞研究機構、政府機構和文化機構中尋找、獲取和可重用的研究數據。Figshare項目是專為莫納什大學研究人員和研究生提供的協作式數字存儲庫,用來描述莫納什大學所有的研究成果。它提供近650種類型的文件存儲,可以安全的管理私人或公開的研究成果,使用者隨時訪問在線數據,所有的成果通過DOI方便引用或其他研究者訪問,大大促進了研究合作[14]。
這項服務使研究人員能夠輕松訪問高級的軟件和網絡開發人員為研究者開發創新和定制的軟硬件。CART是一種在線數據管理工具,幫助研究人員在單一的集成環境中存儲和分析其數據。它可以完成分布式的數據捕捉、集中式的數據存儲、靈活的數據整合和模型的可視化功能,目前該工具被應用到澳大利亞的一個促進城市綠色、低碳的項目中[15]。
通常,我們可以通過CAT掃描獲得想要的肺部圖像。但是當它用來促進診斷、治療某些肺部突然疾病的時候往往需要圖像變得更加清晰,從而更好地理解肺的工作方式,比如將靜態圖像轉換到3D的運動視圖。 莫納什大學Andreas Fouras教授用了5年的時間捕獲了肺和其他器官的3D運動視圖。他首先使用澳大利亞同步加速器的醫療束線獲得干凈、清晰和高質量的圖像。然后他在MASSIVE上使用可計算的斷層掃描X射線測速技術來開發3D運動視圖。通過這項技術,他們已經能夠證明如果肺部發病或受傷,肺部會發生不同的運動,這樣可以幫助早期的肺部疾病診斷。
如果一架飛機在飛行時阻力減少10%,可以節省15億澳元的燃料成本并減少環境污染。由于邊界層的結構根據物體的大小、方向和速度可能會發生劇烈、而不可預知的變化,所以了解邊界層的湍流機制仍然是一個挑戰。莫納什大學Julio Soria索里亞教授和他的團隊利用MASSIVE和NCI提供的尖端測量和處理技術,快速處理和可視化他們收集的數據流,并運行大量數值模擬:直接數值模擬(DNS)和大型渦流模擬(LES),最終在理解湍流方面取得了進展。索里亞教授表示,沒有MASSIVE和NCI的超級計算機,就不可能做這樣巨大的計算和加載如此多數據的可視化。
噬菌體是一種能感染和殺死細菌的病毒,自1919年發現以來一直被很多人進行研究。但是,它們在20世紀40年代因發現可以治療多種細菌的抗生素而被放棄。由于細菌對抗生素產生耐藥性, 人類害怕前抗生素時代即將到來,噬菌體再次成為研究焦點。目前已經知道噬菌體PlyC在治療鏈球菌(引起咽喉感染,心臟病,肺炎,中毒性休克綜合征和熱帶皮膚感染的細菌)中非常有效。為了更好地理解PlyC,莫納什的McGowan博士從PlyC溶液中生長出晶體,將它們放入澳大利亞同步加速器的蛋白質晶體學束線中,然后用X射線輻射轟擊它們,最后將每個晶體的衍射圖像數據集轉移到MyTardis并歸檔。在此之前各種晶體學技術和計算機程序用于破解PlyC的結構都沒有成功。2010年,McGowan博士和Asso.c Buckle教授利用MyTardis存檔中的數據集和該校的高性能計算集群計算得到了Plyc的結構并得以了解它如何攻擊細菌。該結構于2012年7月在美國國家科學院院刊上公布,原始數據和圖像都可以通過MyTardis獲得。
盡管昆士蘭大學和莫納什大學在e-Research合作研究上各不相同,但是e-Research的核心技術如高性能計算、數據管理、云計算、工作流等為提高兩所學校的科研成果和研究質量起到了重要的作用。e-Research讓研究人員和他們的學生獲得一流的研究基礎設施,并與世界領先的大學保持一致,也使得他們的科學研究在全球范圍內獲得認可。不僅是昆士蘭和莫納什兩所大學,澳大利亞其他大學如悉尼大學、堪培拉大學、格里菲斯大學、維多利亞大學等都在積極制定e-Research策略,優先投資e-Research基礎設施,以此來提高學校科學研究的強度、卓越性、影響力和聲譽。澳大利亞現在每年舉行兩次e-Research會議,分享他們利用信息技術來加速研究的想法和范例,以及信息和通信技術如何幫助研究人員協作、收集、管理、共享、處理、分析、存儲、發現、理解和重用信息。如今科學正在進入一個嶄新的階段,大數據、第四范式讓跨學科、合作化以及全球化成為不可阻擋的趨勢,e-Research研究方式將繼續在澳大利亞開放協同的研究與創新模式中發揮其更大的作用。