楊 京 王效岳 白如江(山東理工大學科技信息研究所 山東淄博 255049)
大數據背景下科學數據互操作實踐進展研究
楊京王效岳白如江
(山東理工大學科技信息研究所山東淄博255049)
摘要:
文章在梳理科學數據互操作的基本概念和最新研究進展的基礎上,重點介紹了歐盟科學數據基礎設施建設項目GRDI2020、美國安全數據研究組織IJIS以及醫學數據研究所West Health三個不同性質的國際機構對科學數據互操作的實踐研究狀況,進而指出目前科學數據互操作實踐研究中面臨的政策落實困難、難以制定共同的標準協議、缺乏定義互操作的共同框架、數據質量低等問題。關鍵詞:
大數據;科學數據;互操作;GRDI2020;IJIS;West Health大數據時代的計算機和數字設備產生并積累了海量的科學數據,科學研究從獨立、小型的學術行會形態轉移到大規模、更加互聯和開明的科學家群體中。科學研究范式相應發生了根本性轉變,進入到基于數據密集型計算的“第四范式”。這一范式的特點是科學研究建立在掌握盡可能多的科學數據基礎之上。因此,迫切需要將科學數據納入正式的學術交流過程,使之成為一種跟文獻一樣可以公開獲取的資源。正如吉姆格雷描述的科學研究第四范式愿景:“能夠實現所有的科學數據和文獻的統一,創建數據文獻交互操作的世界,更好的實現學術交流。”
科學數據的互操作正是實現上述愿景的一個先決性條件,它幫助實現跨學科、跨社區的學術信息交流。CODATA中國委員會將科學數據的互操作列為大數據時代支撐科學研究的共性技術之一。因此,實現科學數據的互操作,構建基于科學數據的第四范式對學術信息交流和創新具有深遠的意義。
2.1科學數據互操作概念
大數據時代越來越需要跨學科進行科學研究,比如地理觀測領域依賴于多學科的科學數據分析,包括水文學、地質學、農學、地理學、生物學、GIS等。但是由于不同學科的系統和軟件平臺不同,產生的科學數據在格式、結構、語義關聯、準確度等方面都存在差異。比如水文學計量長度的單位是米,數據格式是MIF,而地質學用的是千米,數據格式是GML。因此需要對科學數據實行必要的轉換,實現就這一過程是科學數據互操作。
科學數據互操作作為整個互操作問題的一方面,目前還沒有一個統一的定義,許多學者立足各自的視角對其提出了不同的觀點。例如Scott A.Renner教授將科學數據互操作定義為跨越不同組織機構和系統的界限以一種統一、有效的方式正確闡釋和理解科學數據的能力;Maurice教授認為科學數據互操作是為有效的信息交流而進行的數據管理活動,包括科學數據的清洗、耦合、融合、遷移以及信息提取等;Marijn Janssen教授認為科學數據互操作是兩個或更多的數據集相互連接、結合、處理的能力;Nancy Ide教授等人把科學數據互操作分為語法互操作和語義互操作兩方面。其中,語法互操作是指系統依賴于特定的協議進行相同格式的結構化數據交換,通常是通過XML格式和Web服務技術;語義互操作確保信息以相同的方式進行解釋,這要求對不同本體的共同理解。
根據以上學者對科學數據互操作的不同定義,本文認為科學數據互操作強調把不同格式和結構的數據集成在一起操作,可以理解為兩個或更多的學科系統之間交換彼此的數據集信息并且使用所交換信息的能力。
2.2科學數據互操作最新研究進展
大數據時代科學研究范式的變革要求科學數據是開放和互操作的,它的實現會極大推動科學研究的步伐。因此,學者們對其研究表現出極大的熱情。會議方面,“種質資源數據互操作國際電子商務大會”(2013年12月)與“第八屆加拿大公共安全科學數據互操作研討會”(2014年11日)相繼召開,科學家們共同探討了各自領域不同數據源和資源的當前互操作狀態以及面對的問題;2014年4月“語義互操作大會”在雅典召開,旨在促進語義互操作技術的發展。
理論研究方面,美國SAFECOM國土安全項目以及R.Rezaei教授分別提出了用來定義和衡量科學數據互操作體系成熟的五個階段。實踐探索方面,張曉林教授、JF Ethier教授以及MA Dhuieb教授等針對不同的應用場景構建了相應的科學數據互操作規范框架;何克清教授、王芳教授等對科學數據互操作標準協議的應用進行了深入研究。社會應用層面,愛爾蘭Edward Curry教授以美國Marijn Janssen教授等試圖通過關聯數據和數據組合的方法促進科學數據的互操作;日本Majkic Z教授、SB Datta教授等通過構建新型的內涵數據庫(Intensional RDB)來實現大數據的互操作。
大量國際組織、科研機構和政府部門等同樣對科學數據互操作的研究表現出極大的熱情。因此像歐盟GRDI2020科學數據基礎設施建設項目、全球空間數據基礎建設GSDI協會、美國安全數據研究組織IJIS、科學和教育組織OGCII、醫學數據研究機構West Health、Kahua公司等各行各業均投入巨額經費致力于科學數據互操作的實踐研究。歐盟GRDI2020項目、美國IJIS組織和醫學研究所West Health是國際上三個比較知名的科學數據設施建設機構,面對海量且格式多樣的科學數據,其投入大量資金與人力致力于實現日益增長的科學數據洪流之間的互操作,并提出了許多卓有成效的科學數據互操作實踐方案,對于國際機構科學數據互操作的實踐研究具有較高的代表性。
3.1歐盟GRDI2020項目
3.1.1項目簡介
歐盟GRDI2020(Global Research Data Infrastructures)項目是由歐盟第七框架資助的構建科學數據基礎設施項目,該項目旨在2020年實現全球科學數據基礎設施建設的戰略愿景。2011年1月,GRDI2020項目發布了《全球科學數據基礎設施:重大數據挑戰》報告。該報告提出了構建全球科學數據基礎設施面臨的主要挑戰和必須解決的問題,并指出為了探索利用海量數據,必須開發新型信息化基礎設施,構建管理數字化、聯網的科學數據環境。
3.1.2研究進展和戰略目標
針對科學數據互操作,歐盟GRDI2020項目指出科學數據互操作是影響科研合作和科學數據共享的根本性問題,也是科學數據基礎設施建設中面臨的主要挑戰之一。該項目旨在通過 “共享和共同參與”的戰略來實現科學數據的互操作,主要包含:
(1)構建共享和綜合的科學數據互操作框架。此框架是一個綜合的模型,它對科學數據互操作的所有方面給出統一的定義,涵蓋從技術層面到組織層面,以及現存的和即將產生的科學數據互操作方法。這樣科研機構就能通過這個共享的模型形象具體地對數據互操作問題和解決方案進行比較,找到最適合自己的方法技術。該框架應該由現存的方案擴展而來,比如EIF(European Interoperability Framework)。
(2)制定科學數據互操作的共同標準。歐盟GRDI2020項目指出為機構制定互操作共同標準是實現科學數據互操作最有效和最理想的方案。針對不同機構的利益、文化及設備等方面的差異性,科研機構可以自發地構建小規模的“事實上的標準”(De facto standards)。小規模群體發展成熟的技術方案是針對特定問題的、及時、合理的,并且是在群體的共同實踐中達成一致的。這比在大規模群體中尋找適合自己的技術方案要更加高效。
(3)科學數據附有詳細的溯源信息。這些信息包括科學數據開放的標準、數據格式、語義、數據進行互操作方式等。它為科研人員提供關于科學數據不同的見解和意見,方便科研人員發現和再利用科學數據。但溯源信息不是一成不變的,隨著科學數據應用學科和機構的增加,要始終保證科學數據的來源、隱私、質量等隨需要而不斷改變。
(4)創建關于科學數據互操作的基礎設施。此基礎設施作為全球科學數據基礎設施建設的一部分為各機構提供數據互操作服務。此基礎設施包含數據互操作的各種技術工具和其對應的優缺點。基礎設施包含的數據互操作工具和技術越多,對數據共享和再利用的促進作用就越大。但是預想的基礎設施只包含綜合的工具和技術,要針對特定場景的互操作及特定數據源的需求創建起來非常困難。
3.2美國IJIS組織
3.2.1組織簡介
IJIS組織是于2001年成立的一個聯合政府部門和各私營企業的非盈利性組織,它致力于加強國家信息安全,提升各級司法、公共安全和國土安全部門的信息共享和保護機制。IJIS指出,公共安全數據的共享和互操作至關重要,只有及時、準確地理解海量和實時的安全數據才能有效預防犯罪的發生。因此,IJIS組織將公共安全科學數據互操作作為其重點項目之一,并專門設立PSDI(Public Safety Data Interoperability)委員會負責公共安全科學數據互操作的研究工作。
3.2.2研究進展和戰略目標
PSDI各安全部門已經充分認識到科學數據互操作的重要性,認為未來幾年科學數據互操作將徹底改變公共安全通信中心的作用。PSDI指出公共安全科學數據互操作是指安全部門能夠使用定義明確的并且被高度重復使用的操作流程來交換不同格式的數字信息。實現科學數據互操作的關鍵在于為各安全部門制定一個共同的標準協議,具體如下:
(1)PSDI將公共安全科學數據互操作形式分為結構化科學數據互操作和非結構化科學數據互操作兩種。結構化科學數據互操作是指通信中心與其它相關部門如警察、消防、醫院等之間的數據交換;非結構化的科學數據互操作是指通信中心與廣大市民、私營部門、政治領導等之間的數據交換,它涉及各種普遍的數據格式如圖像、視頻、音頻、文字等之間的交換。
(2)PSDI要求科學數據互操作必須為原生數據生產方制定一個共同的標準協議,協議規定以下幾點關鍵問題:對于結構化科學數據的互操作,應該有一本“數據字典”來制定統一的詞匯和語法,這樣就能統一規定進行互操作的數據格式;對于非結構化科學數據互操作,生產方應該為圖片、音頻、視頻等格式的數據設定一個常用的文件格式;對于所有類型的科學數據互操作,必須規定明確的操作流程,使其按照同樣的操作流程完成。
(3)IJIS組織使用了NIME作為政府和企業的科學數據互操作標準協議。NIME目前已發展到3.0版本,它為所有安全部門提供共享數據的互操作標準。這些標準在這些部門的具體實踐中發展而來,貫穿科學數據互操作的整個生命周期。首先,它作為“數據字典”,里面規定了關于科學數據已經在各部門間達成一致的術語、定義、關系、格式等,比如在數據格式上全部使用XSD和EXCEL格式。其次,NIME提供關于科學數據互操作結構化的方法、技術工具以及操作流程等。NIME保證了安全部門人員能夠準確、及時、完全的獲取關鍵信息,加速了信息決策。
3.3West Health醫學研究所
3.3.1研究所簡介
West Health是位于美國華盛頓的一個獨立的非盈利性醫學研究機構。West Health與其它研究機構共同合作,探討和研究如何讓獨立系統的重要醫學科學數據實現互操作,以開拓更前沿、精湛的醫療技術、政策和設施,使人們能夠以低廉的價格享受到高品質的醫療服務。
3.3.2研究進展和戰略目標
2013年3月,West Health經過調查指出實現醫療科學數據的互操作能夠在醫療系統方面每年至少節省300億美元。但是現在由于缺乏科學數據互操作,科學數據存在于獨立的系統中無法互通,醫療設備不能共同操作,醫療人員在技術上花費的精力比在病人身上多,嚴重束縛了治療決策。為了解決上述問題,West Health專門成立了 “醫療互操作中心”加大對醫學科學數據互操作的研究。
West Health指出實現科學數據互操作需要所有相關利益者參與進來、共同合作。所有醫療機構以及協議的制定機構應該遵循以下六個關鍵步驟來實現:
(1)認識到缺乏科學數據互操作是一個危機,盡快做出改變。所有相關利益者必須充分認識到科學數據互操作在醫療安全、效率和資金花費等方面的重要性,集體參與進來并迅速做出以下改變:協議制定機構召集所有相關利益者為科學數據互操作制定共同標準協議。所有醫療機構停止繼續使用專有系統;不再購買不能連接的系統和一次性訪問接口;開始基于開放標準的互操作協議進行采購。
(2)正確認識科學數據互操作問題。醫療設備每天都在產生可以用來提高醫療服務的海量科學數據,但是設備之間相互獨立,不能連接和共享數據。我們需要一種可靠的方式實現跨設備、跨醫療系統、跨地區的科學數據共享和互操作。因此,要為設備供應商設置一個可預見的技術路線圖,強調科學數據共享和互操作的中心作用;各機構開始共享科學數據來確保科學數據互操作協議的有效執行。
(3)加快對明確的可持續數據互操作標準協議的采用。協議制定機構要發展明確的、能夠解決互操作問題的標準,同時保持標準和技術方法的現代化,不要停留在舊技術階段以免阻礙了標準的創新。各相關利益者參與到標準的制定中去,確保標準能夠滿足自己的需求。
(4)確保科學數據的有效性、隱私性和安全性。各醫療機構用一種系統工程方法來保證自身醫療系統數據的有效性、隱私性和安全性。協議制定機構在制定標準協議時同樣要充分保證機構數據的有效性、隱私性和安全性。
(5)為醫院、衛生系統和醫務人員減少技術復雜性。目前醫院在設備集成上面對太多的障礙和復雜性,導致醫療人員不得不在技術上花費比病人身上更多的時間和精力。因此,醫療機構要杜絕使用為醫護人員增加負擔或復雜流程的技術。協議制定機構創建的標準要保證機構以統一的方式來鏈接和訪問數據。開發更簡單、更容易實現、更方便使用和更現代化的標準。
(6)根據互操作標準協議開發新的技術方法使用數據流。醫療設備時刻在產生大量數據流,需要把原始科學數據轉化為有用的信息。先進的數據分析工具能對數據流進行更好的挖掘。
通過以上三大國際機構針對各自狀況給出了具體的科學數據互操作實踐方案(見表1)。
可以看出,科學數據互操作包含多方面的任務,需要多方的共同努力。
首先,各相關利益方應該采取更加開放的心態與政策,其系統要足夠開放以實現與不同利益方的不同系統在不同層次上的互聯;各方對于其產生的科學數據應該附有詳細的溯源信息,以幫助數據利用者對科學數據質量和語義的評估。
其次,制定標準協議仍是大數據時代解決科學數據互操作問題的重點和關鍵。對于標準協議的制定機構而言,應充分調查和比較相關利益方選用的元數據方案、技術平臺、協議規范等異同點,并根據多方主體對科學數據互操作的需求設計針對不同應用場景的、簡單易實現的互操作方案,避免反復定義標準協議導致互操作更加復雜和混亂。

表1 國際機構科學數據互操作實踐方案
再次,開發與使用先進的數據處理技術與工具將有效促進科學數據互操作的實現。大數據時代,僅靠過去單一的技術與工具已不能勝任海量數據的處理,我們需要更加善于開發相關的技術和工具,以支持從數據采集、清洗、管理、分析等整個數據處理周期。而這些工具與技術的使用,必定為科學數據互操作的實現提供強大的幫助和支持。
4.1科學數據開放政策落實困難
科學數據的開放與互操作是相輔相成的,科學數據開放是數據進行互操作的前提,數據互操作對科學研究的巨大促進作用促使各機構將科學數據開放。盡管有很多關于數據開放和數據共享的政策,但落實情況并不盡如人意。據調查,目前僅有25%的科學數據實現了共享,并且科研機構對待科學數據跨學科開放的態度一直在變化。
中國科學院計算機網絡信息中心侯艷飛工程師指出,科研激勵機制,知識產權問題,國家安全、機密和隱私保護問題,成本問題,個體心理和組織文化問題以及有關技術和基礎設施問題是數據科學時代制約科學數據開放政策落實的主要因素。
4.2難以制定科學數據互操作共同標準協議
科學實驗過程中,對科學數據的收集、處理、管理和歸檔等往往由不同的人按照各自的目的使用多種系統完成。系統和方法的多樣性使得科學數據的格式、結構、語義關聯、規模等方面千差萬別。因此,必須制定標準協議對數據格式、通信協議、軟件接口以及互操作的方法和技術工具等一系列要素進行結構化的統一。
但是由于不同機構的利益、文化、設備等眾多方面的差異以及資金等問題,共同標準協議很難達成一致,并且其服務的范圍越廣,制定起來就越復雜和困難。各研究機構一致認為缺乏基于開放標準的共同協議是制約科學數據互操作實現的最大障礙。
4.3缺乏定義科學數據互操作的共同框架
目前各學科和機構之間沒有對科學數據互操作的各方面形成明確的定義和統一的結構體系。歐盟GRDI項目指出,缺乏定義科學數據互操作的共同框架看似微不足道,其實是阻礙科學數據互操作發展的一個根本問題,它導致了科學數據互操作體系不能協同地朝著共同的戰略和方法發展。
科學研究中會不可避免地進行科學數據互操作,如果有定義科學數據互操作方法和技術的框架,科研機構就能尋找到其它機構已經發展成熟的技術方法來解決自己的問題,避免了這些發展成熟的技術方法只局限在某一學科或機構。
4.4科學數據質量低影響互操作的有效性
大數據時代的科學數據產生速度、規模和復雜度的增加更容易產生各種類型的誤差和錯誤。科學數據質量的多樣性,包括不正確、不完整、不精確、不相關、不及時等對數據的有效性和實驗結果會產生很大的影響。當數據質量低時,即使是相同結構的數據庫進行科學數據互操作時也會出現問題。
中國科學院計算機網絡信息中心黎建輝主任指出,目前數據質量理論和技術的研究在識別數據錯誤的理論和模型、定位和自動發現數據錯誤的技術和方法以及高修復錯誤數據的技術等各方面都面臨著挑戰。半結構化和非結構化數據的質量、統一的數據質量邏輯框架、分布式數據清洗等更是其中突出的挑戰性問題。
大數據時代的科學研究范式發生根本性變革,實現科學數據的共享和互操作,構建基于科學數據的、開放協同的科學研究新范式能夠極大推動學術信息交流,加速科學研究發現與創新的步伐。
本文詳細介紹了歐盟科學數據基礎設施建設項目GRDI2020、美國安全數據研究組織IJIS以及醫學數據研究所West Health三個具有代表性的國際機構對科學數據互操作的實踐研究狀況,發現科學數據互操作的實現需要多方的共同努力,制定基于開放標準的共同協議仍是大數據時代實現科學數據互操作的關鍵,開發與使用先進的數據處理技術與工具將有效促進科學數據互操作的實現。最后指出了目前科學數據互操作實踐研究面臨的主要問題,包括科學數據開放政策落實困難、難以制定科學數據互操作的共同標準協議、缺乏定義科學數據互操作的共同框架、科學數據質量低影響互操作的有效性等。
參考文獻:
[1]GRAY J.Jim Gray on e-Science:a transformed scientific method[R].Microsoft Research,2007:1-16.
[2]CODATA中國全國委員會.大數據時代的科研活動[M].北京:科學出版社,2014:149,207.
[3]Renner S.A community of interest approach to data interoperability[J].Federal Database Colloquium,2001:1-2.
[4]van Keulen M.Managing uncertainty:The road towards better data interoperability[J].it-Information Technology Methoden und innovative Anwendungen der Informatik und Informationstechnik,2012,54(3):138-146.
[5]Janssen M,Estevez E,Janowski T.Interoperability in Big,Open,and Linked Data--Organizational Maturity,Capabilities,and Data Portfolios[J].Computer,2014,47(10):44-49.
[6]Ide N,Pustejovsky J.What does interoperability mean,anyway?Toward an operational definition of interoperability for language technology[C].Proceedings of the Second International Conference on Global Interoperability for Language Re sources.Hong Kong,China.2010.
[7]種質資源數據互操作國際電子商務大會 [EB/OL].[2014-11-20].https://rd-alliance.org/group/agriculture-data-interest-group-igad/post/international-e-conference-germplasm-data.
[8]第八屆加拿大公共安全數據互操作研討會[EB/OL].[2014-12-01].http://www.citig.ca/the-eighth-canadian-public-safe ty-interoperability-workshop-2014-11-30.aspx.
[9]語義互操作大會[EB/OL].[2014-12-01].https://rd-alliance.org/semic-2014-semantic-interoperability-conference.html.
[10]Interoperability Continuum[EB/OL].[2014-11-15].http://www.safecomprogram.gov/oec/interoperability_continuum_broch ure_2.pdf.
[11]R.Rezaei et al.Interoperability Evaluation Models:A Systematic Review[J].Computers in Industry,2014,65(1):1-23.
[12]梁娜,張曉林.機構知識庫的互操作需求和互操作規范框架[J].現代圖書情報技術,2013(9):1-7.
[13]Ethier J F,Dameron O,Curcin V,et al.A unified structural/terminological interoperability framework based on LexEVS: application to TRANSFoRm[J].Journal of the American Medical Informatics Association,2013:amiajnl-2012-001312.
[14]Dhuieb M A,Belkadi F,Laroche F,et al.Interoperability framework for supporting information-based assistance in the factory[C].The IFIP Working Group WG 5.1 11th International Conference on Product Lifecycle Managment,2014.
[15]何克清,王翀.大數據表示與服務的語義互操作方法及其標準[J].信息技術與標準化,2013(10):10-13.
[16]王芳,王小麗.基于OAI協議的數字檔案館元數據互操作問題研究[J].現代圖書情報技術,2007(3):18-24.
[17]Curry E.System of systems information interoperability using a linked dataspace[C].SoSE,2012:101-106.
[18]Majkic Z.Intensional RDB for Big Data Interoperability[J].arXiv preprint arXiv:1403.6089,2014.
[19]Datta S B,Gupta V K.Performance Interoperability between RDBs and OODBs[J].Research Journal of Recent Sciences,2012(1):2502.
[20]歐盟-GRDI2020[DB/OL].[2014-11-20].http://www.grdi2020.eu/.
[21]Pasquale Pagano,Leonardo Candela,Donatella Castelli.Data Interoperability[J].Data Science Journal,2013(6/7):22-22.
[22]De facto standards-Wikipedia[EB/OL].[2014-11-20].https://en.wikipedia.org/wiki/De_facto_standard.
[23]美國IJIS組織[DB/OL].[2014-11-20].http://www.ijis.org/.
[24]Scott Parker,Steve Wisely.Guide to information sharing and data interoperability[R].PSDI,2009:2-3.
[25]NIME[DB/OL].[2014-10-20].http://www.niem.gov.
[26]West Health醫學研究所[DB/OL].[2014-11-25].http://www.westhealth.org/institute/who-we-are.
[27]Dr.Joseph Smith,Dr.Doug Fridsma.Igniting an interoperable healthcare system[R].West Health,2014:6-7.
[28]Data Policy-歐盟[EB/OL].[2014-11-25].https://www.jstage.jst.go.jp/article/dsj/12/0/12_GRDI-008/_pdf.
中圖分類號:
G203文獻標識碼:
ADOI:
10.11968/tsygb.1003-6938.2015069作者簡介:
楊京(1990-),男,山東理工大學科技信息研究所碩士研究生;王效岳(1961-),男,山東理工大學科技信息研究所教授;白如江(1979-),男,山東理工大學科技信息研究所副研究館員。收稿日期:
2015-03-26;責任編輯:劉全根A Review on Data Interoperability in Big Data Time
Abstract
Based on the basic concepts and latest research progress of scientific data interoperability,three different international organizations of scientific data interoperability's practice conditions are introduced,that is the research data infrastructure project GRDI2020、American safety data research organization IJIS and the medical research institution West Health.The main problems of scientific data interoperability are pointed out.Key words
big data;scientific;data interoperability;GRDI2020;IJIS;West Health