999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

醫學大數據長期保存系統的設計與實現

2020-01-06 08:01:10
中華醫學圖書情報雜志 2019年9期
關鍵詞:資源內容服務

在數據驅動科研的范式下,醫學大數據作為一種戰略性資源,對于醫學科技創新具有重要的支撐作用。醫學大數據包括生物醫學科技文獻數據、醫療保險數據、臨床電子病歷以及醫療論壇數據等。醫學科研與實踐活動以及各項應用平臺建設產出的大量醫學科研數據,在產生經濟和社會效益的同時,涉及主題極為廣泛,具有深度分析、挖掘和再利用的大數據研究價值。然而,隨著信息技術的飛速發展以及新型媒介和載體的快速革新,如何長期保存這些具有再利用價值的數據,面臨著數據真實性、完整性、可獲得性以及長期可解釋性的挑戰[1-5]。

醫學大數據除表現在數量龐大、類型多樣、增長快速以及具有挖掘價值的大數據特征[6]外,還表現出特有的復雜性[7-10]。首先,鑒于數據的敏感性和共享機制的缺乏,醫學數據難以獲取;其次,由于儀器設備專業化和精細度等因素,醫學數據的獲取代價可能較為昂貴;第三,基于學科的嚴謹性,在數據分析和結果解釋時,醫學領域知識一般占據主導地位。此外,醫學數據還表現出一定程度上的不可再現性特征。

面對大規模、多樣化和動態變化的醫學大數據,如何最大限度地保證數據的真實性、完整性、可靠性以及長期可解釋性,建立可持續發展的醫學大數據長期保存系統平臺,是當前數字資源保障體系建設中面臨的重要課題。

1 長期保存

開放存檔信息系統參考模型[11](Reference model for an open archival information system,OAIS)為長期保存提供了基礎性框架。其中“開放”一詞表示該模型的相關建議書和標準的形成具有開放性,并非表示對存檔內容的訪問不受限制,保存的信息通常采用“暗保存(Dark Archival)”模式[12-13],即只有當特定的事件觸發時,才啟用對存檔信息的訪問。該模型最早由美國國家航空和航天局(National Aeronautics and Space Administration,NASA)和美國空間數據系統咨詢委員會(Consultative Committee for Space Data Systems,CCSDS)于1999年提出,經過不斷的發展與完善,已經成為數字保存系統建設普遍遵循的重要標準——ISO 14721:2012。

根據OAIS的定義,長期保存是一項對保存內容進行長期管理和維護的行為,旨在確保保存內容可以被特定社區所理解,并提供支持其真實性證據,即在足夠長時間內,技術的變革、新的媒體和數據格式,以及特定用戶社區的變化等都有可能對保存的信息產生一定的影響。因此,長期保存不僅意味著是用于安全管理備份數據,而更強調對數字內容的生命周期維護,包括數據審核、數據關聯以及數據監控等行為。其中對數據進行審核是為了確保其完整性,與適當的元數據關聯是為了確保其可發現性,對保存內容進行訪問控制監控是為了滿足相關的隱私許可以及知識產權限制等要求。

本文基于醫學領域資源建設和信息服務的發展需求,結合大數據時代資源保存對象由傳統紙質文獻資源向多類型數據資源轉移的新形勢,以健全醫學信息保障及服務能力為宗旨,圍繞數字資源保存的概念化、創建/接收數據、評估和選擇、攝入、保存、存儲、訪問利用/重用以及轉換各生命周期階段,建設醫學大數據長期保存系統(Long-term PREServation System for Medical big data,MedPRES),以保證醫學數據的真實性、完整性、可獲得性及長期可解釋性,為重要醫學資源的長期保存和利用提供有力保障。

2 保存方案

2.1 數據流程

在長期保存系統中,保存內容以信息包的形式進行交互,包括提交信息包(Submission Information Package,SIP)、存檔信息包(Archival Information Package,AIP)和分發信息包(Dissemination Information Package,DIP)。保存信息在長期保存過程中的數據流向見圖1。

圖1 長期保存系統中的數據流向

圖1中,數據提交者向長期保存系統提交將要保存的內容,SIP需要包含數據及內容信息,以確保保存系統可以維護保存內容,數據使用者可以通過保存系統訪問、理解和使用保存內容。

保存系統接收來自數據提交者的SIP,通過數據攝入功能實體將SIP轉換為適合于數據存檔和數據管理所需的一組AIP,并對接收的信息對象進行分類,確定每個對象的所屬集合,完成AIP存檔后創建消息以更新集合描述。

數據存檔功能實體接收攝入流程生成的AIP,并將其添加到永久保存庫。數據管理功能實體采用數據攝入階段生成的包描述,并擴展現有的集合描述。數據在存檔和管理過程中需要進行媒介更新、糾錯以及數據庫維護等操作,以防技術、媒介、數據格式和用戶群體等隨著時間推移所產生的變化而導致信息丟失。

數據訪問功能實體根據數據使用者的數據訪問請求,與數據存檔和數據管理相互作用,交互DIP所對應的AIP及其相關信息包描述。數據存檔和數據管理在臨時存儲中創建請求對象的副本,數據訪問將該組AIP和關聯的包描述轉換為一組DIP,并將其存儲于物理分發媒介,以在數據分發會話中交付給數據使用者。

2.2 信息模型

長期保存的主要目標是在不確定的時間內保存特定信息。為了保存該信息對象,長期保存系統必須充分理解數據對象及其關聯的呈現信息。OAIS參考模型強調對信息內容的保存,信息模型是長期保存的關鍵。根據OAIS,存檔信息包的數據模型[11]如圖2 所示。

圖2 存檔信息包數據模型

信息包包含內容信息和保存描述信息。內容信息是保存的目標信息,由內容數據對象及其相關的呈現信息組成,以使內容數據對象可被指定團體理解;保存描述信息有指引信息、起源信息、環境信息、不變性信息以及訪問權限信息5種類型。其中,指引信息提供標識符,以標識內容信息;起源信息描述內容信息的來源,提供對內容信息的審核跟蹤,為內容信息的真實性和可靠性提供依據;環境信息記錄創建內容信息的原因及其與環境中的其他內容信息對象之間的關系;不變性信息提供對數據完整性的檢查與驗證,用于追溯內容信息對象的更改記錄;訪問權限信息提供對保存、分發和使用內容信息的權限許可范圍。

2.3 關聯整合

對多源異構數字對象進行關聯整合的框架如圖3所示。由于采集接收的數據信息沒有呈現信息和保存描述信息,因此在攝入階段必須對SIP進行處理,以確保收集到保存數據對象的長期可訪問性和可用性信息。提取與數據對象相關的元數據,并將所有內容封裝于AIP中進行存檔;基于捕獲的數據對象元數據表示,將其編碼為RDF三元組并存儲于索引中;以面向應用的方式對保存知識和特定領域的對象格式和概念進行建模,實現對多來源數字對象元數據的高效管理;保存數據對象以DIP的形式提供訪問與利用服務,并通過圖形數據庫存儲,為知識推理與挖掘以及圖數據復雜查詢提供支撐。

圖3 關聯整合框架

3 系統設計

3.1 總體架構

為實現醫學大數據的長期保存,MedPRES按照目前國際公認的標準進行設計。MedPRES模型的定義遵循ISO 14721:2012——開放存檔信息系統[14],數字倉儲的可信認證遵循ISO 16363:2012——可信賴的數字倉儲審計與認證標準(Audit and Certification of Trustworthy Digital Repositories)[15]。MedPRES總體架構如圖4所示,自底向上包括基礎設施層、數據層、存儲層、應用層以及服務層。

基礎設施層:采用虛擬化技術合理利用與分配各類計算、存儲與網絡等資源,提高資源的利用率和應用的可靠性;通過云平臺與底層虛擬化平臺協同工作,實現計算、網絡和存儲基礎架構服務的抽象化、池化和自動化。

數據層:甄選具有長期保存價值的醫學科學數據、專業數據庫以及網頁數據等,根據不同的數據類型確定合適的資源獲取與采集方式,實現多來源異構海量醫學數據的全面采集與分類處理。

存儲層:基于分布式存儲實現對醫學大數據的保存,包括對元數據存儲、業務數據存儲和文件存儲。其中,元數據存儲至Fedora,數據索引存儲至ElasticSearch,業務數據支持關系數據庫存儲。

應用層:MedPRES的采集、接收、攝入、管理等各個業務模塊基于微服務理念進行設計,并實現對MD5碼檢測、解壓縮測試、病毒檢查、數量檢查、格式檢查和數據備份等的插件化管理。

服務層:系統基于B/S模式開發,提供標準的數據訪問與交互接口,為數據集成和服務提供支持。

圖4 MedPRES總體架構

3.2 關鍵技術

3.2.1 工作流

長期保存包括采集、接收、攝入、存儲、管理、訪問等環節,每個功能環節又包含一系列的具體處理流程,如信息包的生成與檢查、病毒檢測、完整性檢查等。

工作流技術為醫學大數據長期保存的復雜流程管理提供了自動化解決方案。長期保存需要確保保存資源在時間、環境、技術、法律法規等因素變化下的長期可用性。通過工作流管理工具,可根據保存生命周期和保存規劃,預先將保存過程中的各項任務配置為相應的工作流,并通過對保存系統內外部事件的實時監控,實現變化發生時的流程重配置。

鑒于在數據持久化、流程設計、原生支持和數據存取效率等方面的優勢,MedPRES基于開源引擎Activiti實現對長期保存各個環節工作流程的靈活配置,通過工作流與任務調度機制相結合,提供對海量數據分布式任務的高效處理。

3.2.2 數字倉儲

MedPRES底層元數據倉儲結構如圖5所示。基于Activiti定義的工作流實現對提交信息包SIP的檢查和處理,數據最終存儲于Fedora和ElasticSearch中。其中,Fedora作為靈活的可擴展數字對象倉儲架構,可提供元數據多版本管理策略;采用的網絡資源描述框架(Resource Description Framework,RDF)管理數字資源,既可實現關聯發現和語義檢索服務又支持原始文件存儲;并可根據不同業務需求封裝為長期保存系統所需的存檔信息包AIP;ElasticSearch基于元數據提供索引服務,支持分布式部署和多種檢索策略配置,滿足保存管理和公共服務中的多種檢索需求。

圖5 MedPRES數字倉儲

3.2.3 微服務

基于對資源和應用快速靈活部署模式的考慮,MedPRES采用微服務管理支持快速解耦和集成,在不對現有服務造成影響的條件下,支持分布式部署和動態容量擴展。

為了滿足各種應用場景,MedPRES提供的微服務包括應用微服務、集成微服務和數據微服務。其中,應用微服務以已構建的系統為基準,實現應用系統/模塊微服務化,單個系統或模塊可獨立運行,也支持系統和模塊間數據通信;集成微服務實現系統之間的集成,包括內部系統和外部系統,集成框架可提供組件同步、異步通信所需要的基礎能力,系統之間的交互只需遵循約定的REST接口和消息定義;數據微服務提供數據檢索與瀏覽接口、數據分面匯總接口和數據統計分析匯總接口,支持權限分配與控制,同時支持數據傳輸加密需求,為數據的安全性提供保障。

3.2.4 云存儲

長期保存面臨的一個重要挑戰是成本代價高,通過利用云計算和虛擬化技術,可提供經濟上可行的長期保存解決方案。此外,云存儲還具有靈活性和動態可擴展性,可為大數據環境下的數字資源長期保存提供海量存儲、協同保存、高效備份和實時遷移等解決方案。

MedPRES采用基于云的保存感知存儲服務。其優勢在于:通過將與保存相關的功能卸載到存儲系統,可降低數據損壞或丟失的可能性,從而使數字保存系統更為健壯;基于云的長期保存方案支持對資源的邏輯保存,從而使云中對象物理位置的變化不會影響用戶對數據的訪問;通過基于云的虛擬設備保存數據內容和呈現數據所需的特定軟件,還可增強保存內容在未來的可理解性。

單個云存儲模式具有一定的應用局限性并存在安全隱患。隨著云技術的發展,多云存儲可為大數據環境下各種應用提供新的服務模式。醫學大數據長期保存可同時利用具有不同功能的多個云實現資源在更大范圍的動態分配、靈活調度和跨域共享,提高資源的整體利用率。此外,通過對數據管理功能的靈活配置,基于多云存儲模式還可應對多類型數字資源隨時間推移不同階段的長期保存需求。

4 實現效果

面向大數據時代的醫學資源建設和信息服務的發展需求,MedPRES圍繞數字資源保存生命周期,提供從數據采集、接收、攝入到保存管理、審計以及服務的一整套解決方案。基于對醫學大數據長期保存基礎設施條件的建設,MedPRES支持PB級數據的長期保存服務。系統界面如圖6所示。

針對已獲取長期保存權的Karger和Wiley 2種回溯電子圖書,系統可實現對醫學電子出版物的長期保存,其中Karger電子書1 827本,Wiley電子書2 239本。此外,MedPRES支持對軟件系統類資源的保存。在長期的醫學科研和實踐活動中,建設了各類醫療健康相關的信息系統和業務平臺,隨著時間的推移給操作系統的兼容性帶來了挑戰,系統級長期保存不僅需要保存系統本身以及系統中的數據,還需要系統所基于的操作系統。完整地保存這些系統平臺及其數據對長期利用這些數據具有重要的戰略意義。例如西太平洋地區醫學索引(Western Pacific Region Index Medicus,WPRIM)系統目前已收集來自世界衛生組織西太平洋區域13個成員國的750 651條生物醫學題錄數據,通過在MedPRES中上載操作系統、系統運行所需要的軟件,對WPRIM所需要的環境進行配置以及所需的數據與軟件的關聯關系的配置,實現了對WPRIM的保存服務。采用暗存檔模式,MedPRES中保存的系統獨立于現有業務系統,僅在觸發事件發生時啟用,因此該服務不占用過多的計算和存儲資源。系統在研發過程中產生了一系列軟件工具,如內容檢查工具、AIP數據包生成工具、上載工具等,MedPRES已實現對這些軟件工具的長期保存。

圖6 MedPRES系統界面

MedPRES系統支持工作流的靈活配置和調用。信息包的核心處理工具以組件形式提供服務,以便于各保存機構根據切身實際情況靈活組配所需的工作流。如根據可信賴的數字倉儲審計與認證標準ISO 16363:2012,在AIP創建的初期需要對其完整性和正確性進行驗證,并且保證AIP內容信息的可理解性。圖7為數據攝入的一條記錄詳情。通過定義數據攝入工作流,可實現從數據備份、解壓縮、數據檢查、格式檢查、內容檢查、SIP規范化檢查到AIP生成、上載以及創建索引的一整套流程的自動化處理。

5 結語

醫學大數據長期保存是一項重要而又艱巨的任務。本文根據國際公認的開放存檔信息系統OAIS參考模型,綜合利用工作流、數字倉儲、微服務及云存儲等關鍵技術,設計與實現了醫學大數據長期保存系統MedPRES。該系統提供從數據采集、接收、攝入到保存管理、審計及服務的一整套解決方案,支持PB級醫學數據的長期保存服務,可促進重要醫學數據的長期保存與利用。隨著醫學大數據長期保存實踐活動的開展,將注重對數據資源長期保存權益的獲取,并通過推進合作保存,共同促進數據的長期可用。

圖7工作流實現效果

猜你喜歡
資源內容服務
內容回顧溫故知新
科學大眾(2022年11期)2022-06-21 09:20:52
基礎教育資源展示
一樣的資源,不一樣的收獲
服務在身邊 健康每一天
今日農業(2019年12期)2019-08-15 00:56:32
服務在身邊 健康每一天
今日農業(2019年10期)2019-01-04 04:28:15
服務在身邊 健康每一天
今日農業(2019年16期)2019-01-03 11:39:20
資源回收
招行30年:從“滿意服務”到“感動服務”
商周刊(2017年9期)2017-08-22 02:57:56
資源再生 歡迎訂閱
資源再生(2017年3期)2017-06-01 12:20:59
主要內容
臺聲(2016年2期)2016-09-16 01:06:53
主站蜘蛛池模板: 五月婷婷导航| 日韩专区欧美| 国产视频一区二区在线观看| 国产福利不卡视频| 色婷婷色丁香| 91国内在线观看| 日韩在线2020专区| 大陆精大陆国产国语精品1024 | 亚洲国产清纯| 国产一级片网址| 精品久久久久久中文字幕女| 蜜臀AV在线播放| 精品久久国产综合精麻豆| 欧美日韩中文字幕在线| AV老司机AV天堂| 免费a级毛片视频| 人妻中文字幕无码久久一区| 亚洲码在线中文在线观看| 99青青青精品视频在线| 久久久久亚洲精品成人网| 亚洲Aⅴ无码专区在线观看q| 黄色一级视频欧美| Jizz国产色系免费| 97se亚洲综合在线韩国专区福利| 日韩无码精品人妻| 亚洲色图欧美激情| 日韩欧美视频第一区在线观看| 久久九九热视频| 波多野吉衣一区二区三区av| 日本不卡视频在线| a级毛片一区二区免费视频| 亚洲人成在线免费观看| 国产成人久视频免费| 中文无码伦av中文字幕| 手机成人午夜在线视频| 精品三级在线| 一本大道香蕉久中文在线播放 | 色婷婷亚洲十月十月色天| AV不卡无码免费一区二区三区| 熟女成人国产精品视频| 久久国产高清视频| 国产日韩AV高潮在线| 亚洲AV无码一区二区三区牲色| 99精品在线看| 亚洲日韩国产精品综合在线观看| 99久久国产综合精品2020| 日韩成人午夜| 亚洲第一成年人网站| 伊人久久久久久久| 亚洲狠狠婷婷综合久久久久| 国模沟沟一区二区三区| 日韩高清一区 | 亚洲成人福利网站| 女人av社区男人的天堂| www中文字幕在线观看| 国产精品露脸视频| 久久99热这里只有精品免费看| 日本不卡在线播放| 国产原创演绎剧情有字幕的| 亚洲国产成人在线| 欧美一级高清片欧美国产欧美| 五月天综合网亚洲综合天堂网| 午夜国产精品视频| 夜夜爽免费视频| 伊人久久影视| 日韩av手机在线| 最新国语自产精品视频在| 欧美劲爆第一页| 国产不卡在线看| 亚洲成人精品| 高清不卡毛片| 高清国产在线| 欧美第二区| 国产毛片网站| a亚洲视频| 国产乱子伦手机在线| 正在播放久久| 国产午夜无码片在线观看网站 | 热99精品视频| 国产玖玖玖精品视频| 国产一级毛片在线| 亚洲天堂伊人|