薛玉強 陳平雁
南方醫科大學生物統計學系(510515)
·計算機應用·
基于開源數據庫PostgreSQL與云平臺構建高可靠性臨床研究數據管理系統
薛玉強 陳平雁△
南方醫科大學生物統計學系(510515)
目的 使用開源數據庫PostgreSQL在云服務器上構建低成本、高可靠性的臨床研究數據管理系統。方法 基于阿里云服務器,在開源操作系統CentOS上,采用PostgreSQL數據庫,按照臨床研究數據管理的完整業務流程構建數據管理系統。結果 本系統實現了用戶權限管理系統、eCRF可視化設計器、數據管理過程的全部業務流程,包括留痕功能。結論 依靠云服務器平臺所具有的高服務可用性及數據可靠性、PostgreSQL數據庫的熱備份能力以及完善的標準操作規程,該數據管理系統的可靠性可以得到有效保證。
臨床研究 數據管理系統 EDC 開源數據庫 PostgreSQL
在臨床試驗中使用基于網絡的電子化數據采集(electronic data capture,EDC)系統,擁有紙質病例報告表(case report form,CRF)無法比擬的眾多優點[1],諸如Oracle公司的Oracle Clinical及Inform系統,Medidata公司的Rave系統等等,已經作為成熟EDC在跨國醫藥企業的臨床研究項目中使用[2]。但因昂貴的價格及后期維護費用[3],其在國內醫藥企業及研究機構的臨床研究中并沒有得到普及?;诖?,選擇免費的開放源碼軟件[4],為我國醫藥企業及臨床研究機構開發經濟適用的企業級EDC系統有其實際意義。
1.云平臺提供高服務可用性的Web界面訪問
在線EDC系統,需要穩定的網絡響應速度和高可用性,而云計算平臺的出現較好地解決了這個問題[5]。目前國內公眾云平臺提供云服務器功能的有騰訊云、阿里云、盛大云、天翼云等,這些云平臺標稱性能基本一致,如服務可用性為99.95%,數據安全性為99.999%等,除天翼云外,其他云平臺均提供邊界網關協議(border gateway protocol,BGP)線路,可同時為國內南、北方不同網絡用戶提供良好的訪問速度。本系統選擇阿里云作為Web服務平臺進行部署與測試,選擇的操作系統為開源操作系統CentOS 6.5(64位)。
2.PostgreSQL提供先進的數據庫引摯,用于臨床數據的存儲
EDC系統最核心的功能是研究數據的存儲,因而對數據庫系統的性能要求較高,目前流行的關系型開源數據庫系統包括MySQL、PostgreSQL、Firebird等,本系統將采用PostgreSQL作為數據存儲引摯。
PostgreSQL起源于1985年加州伯克利大學的Ingress項目,開源至今經歷了15年以上的發展,已經成為一個功能強大的對象關系型數據庫系統,是一個數據的完整性和正確性經過驗證的數據庫架構,因其高可靠性在用戶中贏得了良好的聲譽,PostgreSQL被譽為“最先進的開源數據庫”[6-8]。
PostgreSQL支持大部分SQL2011標準特性及其定義的數據類型,如:整數、浮點數、布爾值、固定及可變長度字符串、時間、時間差和時間戳。PostgreSQL也支持存儲二進制大對象,包括圖片、聲音和視頻。編程接口支持C/C ++、Java、NET、Perl、Python和Ruby等常見語言。PostgreSQL可以運行在所有主要的操作系統上,包括Linux,UNIX(包括AIX、BSD、HP-UX、SGI IRIX、Mac OS X、Solaris、Tru64)和Windows[6]。
在數據可靠性和完整性方面,PostgreSQL 8之后的所有版本(當前正式版本為9.3.4),均提供了支持時間點的數據庫恢復功能:在線備份與即時恢復(on-line backup and point-in-time recovery,PITR)功能,當主數據庫或其操作系統出現異常,甚至是服務器因故宕機,負責備份的數據庫服務器可將數據恢復至異常之前,特別是從9.0版本之后,提供了名為“hot standby”的功能[9],在利用日志恢復數據的同時,可以用只讀的方式打開數據庫,進行查詢操作。從而保證了數據庫的高可用性及數據存儲的完整性。
3.軟件即服務(Software-as-a-service,SaaS)的使用模式
本EDC系統將采用SaaS模式[10],用戶只需接入互聯網,登錄后即可使用本系統,無需另外購置軟硬件,只需支付一定的服務費用;而系統本身的構建均基于免費的開源軟件,因而使用本系統的成本可大大降低。
1.用戶權限管理系統
用戶權限管理系統涉及權限設計、角色管理、組織管理、用戶管理等,在本系統中,主要的角色包括管理員、數據管理員、監查員、研究助理、主要研究者、稽查員,并可根據需要擴展其他角色;按照我國臨床試驗質量管理規范[11](good clinical practice,GCP)并參照美國聯邦法規21章第11款中涉及電子記錄的要求[12],分配數據錄入、修改、核查、批準、鎖定等權限給相應角色,并在系統中記錄用戶的所有操作日志。
2.eCRF可視化設計器
設計器以單個字段為最小單位,可定義的字段類型包括單行的文本或數字、單選、多選等,涵蓋了CRF中所有需錄入的字段類型;同時,通過定義該字段對應的CRF頁面上的定位、單位及注釋等信息,可實現eCRF頁面的精細化設計,使eCRF具有與紙質CRF基本相同的頁面布局。通過此設計器,普通的數據管理人員或研究者,經過簡單的培訓后,即可設計eCRF頁面。
3.業務流程實現
按照臨床研究的數據管理過程,本系統實現了數據錄入、程序核查、數據疑問、原始數據核查(source data validation,SDV)、CRF審批、數據鎖定六個業務流程,并將納入的受試者劃分為數據待錄入→錄入中→完成錄入→完成SDV→完成審批→已鎖定六種狀態,并且限定了嚴格的邏輯判定標準,使每一受試者的數據均需按此順序進行操作,同時按照角色權限和數據管理實際情況,實現了完成錄入狀態到錄入中狀態的有條件回退。
1.建庫測試
采用eCRF可視化設計器設計入選排除標準、人口學特征、既往病史、用藥史、基線時的實驗室檢查等幾個基本CRF頁面,構成本研究項目的錄入頁面。
2.測試錄入與痕跡記錄
共測試錄入5份數據,所有的痕跡記錄可在線瀏覽;對于已錄入數據的修改,還需提供修改原因;系統還將記錄修改時間、修改人ID及其IP地址。
3.測試SDV與審批
SDV及審批針對每一個受試者的eCRF,且只有經過SDV的eCRF才可進行審批操作,這是系統固化的業務流程,未進行SDV的eCRF進行批準操作時,系統會給予警示并禁止該操作。
4.測試鎖定
使用數據管理員身份登錄系統,選擇已經由研究者審批的eCRF進行鎖定操作,eCRF頁面中的錄入表單全部轉換為只讀狀態,除數據管理員外,其他任何人均無法再對該份eCRF進行數據的錄入或修改操作。
5.可用性及數據安全性
系統在云平臺部署至今已超過半年時間,期間未遇到服務中斷情況;系統內數據執行每天增量備份,經不完全測試,增量備份文件內的數據均可完整恢復到系統中。
本系統采用開源數據庫PostgreSQL,代碼強健,穩定性和安全性都有保證;云平臺與PostgreSQL數據庫的熱備份能力及完善的標準操作規程相結合,該數據管理系統的可靠性可以得到有效保證;同時,系統開發遵循了GCP及FDA相關要求,并將規范化的數據管理流程固化到系統中,有助于提高數據管理過程的質量;再者,系統本身部署快,而eCRF采用可視化設計器進行設計,eCRF與數據庫同時設計生成,方便易用效率高。
另外,作為一個完全基于開源軟件構建、使用SaaS模式提供服務的EDC系統,該系統的使用及后期維護費用將大大降低,有利于EDC系統在我國的普及應用。
本系統存在不足之處,目前系統功能尚在完善中,電子簽名功能尚未實現;另外,由于開發時間短、測試少,仍需開發者與使用者密切溝通,從而使系統不斷完善。作為一個新系統,合規性的驗證需要由軟件及計算機系統的驗證來完成,涉及內容多、需多方配合。
[1]Brigitte Walther,Safayet Hossin,John Townend,et al.Comparison of Electronic Data Capture (EDC) with the Standard Data Capture Method for Clinical Trial Data.PLoS One,2011,6(9):e25348.
[2]Leroux Hugo,Mcbride Simon,Gibson Simon.On Selecting a Clinical Trial Management System for Large Scale,Multi-Centre,Multi-Modal Clinical Research Study.Health Informatics:The Transformative Power of Innovation.IOS Press,2011,168:89-95.
[3]Jatin Shah BAMS,PDCR,Dimple Rajgor MSc,et al.Electronic Data Capture for Registries and Clinical Trials in Orthopaedic Surgery:Open Source versus Commercial Systems.Clinical Orthopaedics and Related Research,2010,468(10):2664-2671.
[4]Bruce P.The Open Source Definition.Open Sources:Voices from the Open Source Revolution.O′Reilly Media,1999:171-188.
[5]Michael Armbrust,Armando Fox,Rean Griffith,et al.Above the Clouds:A Berkeley View of Cloud Computing.Technical Report No.UCB/EECS-2009-28.
[6]Wikipedia.PostgreSQL.http://en.wikipedia.org/wiki/PostgreSQL[2014-06-20].
[7]Troels Arvins minimalistiske web-base.Comparison of different SQL implementations.http://troels.arvin.dk/db/rdbms/[2014-06-20].
[8]Wikipedia.Comparison of relational database management systems.http://en.wikipedia.org/wiki/Comparison_of_relational_database_management_systems[2014-06-20].
[9]Simon R,Hannu K.PostgreSQL 9 Administration Cookbook.Birmingham:Packt Publishing Ltd,2010,316-320.
[10]袁志俊,夏紅霞.基于SaaS模式在線軟件系統開發方案的研究.計算機工程與設計,2009,30(11):2714-2717.
[11]國家食品藥品監督管理總局.藥物臨床試驗質量管理規范(局令第3號).http://www.sda.gov.cn/WS01/CL0053/24473.html.[2014-06-21].
[12]U.S.Food and Drug Administration.CFR-Code of Federal Regulations Title 21.Available:http://www.accessdata.fda.gov/scripts/cdrh/cfdocs/cfcfr/CFRSearch.cfm?CFRPart=11&showFR=1&subpartNode=21:1.0.1.1.8.2.[2014-06-21].
(責任編輯:郭海強)
△通信作者:陳平雁,E-mail:chenpy99@126.com