夏義堃 管茜 周艷



摘? ?要:生命科學數據管理是推進生物技術創新和醫療健康水平提升的重要基礎與關鍵要素,從責任主體驅動機制與數據行為角度展開分析能夠為完善生命科學數據管理提供實踐指導和理論啟發。基于利益相關者理論和科學數據管理框架,運用文獻調研法和網絡調查法、案例分析法,歸納和分析不同責任主體的生命科學數據管理行為。生命科學數據管理的責任體系多元復雜、價值訴求與數據管理方式多樣,只有激發研究人員、資助方、期刊出版方、數據倉儲/平臺、學術共同體多主體數據管理參與熱情,形成協同管理模式才能夠營造高效的生命科學數據管理生態體系。
關鍵詞:生命科學數據;科學數據管理;數據共享;利益相關者;數據管理責任
Abstract Life science data management is the key foundation and factor at the promotion of biotechnology innovation and medical level. It will provide practical guidance and theoretical inspiration for the improvement of life science data management by the perspective of responsibility-driven mechanism and data behavior analysis. Based on stakeholder theory and science data management framework, the author sorted out life science data management behaviors of different responsible entities by the methods of using literature research, network investigation and case analysis. There are multiple entities, value needs and various management methods in the complicated process of life science data management, and the efficient ecosystem of life science data management should be built through stimulating the enthusiasm of multi-entities' participation and forming a collaborative management model.
Key words life science data; science data management; data sharing; stakeholders; data management responsibility
在數字化時代,各類生物、醫學實驗所產生的大量原始實驗數據,不論是用于流行病學、藥物遺傳學還是干細胞研究、癌癥研究以及精準醫學研究,都具有舉足輕重的地位。有關生命科學數據的收集、存儲、加工等數據管理活動被視為“生物價值”生產的關鍵要素,對于生命科學研究的創新以及生物醫藥產業效益提升具有不可替代的重要影響。因此,推進生命科學數據管理能力和效率的提高刻不容緩,本文基于國內外生命科學數據管理相關研究成果,對生命科學數據管理理論的發展脈絡、主要政策及其內容要素進行梳理,并將利益相關者理論融入生命科學數據管理生態體系中,從多元責任主體的角度分析各方數據管理利益訴求,并提出建立生命科學數據管理的多元協同模式。
1? ?研究回顧與問題的提出
1.1? ? 生命科學數據管理研究綜述
生命科學數據管理是科學數據管理的重要組成部分,其數據管理實踐早于其他學科,可溯源到20世紀60年代美國學者的蛋白質序列數據共享行為,即《蛋白質序列和結構圖集Atlas》的發布[1]。而其他學科的數據共享可追溯到1985年美國國家統計委員會發表的“共享研究數據”報告[2]。數據管理與生命科學研究之間有著緊密的內在聯系,在生物學領域,支持數據共享的學者往往會強調各類材料和數據交換的學術傳統[3],有學者甚至直接指出生命科學和精密醫學領域的“更大思維”就是數據驅動的研究[4]。國內外有關生命科學數據管理的研究主要集中在以下方面:
(1)生命科學數據管理重要性研究。很多學者論證了基因組數據收集與共享、基因數據挖掘與比對、基因序列分析等在基因組學、系統生物學、結構生物學等新興學科孵化以及基因診斷等實踐應用中的重要作用[5-6];隨著大數據的發展,一些學者從生物醫學樣本的數字化轉換過程及其與多源數據的關聯融合角度,探討生命科學知識生產加工的數據化過程和學科交叉融合的深刻意義[7-8],如促進信息共享,理解癌癥就是理解有關癌癥的信息等[9],“使廣泛的數據利用和分析用于疾病診斷,尋找新的治療方法以及對人類生物學的更好理解”[10]。
(2)生命科學數據管理規范與特點研究。許多學者從科學數據管理視角探討生命科學數據管理的制度標準,指出在生物、醫學等領域,應創建復雜的、內部一致的、可擴展的數據管理體系,并為收集,存儲,保存、訪問和引用科學數據而開發標準和準則[11-12],也有學者研究生命科學數據存儲、數據空間建構標準與FAIR原則等實踐[13-14]。同時,可復制性、可驗證性等質量要求也是生命科學數據管理研究的熱點,對數據質量要素內涵的探討始終在持續進行中[15-16]。同時,生命科學自身復雜性帶來的數據標準以及元數據制定等各種挑戰及其解決辦法也是研究的重要內容[17]。
(3)生命科學數據開發利用研究。如Gardner[18]、Bhattacharya[19]等從開放數據集、提取數據中的生物學信號、建立元分析、進行科學發現與研究驗證等角度分析了研究人員生命科學數據再利用行為與過程;也有學者從數據再利用實踐角度展開分析,如TFrisby和Contreras[20]分析2018年美國癌癥登月項目獲批者的數據存取與共享政策執行情況,調查研究人員數據共享動機等[16],指出生命科學管理與共享政策的執行仍面臨政策推介不足、執行指導以及研究人員技能培訓薄弱等一系列現實困難,生命科學本科生或研究生培養體系中有關數據共享和再利用教育并未得到重視和明確[21]。同時,也有學者從文化傳統角度指出要真正實現生命科學數據的再利用,還需要實現文化氛圍的改變[8]。
(4)生命科學數據利用中的安全與倫理研究。生命科學數據利用的倫理與安全問題一直受到各方重視,相關研究主要集中在隱私保護和知情同意履行以及數據權益歸屬、分配公平等方面,對保密性的恐懼和隱私保護要求等倫理挑戰問題貫穿數據產生及其應用[22-23],“涉及研究內容、研究過程、研究結果、成果及其轉化的整個過程[24]”。許多學者提出應建構保障性制度框架,在數據質量、數據訪問與存儲等基礎上,應增加參與者隱私、風險和利益以及倫理原則等內容[25],“需平衡開放數據源的安全和隱私挑戰與開放數據對改進研究和醫療服務的潛在效益”[26]。也有學者提出應對生命科學數據生產者、研究人員與使用人員的數據供給與利用義務進行責任限定[27]。
1.2? ? 生命科學數據管理責任與利益相關者理論
20世紀90年代以來,包括生命科學數據在內的科學數據開放存取與共享等管理問題受到普遍重視,伴隨數據驅動研究范式的出現和開放數據運動的推進,有關科學數據管理的制度體系在英美發達國家不斷完善。2010年,美國國家科學基金會頒布《數據管理指南》,明確要求所有提交的項目申請書都必須包含“數據管理計劃”,并要求指明責任主體。如國家科學基金會下屬的生物科學理事會要求在數據管理計劃中應說明各方在管理和保留研究數據(包括關鍵人員離開項目的應急計劃)方面的職責義務[28]。同時,美國國立衛生研究院進一步規定,數據收集與管理的職責分別由學術帶頭人和數據管理/數據管理中心負責,此外,學術帶頭人及臨床診所還應該負責決定數據的加工利用是否需要遵守聯邦隱私保護條文[29]。參照美國國立衛生研究院有關數據管理責任范疇的界定,可將生命科學數據管理責任細分為如下內容:
(1)制定數據管理計劃,包括但不限于: 數據標準、操作流程、數據源的描述、數據收集和處理程序、數據傳輸格式和程序、數據管理質量控制程序以及數據安全措施等。
(2)相關人員數據倫理與數據素養教育、培訓。
(3)數據管理計劃的有序執行,包括數據采集與創建、數據組織與存儲加工、數據傳播與共享等流程的質量控制,如及時記錄數據、修正數據等。
(4)數據平臺或數據倉儲,包括數據許可、數據審核、數據服務工具開發、數據獲取請求的迅速查詢與回應等。
(5)對于臨床以及人類樣品等相關內容,數據管理人員與研究人員合作制定數據分析/統計計劃,明確數據分析的目標、底線要求與統計方法、程序等。
(6)數據庫文檔驗證或確認使用經商業驗證的數據收集程序,包括合規驗證與質量驗證;根據請求轉移數據庫和文件,相應分析結果需要重新驗證與分發。
(7)按照要求進行數據管理執行情況的報告,開發數據管理案例,開展數據管理執行效果評估。
通過責任梳理發現,生命科學數據管理過程涉及政府、科研資助機構、學術共同體、期刊等多個利益主體,利益主體的責任驅動與行動協同是實現生命科學數據管理的關鍵。而脫胎于管理學和經濟學的利益相關者理論的核心思想是組織中的利益相關者直接影響組織目標的實現,應充分考慮和滿足不同層次利益相關者的訴求, “在股東利益和社會責任之間取得平衡,形成相關利益者之間的多邊契約[30],”以獲得更長遠的競爭力。利益相關者理論的運用,有助于澄清生命科學數據管理體系內不同利益主體的身份與特征,客觀反映各主體的利益訴求和行為邏輯,為破解生命科學數據管理問題提供了可資借鑒的分析框架。
2? ?生命科學數據管理的主體構成及其驅動機制分析
開放數據是開放科學的重要組成部分,不僅更好地詮釋了現代科學的普遍主義、公有性、無私利性等基本原則,也深化了科學數據管理的目標任務。根據Springer Nature Group對全球各學科7700多研究人員的調查結果,將近三分之二(63%)的受訪者會將數據文件作為補充信息提交,或將文件存放在存儲庫中,或兩者同時進行。其中,生物科學研究人員共享與出版物有關數據的比例最高(75%),其次是地理科學研究人員(63%),再次為醫學研究人員(59%)[31]。從利益相關者角度判斷,相較其他學科,生命科學數據管理的責任主體已初步形成了良好的數據共享傳統與數據開放驅動機制。
2.1? ? 生命科學數據管理主體要素構成
從數據生態角度來看,生命科學數據管理需要整個研究界的共同關注,并需要政府部門、資助者、研究機構、圖書館、出版商和研究人員本身提供協作解決方案。除上述主體外,生命科學數據管理的復雜性決定了參與主體的多元性,還包括數據倉儲或平臺、學術共同體以及民眾、受試者等多類型主體。正如利益相關者理論所闡述的,“利益相關者之間并非均質,不同的利益相關者對一個項目的作用和地位有所差異[32]。”各主體在生命科學數據管理中發揮的作用影響不盡相同,分別以決策者、監督者、執行者、參與者、激勵者、服務者等多重身份存在,有些直接參與到數據管理過程中,如數據倉儲/平臺、期刊出版部門等,有些間接施加影響,如政府部門、民眾等。同時,有些主體以顯性方式通過資源、載體、技術等直接對生命科學數據管理過程產生影響,有些主體則以間接、內隱的方式,如圖書館員的數據技能培訓、同行數據共享氛圍等參與到生命科學數據管理過程,并發揮持久作用影響。總體而言,在政府宏觀引導下,科研項目資助機構、期刊出版部門、PI及其研究團隊、學術共同體以及數據倉儲/平臺構成了生命科學數據管理的核心責任主體(見圖1)。
2.2? ? 生命科學數據管理的主體驅動機制
生命科學數據管理展現了生命科學研究創新的過程與結果,數據開放與再利用有助于形成新的數據關聯與創新發現,并通過數據生產與數據開放將生命科學學術研究與學術傳播融合在一起,構成復雜的數據管理生態網絡。其中,主體數據管理驅動力的來源包括各主體內在的目標愿景、外在預期以及與各種壓力、條件的對沖。以PI及其團隊研究人員為例(見圖2),其數據管理的內在動力來自于數據共享與再利用后的學術引用與同行認同、學術影響力提升,外在動力則源自資助機構、所在單位以及學術期刊對于數據采集、加工與共享利用的具體要求。此外,生命科學倫理以及受試者隱私保護等也會對研究人員的數據行為形成感知風險與底線要求,并對數據開放與共享造成一定沖抵,而數據倉儲以及平臺工具類的完備程度與便利水平、圖書館數據技能培訓咨詢的服務提供與利用情況等也會構成數據管理的外在氛圍與驅動要素。
結合各主體數據價值訴求及功能耦合(見表1),各主體生命科學數據管理責任具有明顯的差異性和互補性,對于PI及其團隊研究人員而言,資助機構與期刊出版、數據倉儲/平臺之間圍繞項目資助、數據采集加工、共享與存儲再利用形成了銜接有序的上下游主體數據交換與數據責任銜接機制,既有項目資助、學術發表以及職務晉升等顯性激勵,也有影響力提升、同行認同等隱性激勵,還有數據開放共享后的數據質量驗證以及隱私、安全審核等學風、倫理底線約束。同時,在數字化環境下數據管理的責任分工趨向精細化和專業化,數據管理的決策責任、指導責任、執行責任、監管責任、技術支撐責任等通過橫向和縱向多主體的責任分工,形成“組合拳”效應,營造了數據管理的環境驅動、制度驅動、管理驅動、服務驅動氛圍,并發揮了“1+1>2”的協同管理功效,推動生命科學數據管理模式從指令要求、外在驅動轉向自覺執行、內生驅動的主動性行為。
3? ?多元主體生命科學數據管理責任劃分
早在2003年,惠康基金就提出了基于大規模生物學研究項目的資源生產者、資源用戶與科研項目資助機構的三方主體數據共享責任框架(見表2)。鑒于PI及其團隊研究人員數據管理責任劃分的國內外研究較多,本文著重對資助機構、期刊出版部門、數據倉儲/平臺以及學術共同體的數據管理規則、方式與手段進行分析。
3.1? ? 科研項目資助方的生命科學數據管理行為分析
無論是公共部門還是民間乃至企業的科研項目,資助方的數據管理規則與要求對于研究人員科學數據管理計劃的制定、執行有著舉足輕重的重要影響。由于掌握著資源調配權,科研項目資助方可以運用多種方式推進生命科學數據管理,如指定科研項目數據管理責任人、將數據管理計劃作為項目申報的必要要件、審核數據管理計劃制定情況、根據計劃執行情況劃撥經費、推選數據管理最佳案例等。
以美國國家科學基金會對生命科學數據管理的有關要求為例,在責任主體界定上,一方面在項目申報書、執行建議中指出,首席PI負責整個項目數據管理計劃的制定和實施,包括在項目年度執行報告和最終結題報告中匯報整個項目的數據保存和訪問、共享等管理情況。另一方面,還規定項目主管部門和訪客委員會將監督數據管理計劃的執行;在數據管理計劃的內容制定中,要求必須明確:(1)描述將要收集的數據類型與內容、來源,以及所使用的數據和元數據格式及標準;(2)描述項目結題后將使用哪些物理和/或網絡資源和設施(包括第三方資源)來存儲和保存數據;(3)描述項目結題后將使用哪些媒體和傳播方法以保證數據和元數據可供其他人利用;(4)描述數據共享和公共訪問的政策(包括隱私保護、保密性、安全性、知識產權和其他相應權利的規定);(5)描述結題后各方的數據管理角色和職責(包括關鍵人員離開項目的應急計劃);在項目結題報告中,有關數據管理計劃執行情況的說明必須清晰說明以下內容:(1)項目研究中產生的各種數據;(2)結題后將要保留的數據;(3)如何傳播和驗證數據以便共享?(4)使數據可供他人利用的格式(包括元數據);(5)項目生成的數據已存放/正在存儲以供公眾長期訪問的具體位置。
為加速癌癥研究與治療方法的創新,2016年,美國國家癌癥研究所啟動了18億美元的“癌癥登月計劃”,其中數據生成后的公開存取與共享政策(PADS)是該計劃實施的關鍵性舉措[34]。按照PADS政策規定,一是所有項目申請人都應提交書面的數據公開存取與共享計劃書,清晰描述數據公開和共享的具體流程與方式,如果不能共享,則應說明理由和依據;二是數據公開要求更加激進,規定在可行范圍內,受資助的所有研究項目均應在公布研究結果的同時(最好在期刊發表四周內),將數據存儲到PubMed Central中,而不是期刊發表后一年內公開提供數據;三是進一步擴大了數據公開范圍,不同于國立衛生研究院規定的數據共享范圍,PADS政策將數據共享范圍界定為必須共享的任何“記錄在案的科學事實,科學界普遍接受,以記錄和支持出版物的研究發現”,涵蓋了所有形式的臨床、藥理學、人口統計學、分析結果、調查報告以及收集或開發的其他數據[35]。
民間生命科學研究項目資助方同樣積極推進數據開放與共享,比爾與梅琳達·蓋茨基金會(Bill and Melinda Gates Foundation)和陳扎克伯格倡議(Chan Zuckerberg Initiative)等資助機構對其支持的任何研究項目都有明確的開放數據要求。作為全球最大的非政府來源生命科學研究項目資助機構,英國的惠康基金會是第一家強制要求執行開放存取的學術資助機構(2006年),其《數據管理和共享政策》,不僅強制實施學術成果的開放獲取,并且會核實、評估和監督數據共享工作的實施進展[36]。按照惠康基金資助項目的最低要求,研究論文的基礎數據,包括查看數據集或復制分析所需的任何原始軟件均應在發表時提供給其他研究人員。當研究數據與突發公共衛生事件有關時,研究人員必須盡可能迅速和廣泛地共享有質量保證的中期和最終數據,并在期刊出版之前共享[37]。
3.2? ? 期刊出版部門的生命科學數據管理行為分析
學術發表既是激勵研究人員數據開放共享的首要驅動力,也是期刊出版部門引導研究人員推進生命科學數據管理的主要調控手段。隨著數據驅動型研究的推廣普及,研究成果的數據發布以及相關資料的存儲再利用日益受到重視,成為生命科學在內許多學科學術發表的重要組成部分,并推動了重在描述實驗和觀察數據的新型期刊-數據期刊的出現。1999年美國生態學會(ESA)出版的學術期刊Ecology首次刊發數據論文[38],隨后涌現出BMC Plant Biology、Human Genomics和BMC Research Notes三種數據期刊,繼而推動數據期刊向其他學科延伸擴張。
2011年,國際科學、技術和醫學出版商協會提出了數據出版物的金字塔模型[39](見圖3),將所有項目研究數據劃分為原始數據和數據集、數據收集和結構化的數據庫、經過加工的數據和數據表達以及數據出版物四個層次,不同層次的數據在學術發表環節有著不同的規范要求與展現方式。對于生命科學數據而言,期刊出版部門的主要管理方式、手段如下:
(1)制定鼓勵數據開放共享的管理政策。英國皇家學會在其《出版倫理與政策》中明確:為了讓其他人能夠驗證并利用發表在皇家學會期刊上的研究成果,作為成果發表的先決條件,作者應提供支持文章結論的相關數據、代碼和研究資料,并存放到恰當、公認、公開可用的存儲庫中,如Dryad或Figshare。為鼓勵研究人員的數據共享,皇家學會還向Dryad支付了所屬期刊的數據存放費用[40]。2016年,國際醫學期刊編輯委員會(ICMJE)發布了一項關于臨床試驗數據共享的提案,要求2018年7月1日后提交到ICMJE所有成員期刊的研究報告必須包含數據共享聲明,聲明中應明確是否去除了個體標識性數據、可共享哪些數據、何時可獲取以及獲取要求等。同時,還規定2019年1月1日后,有關受試者的臨床試驗數據,必須在臨床試驗注冊平臺提交數據共享計劃并就相關問題進行闡述說明[41]。
(2)進一步細化數據提交、可用性、存儲與開放存取等規范要求,增強數據管理的可操作性。目前,Nature、Science、Cell等許多涉及生命科學研究的高影響力期刊都制定了如《數據政策》《編輯出版政策》《數據可用性聲明》等制度條例,要求保存與提交的文章或研究項目必須提供相關數據集,幾乎所有期刊都對數據歸檔有強制性要求(見表3),并應詳細說明如何保存和引用共享數據。2016年,Cell 出版集團推出了結構化、透明、可訪問和可報告的數據處理方法 (STAR)[42],要求共享所有技術、源數據以及重復實驗所需的任何信息資源,并要求同行評審專家在審閱文章的同時檢查數據是否可用,以提高其期刊發表成果的研究透明度和可再現性。
作為全球生命科學領域最大的開放存取出版商,有著約300種同行評審期刊的BMC(BioMed Central)明確提出“在不違背參與者隱私保護的前提下,應向BMC期刊提交手稿意味著手稿中描述的材料,包括所有相關原始數據,將免費提供給任何希望將其用于非商業目的的科學家。”[44]為此,BMC(BioMed Central)要求所有投稿作者提交的手稿材料中必須包含“數據和材料可用性”部分,詳細說明在哪里可以查找到相關數據(必須進行數據存儲,鼓勵以機器可讀格式存儲在公開可用的數據存儲庫中),不希望共享數據的作者必須聲明不能共享數據的原因。
(3)加強與數據倉儲/平臺機構的合作,為生命科學數據的開放管理提供存儲服務。許多期刊紛紛與Dryad或Figshare、Mendeley Data、Protein Data Bank、GenBank等有關生命科學的數據存儲、托管機構展開合作,并要求將提交的論文數據、資料等上傳到指定數據平臺,形成數據存儲與期刊成果發表之間的內在關聯。
3.3? ? 數據倉儲/平臺方的生命科學數據管理行為分析
數據倉儲/平臺既是當前生命科學數據組織、存儲、管理、分析、共享及發布的最重要載體,也是廣義的數據發表與出版平臺。通過政府部門、資助機構以及期刊出版商、研究機構等數據管理法規政策的執行,數據倉儲/平臺能夠有效匯聚生命科學出版物、專利、數據集、軟件和材料,實現數據資源的統一標識與統一歸檔,支持標準化的數據質量控制和完整的全生命周期管理,進而吸納更多生命科學研究資源和用戶、工具的加入,形成數據存儲、監護、共享與關聯利用的良性循環。
西方發達國家十分重視生命科學數據倉儲/平臺建設,英國的生物技術與生物科學研究理事會(BBSRC)專門設立了生物信息與生物資源基金(BBR),旨在加強生命科學數據庫、軟件工具以及種質資源等生物資源建設,強化生命科學基礎設施服務與保障能力[45]。當前,生命科學領域代表性數據倉儲/平臺大都明確了自身的數據共享管理政策與使用條例,制定了數據提交與質量審核辦法。如加拿大的Brain-CODE設置了信息管理政策與平臺使用條款,指導用戶收集、存儲和訪問數據;美國癌癥影像中心(TCIA)制定了數據使用政策,為數據管理與共享提供了標準規范[46]。
為方便研究人員利用,美國國立生物技術信息中心的數據平臺(NCBI)、歐洲生物信息研究所分子生物學數據庫(EMBL-EBI)等平臺機構不僅為研究人員編制數據管理計劃提供服務[49],還提供數據保存、分配數據標識符(GenBank 數據庫使用GI 標識符,NCBI、EMBL 等平臺則提供Accession、Version 標識符,Dryad 給予DOI 標識)、在線參考咨詢、數據技能培訓、工具軟件應用指導等,以便用戶能夠更好地利用數據倉儲/平臺開展生命科學數據管理與研究發現。
2016年,美國癌癥研究中心提出創建一個全國性的數據生態系統,由可互操作的存儲庫、分析服務和互動門戶的動態集合組成,允許研究人員、患者和臨床醫生以獨特而強大的方式查詢、聚合、分析和可視化癌癥數據。就本質而言,這一系統不僅為研究人員成功地打造了一個安全、高效的癌癥研究科研環境,還是匯聚患者、研究人員、數據平臺等各方合力的癌癥數據管理生態體系(見圖4),既建立了互動開放的大型數據共享專區,支持患者與健康人士為攻克癌癥研究貢獻數據(臨床或遺傳數據等),也實現了用戶、資源、系統和相關配置的集成管理。
3.4? ? 學術共同體的生命科學數據管理行為分析
學術共同體由具有共同研究興趣和價值取向,并遵守共同學術規則的同行群體組成,形式上多以組織化的研究機構和松散化的學會、理事會等組成。盡管“數據共享是確保生物科學研究透明且可復制的主要要素”[49],但因受試者隱私保護、醫學倫理等要求等使得生命科學數據管理更具敏感性和脆弱性,客觀上會促使研究人員的數據行為走向封閉,需要學術共同體在強化研究人員數據管理主體責任意識、營造良好數據生態方面發揮重要作用。
大學、研究院等PI及其團隊研究人員所屬研究機構,是有效規范與執行、監督生命科學數據管理的首要責任主體,既要“承上”,采取有效措施保證政府主管部門及其資助機構數據管理法規政策的有效實施,也要“啟下”,動員和引導研究人員有效執行數據管理政策,并對其數據行為進行監督約束。目前,很多大學均制定了各自的數據管理政策,如哈佛大學的《科研數據與資料的保存》、斯坦福大學《研究數據保存、獲取政策》、劍橋大學《科研數據管理政策》、牛津大學《研究數據及記錄管理政策》……,不僅結合各校實際明確了數據管理的目標原則、倫理隱私、知識產權保護以及數據保存、備份、存儲、組織等具體政策,還劃分了研究人員、數據分析專家、圖書館員、信息中心等相關人員和部門的職責任務,切實保障了學術共同體內生命科學數據管理任務的執行。悉尼大學的《科研數據管理政策》不僅規定了學校層面、院系層面以及研究人員等不同類型責任主體的數據管理職責任務,還要求各主體之間加強協作,建立數據管理的伙伴關系(見表4)。
此外,康奈爾大學、悉尼大學、弗吉尼亞理工大學等許多高校圖書館、科研記錄管理辦公室等還會提供針生命科學數據管理的咨詢指導、最佳案例等專門性服務,英國的巴斯大學、比利時肯特大學等還將數據集、數據庫的公開共享納入科研項目以及教師職業晉升的考核指標,大學內部多主體的協同管理成功營造了良好的數據管理生態,并構成研究人員數據管理的積極驅動力。
盡管學會、理事會等機構組織形式松散,缺乏數據管理的強制執行力,但學會內在的學術價值觀、數據文化、群體認同等在客觀上會形成強大的行為約束力。因此,很多學術團體成為加強生命科學數據管理不可或缺的倡導者、引領者和推動者,促使研究人員不斷強化數據管理的行為自覺。2012年,美國細胞生物學學會年會上,研究人員對于學術評估中期刊影響因子的濫用及其對研究文化的負面影響展開討論,直接催生了《舊金山研究評價宣言》的誕生,并對研究人員、資助機構、期刊以及研究機構提出了不同的評價要求;為進一步激發研究人員數據共享熱情,一些研究機構、學會開始修改其數據政策和評價制度,如開放研究基金會在其《通過研究評估激勵研究成果共享:資助者實施藍圖》的報告中提出要改變在高影響力期刊上發表文章是唯一衡量標準的觀念,應重視并獎勵開放數據等所有類型的研究成果[51]。
4? ?研究結論與對策建議
在數字化時代,生命科學數據管理不僅貫穿于生命科學學術研究、學術傳播的全過程,而且滲透到醫療健康管理的各個層面,數據與生命科學研究的關系愈加緊密,就愈加需要有充分而高質量的數據管理機制來幫助研究人員乃至患者理解和利用數據。同時,生命科學數據管理也是一項復雜而牽涉面廣泛的系統工程,需要充分調動和吸引研究人員、科研項目資助方、期刊出版部門、數據倉儲/平臺以及學術共同體等多責任主體的參與,并構建多主體協同的生命科學數據管理責任機制。
為此,一是要倡導開放科學,深化生命科學數據資源開發利用重要性的認識,形成數據開放共享的各方共識;二是要兼顧不同責任主體的數據利益,從激發主體數據管理內驅力入手,如完善科研評價制度,調動研究人員數據開放的主動性。再如,加大投入,增強數據倉儲/平臺生命科學數據集成與服務能力,全面提升多主體數據管理的源動力(見圖5);三是要科學厘清數據管理各環節的職責目標,形成銜接緊密的責任閉環,既要保持各環節數據管理主體職責履行的獨立性,也要注重分環節主體責任的傳遞性與銜接性;四是以數據倉儲/平臺為依托,建設多主體共同參與的生命科學數據共享空間,推進多元主體數據管理業務的有效銜接與業務協同,提升整體數據管理水平;五是把握生命科學數據管理特點,強化數據安全與隱私保護、倫理規范的制度執行,增強研究人員數據管理自我約束力,健全數據審核機制與質量保障機制,提高數據再利用水平,實現生命科學數據管理與科學研究創新和醫療健康水平的同步發展。
參考文獻:
[1]? Strasser B J.Collecting,Comparing,and Computing Sequences:The Making of Margaret O.Dayhoff's Atlas of Protein Sequence and Structure,1954-1965[J].Journal of the History of Biology,2010,43(4):623.
[2]? Hedrick T E.Justifications for the Sharing of Social Science Data[J].Law & Human Behavior,1988,12(2):163-171.
[3]? Stevens H.The Politics of Sequence:Data Sharing and the Open Source Software Movement[J].Information & Culture:A Journal of History,2015,50(4):465-503.
[4]? Prainsack Barbara.Personalized medicine:Empowered patients in the 21st century?[M].New York:New York University Press,2017.
[5]? 朱彥,賈李蓉,高博,等.中醫臨床術語系統v2.0設計與構建[J].中國中醫藥圖書情報雜志,2018,42(3):10-15.
[6]? Martin Bobrow.What is"data sharing"and why should biomedical researchers embrace it?[J].Transplantation,2015,99 (4):654-655.
[7]? Goisauf M,Kaya Akyüz,Martin G M.Moving back to the future of big data-driven research:reflecting on the social in genomics[J].Humanities and Social Sciences Communications,2020(7):55.
[8]? Rung J,Brazma A.Reuse of public genome-wide gene expression data[J].Nature Reviews Genetics,2013,14(2):89-99.
[9]? Sherkow,Jacob S.Cancer's IP[J].North Carolina Law Review,2018(96):297-380.
[10]? Bollinger J M,Zuk P D,Majumder M A,et al.What is a Medical Information Commons?[J].The Journal of Law Medicine & Ethics,2019,47(1):41-50.
[11]? Kaye J,Heeney C,Hawkins N,et al.Data sharing in genomics——re-shaping scientific practice[J].Nature Reviews Genetics,2009,10(5):331-335.
[12]? Zimmerman M D,Grabowski M, Domagalski M J,et al.Data Management in the Modern Structural Biology and Biomedical Research Environment[M].Structural Genomics and Drug Discovery,2014:1-25.
[13]? Griffin P C,Khadake J,Lemay K S,et al.Best practice data life cycle approaches for the life sciences[J].F1000research,2017,6:1618.
[14]? Roche D G,Lanfear R,Binning S A,et al.Troubleshooting Public Data Archiving:Suggestions to Increase Participation[J].PLoS Biology,2014,12(1):e1001779.
[15]? Faniel I M,Jacobsen T E.Reusing Scientific Data:How Earthquake Engineering Researchers Assess the Reusability of Colleagues' Data[J].Computer Supported Cooperative Work(CSCW),2010,19(3):355-375.
[16]? Sparks R,Lau W W,Tsang J S.Expanding the Immunology Toolbox:Embracing Public-Data Reuse and Crowdsourcing[J].Immunity,2016,45(6):1191-1204.
[17]? Figueiredo S.Data Sharing:Convert Challenges into Opportunities[J].Frontiers in Public Health,2017,5:327.
[18]? Gardner D,Toga A W,Ascoli G A,et al.Towards effective and rewarding data sharing[J].Neuroinformatics,2003,1(3):289-295.
[19]? Bhattacharya S,Andorf S,Gomes L,et al.ImmPort:disseminating data to the public for the future of immunology[J].Immunologic Research,2014,58(2-3):234-239.
[20]? TFrisby T M,Contreras J L.The National Cancer Institute Cancer Moonshot Public Access and Data Sharing Policy—Initial assessment and implications[J].Data & Policy,2020,2:e9.
[21]? T Tenopir C,Allard S,Sinha P,et al.Data Management Education from the Perspective of Science Educators[J].International Journal of Digital Curation,2016,11(1):232-251.
[22]? Yoon A,Kim Y.The role of data-reuse experience in biological scientists' data sharing:an empirical analysis[J].The Electronic Library,2020,38(1):186-208.
[23]? T Travis K.Sharing Data in Biomedical and Clinical Research[J/OL].[2021-02-20].Science:www.sciencemag.org/careers/2011/02/sharing-data-biomedical-and-clinical-research.
[24]? 關健.醫學科學數據共享與使用的倫理要求和管理規范(一)前言[J].中國醫學倫理學,2020,33(2):143-146.
[25]? Nebeker C,Torous J,Bartlett Ellis R J.Building the case for actionable ethics in digital health research supported by artificial intelligence[J].BMC Med,2019,17:137.
[26]? Kobayashi S,Kane T B,Paton C.The privacy and security implications of open data in healthcare[J].Year Med Inform,2018,27(1):41-47.
[27]? Duke C S ,Porter J H.The Ethics of Data Sharing and Reuse in Biology[J].Bioscience,2013,63(6):483-489.
[28]? Directorate for Biological Sciences Information about the Data Management Plan Required for all Proposals[EB/OL].[2021-03-02].https://www.nsf.gov/bio/pubs/BIODMP061511_old.pdf.
[29]? Clinical Research Data Management(DMID Policy-013-NCRS 2.2 v2.0)[EB/OL].[2021-03-02].https://www.niaid.nih.gov/sites/default/files/datamanagement.pdf.
[30]? Freeman R E,Evan W M.Corporate Governance:A Stakeholder Interpretation[J].Journal of Behavioral Economics,1990,19(4):337-359.
[31]? Researcherschallenges in sharing data cross geographic borders and disciplines[EB/OL].[2021-03-02].https://group.springernature.com/gp/group/media/press-releases/archive-2018/researchers-challenges-in-sharing-data-cross-geographic-borders-/15545272.
[32]? 何平均,劉思璐.農業基礎設施PPP投資:主體動機、行為響應與利益協調——基于利益相關者理論[J].農村經濟,2018(1):76-81.
[33]? Sharing Data from Large-scale Biological Research Projects:A System of Tripartite Responsibility[EB/OL].[2021-03-02].https://wellcome.org/sites/default/files/wtd003207.pdf.
[34]? Kaiser J.Open access takes root at National Cancer Institute[J].Science,2019,365(6465):629.
[35]? NCI Cancer Moonshot Public Access and Data Sharing Policy[EB/OL].[2020-08-04].https://www.cancer.gov/research/key-initiatives/oonshot-cancer-initiative/funding/public-access-policy.
[36]? Policy on data,software and materials management and sharing[EB/OL].[2021-03-02].http://welcome.ac.uk/funding/guidance/policy-data-software-materialsmanagement-and-sharing.
[37]? Data,software and materials management and sharing policy[EB/OL].[2021-03-02].https://wellcome.org/grant-funding/guidance/data-software-materials-management-and-sharing-policy.
[38]? 劉燦,王玲,任勝利.數據期刊的發展現狀及趨勢分析[J].編輯學報,2018,30(4):18-23.
[39]? Integration of Data and Publications[EB/OL].[2021-03-02].https://www.stm-assoc.org/standards-technology/2020-stm-research-data-year/integration-of-data-and-publications/.
[40]? Data sharing and mining[EB/OL].[2021-03-02].https://royalsociety.org/journals/ethics-policies/data-sharing-minin.
[41]? 陳昕,姜永茂,包雅琳.大數據時代醫學期刊數據共享方案的實施探討[J].中國科技期刊研究,2018(5):474-477.
[42]? Introducing STAR methods[EB/OL].[2021-03-02].https://www.cell.com/star-methods.
[43]? He L,Nahar V.Reuse of scientific data in academic publications:An investigation of Dryad Digital Repository[J].Aslib Journal of Information Management,2014,68(4):478-494.
[44]? Editorial policies[EB/OL].[2021-03-02].www.biomedcentral.com/about/editorialpolicies#DataandMaterialRelease.
[45]? 2019 Bioinformatics and Biological Resources(BBR)Fund[EB/OL].[2019-12-13].https://webarchive.nationalarchives.gov.uk/20200930155721/https://bbsrc.ukri.org/funding/filter/2019-bioinformatics-biological-resources-fund/.
[46]? 趙安琪,付少雄,馮亞飛.國外健康科學數據管理實踐及啟示[J].圖書情報知識,2020(1):105-114.
[47]? 袁夢雪.國內外健康醫學科學數據管理平臺對比分析[J].數字圖書館論壇,2020(1):11-19.
[48]? Enhanced Data Sharing Working Group Recommendation[EB/OL].[2021-03-02].https://www.cancer.gov/research/key-initiatives/moonshot-cancer-initiative/blue-ribbon-panel/enhanced-data-sharing-working-group-report.pdf.
[49]? Vasilevsky N A,Minnier J,Haendel M A,et al.Reproducible and reusable research:are journal data sharing policies meeting the mark?[J].Peer J,2017,5(10):e3208.
[50]? RESEARCH DATA MANAGEMENT POLICY 2014[EB/OL].[2021-03-02].http://sydney.edu.au/policies/showdoc.aspx?recnum=PDOC2013/337.
[51]? Incentivization Blueprint[EB/OL].[2021-03-02].https://www.orfg.org/incentivization-blueprint.
作者簡介:夏義堃,女,武漢大學信息資源研究中心教授,研究方向:政府數據治理;管茜,女,武漢大學信息管理學院碩士研究生;周艷,女,湖北國際旅行衛生保健中心工程師。