雷瑞鵬 白 超
隨著數字經濟、數字科研、數字醫學和公共衛生以及數字治理的發展,數據共享已經成為一項重要的實踐——無論是在同一機構內的不同群體之間,還是在更大平臺的合作伙伴之間,甚至是在不斷增長的開放數據運動與公眾之間,數字共享日漸發展。數據共享使人們從現有數據中獲得新的洞見,并讓機構能充分利用這一核心資源。但同時,數據共享也伴隨著新的倫理風險。
數據共享是將用于學術研究的數據提供給其他研究者的一種實踐。許多資助機構、研究機構和出版機構都有關于數據共享的政策,因其透明公開,被許多人視為科學方法的一部分。然而,大量的科學研究不受數據共享條件約束,在沒有任何約束要求的情況下,數據共享一般都由科學家自己決定。在某些情況下,政府和機構會禁止或嚴格限制數據共享,以保護專有利益、國家安全以及受試者/患者/受害者的機密,有時限制數據共享是為了不讓機構和科學家出于政治目的使用數據[1]。
以美國華裔生命倫理學家Lo教授為首的美國醫學研究院(現改名為美國國家醫學科學院)臨床試驗數據負責任共享策略委員會(Committee on Strategies for Responsible Sharing of Clinical Trial Data)將數據共享定義為:使科學研究中的數據可二次使用的實踐。數據使用有初次使用和二次使用之分。前者指對試驗初期設計需解決的研究問題進行分析;這些問題在招募第一個受試者之前所注冊的分析計劃內就已被清楚描述。后者包括:(1)重新分析在初次使用中解決的問題以檢查可重復性/效度;(2)元分析;(3)重新分析,旨在解決試驗沒有明確設計的要解決的問題。數據可能有主動共享(如通過發布到網站或提供到存儲庫)或根據對方要求共享[2]。
數據和數據共享活動中的關鍵要素有:應予共享的數據類型、共享數據的提供者和接受者以及數據是否和何時向公眾公開,是否有限制,抑或是有關各方之間的私下交換。
應予共享的數據有:(1)原始數據。原始數據有時被稱為源數據,是對一個一個受試者的觀察。這些數據可能是專門為研究方案而收集,也可能是研究者常規醫療的一部分。數據的來源可能是受試者的體重、血壓或心率等特征的測量,也可能與初始隨訪或后續隨訪相關。(2)進入數據庫的數據。源數據通常必須輸入到一個有組織的數據管理系統(如數據庫)中,以進一步評估和處理。(3)統計分析計劃(statistical analysis plan,SAP)。在試驗完成前和揭盲前制定,SAP推動可分析數據集的初始分析。(4)從可分析數據集生成的報告。(5)出版物。一些科學期刊出版物通常來自SAP驅動的分析和事后分析。(6)注冊結果總結和日常語言總結。許多臨床試驗的結果必須以特定注冊中心規定的格式報告給一個或多個注冊中心。這些總結在注冊網站上公開,通常僅限于主要結果和不良事件。日常語言總結是一種扼要的、非技術性的概述,寫給公眾和受試者。(7)臨床研究報告(clinical study report,CSR)。當臨床試驗作為干預或新適應證批準上市申請的一部分提交給監管機構時,試驗發起人通常會提交詳細的CSR。(8)元數據和額外的文檔。為了讓研究人員利用與他們共享的臨床試驗數據(如從事確認性分析或進行探索性分析),除了上述數據元素或數據集之外,他們還需要進一步的信息或元數據(即“關于數據的數據”)[3]。
臨床試驗數據共享有不同種類:(1)開放訪問(open access)。在這種數據共享程序或系統中,數據通過開放訪問網站被廣泛地提供給公眾。數據可能從多個來源(如一個以上的研究機構、公司或研究人員)被聚合起來,或網站可能提供開放訪問某項試驗、某個機構、某位研究人員的數據。聚合數據訪問可能要求查問有關試驗或機構的情況。(2)對個別公司、機構或研究人員數據的受控訪問(controlled access)。在這種數據共享程序或系統中,根據規定的限制或條件,在受控訪問的基礎上向請求者提供數據。數據來自某個機構或研究人員。數據可能要求查詢有關試驗或產品/干預的情況。(3)對合并或多個數據源的受控訪問。在這種數據共享程序或系統中,根據規定的限制或條件,在受控訪問的基礎上向請求者提供數據。若數據由多個來源聚合而成(多于一個機構、公司或研究人員),則要求查詢有關試驗或機構的情況。(4)封閉的合伙關系。在這種數據共享程序中,數據在彼此兩方或多方之間共享。也可安排與公眾、非營利性或營利性實體共享。但不會與非合伙成員的個人或其他人進行數據共享[3]。
一個完整的數據供應鏈包括:獲取(從感應器、系統或人攝入數據,記錄它的出處,獲得使用的同意)→儲存(將數據存放在可靠的地方,以使進一步操作可靠、方便)→聚集(將不同的數據集組合在一起,建立一個更大的數據集,比它各部分的相加更大)→分析[考查和轉化數據,以提取信息和發現新的洞見(insights,即深刻的、透徹的、獨到的見解)]→共享(將數據集或數據洞見提供給新的數據集操作者或消費者訪問)→清除(將數據移走防止后續發布或使用)。從該數據供應鏈可以看出,數據共享幾乎是數據儲存和處理的目的。好比一個圖書館,購進圖書或接受他人贈送后把書進行處理和保存,目的是為了讓人借閱,即共享。如果把圖書保存好,但是不讓人借閱,那圖書館就失去了其基本功能,變成了書本儲藏室。因此有人指出,數據共享是數據庫的核心。大數據的關鍵不是大,而是共享,這意味著要使數據在各種各樣的團隊或組織中,在不同情境下得到多元的重復使用。數據共享也是數字經濟的心臟,美國技術學家Brand認為,信息想要免費,信息也需要昂貴。信息想要免費,因為它的傳播、復制和重組已經變得如此便宜,便宜到無法計量。它想要昂貴,因為它可能對接受者有不可估量的價值。而這兩種狀況之間的張力不會消失——“信息的價值與信息廉價傳播的趨勢之間的這種根本張力,是數字經濟中至關重要的核心:數據共享”[4]。
在如何對待數據和信息上存在著三種徑路。
(1)封閉的徑路:封閉的結果是使數據歸于無用。如果擔心數據共享有風險而拒絕共享,那么很可能零風險就是零受益。過分管制會在實現數據的社會價值方面增加阻礙。事實上,數據共享帶來的受益在國民經濟各個領域以及整個社會發展中都扮演著至關重要的角色。(2)開放的徑路:目前世界上有一個開放數據運動(open data movement),得到許多人和非營利組織的支持,其目標是努力讓更多人不受限制地利用數據集、共享數據,尤其是公共資金資助的科研和政府數據。有關開放數據運動的爭論仍在繼續。支持的論據有:“數據屬于人類”,典型的例子包括基因組數據、生物數據、醫學科學數據和環境數據等;公共資金是用來資助這項工作的,所以它應該是普遍可用的,限制數據再次使用違反公共利益;在科學研究中,更好地獲取數據可以加快發現速度。反對的論據有:政府資金不得用于私營部門的活動;政府必須對有效使用納稅人的錢負責:如果使用公共資金來收集數據,而數據只會給一小部分用戶帶來商業(私人)利益,那么用戶應該補償政府提供數據的成本,發布數據所獲得的收入可以用來支付產生和/或傳播數據的成本,從而使數據的傳播可以無限期地持續下去;隱私問題可能要求對數據的訪問僅限于特定用戶或數據的子集等;另一個合理的擔憂是,開放的數據集存在個人數據被不正當獲取的風險[5]。(3)在封閉和開放的徑路之間還有第三條徑路,即在有限的各方之間進行數據共享。例如,在生物樣本數據庫管理者與作為研究伙伴的科學家及其研究機構之間;在公司與有選擇的非營利組織之間;在政府與經過審查的私人公司合伙人之間。共享也往往有時間限制,即在雙方商定的時限內共享。
那么,應該用什么標準來指導這種共享呢?如何能使利用數據帶來的受益最大化而使可能引起的風險最小化?于是就產生了數據共享倫理學(data sharing ethics)。
說一件事是道德律令,就是說這件事是應該做的一項義務,一項有利個人、有利科學、有利社會、有利人類的義務。我們說數據共享是一項道德律令,就是指這是一項如同命令一般應該履行的倫理義務??蓮囊韵聨讉€方面來論證。
其一,大數據最獨特的特征不僅是聚合數據集的規模激增,更是通過先進的分析技術從中獲得豐富的洞見。共享數據有助于創建更豐富多元的數據集,從而可以從數據中獲取更有意義的洞見。廉價的網絡計算資源在公共云中的興起,使許多組織能夠運行高級分析而無需投資昂貴的基礎設施。這些資源允許他們無限期地存儲數據,并將其運用到關鍵的地方。大數據是共享的,其中“共享”意味著數據將在不同團隊或組織的手中,在不同的情境下進行多次再利用,反復地進行再分析。這些新技術的長遠受益在于能夠在組織內部或組織之間共享和合并數據,通過數據共享獲得新的“洞見”,并加速科學技術的創新和發明,使之成為推動國民經濟各部門加速發展、制定更為有利的戰略和治理決策的潛在力量[4]。
其二,通過數據共享使各種組織和公共機構能夠以安全、公平、合法的方式分享更多數據,這可以改善決策,提高生產、服務績效與價值,提高研究和開發質量,為消費者提供物美價廉的產品和服務。這使所有參與數據共享的公立和私營企業、組織、機構受益,而他們的生產和服務績效的改善又有利于增加公眾福祉和社會利益。如果這種數據共享遵循數據共享倫理學,那么這種共享也符合尊重人的自主性、人的尊嚴和人的內在價值[4]。例如,美國醫學研究院對臨床試驗數據共享情況進行調查后發現,共享臨床試驗數據符合公眾利益,它最大限度地發揮臨床受試者對科學知識的貢獻,且造福于未來的患者和整個社會[2,6]。
其三,正如此次防控新冠肺炎大流行的實踐所表明的,數據共享在防控全球疫病大流行中尤為重要。例如,我國及時將新冠病毒及其引致肺炎患者的數據和信息報告給世界衛生組織(World Health Organization,WHO),并發表在醫學雜志上,這為全世界預防、控制新冠病毒大流行做出了巨大貢獻。在WHO于2015年9月召開的磋商會議上,來自世界各地的政府代表、公共衛生機構代表、科學家、研究資助者、倫理學家和工業界代表共同發表申明,強調在突發公共衛生事件期間,及時和透明地分享數據和結果必須成為全球規范。根據開放訪問政策,及時分享關于新出現的傳染病臨床、流行病學和遺傳特征等信息,以及關于試驗性診斷、治療和疫苗的信息,對公共衛生突發事件期間采取快速行動至關重要。會議還達成了以下共識:(1)流行病學數據屬于產生這些數據的國家,但默認這些數據應該共享,以確保產生的知識成為全球公共品。(2)在突發公共衛生事件期間,如果盡可能實時地公開病原體的遺傳序列和相關臨床及流行病學數據,能夠使數據價值最大化。(3)在突發公共衛生事件中,在發表前信息共享應成為全球規范。研究人員應該承擔責任,確保研究結果——即使是初步的——在公開披露之前充分可靠并經過質量控制,從而使與媒體和社區進行基于證據的對話成為可能。(4)不公開重要信息可能對個人具有風險和潛在危害,這為快速共享數據提供了強有力的道德依據。(5)資助者和贊助者在要求加快共享公共衛生緊急情況數據和中期結果的時間表方面可發揮關鍵作用,這是批準啟動研究、支付資金和監測遵守情況的先決條件。(6)呼吁所有來自公共和私營部門的研究人員公開數據,包括不確定的或沒有產生預期結果的研究數據。(7)必須加強低收入和中等收入國家的能力建設,并為地方主導的研究和數據共享結構創造有利環境[7]。
會議后不久,《自然》雜志發表社論指出,數據共享對于預防和控制疫病大流行極為重要。在公共衛生緊急情況下,基于幾輪同行審查的傳統科學出版可能太慢,無法迅速傳播研究成果。一個解決方案是立即將數據發布到公共數據庫,然后發表同行評議分析。WHO在會議后發表聲明強調,所有與生成公共衛生突發事件信息相關的科研人員,均有基本的道德義務與他人共享初步研究結果[8]。
因此,數據共享不是一件可做可不做的事情,而是科研人員、科研機構以及任何收集和儲存數據的個人或機構,對自己的事業以及對公眾和社會應盡的義務。數據的主體(提供者)提供了數據資源并承擔一定的風險使數據可為人們所用,這本身就提出了最大化利用該數據的義務。如果數據是利用公共或非營利資源產生,且這些資源是以促進公共利益為目標(如醫學和科學研究),那么利用和共享數據就更是一項必須做的義務。
數據共享引起的風險。一旦實施共享,首先面臨的是數據共享可能引起的倫理風險。越多數據共享意味著越多的倫理風險。如果能夠無限期地重復使用數據,就有可能發現不可預測的相關(correlation),因此,對于數據主體的保護應該涵蓋未來的時間段。當首次收集的數據集(含有不可預測的使用目的)與其他數據集組合時,研究人員和醫生可能在公開可得的數據集中發現一些相關,這些相關有可能揭示數據集中一些人的敏感信息,這樣就有可能侵入人們的隱私領域,而這在事先難以預防。因此,經典的知情同意和保護隱私程序難以防止數據共享時發生的有關隱私和知情同意的倫理問題。對此應該制定專門的規則,并在共享機構之間訂立專門的協議。
數據共享的障礙猶在。盡管有鼓勵數據分享和存檔政策,但數據扣留的情況仍然存在:作者沒有存檔或只存了一部分;作者拒絕按照要求補充信息。數據共享的一個理念是科研成果必須是可重復的,而他人能重復某科研成果的前提是試驗者愿意公開試驗數據,甚至包括算法和源代碼,但這里困難重重。在遺傳學領域,扣留數據非常普遍。馬薩諸塞總醫院報告說,由于請求訪問他人數據遭到拒絕,28%的遺傳學家不能確認他們已經發表的研究。在2006年的一項研究中,141位心理學家發表了論文,但其中103位(73%)在隨后的6個月里并未對其數據做出回應。2015年發表的一項后續研究表明,在394名論文作者中,有246人(62%)沒有按照要求分享數據[9]。
另外,參與數據共享的利益攸關者也有不少的擔心和顧慮。他們擔心其他研究者將會從他們的工作中獲得不公平的報酬,而共同研究者和接受指導的人員將不再能以優先獲取數據集作為參與試驗的回報。正如 Lo教授建議的,對他們的顧慮可以通過以下辦法解決:首先,資助者和申辦者可以為共享臨床試驗數據提供資源。其次,可對臨床試驗者共享數據提供激勵。當其他研究人員使用“他們的”共享數據發表論文時,試驗者可以得到適當的認可和學術獎勵。再次,需要澄清二次研究人員對分析共享臨床試驗數據的責任。最后,臨床試驗者和數據集的次級使用者之間的合作應得到鼓勵。數據共享通常被認為是一種零和博弈,如果其他研究者進行二次分析,最初的試驗研究者有可能淪為失敗者。然而,試驗者和二次研究人員不一定要成為對手,從激勵角度和理想情況來看,他們可以成為共同作者。要改變臨床試驗的文化,需要多種方式以使臨床試驗者和申辦者對使用共享數據進行二次分析不再具有長期的排他性控制。大多數的試驗者認為,其使命是增加治療受益和有關風險的知識,從而幫助有需要的患者。如果他們對數據共享的關切得到解決,這種專業精神將得到進一步的增強[10]。
通過上文的論述我們可以清楚地看到,數據共享既需要倫理學來解決倫理問題,也需要對不同利益攸關者之間的關系問題進行治理。而數據共享倫理學旨在提供一個數據共享的最佳實踐方案和治理指南,使人們通過共享數據來實現對社會的最大價值,同時在這個過程中對可能引起的倫理問題予以關切,并合理地識別并減輕可能的風險。核心的倫理問題是,實現數據的社會價值同保護、尊重數據背后的人之間的平衡。我們既不能像有些人那樣,為了防止倫理風險產生,就對數據共享施加嚴格限制,也不能為了力推數據共享,就對可能產生的倫理風險淡然處之。要在數據保護與數據共享之間求得一個合適的或相稱的平衡,用我們的話來說,就是魚與熊掌兼得;用西方人的話來說,就是既要避開怪物(scylla),也要避開女妖(charybdis),讓奧德賽順利航行。這是數據共享倫理學的主要任務。我們建議的辦法是:“倫理先行”。首先,數據共享是我們必須履行的義務,在數據共享前,先要前瞻性地制定一些各方必須遵守的暫時性的倫理準則,這些準則既要促進數據共享又要保護數據背后的人,隨數據科技的發展再對準則加以修正和完善[11]。
其一,數據所有權 (data ownership)?!稓W盟數據保護條例》的一份解釋說:“……自然人應該控制他們自己的個人數據……” ,這其中就蘊含著數據所有權的概念。然而,這一概念尚存爭議[12]。
數據與物品不同。一個家具制造商擁有他生產的家具,但個人數據或“關于”某人的數據有其特殊性。例如,測量者可能會“創建”描述某人身高和體重的數據,這些通過測量所得的數據是關于具體某個人的,那么這些數據的所有權是屬于具體個人,還是屬于測量者呢?如果一家商店記錄了顧客所購買的商品價格,那么商家就可以計算出該向顧客收取的費用,那么是誰擁有這些數據?與貨幣(無論用在什么地方其價值都是相同的)不同,數據的價值取決于情境(context)和用途[4]。例如,在臨床試驗數據的所有權問題上,研究機構可能聲稱他們對在研究期間收集的數據擁有所有權,而研究的資助者也可能會聲稱數據歸他們所有。對此,應該在資助者與研究機構之間訂立有關數據共享要求的協議。值得注意的是,財產的所有者并不總是對財產擁有絕對支配權,其他人在某些條件下出于某些目的可以合法訪問它。此外,財產還可以公共用途被征用而無需業主同意,但須符合憲法規定的正當程序和公平補償。最后,更重要的是數據持有人的權利和責任問題,而不是誰擁有這些數據[2]。
其二,隱私悖論 (privacy paradox)。一方面,個人信息要得到保護,防止有人未經允許獲得后給他人造成傷害。在數據共享中若包括他人的個人信息,那么其隱私就可能受到侵犯。另一方面,一個人或一個組織(如醫院)或一家公司所掌握的個人數據越多,那么對個人潛在受益也就越大。如想要在網購時獲得更多“貼心”的推送,買到更滿意的商品,就需要允許平臺跟蹤自己的一些偏好設置,并向其提供更多個人信息。但如果害怕隱私遭到侵犯而不網購,那么也就無法享受網購帶來的便利與實惠。這正如一個醫生對患者的病史和癥狀了解越多,對患者的健康越有好處一樣。每個人不得不將個人隱私與利用數據促進自己的福祉以及社會的福祉加以權衡。有時不提供、不利用、不與他人分享數據是不合乎倫理的。例如,在控制疫情時使用健康碼,這對個人和社會都有益處,但公眾必須提供一些最基本、最起碼的數據或信息,拒絕提供或提供虛假信息都不符合倫理。技術的發展不是簡單地掠奪公眾隱私,反之,公眾通過適當地“暴露”個人信息可使自身受益。實際情況往往是,技術一方面產生隱私(生成許多個人信息),另一方面也伴隨隱私風險,消費者是否選擇使用這些技術,部分取決于他們更看重生成的隱私還是被取走的隱私。這就涉及消費者的價值觀問題。但大多數人會在保護個人隱私與提供一些個人信息以謀取生產和生活上的受益之間進行權衡,以達到受益最大化,風險最小化[4]。
數據共享的治理首先要確立數據共享的指導原則,這既是數據共享的核心價值,也是掌握數據的個人和機構應盡的義務。參照美國國立衛生研究院提出的四項臨床試驗數據共享指導原則,我們可暫時將原則細化如下:(1)數據共享的目的是挖掘數據或集中數據,使個人和社會受益并使這種受益最大化,同時將共享數據可能引發的風險最小化;(2)尊重數據被共享的個人(即樣本或數據捐贈者),根據數據的特點尊重其自主性、知情同意權以及保護其隱私不受侵犯,如有侵犯應及時處理;(3)從數據共享中獲得的科研、工業或商業受益應公平分配給社會成員,以防止擴大社會不公正;(4)讓參與的利益攸關者以公平的方式共享數據[2]。
筆者的建議是:(1)在我國應該鼓勵這樣一種文化:數據共享是預期的規范,與他人共享數據是數據擁有者應盡的義務。鼓勵臨床試驗數據以及生物樣本和數據庫進行數據共享,無論共享何種數據,都應該使受益最大化,風險最小化,努力克服各方在分享臨床試驗數據時遇到的困難和挑戰。(2)參與數據共享各方建立協作伙伴關系,并在各方之間訂立協議。由于每一個數據集的各種可能使用和潛在風險都是獨特的,因此,每次共享都要單獨訂立協議,協議內要鑒定共享行動的可能受益和風險。(3)建立倫理審查委員會,對每次數據共享行為進行倫理審查。(4)參與數據共享的數據提供者有義務回答其他參與者可能提出的問題,并提供與數據相關的信息。(5)對數據共享采取最小化徑路。(6)特別注意重設目的的數據共享,因為需要預測重新設定的目的在未來可能帶來的風險和傷害。(7)當現有的倫理原則或條例不清楚時,強調程序和透明。(8)重點關注研究成果的發表。如果要發表共享數據的研究結果,應事先取得各方同意,并確保已經采取合理的措施來確保數據主體免受傷害,且如有可能需獲得他們的知情同意[2,4]。
總部位于愛爾蘭都柏林的非營利科技倫理研究組織 Accenture為參與數據共享的各單位設計了一個可自行測定風險的評估模板(見表1),這對于將倫理要求從理論轉向可操作具有參考價值[4]。

表1 風險評估框架模板(風險矩陣)
基于大數據技術應用的數據共享不僅僅是科研領域要面對的問題,其早已融入到社會生活的各個方面,出行、就醫、用餐、娛樂、購物……而無論是何種類型的數據,從其潛在價值與社會受益來看,都不應該出于對可能風險的擔憂而將其僅僅當作機構或個人的收藏。盡管海量的數據信息在蘊藏巨大價值的同時也伴隨著因數據共享帶來的隱私泄露、知情同意不充分、利益分配不均和數據扣留等風險與障礙,然而,我們更應該看到,遵循數據共享倫理的共享行為,一方面能夠通過大數據先進的技術分析,使研究者從豐富多元的數據集中獲得更多洞見,進一步挖掘數據價值,加速科學技術的創新和發明;另一方面則能夠讓社會組織和公共機構改善決策,提高生產、服務績效和研究開發質量,為消費者帶來更優質的服務和實惠的產品;同時最為關鍵的是,在突發公共衛生事件期間,及時透明地共享各國傳染病臨床、流行病學、遺傳信息和疫苗研發等研究數據,能夠迅速提升世界范圍內控制疫情的決策質量和速度,強化公正、尊重等價值理念。以上也正是數據共享倫理的內涵所在——數據共享是一項道德律令,是科研機構、科研人員以及任何收集和儲存數據的個人或機構對自己的事業以及對公眾和社會應盡的義務。當然,遵循數據共享倫理需要合作各方本著使個人和社會受益最大化、風險最小化的基本原則,在每一次共享行動前預估潛在的風險和傷害,并訂立平等的協議,同時建立倫理審查委員會對每次數據共享行為進行倫理審查,注重程序和透明,最后,盡可能獲取數據主體的知情同意,避免使其受到傷害。