國際三大核酸序列數據庫的運行與管理模式及對中國的啟示

2023-03-30 10:59:08李欣然

科技管理研究 2023年4期

李欣然，劉云

(1.中國科學院大學中丹學院，北京 100190；2.中國科學院大學公共政策與管理學院，北京 100190）

1990 年，美國啟動人類基因組計劃，英國、法國、德國、日本、中國等主要國家科學家參與，其直接成果是測定了人類30 億個堿基對的人類基因組全序列［1］，生命科學逐步進入到以數據密集型研究為代表的第四范式，這也推動了生物學研究從實驗生物學、分子生物學進入到信息生物學的階段。預計到2025 年，全球每年將會產出1 ZB 的基因組數據［2］。數據密集型科研范式的深入發展，也推動了基因序列分析的進步［3］。在基因大數據日益成為國家基礎性戰略資源的背景下，對核酸序列數據的規范化管理以及數據庫建設逐漸成為各國關注的重點，對核酸序列數據等人類遺傳資源信息的管理也成為中國科學數據中心參與國際科學數據共享的重要課題。本研究旨在調查分析由發達國家主導的國際三大核酸序列數據庫的建設情況及運行管理模式，并對中國核酸序列數據庫建設進行對比分析，為推動中國核酸序列數據庫建設及數據管理與開放共享提供政策建議。

1 國際三大核酸序列庫建設總體情況

為對規模龐大的基因組數據進行有效管理與使用，各國紛紛建立了不同規模的核酸序列數據庫。但建立核酸序列數據庫是一項成本高昂且耗時較久的工程，其重難點就在于數據庫架構、中間程序與可視化程序的開發工作，采用不同架構模式或者不同語言建設的數據庫之間進行數據交換的難度會更加突出，這使得不同機構數據流動成本居高不下［4］。

1.1 國際三大核酸序列庫發展歷程

如圖1 所示，1980 年，歐洲分子生物學實驗室（European Molecular Biology Laboratory，EMBL）創建了世界首個核酸序列數據庫（Nucleotide Sequence Data Library），即 EMBL-Bank；1982 年，美國洛斯阿拉莫斯國家實驗室創建了GenBank；1986 年，日本國家遺傳學研究所（NIG）創建了屬于日本的核酸序列庫DDBJ (DNA Data Bank of Japan)。由此，形成了分立于不同國家、分屬不同機構的三大公共核酸序列數據中心［5］。由于核酸序列數據來源的差異性，且彼時并未有核酸序列數據交換共享渠道建立，致使研究者在獲取全面核酸序列數據時存在困難。1988 年，為統一核酸數據格式以方便數據共享，三大核酸序列數據庫（以下簡稱“三大數據中心”）召開了第一屆國際合作會議(International Collaborative Meeting，ICM)，隨后三大數據中心于20 世紀90 年代中期成立了國際機構合作聯盟，在聯盟框架下，GenBank、EMBL 和 DDBJ 遵循統一政策，各自負責本地核酸序列數據的相關工作，形成了基于機構聯盟的共享機制。2005 年，三大數據中心正式將合作命名為“國際核酸序列數據庫聯盟”（International Nucleotide Sequence Database Collaboration，INSDC）。

圖1 國際三大核酸序列數據庫發展歷程

1.2 三大數據中心數據資源狀況

國際三大核酸序列數據庫的主要數據資源情況如表1 所示。

表1 國際三大核酸序列數據庫主要數據資源情況

2.1.1 GenBank

美國GenBank 核酸序列數據庫受到美國國立衛生研究院（National Institutes of Health,NIH）、美國國家生物技術信息中心以及基金會的支持，其隸屬于美國國立衛生研究院，提供核酸數據的上傳、使用和下載服務。美國國家生物技術信息中心隸屬于美國國立衛生研究院下屬國立醫學圖書館（The United States National Library of Medicine,NLM），是由NLM 于1988 年建立，主要負責運維GenBank 數據庫，提供基于GenBank 的檢索和分析服務。1993年GenBank 開始接受直接提交的序列數據，數據主要來源于覆蓋全球的實驗室和大規模測序項目等［6］（見圖2）。2013 年，美國國立衛生研究院啟動了“大數據向知識轉化計劃”（Big Data to Knowledge），將從多方面促進生物醫學數據的共享與利用［7］，因此該計劃也在一定程度上推動了GenBank 的發展。

圖2 美國GenBank 的組織體系和運行機制

2.1.2 EBI-ENA

1974 年，歐洲14 個國家加上亞洲的以色列共同建立了歐洲分子生物學實驗室，該實驗室隨后建立了歐洲分子生物學實驗室核酸序列庫（EMBLBank），這也是世界上最早的核酸序列數據庫，目的在于促進歐洲國家之間的合作來發展分子生物學基礎研究。1992 年，歐洲議會決定在EMBLBank 的基礎上建立歐洲生物信息研究所(European Bioinformatics Institute，EMBL-EBI)。1994 年EMBLEBI 于英國休斯頓正式成立，其經費主要來源于歐盟各成員國以及英國維康信托基金會（Wellcome Trust，WT）、美國國立衛生研究院、英國醫學研究理事會（Medical Research Council，MRC)。EBI建立了歐洲生物信息研究所核酸檔案庫（European Nucleotide Archive，ENA），并負責該數據庫的運維，其資金來源主要包括了歐洲委員會、英國生物技術和生物科學研究委員會（Biotechnology and Biological Sciences Research Council，BBSRC）和威康信托基金會。2008 至2015 年間，EBI 實施了由WT 資助的“千人基因組計劃”（1000-Genome Project），主要目標就是尋找人類群體中出現頻率至少為1%的遺傳變異［7］。目前，EBI-ENA 為歐洲以及世界各個國家的科研人員提供免費公開的數據查詢服務［8］。如圖3 所示。

圖3 EBI-ENA 的組織體系和運行機制

2.1.3 DDBJ

在歐洲EMBL 與美國GenBank 的邀請之下，1984 年日本成立了DNA 數據庫，1987 年DDBJ 正式開始運行，由日本國立遺傳學研究所遺傳信息中心負責維護［10］。對DDBJ 提供審查和建議有兩個機構：日本DNA 數據庫咨詢委員會(獨立于NIG 的外部委員會)以及國際核酸序列數據庫聯盟INSDC 的咨詢委員會IAC。DDBJ 是日本核酸序列數據庫，也曾是亞洲唯一核酸序列數據庫，其首先是反映日本所產生的DNA 數據，同時與GenBank 和ENA 合作，互通有無、同步更新。其具體發展歷程如表2 所示。

表2 DDBJ 組織體系和發展歷程

2.2 數據開放共享政策和知識產權保護

2.2.1 數據使用機制

國際核酸序列數據庫聯盟的數據庫INSD 中的數據免費向公眾提供，用戶可不受限制訪問其數據庫中的所有數據記錄，世界各地的科學家均可訪問數據庫記錄來計劃實驗或發表任何分析或評論。用戶可以檢索數據應用于自己的研究，但根據數據共享的FAIR 原則（即可發現findable、可訪問accessible、可互操作interoperable 和可重用reusable原則），引用INSDC 數據需標注標識號以保證原始數據提交者得到適當的認可。此外，INSD 不會在記錄中附加限制訪問數據、限制使用這些記錄中的信息或禁止基于這些記錄的某些類型的出版物的聲明，任何序列數據記錄中不會包含任何使用限制或許可要求，任何一方對數據庫的再分發或使用都不會有任何限制或許可費用。

2.2.2 數據保密機制

由于部分數據提交者擔心核酸序列數據庫中一些待出版數據可能會對其成果造成影響，因此數據庫會被要求在數據提交后的某一具體時間后再進行數據公開，但INSD 不會無限期持有數據但不出版。因此，對于數據提交者來說，其享有決定數據開放時間的權利，數據的所有權將一直歸屬于原始數據提供者；若需更新數據，僅允許數據的所有者或是被INSDC 批準的代表有權更新數據。此外，雖然數據庫保存的是公共數據，但并非所有數據保密等級一致，數據公開性分為兩個級別，即機密材料和公共數據。數據可用性的兩個主要級別是數據在發布前保密和在公開發布后保密。

（1）機密資料。數據所有者可以在研究/項目注冊期間提出，在所有者管理的發布日期或文獻發表之前(以較早者為準)需要保密。在保密階段，數據不會通過任何方式公開。

（2）公共數據。一個項目在達到指定的發布日期或在此日期之前就被出版物引用時，數據將自動發布成為公共數據。如果必須延長發布日期，數據所有者可以在數據公開之前延長其發布時間。

2.2.3 數據隱私機制

如果要提交人類基因序列數據到核酸序列數據庫，研究者需要保證數據中不包含任何泄露個人隱私的信息。核酸序列數據庫會假定所有數據提交者在提交數據之前已經明晰了必要的知情同意授權材料，如美國基因數據共享政策（Genomic Data Sharing Policy，GDS）就明確提出了在基因數據等共享過程中要尊重隱私和專利，充分發揮各機構審查委員會的審查作用［11］。

2.3 核酸序列數據庫全生命周期科學數據管理模式

2.3.1 數據來源

GenBank 屬于一級核酸序列庫，它匯集并注釋了所有公開的核苷酸序列和蛋白質序列，以及相關文獻著作和生物學注釋。根據GenBank 官網統計，大概每18 個月，其數據量翻一倍。GenBank 數據來源主要有2 種途徑1）：第一，測序工作者提交的序列、測序中心（如北京基因組研究所）提交的大量表達序列標簽（express sequence tag,EST）、基因組勘測序列（genome survey sequences,GSS）［12］，以及其他高通量數據。第二，與其他數據機構協作交換數據。通過與來自各個實驗室遞交的序列和同國際核酸序列數據庫（ENA 和DDBJ）交換數據匯集數據。第三，美國專利商標局（United States Patent and Trademark Office,USPTO）提供的已發表的專利數據。GenBank會從已發表的專利中提取序列［13］。前兩種數據都是源于測序工作者直接提交的測序數據，經審核后即可在數據庫中公布。

歐洲生物信息研究所核酸檔案庫收存了歐洲大部分的核苷酸測序信息，包括原始測序數據、序列組裝信息和功能注釋。其數據來源于基因組測序中心、世界各地的研究人員、歐洲專利局直接提交的數據、大規模基因組測序項目以及與合作伙伴GenBank 和DDBJ 合作交換的數據［6］，因此它也是一個較為全面的核酸序列數據庫。除此之外，ENA也存儲與核酸測序實驗流程相關的信息，包括測序材料的分離與制備相關數據、測序儀器產生的數據以及隨后的生物信息學分析流程數據等。

日本核酸序列數據庫主要收集日本研究者的序列數據并為其賦予唯一標識號，不過DDBJ 也接受來全球研究者的研究數據［8］。2020 年，DDBJ 共接收了6 836 份經過審核認證的核苷酸序列，其中59.3%是由日本研究團隊提交的。DDBJ 會定期以平面文件（flat file）發布所有公開的DDBJ/ENA/GenBank 核苷酸序列數據。2021 年6 月數據顯示，國際核酸序列數據庫聯盟中包括2 830 321 188 個序列和15 093 100 107 909 個堿基對，DDBJ 為其貢獻了3.39%的序列和2.23%的堿基對［13］。

2.3.2 數據結構

國際核酸序列數據庫聯盟圍繞著數據描述、數據標識和數據分類制定了一系列的規范。1980 年，GenBank、EMBL 和DDBJ 共同設計了數據描述規范——特征表（feature table），方便在不同框架下對核酸序列的特征進行描述。實際應用過程中，三大數據中心在規范框架下制定了不同的格式來進行核酸序列數據的描述。以記錄“AF000011”的核酸序列為例，檢索結果如圖4 所示［6］，可以看出GenBank 和DDBJ 的表達形式是一致的，而ENA 則略有不同，但是在特征表的約束下，特征項（feature key）均是一致的，在此規范下能夠保證不同數據庫之間高效地交換共享（見圖4）。

圖4 GenBank、EMBL 和DDBJ 數據結構示例

2.3.3 數據處理

三大數據中心采用的數據處理流程基本一致。首先，有數據提交需求的研究人員通過指定的數據提交工具將基因序列上傳，然后，審核人員對提交數據進行質量控制與審核，審核通過的數據將被賦予唯一記錄號然后被存儲，如GenBank 中的GI 標識符（gen info identifier number）就是國際性通用序列標識符，也是數據庫在處理數據時為其分配的唯一ID 號［14］。數據開放時間由研究人員自行規定，研究人員需要在提交時就明確數據是立刻開放或者延遲開放，并說明指定時間。當數據庫對數據進行公開后，用戶即可通過檢索系統獲取數據。三大數據中心彼此之間建立信任機制，共同采用上述處理流程。以DDBJ 提供的服務為例，如圖5 所示，圖中：

圖5 DDBJ 的數據處理流程及數據服務

①向科技期刊提交論文。當作者向期刊投稿時，通常會將序列數據提交到DDBJ（ENA 或GenBank）獲取登錄號（accession numbers），即使沒有論文待發表，也可以向DDBJ 提交序列數據。

②核酸序列提交。DDBJ 通過核酸序列提交系統或者批量上傳序列系統（MSS）進行數據提交。在經過審核處理之后，DDBJ 會為每一個序列提供一個登錄號。

③直到發表公布。在序列提交之后，數據提交者可以指定數據公布時間；如果提交者希望在論文發表之后再公布，可指定相應日期。

④公開序列數據。DDBJ 根據數據發布規則發布提交數據，當要求保留至論文發表的數據在論文出版之后將被公開。任何人都可以要求DDBJ 公開在已發表論文上登錄號所對應的序列數據。

⑤查詢序列數據。DDBJ 的數據最初通過getEntry 方式和匿名的文件傳輸協議（FTP）獲取，后來獲取方式擴展了ARSA 等網站，同時這些數據還將會與國際核酸序列數據庫聯盟其他成員共享。

⑥數據引用。許多生物數據庫引用了DDBJ/ENA/GenBank 發布的數據。

⑦ 對于發布數據的反饋。如果用戶對于發表的數據存疑，可以直接聯系序列的提交者或者聯系DDBJ 工作人員填寫詢問表格說明原因。

⑧數據更新。只有序列提交者可以對數據進行更新或者修改；在數據被修改之后，提交者仍可以選擇數據公開的時間，但原則上并不能將數據狀態恢復為非公開。

為保證數據能保持同步，GenBank、ENA 與DDBJ 每日交換最新數據，用戶在任意一個數據庫中均能獲取最新數據［15］。其交換遵循如圖6 所示模式，即機構之間的點對點交換。這種交換方式能夠保證數據能夠及時得到更新，聯盟成員也能保存較為完整數據。具體來看，國際核酸序列數據庫聯盟體系下各成員的數據交換共享機制的特點可歸納為以下幾點：

圖6 GenBank、ENA 與 DDBJ 核酸序列數據交換模式

第一，數據共享以國際核酸序列數據庫聯盟為基礎，由聯盟委員會決定數據共享發展方向。委員會成員分別來自美、日、歐三方，能夠代表各方立場并通過國際合作會議解決數據共享中存在問題，從而保障數據共享機制能夠長期平穩運行［16］。

第二，共享機制的形成是由底層需求產生，從而促使上層聯盟合作機制形成的過程，數據共享模式的形成從底層實踐中抽象而成，因此具有較強可操作性［6］。

第三，任何研究者都可自由和不受限制地訪問數據庫中的所有數據記錄［17］，數據共享的保障機制根據需求不斷進行調整，機構聯盟設置專門委員會進行研討，靈活應對出現的各種問題與挑戰，從而保證合作的穩定性與可持續性。

3 國內外核酸序列數據庫對比分析

1999 年中國加入“人類基因組計劃”（1990—2003 年），至今已23 年。在這23 年里，中國實施過一些大型基因組學研究項目，但由于國際幾大數據中心的領導地位，主流期刊要求論文作者將數據遞交到幾大數據庫的規定，以及國內管理較為分散等原因，中國基因數據流失嚴重。同時，國內基因組學大數據管理共享機制不健全也帶來了“數據孤島”與“數據主權”的問題［18］。近些年來，國內各類生命健康大數據中心相繼建成，具有代表性的有全國公安機關DNA 數據庫、深圳國家基因庫、上海生物醫學大數據中心、國家人口與健康科學數據共享服務平臺、北京基因組研究所生命與健康大數據中心（BIG Data Center，BIGD）以及國家基因組科學數據中心（NGDC）等。2018 年，生物數據領域權威期刊《核酸研究》（Nucleic Acids Research）將NGDC 列為與美國NCBI、歐洲EBI 齊名的全球核心數據中心［19］。NGDC 在成立之初就對標INSDC，總體目標是建成有國際影響力的基因組科學數據中心，促進科學數據開放共享，保障科學數據安全可控，支撐國家科技創新和經濟社會發展。

3.1 核酸序列數據庫多指標對比

作為國內國外生物核酸數據領域領先的數據服務機構，INSDC 與NGDC 在建設運營中既存在共性又各具特色，如表3 所示。

表3 國內外核酸序列數據庫多指標對比

3.2 核酸序列數據庫對比分析

針對以上指標對比情況，國內外核酸序列數據庫存在的主要不同包括：

（1）平臺組織架構。這4 個數據庫都屬于學術性、非盈利性質的數據服務機構，總體上講，國外的資助機構比較多，資金支持比較雄厚，中國NGDC 的支持來源比較單一，目前主要依靠研究所資助，并在積極尋求資金資助。

（2）建設目標。三大數據中心進行了較為長期的國際合作，其宗旨和數據政策較為統一，均是為了提供并鼓勵科學界訪問最新和最全面的核酸序列信息，為全球研究者提供更好的服務；中國的核酸序列庫除了上述目標之外，還肩負著完善建立中國人群基因組遺傳變異圖譜、形成中國人群精準醫學信息庫的重要使命。

（3）數據共享政策。INSDC 成員數據庫中的數據全部免費對外開放，實行全部開放免費獲取的政策，但是對于數據提交者另有要求的會進行差異性處理，對于有版權要求的數據可根據數據提交者要求時間進行公布，反映出其對于數據安全和作者版權的重視；中國NGDC 的一些數據需要用戶進行申請獲得審批后才能獲取，這反映出NGDC 對于知識產權的重視，但同時這可能也對數據的獲取造成一定的阻礙。

（4）數據資源與服務。關于核酸序列數據發布頻率，INSDC 成員數據庫定期發布最新版本，但頻率有所不同；NGDC 暫未形成固定發布周期。在數據空間性方面，三大數據中心具有全球性的特點，涵蓋了除本土之外的世界和其他地區；相較而言，NGDC 數據在空間上以則是以中國數據資源為主，兼顧全球。總體而言，三大數據中心空間覆蓋范圍更廣，NGDC 數據庫資源建設目前正在逐漸向全球化邁進，未來在國際數據資源整合引進上仍然有發展空間。

（5）國際合作。三大數據中心于20 世紀已經建立了堅實的合作關系，并建立了國際核酸數據庫聯盟，設置委員會對其國際合作進行專門管理，目前已經形成三足鼎立的態勢；與之相比，NGDC 與阿拉伯和泰國的大學建立了國際合作關系，也作為唯一其他國家參與了INSDC 年度會議并做報告，國際影響力在不斷增強。近年來，INSDC 與中國科研機構之間的合作交流也逐漸增多。

4 國際三大核酸序列數據庫建設對中國的啟示

作為國際上有影響力的DNA 序列數據庫，GenBank、EBI-ENA、DDBJ 建設和管理過程對中國基因組學領域數據庫建設具有很大的參考價值。綜合以上對比分析，提出以下發展啟示：

（1）從宏微觀兩層面制定核酸數據管理政策，宏觀政策指導建立核酸序列數據管理總體框架，微觀政策體現在數據中心的具體管理政策中。要在國家層面逐步完善關于基因組學領域科學數據共享與管理政策。美國于2014 年發布了基因組數據共享政策，旨在促進基因組數據共享，加快數據向知識、產品和流程的轉化；中國雖已制訂了《科學數據管理辦法》等規范性文件，但針對基因組學領域科學數據管理規范仍然存在很大不足。其次，通過數據中心等微觀管理主體制定基因組學領域科學數據的管理政策，有助于規范基因組學數據的開放獲取服務，促進核酸序列數據的最大化利用［20］。

（2）加強核酸數據共享平臺各部門分工和人才隊伍建設。三大數據中心擁有跨學科的人才隊伍，專業領域涵蓋了生命科學、生物信息學、計算機科學、信息和圖書館學等多個方面，這些人員擅長的領域包括元數據和信息管理、軟件開發、數據歸檔、基因組學研究以及跨學科研究等。鑒于此，中國的核酸序列數據中心在建設過程中應保證不同類型人才的專業分工與溝通協調。在人才培養方面，可以根據不同研究方向、領域數據類型的需要，開展跨學科交叉復合型人才的培養，建立起一個分工細致的高效率組織架構。

（3）開展精品數據庫的開發與建設，拓展深加工數據資源。三大數據中心中都有一些引用量高、影響力比較大的子庫，但通過對NGDC 各子庫的考察可見，引用量排名靠前的庫較少，如新型冠狀病毒庫下載量和引用量排在前列，但引用次數僅一百余次。因此，中國的基因組核酸數據中心可參考國外其他生物數據庫在精品數據庫建設方面的經驗，對平臺核心的數據產品進行深度挖掘，加強熱點領域方向專題數據庫建設。

（4）加強問題導向的基因組數據綜合集成。中國人口眾多、民族多樣，各種與基因有關研究問題多而復雜，因此有必要加強以問題為導向的數據平臺建設，通過打破學科界限，以高度綜合的基因組科學研究對象為基礎進行學術思想的整合集成，從而促使其與大型國際/國家科學計劃相結合，并進一步促進數據的產生、集成和應用。同時，加強問題導向的數據資源整合集成也是目前中國基因組學領域科學數據資源管理的緊迫需求。

（5）加強數據服務能力建設，形成閉環全生命周期數據管理模式。包括GenBank 在內的核酸序列數據庫均擁有多種數據檢索、分析工具，且下載格式多樣，兼容性較強；除通過網絡平臺提供數據服務外，三大數據中心還會提供培訓服務，以方便研究人員充分利用數據庫資源。因此，NGDC 在數據服務建設方面應當加強能力建設，為數據用戶提供完善的“一站式”數據服務系統；其次，要充分利用依托部門資源，根據科研用戶需求提供持續性的專業科學數據培訓服務，同時促進領域內人才培養和交叉學科發展。

（6）從軟硬件兩方面入手優化數據庫性能，同時重視核酸數據安全管理。可利用區塊鏈、云計算、流計算等數據安全管理的特性和使用新的模式，提升大數據傳輸效率與存儲能力。此外，可通過人工智能解決諸如資源調度、索引設計與優化等問題，機器學習等人工智能技術能以科學模型操作海量數據，提高處理效率。同時建立并完善核酸數據安全管理制度，配備齊全的物理設施進行數據存儲備份，還可依托云平臺建立云備份；對于重要數據采取物理存儲隔離，對于特定用戶還可采用虛擬專用網絡（VPN）機制提供局域網數據服務。

（7）強化國際合作，關注國際數據資源建設。三大數據中心持續整合全球核酸序列數據，INSDC在空間性上具有全球性。NGDC 在發展過程中應進一步加強國際數據資源的交換，引進高質量國際數據資源，同時完善外文版網站建設以吸引國際用戶提升自身的國際影響力。除此之外，還可通過頒布政策激勵研究人員匯交數據形成良好的數據匯交生態，促進數據提交、儲存、使用全流程的可持續發展，同時推進基礎設施建設以提高數據儲存分析能力。積極尋求國際合作擴大國際影響力，統一數據標準，方便數據交換共享。

5 結論

加強提升中國基因組科學數據中心的建設能力和國際化水平是提高中國包括基因組學在內的生命科學領域研究能力的關鍵。近年來，中國在各個層面都加強了科學數據中心的布局與建設，出臺了一系列的辦法規定。對于核酸數據中心發展過程中的規范化管理問題，本研究結合國際三大核酸序列數據庫的經驗與認識，對其進行剖析，從數據庫的總體情況、運行管理機制、全生命周期科學數據管理模式等進行調研與分析，探討了國際三大核酸序列庫的數據處理流程特點及數據跨機構共享的實現過程，并通過4 個數據庫的發展沿革、建設目標、建設概況等多維度的對比，總結出中國與國際三大核酸序列數據庫不同的方面，進而提出開發建設精品數據庫、加強問題導向的基因組數據綜合集成等方面的啟示建議。

此外，筆者還注意到，根據國際專門提供全站流量數據的Similarweb 網站統計，在訪問美國NCBI官網查詢數據的所有用戶中，中國用戶數量排名第6位；訪問日本DNA 數據庫DDBJ 的所有用戶中，中國用戶排在第3 位，占比為6.91%；而訪問歐洲生物信息分子實驗室EBI 網站中的中國研究者排名達到第2 位，約占11.83%。因此，習慣性使用NCBIGenBank、EBI-ENA 等數據庫是否已經成為非歐美國家分子生物學研究者頭上的達摩克利斯之劍？

另一方面，核酸數據安全也是中國參與國際科學數據共享的重要課題。根據2018 年中國《科學數據管理辦法》規定，科學數據中心應當要保障科學數據安全，依法推動科學數據開放共享；同時，科技部下發的《人類遺傳資源管理條例實施細則（征求意見稿）》擬規定不得向境外提供本國人類遺傳資源，而人類遺傳資源必然涉及到人類基因、基因組數據等人類遺傳資源信息。因此，如何在保障中國基因數據安全的基礎上進一步推進中國核酸序列數據的國際合作與開放共享，是中國相關基因數據中心需要思考和探索的問題。

注釋：

1）基于2022 年6 月的數據。