感染性疾病的微生物宏基因組測序結果判讀的比較

2021-10-13 08:50:24李曼詩黃巍峰陸一涵

復旦學報(醫學版) 2021年5期

李曼詩黃巍峰陸一涵△

（1復旦大學公共衛生學院流行病學教研室-公共衛生安全教育部重點實驗室上海 200032；2上海交通大學附屬第六人民醫院重癥醫學科上海 200233）

感染性疾病一直是全球范圍內的重要公共衛生問題。在其診療中，快速、準確地識別病原體至關重要。傳統檢測方法主要包括形態學檢測、培養分離、生化檢測、免疫學和核酸檢測等，操作簡單、檢測成本相對較低，同時具有較好的靈敏度和特異度，目前臨床仍然廣泛應用。然而，傳統檢測方法耗時較長，例如培養試驗平均反饋時間為：細菌3天、真菌 7 天、分枝桿菌 45 天［1］。此外，感染性疾病的病原體種類繁多，傳統檢測方法僅能針對幾種常見病原體，且檢測項目很大程度上依賴臨床醫師的判斷，因此難以識別未知或罕見的病原體。臨床上超過2/3 的感染性疾病可能無法鑒定病原體，導致治療措施缺乏針對性［2］。

基于第二代測序技術的宏基因組測序（metagenomic next-generation sequencing，mNGS）可以直接對臨床標本中的所有核酸進行高通量測序，無需特異性擴增，更不需要微生物培養，因此可在較短時間（平均48 h）內獲得標本中的核酸序列，然后通過生物信息學判讀分析病原體種類及豐度等信息［3］。目前主要有兩種方法進行mNGS 物種注釋：（1）有參/基于讀長（reads-based/assembly-free）方法，不進行序列組裝，直接將序列與參考數據庫進行比對，其結果的準確性與參考數據庫密切相關，且比對速度取決于比對方法和硬件、軟件配置；（2）無參/基于組裝或拼接（assembly-based/de novo）方法，對質控后的序列進行組裝/拼接，得到重疊群后進行基因注釋和預測，需要更深的測序深度、更高的時間成本和硬件、軟件要求，且容易遺失相對豐度較低的物種。考慮到人體相關微生物的參考基因組和參考數據庫相對豐富，以及時間和設備問題，臨床應用mNGS 分析主要采用有參/基于讀長方法注釋微生物。

目前，對于mNGS 下游生物信息學分析，各個實驗室均建立了個性化的分析方法，尚無統一的標準。由于有參方法進行物種注釋時高度依賴所選擇的參考數據庫，因此不同實驗室的判讀結果可能存在較大差異。根據《中國宏基因組學第二代測序技術檢測感染病原體的臨床應用專家共識》推薦，物種注釋時采用的數據庫應達到臨床應用級別，且要求其能較好地區分臨床常見病原體種別［4］。因此，本研究收集感染性疾病患者不同類型標本的mNGS 測序數據，分別采用兩個參考數據庫進行微生物注釋，然后調整判讀標準，分析注釋結果的一致性，從而為建立更適用的臨床mNGS 結果判讀標準提供科學依據。

資料和方法

研究對象2019 年 6 月—2020 年 10 月，在上海市第六人民醫院城市醫聯體下屬上海市第六人民醫院、上海市第六人民醫院東院、上海市普陀區中心醫院、上海市金山區中心醫院等4 家醫院收集感染性病例。納入標準：（1）18 周歲以上；（2）具有發熱（體溫>38 ℃）、頭痛、畏寒、寒戰、腦膜刺激征、嘔吐、抽搐、局灶性神經功能障礙、意識改變或嗜睡等感染性疾病癥狀患者。排除標準：（1）病史資料不全；（2）拒絕進行mNGS。本研究已獲上海市第六人民醫院倫理委員會批準（審批編號：2019-087）。納入的患者及其家屬均簽署知情同意書。

標本采集采集的標本類型主要包括外周血、腦脊液、痰液、肺泡灌洗液等多種類型。臨床醫師根據患者感染部位采集標本，并盡可能在急性期進行采集，無菌封裝后統一送至探因醫學科技（浙江）有限公司，-20 ℃保存并及時送檢，避免反復凍融［5-6］。

DNA 提取與測序采用Tiangen Magnetic DNA Kit［中國天根生化科技（北京）有限公司］試劑盒提取DNA，使用Bioruptor 非接觸式超聲波破碎儀（比利時Diagenode 公司）將其片段化為150~300 bp 長度。使用KAPA Library Preparation kit（美國KAPA Biosystem 公司）試劑盒構建文庫。使用Illumina NextSeq 550Dx（美國Illumina 公司）基因測序儀進行高通量測序。去除接頭、低質量堿基、重復和<36 bp 的短讀長后，使用Bowtie2 軟件（2.3.5版本）［7］與人類參考基因組（hs37d5）進行比對并去除人源序列。

微生物注釋本研究采用2 個常用的數據庫注釋質控后的核酸序列：（1）使用Bowtie2 軟件（2.3.5版本）與 NCBI（National Center for Biotechnology Information）的 NR 數據庫（Non-Redundant Protein Sequence Database）進行比對，該數據庫覆蓋臨床常見細菌 7 982 種、真菌 917 種、病毒 7 811 種、寄生蟲124 種，共16 834 種病原微生物。該數據庫為NCBI BLAST 功能依托的重要數據庫，為避免蛋白質序列冗余而在RefSeq 等多個參考數據庫基礎上設計而成。截至 2021 年 1 月，NR 數據庫包含 87 GB 的Fasta 格式文件（https：//ftp.ncbi.nlm.nih.gov/blast/db/FASTA/），基本包含所有人類及非人類宿主和自然環境中的已知微生物序列。（2）使用MetaPhlAn2（Metagenomic Phylogenetic Analysis）軟件（2.7.5 版本）與其參考數據庫進行比對，該數據庫整理超過17 000 種參考基因組，包括13 500 種細菌和古菌、3 500 種病毒和110 種真核生物，匯編超過100 萬類群特異的標記基因［8］。MetaPhlAn2 軟件可實現精確地分類群識別，能夠準確估計物種的相對豐度，并可達到種水平的精度，分析速度快于NCBI BLAST。以上兩個數據庫均對公眾免費開放。

統計學分析使用SAS 9.4 軟件計算兩個數據庫結果的一致性和Kappa 值，并對Kappa 值進行Z檢驗，檢驗水準α=0.05。

結果

微生物注釋結果本研究共收集感染性疾病患者標本174 份，包括外周血、腦脊液、痰液、肺泡灌洗液、尿液、胸水、肛拭子、引流液（表1）。通過與NCBI 數據庫比對，共有117 份標本檢出微生物（67.2%），包括 185 種細菌、11 種病毒、12 種真菌；通過與MetaPhlAn2 數據庫比對，共有162 份標本檢出微生物（93.1%），注釋出 307 種細菌、31 種病毒、5 種真菌。不同標本的微生物檢出率存在差異，外周血和腦脊液的檢出率相對較低，其他標本的檢出率較高。

表1 微生物注釋結果（NCBI 數據庫與MetaPhlAn2 數據庫）Tab 1 Taxonomic profile result（NCBI database and MetaPhlAn2 database）［n（%）］

NCBI 數據庫的注釋結果中，細菌多為肺炎克雷伯菌、屎腸球菌、鮑曼不動桿菌等，病毒多為人類皰疹病毒（1 型、4 型 EB 病毒、5 型巨細胞病毒、7 型）和人類細小病毒B19，真菌則多為白假絲酵母菌、耶氏肺孢子菌等。MetaPhlAn2 數據庫注釋結果中，則包含多種較為罕見的病原體，包括紅串紅球菌、樊慶生紅球菌等細菌，細環病毒、EB 病毒和多種植物病毒，以及杜氏假絲酵母菌等真菌。

微生物注釋結果的比較本研究首先基于數據庫的原始注釋結果，按照“是否檢出微生物”，計算兩個數據庫注釋結果的一致性僅為67.2%，Kappa 值為0.067 7（Z=1.3189，P=0.093 6）；按照檢出微生物種類（細菌、病毒、真菌、未檢出），則一致性僅為36.8%，Kappa值為0.1779（Z=5.278 1，P<0.001）。

然后調整兩個數據庫注釋結果的判讀標準，比較一致性。將MetaPhlAn2 數據庫注釋結果中的多種細菌（紅串紅球菌、樊慶生紅球菌）、病毒（細環病毒、植物病毒）、真菌（杜氏假絲酵母菌）均判為背景微生物（即不計入檢出微生物），重新計算兩個數據庫注釋結果的一致性為67.9%，Kappa 值為0.371 3（Z=5.354 3，P<0.001）。進一步將 NCBI 數據庫注釋的疑似背景微生物也全部判為背景微生物，則不同類型標本的檢出微生物種類趨于一致（表2）；此時計算一致性為73.0%，Kappa 值為0.571 2（Z=11.736 2，P<0.001，表 3）。

表2 注釋結果判讀調整后的檢出的排序前三位的微生物（NCBI 數據庫與MetaPhlAn2 數據庫）Tab 2 Top three detected species after adjusting interpretation criteria（NCBI database and MetaPhlAn2 database）

表3 注釋結果判讀調整后的檢出微生物種類比較Tab 3 Taxonomic profile after adjusting interpretation criteria

本研究也區分不同類型標本，比較兩個數據庫注釋結果的一致性。結果發現，腦脊液標本中檢出一致性最高，為 76.0%，Kappa 值為 0.509 8（Z=4.135 9，P<0.001），且檢出微生物種類（具體到“種”）的一致性為 74.0%，Kappa 值為 0.512 0（Z=5.139 2，P<0.001）；外周血標本次之，為 69.9%，Kappa值為 0.360 6（Z=4.272 4，P<0.001），檢出微生物種類的一致性也為69.9%，Kappa 值為0.408 3（Z=6.412 2，P<0.001）。其他類型標本一致性較低。

討論

目前，mNGS 在臨床和科研中的應用愈加廣泛。2019 年在武漢不明原因肺炎患者肺泡灌洗液標本中利用mNGS 發現新型冠狀病毒并進行了全基因組測序［9-10］。在 mNGS 技術的運用過程中，由于檢測的靈敏性和無偏向性，即使是采集自無菌部位的標本，也可能注釋出多種微生物，因此如何更準確地識別標本中包含的物種信息至關重要［11］。早期研究一般利用NCBI BLAST 功能將所有測序結果與參考數據庫中收錄的微生物基因組全長序列進行比對；然而，該方法十分耗費時間和計算資源，對應的軟硬件需求較高，隨著測序數量和深度增加，這種方法難以滿足分析需求。為了解決這一問題，已陸續建立多種生物信息學分析方法，其中之一就是MetaPhlAn2 所代表的標記基因方法。該方法從現有數據庫的所有微生物參考序列中，整理出物種特異的標記基因，降低了比對序列的數量和長度，從而減少分析時間、降低計算資源的需求，該方法已被用于人類微生物組計劃［12］。本研究發現，不同部位臨床標本中MetaPhlAn2 注釋獲得更多微生物種類，提示該數據庫靈敏度更高。然而，該方法也識別了很多可能屬于背景的微生物，其在腦脊液、外周血等無菌部位標本的物種注釋率相對較低，而其他部位標本則相對較高，這表明開放部位標本可能包含定植菌或易于受外界微生物污染，導致物種檢出率升高。之前有研究報道，mNGS 發現健康人外周血亦存在微生物核酸序列［13］。因此，在臨床應用mNGS 時，需要根據檢測的微生物種類和檢出序列數等不同情況調整判讀標準，注意剔除試劑、環境、測序和生物信息分析流程中引入的假陽性病原體信息［11］。

本研究在分別調整NCBI 和MetaPhlAn2 的判讀標準后，兩者檢出微生物種類（細菌、病毒、真菌、未檢出）和檢出微生物種別（具體到“種”）的一致性均大幅度提高。既往研究在確定感染病原體時，與陰性對照比較后，一般先排除臨床常見的背景微生物，然后排除測序前后批次中50%以上標本出現的物種，結合臨床信息和傳統實驗室檢測，最后對潛在病原體進行驗證［14］。確認是否為條件致病菌感染時，建議綜合考慮患者的免疫狀態、是否合并基礎疾病、標本采集部位等臨床信息［15］。本研究發現，在腦脊液、外周血等無菌部位標本中，MetaPhlAn2 方法與傳統的NCBI 數據庫方法一致性較好，鑒于MetaPhlAn2 較快的分析速度和較低的計算資源要求，可考慮推薦在無菌部位標本中采用該物種注釋方法，從而快速指導臨床診療。

由于采集樣本量較小，本研究代表性受一定限制，同時僅考慮測序結果與兩個數據庫注釋情況，且未與患者臨床信息和傳統實驗室檢測指標相結合分析，對臨床治療指導價值有限。

本研究發現在無菌標本中，MetaPhlAn2 的準確度不遜于傳統的NCBI。考慮到MetaPhlAn2 對計算機計算能力要求較低，便于臨床使用，因此該數據庫可以作為NCBI 的補充：首先根據MetaPhlAn2判讀結果快速識別病原體、先行指導治療；然后根據NCBI 判讀結果進行修正，從而實現更快速的診療。

作者貢獻聲明李曼詩數據整理、統計分析，論文撰寫。黃巍峰研究設計，數據采集，論文修改。陸一涵研究設計，論文構思和修改。

利益沖突聲明所有作者均聲明不存在利益沖突。

感染性疾病的微生物宏基因組測序結果判讀的比較

資料和方法

結 果

討 論

結果

討論