王孜怡,肖 瀟,黃晨軍,童 林,高春芳,,曹宏偉△
1.海軍軍醫大學附屬長海醫院信息科,上海 200438;2.上海中醫藥大學附屬岳陽中西醫結合醫院檢驗實驗中心,上海 200437;3.上海東方肝膽外科醫院檢驗科,上海 200438
腫瘤是嚴重危害人群健康的公共衛生問題。 根據最新發布的美國2022流行病學數據,腫瘤是僅次于心臟病的第二大致死性疾病,是60歲以上人群病死的重要病因。在排名前5位的腫瘤相關死亡病因中,男性肝癌位列第5位,其中在40~59 歲人群則位列第4,在60~79歲位列第5,提示肝癌是40~79歲這一中老年齡段人群的重要腫瘤相關死亡病因[1]。全世界新發肝癌的50%病例在中國[2],在我國肝癌是僅次于肺癌的高發病率和高病死率腫瘤[3]。我國年齡和性別分層的流行病學數據表明,肝癌在15歲以上男性腫瘤的發病率和病死率中都位列前茅[3]。我國80%以上的原發性肝癌與乙型肝炎病毒(HBV)感染有關,雖然近年來我國HBV表面抗原(HBsAg)陽性率呈現下降趨勢,但是由于HBsAg攜帶者存量巨大,所以HBV感染作為原發性肝癌的高危因素在我國肝癌發病中仍然長期占據高位[4-5]。目前早期肝癌的5年生存率高達70%以上,而晚期肝癌5年生存率不足10%[6],因此早期發現、精準診斷和治療是提高生存率、降低病死率的重要環節。微小血管侵犯(MVI)是肝癌具有侵襲性、轉移性生物學行為的組織學標志,可用于預測肝癌的預后、復發、生存,發生肝內、肝外轉移時,肝癌細胞沿著血管遷移,故MVI也是臨床上肝癌復發的重要病理指標[7-9]。通常MVI信息的獲取需通過手術標本的組織學分析,有嚴格的手術采集要求和標準,包括準確采樣腫瘤與非腫瘤交界面的組織標本等。若能術前精準預測,或者對于未接受手術治療者進行MVI預測,則對患者精準治療方案的制訂和預后判斷有重要意義。本研究基于臨床常用的3種肝癌標志物——甲胎蛋白(AFP)、甲胎蛋白異質體(AFP-L3)、異常凝血酶原Ⅱ(PIVKAⅡ),對檢測結果數據采用歸一化處理并建模后,用于輔助判斷原發性肝細胞癌(HCC)患者是否發生MVI。
1.1一般資料 本研究納入2016年1月至2017年12月在上海東方肝膽外科醫院住院并接受HCC手術治療的患者1 314例,這些患者均經術后病理檢測證實為HCC且在未行手術切除之前完成了AFP、AFP-L3和PIVKAⅡ的檢測,并剔除了正在使用維生素K和華法林治療的研究對象,以免對PIVKAⅡ檢測結果產生干擾。本研究經上海東方肝膽外科醫院倫理委員會批準,所有患者知情同意。
1.2儀器與試劑 AFP檢測方法為電化學發光法(Roche),檢測設備為羅氏 Cobas e601 全自動免疫分析儀,檢測試劑為羅氏診斷公司原裝配套試劑。AFP-L3采用凝集素親和富集加全自動化學發光檢測,凝集素親和富集試劑盒為北京熱景生物技術有限公司產品,富集后得到的核心巖藻糖基化蛋白檢測方法同上述AFP,作為AFP-L3數值。計算AFP-L3/AFP的百分比[10],參考試劑盒說明,>10% 定義為AFP-L3 陽性。PIVKAⅡ 采用酶化學發光法檢測,檢測設備為富士瑞必歐的LUMIPULSE G1200全自動免疫分析儀,試劑為配套原裝試劑。
1.3方法 對數據進行缺失值處理,對缺失值的處理有3種:刪除記錄、數據插補和不處理。本研究中采用刪除記錄的方法。采用邏輯回歸(LR)方法,對3項常用的肝癌標志物AFP、AFP-L3、PIVKAⅡ建模,使用Python進行數據集7∶3(建模組∶驗證組)的劃分并獲得數據的MVI預測效率。
1.4統計學處理 所用數據采用Python語言進行統計。歸一化處理則將完整的數據縮放在(-1,1)區間內。非正態分布的計量資料以M(P25,P75)表示,兩組間比較采用非參數Mann-Whitney檢驗。計數資料以例數或百分率表示,比較采用χ2檢驗。以P<0.05為差異有統計學意義。在模型參數方面進行了調整:(1)為防止過擬合,進行正則化處理;(2)使用梯度下降法優化損失函數并調整標本權重以提高模型預測能力。
2.1入組患者的臨床基本信息 依據入組的原發性肝癌組織病理學MVI結果,將所有入組的1 314例HCC 患者分為以下兩組:無MVI組(MVI-0組)和存在不同程度MVI的MVI-1+MVI-2組即MVI-1+2組,兩組的基線信息見表1。在納入的1 314例HCC患者中,存在MVI的患者共616例,占46.9%。

表1 入組的HCC患者基本臨床特征
2.2模型與診斷 使用Pycharm軟件建模,自建LR模型公式,即1.08×AFP+0.34×AFP-L3+0.26×PIVKAⅡ。使用Python進行數據集7∶3(建模組∶驗證組)的劃分并預測MVI結果。
2.3模型對MVI的預測價值 建模組中LR模型診斷MVI的AUC為0.647,與單獨采用AFP診斷MVI的相同,見表2。但在驗證組中,與AFP、AFP-L3、PIVKAⅡ檢測相比,LR模型診斷MVI的AUC為0.720,AUC高于單獨應用AFP-L3和PIVKAⅡ診斷MVI的AUC(0.651、0.601),也略高于單獨應用AFP診斷MVI的AUC(0.700)。當LR模型最佳截斷值為-1.16時,診斷MVI的靈敏度為77.1%,準確度為64.7%。 見表3。

表2 建模組各指標對MVI的診斷性能

表3 驗證組各指標對MVI的診斷性能
本研究主要基于目前臨床常用的肝癌標志物AFP、AFP-L3、PIVKAⅡ開展對于HCC患者是否存在MVI的非創性預測,之前已有類似的研究[9]。本研究通過數據歸一化處理和LR,建立了多參數診斷模型,用于HCC患者MVI的預測,預測患者是否發生MVI的AUC達到0.720,高于單獨應用AFP-L3和PIVKAⅡ(0.651、0.601),也略高于單獨應用AFP(0.700)。術前MVI的非創性預測有助于輔助臨床制訂更為精準的手術治療方案,而對于非手術治療的MVI預測,則可輔助臨床判斷HCC復發、轉移及預后。
本研究中選用AFP、AFP-L3、PIVKAⅡ的依據是基于目前國際和臨床上已獲得一定認可用于HCC診斷的GALAD模型。 GALAD模型最初于2014年由JOHNSON等[11]建立,2016年BERHANE等[12]基于國際多中心隊列進行了充分驗證,結果提示其可用于HCC診斷并具有較單個指標更好的診斷性能。GALAD模型包括性別(G)、年齡(A)以及3種血清學標志物AFP(A)、AFP-L3(L)、PIVKAⅡ(D)共5項。 本團隊在前期國內多中心隊列研究中證明其對于HCC的早期診斷具有很好價值[12-13],但GALAD模型用于MVI的預測效果尚有限[13]。本研究在預實驗中發現,加入性別、年齡并沒有顯著提升該模型的效率,因此本研究僅針對臨床常用的指標展開預測MVI的建模性和驗證性研究。
本研究采用的建模方法是LR方法,LR是一種線性分類器,可以定量地描述某一現象和某些因素之間的函數關系,將各變量的已知值代入回歸方程可以求出應變量的估計值,從而可以進行預測等相關研究。LR方法是目前臨床多參數建模性研究中的最常用方法[14]。目前已經獲得NMPA注冊證的微小RNA panel就是采用了LR模型[15],其作為HCC標志物已被納入2022版的中國原發性肝癌防治指南[5]。
數據缺失和數據標準化處理是建模性研究中的關鍵問題。數據缺失主要包括記錄缺失和字段信息缺失等情況,對數據分析有較大影響,使結果不確定性增加。通常對缺失值的處理有3種:刪除記錄、數據插補和不處理。本項目采用刪除記錄的方法,最大程度減少了因數據缺失對模型穩定性帶來的影響。在多指標評價體系中,由于各評價指標的性質不同,通常具有不同的量綱和數量級。當各指標間的水平相差很大時,如果直接用原始指標值進行分析,就會突出數值較高的指標在綜合分析中的作用,相對削弱數值水平較低指標的作用。因此,為了保證結果的可靠性,需要對原始指標數據進行標準化處理。目前數據的標準化方法有多種,歸結起來可以分為直線型方法(如極值法、標準差法)、折線型方法(如三折線法)、曲線型方法(如半正態性分布)。不同的標準化方法,對系統的評價結果會產生不同的影響,但在數據標準化方法的選擇上,還沒有通用的法則可以遵循。其中最典型的方法就是數據的歸一化處理,即將數據統一映射到(-1,1)區間上。歸一化是一種簡化計算的方式,即將有量綱的表達式,經過變換,化為無量綱的表達式,成為純量。歸一化是讓不同維度之間的特征在數值上有一定比較性,可以大大提高分類器的準確性。各個特征對結果做出的貢獻相同時,可以比較出參數之間分類效果的差異。歸一化后有提升模型的收斂速度和精度的優勢。采用歸一化處理數據后,本研究中所建立的模型較本團隊前期建立的MVI模型的預測效率有了明確提升[16]。在本研究中,其應用優勢還在于能縮小由于不同臨床實驗室采用不同檢測系統可能對模型穩定性帶來的影響,這也是本研究的亮點之一。
綜上所述,本研究基于臨床常用的3項肝癌標志物(AFP、AFP-L3、PIVKAⅡ),通過數據歸一化和LR建模,可輔助臨床進行HCC患者發生MVI的預測,對于HCC患者的精準施治和臨床預后判斷提供了全新手段。未來需要進一步多中心研究驗證該模型的穩定性和有效性,并在實踐中不斷優化。