李 軒,王子為,趙靖萱,劉子琦,崔祉盈,閆佰薈,李 范
(中國醫(yī)科大學(xué)創(chuàng)新學(xué)院1,中英聯(lián)合學(xué)院2,健康管理學(xué)院3,遼寧 沈陽 110122)
腫瘤(tumor)是機(jī)體在各種因素作用下,局部組織的細(xì)胞在基因水平上失去對其生長的正常調(diào)控,導(dǎo)致細(xì)胞克隆性異常增生而形成的新生物,多表現(xiàn)為占位性塊狀病變。在醫(yī)學(xué)領(lǐng)域,通常將其分為良性和惡性兩大類。其中,惡性腫瘤近年來已成為危害人類健康的重要疾病,其發(fā)病率和死亡率逐年上升,是全球主要死因之一,阻礙了人類期望壽命的延長,也導(dǎo)致了巨大的疾病負(fù)擔(dān)[1,2]。預(yù)后是指根據(jù)個人狀況和常見的病程預(yù)測疾病可能的結(jié)局。在個性化精準(zhǔn)醫(yī)療時代,臨床醫(yī)生向患者提供準(zhǔn)確的預(yù)后預(yù)測信息的能力變得愈加重要,準(zhǔn)確的惡性腫瘤預(yù)后分析有助于醫(yī)患選擇合適的治療方式,從而提高腫瘤患者的生存時間與生活質(zhì)量。較早的研究采用統(tǒng)計學(xué)方法評估和篩選影響腫瘤預(yù)后的相關(guān)因素。隨著信息化技術(shù)的發(fā)展,為了更好地輔助臨床醫(yī)生選擇合適的治療方法并評估療效,各種腫瘤預(yù)后預(yù)測模型應(yīng)運(yùn)而生[3-6]。機(jī)器學(xué)習(xí)是一門涉及概率論、數(shù)理統(tǒng)計、逼近論、算法復(fù)雜度理論等多領(lǐng)域的交叉學(xué)科,主要研究如何使用計算機(jī)模擬或?qū)崿F(xiàn)人類學(xué)習(xí)活動,以獲取新的知識或技能,重新組織已有的知識結(jié)構(gòu)并不斷改善自身的性能。作為人工智能的核心技術(shù),對于給定數(shù)據(jù)集,機(jī)器學(xué)習(xí)能評估其中未知的相互關(guān)系,并根據(jù)識別出的關(guān)系來預(yù)測新的結(jié)果。有研究已經(jīng)證實[7,8],機(jī)器學(xué)習(xí)方法與傳統(tǒng)的統(tǒng)計學(xué)方法相比能夠做出更為準(zhǔn)確的腫瘤診斷及預(yù)后判定。目前,國際上已積累了相當(dāng)數(shù)量的采用機(jī)器學(xué)習(xí)方法構(gòu)建腫瘤預(yù)后模型的科研成果,但缺乏對該領(lǐng)域研究概況的系統(tǒng)全面梳理。鑒于此,本研究利用PubMed 數(shù)據(jù)庫收集腫瘤預(yù)后預(yù)測領(lǐng)域機(jī)器學(xué)習(xí)相關(guān)的原始研究論文,通過文獻(xiàn)計量和共詞雙聚類分析,探討該領(lǐng)域研究的熱點問題和發(fā)展趨勢,以期為研究人員的后續(xù)研究提供信息支持和參考借鑒。
1.1 數(shù)據(jù)來源 本研究的數(shù)據(jù)來源于國際權(quán)威生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫PubMed,通過該數(shù)據(jù)庫的主題詞途徑進(jìn)行檢索,檢索策略為:"machine learning"[MeSH Terms] AND "neoplasms"[MeSH Terms] AND"prognosis"[MeSH Terms],檢索的時間范圍從PubMed 建庫至2021 年7 月,最后檢索時間為2021年7 月20 日。依據(jù)以上檢索策略,共檢索文獻(xiàn)898篇。然后根據(jù)納入和排除標(biāo)準(zhǔn),對檢出文獻(xiàn)進(jìn)行人工篩選。最終納入838 篇腫瘤預(yù)后預(yù)測領(lǐng)域機(jī)器學(xué)習(xí)相關(guān)的原始學(xué)術(shù)研究性論文作為本研究的文獻(xiàn)數(shù)據(jù)集。
1.2 納入和排除標(biāo)準(zhǔn) 納入標(biāo)準(zhǔn):①文獻(xiàn)的主題內(nèi)容是應(yīng)用機(jī)器學(xué)習(xí)進(jìn)行腫瘤預(yù)后的預(yù)測;②文獻(xiàn)類型為原始學(xué)術(shù)研究性論文。排除標(biāo)準(zhǔn):綜述、評論、通信、編者述評、新聞等非原始研究性論文。
1.3 方法 對納入文獻(xiàn)的年代和主要主題詞/副主題詞進(jìn)行統(tǒng)計,對高頻主要主題詞/副主題詞進(jìn)行篩選,構(gòu)建高頻主要主題詞/副主題詞-文獻(xiàn)矩陣,對矩陣進(jìn)行共詞雙聚類分析,獲得矩陣中行與列的可視化聚類結(jié)果并對結(jié)果進(jìn)行分析。具體操作方法:將納入文獻(xiàn)通過PubMed 的格式下載,然后將其導(dǎo)入書目共現(xiàn)矩陣構(gòu)建工具(Bibliographic Item Co-Occurrence Matrix Builder,BICOMB)中,統(tǒng)計每年發(fā)文量和主要主題詞/副主題詞的頻次。篩選高頻主要主題詞/副主題詞,利用BICOMB 構(gòu)建高頻主要主題詞/副主題詞-文獻(xiàn)矩陣,導(dǎo)入gCluto 軟件進(jìn)行共詞雙聚類分析,獲得矩陣中行與列的可視化聚類結(jié)果,結(jié)合專業(yè)知識及相關(guān)論文剖析應(yīng)用機(jī)器學(xué)習(xí)進(jìn)行腫瘤預(yù)后預(yù)測的研究熱點。
2.1 文獻(xiàn)增長趨勢 從PubMed 數(shù)據(jù)庫中共獲得腫瘤預(yù)后預(yù)測領(lǐng)域機(jī)器學(xué)習(xí)相關(guān)原始研究論文838 篇,2010 年-2021 年7 月PubMed 收錄的相關(guān)論文數(shù)量呈指數(shù)增長趨勢,見圖1。

圖1 PubMed 數(shù)據(jù)庫中腫瘤預(yù)后預(yù)測領(lǐng)域機(jī)器學(xué)習(xí)研究論文的年代分布
2.2 高頻主要主題詞/副主題詞 838 篇論文共標(biāo)引1265 個主要主題詞/副主題詞。選取頻次在15 次及以上的主要主題詞/副主題詞作為高頻詞,共計39個,總頻次合計1323 次,占全部主要主題詞/副主題詞總頻次的33.91%,見表1。高頻詞中,“Machine Learning”(機(jī)器學(xué)習(xí))的詞頻居于首位,頻次為228次,占全部主要主題詞/副主題詞總頻次的5.84%;“Prognosis”(預(yù)后)的詞頻為17 次,占全部主要主題詞/副主題詞總頻次的0.44%。因為本研究的主題與機(jī)器學(xué)習(xí)和預(yù)后有關(guān),故后續(xù)不再對這2 個主要主題詞/副主題詞做特別分析,重點放在其他37 個關(guān)鍵詞及其關(guān)系的分析上。去除“Machine Learning”(機(jī)器學(xué)習(xí))和“Prognosis”(預(yù)后)之后,詞頻位于前10 位的高頻詞分別是:“Deep Learning”(深度學(xué)習(xí))、“Magnetic Resonance Imaging/methods”(磁共振成像/方法)、“Support Vector Machine”(支持向量機(jī))、“Algorithms”(算法)、“Biomarkers,Tumor/genetics”(生物標(biāo)志物,腫瘤/遺傳學(xué))、“Image Interpretation,Computer-Assisted/methods”(圖像解釋,計算機(jī)輔助/方法)”、“Brain Neoplasms/diagnostic imaging”(腦腫瘤/診斷成像)、“Tomography,X-Ray Computed/methods”(斷層掃描,X 射線計算/方法)、“Neural Networks,Computer”(神經(jīng)網(wǎng)絡(luò),計算機(jī))。

表1 腫瘤預(yù)后預(yù)測領(lǐng)域機(jī)器學(xué)習(xí)相關(guān)論文的高頻主要主題詞/副主題詞
2.3 共詞雙聚類結(jié)果 對納入分析的37 個高頻主要主題詞/副主題詞-文獻(xiàn)矩陣進(jìn)行雙聚類分析可視化,結(jié)果見圖2,高頻主要主題詞/副主題詞聚為6個大類:①磁共振成像的計算機(jī)輔助影像解釋方法學(xué)研究;②利用CT 影像進(jìn)行肺腫瘤的病理診斷;③支持向量機(jī)在腫瘤預(yù)后預(yù)測中的應(yīng)用;④計算生物學(xué)的方法學(xué)研究;⑤神經(jīng)網(wǎng)絡(luò)、統(tǒng)計模型等算法研究;⑥深度學(xué)習(xí)在腫瘤預(yù)后預(yù)測中的研究。

圖2 高頻主要主題詞/副主題詞-文獻(xiàn)矩陣雙向聚類圖
某一研究領(lǐng)域的發(fā)展趨勢一般可以通過相關(guān)論文的數(shù)量變化來反映。本研究發(fā)現(xiàn),在腫瘤預(yù)后領(lǐng)域應(yīng)用機(jī)器學(xué)習(xí)進(jìn)行預(yù)測的研究論文數(shù)量呈現(xiàn)指數(shù)上升的趨勢。尤其在2015 年后,文獻(xiàn)量快速增長,這可能受益于數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí),特別是深度學(xué)習(xí)技術(shù)的飛速發(fā)展,這些知識與技術(shù)在腫瘤預(yù)后預(yù)測領(lǐng)域快速滲透,進(jìn)而加大了相關(guān)領(lǐng)域的研究力度。從表1 的高頻詞詞頻可以發(fā)現(xiàn),在腫瘤預(yù)后預(yù)測中,研究的腫瘤集中在腦腫瘤、乳腺腫瘤、肺腫瘤、前列腺腫瘤;所利用的數(shù)據(jù)多來自于磁共振成像、斷層X射線掃描、基因表達(dá)譜以及臨床病理;所使用建模的方法主要涉及深度學(xué)習(xí)、支持向量機(jī)、計算機(jī)神經(jīng)網(wǎng)絡(luò)和統(tǒng)計模型。通過聚類分析所獲得的同類高頻詞的語義關(guān)系,結(jié)合專業(yè)知識和相關(guān)論文,獲得6 個應(yīng)用機(jī)器學(xué)習(xí)進(jìn)行腫瘤預(yù)后預(yù)測的研究熱點。
類1:磁共振成像計算機(jī)輔助影像解釋的方法學(xué)研究。磁共振成像對腦和脊髓、心臟、直腸、膀胱等部位檢查的敏感性和特異性優(yōu)于CT。特別在腦部檢查中,磁共振成像能獲得腦的立體圖像,很好地顯示腦腫瘤及其與周圍組織的解剖關(guān)系,在腦腫瘤的影像學(xué)檢查中的診斷和監(jiān)測價值居第1 位[9]。因此,磁共振圖像是腦部腫瘤預(yù)后預(yù)測中一個重要的依據(jù)和數(shù)據(jù)來源。腦腫瘤會表現(xiàn)出相似的磁共振影像特征,導(dǎo)致不能通過人工準(zhǔn)確地判斷腦腫瘤的高、低級別。這可以通過提取磁共振圖像海量紋理特征,聯(lián)合臨床指標(biāo),構(gòu)建數(shù)學(xué)模型加以解決,并通過機(jī)器學(xué)習(xí)自我完善,改善對腫瘤預(yù)后的有效評估。如Chaudhary K 等[6]將磁共振圖像上的局部紋理轉(zhuǎn)換為強(qiáng)度不變的局部二值模式,然后從中提取定量圖像特征,并在邏輯回歸分類器中建立惡性腫瘤預(yù)測模型,結(jié)果發(fā)現(xiàn)基于局部二值模式特征的計算機(jī)輔助系統(tǒng)性能顯著優(yōu)于使用常規(guī)紋理特征的系統(tǒng)。又如Ahammed MKV 等[10]使用基于Wndchrm 工具的分類器和VGG-19 深度卷積神經(jīng)網(wǎng)絡(luò)從磁共振圖像中自動識別神經(jīng)膠質(zhì)瘤的級別,結(jié)果顯示其所提出的系統(tǒng)具有更好的性能。
類2:利用CT 影像進(jìn)行肺腫瘤的病理診斷。多項研究證據(jù)表明,CT 成像指標(biāo)對肺腫瘤治療結(jié)果具有預(yù)后預(yù)測作用。如Sun Y 等[11]探討基于CT 成像的放射組學(xué)在預(yù)測純磨玻璃結(jié)節(jié)表現(xiàn)的浸潤性腺癌中的價值。研究人員從每個標(biāo)記的結(jié)節(jié)中提取放射組學(xué)特征,使用訓(xùn)練集中最小絕對收縮和選擇算子(LASSO)構(gòu)建Rad 評分,然后進(jìn)行多因素Logistic回歸分析,建立影像學(xué)模型和影像學(xué)-影像組學(xué)組合模型。并基于多變量邏輯回歸分析建立了個體預(yù)測列線圖,結(jié)果顯示基于放射組學(xué)的列線圖結(jié)合了Rad 評分、邊緣、毛刺和大小,可作為純磨玻璃結(jié)節(jié)患者浸潤性預(yù)測的非侵入性生物標(biāo)志物。Yu L 等[12]利用基于CT 圖像特征的多種機(jī)器學(xué)習(xí)算法,探索可用于診斷和預(yù)測非小細(xì)胞肺癌病理分期的成像生物標(biāo)志,發(fā)現(xiàn)CT 影像特征可以準(zhǔn)確預(yù)測非小細(xì)胞肺癌患者的病理分期,并且該研究確定了可用于診斷非小細(xì)胞肺癌患者病理分期的潛在成像生物標(biāo)志。
類3:支持向量機(jī)在腫瘤預(yù)后預(yù)測中的應(yīng)用。支持向量機(jī)是腫瘤預(yù)測中廣泛使用的一種機(jī)器學(xué)習(xí)方法,其原理是將數(shù)據(jù)的初始向量映射到高維空間,最終尋找到一個超平面,將標(biāo)注的訓(xùn)練集中的數(shù)據(jù)分成兩類,并且該超平面與類域邊界的垂直距離最大[13]。本研究發(fā)現(xiàn),支持向量機(jī)在腫瘤預(yù)后預(yù)測中有較多的應(yīng)用。有研究使用最小二乘支持向量機(jī)和隨機(jī)森林算法來識別與乳腺癌細(xì)胞系對治療劑反應(yīng)相關(guān)的分子特征。Yang HX 等[14]構(gòu)建了8 個基于支持向量機(jī)的列線圖,用以預(yù)測食管鱗狀細(xì)胞癌術(shù)后的遠(yuǎn)處轉(zhuǎn)移,結(jié)果發(fā)現(xiàn)以臨床病理特征和分子標(biāo)志物為變量建立的支持向量機(jī)模型有助于識別術(shù)后遠(yuǎn)處轉(zhuǎn)移高風(fēng)險的食管鱗狀細(xì)胞癌患者。
類4:計算生物學(xué)的方法學(xué)研究。生物信息學(xué)和機(jī)器學(xué)習(xí)的進(jìn)步促進(jìn)了基于生物信息組學(xué)的生物標(biāo)志物的發(fā)現(xiàn)和驗證,本研究也發(fā)現(xiàn)研究人員開展了較多的計算生物學(xué)方法研究。研究人員從遺傳學(xué)角度出發(fā),主要利用基因表達(dá)譜、腫瘤表達(dá)調(diào)節(jié)、突變等各類數(shù)據(jù)進(jìn)行各種機(jī)器學(xué)習(xí)建模,尋找腫瘤生物標(biāo)志物。如van Ijzendoorn D 等[15]使用基因表達(dá)數(shù)據(jù)通過機(jī)器學(xué)習(xí)分析確定軟組織肉瘤的新型診斷和預(yù)后標(biāo)志物以及治療靶點,該研究通過隨機(jī)森林算法確定了軟組織肉瘤的新診斷標(biāo)志物,并用k 近鄰算法識別出一些預(yù)后基因是預(yù)測疾病結(jié)局的重要因子。Long NP 等[16]用隨機(jī)森林方法對多平臺結(jié)直腸癌的轉(zhuǎn)錄組學(xué)數(shù)據(jù)進(jìn)行特征選擇,并使用隨機(jī)森林、邏輯回歸、樸素貝葉斯和k 近鄰模型對所提出的生物標(biāo)志物的診斷性能進(jìn)行了基準(zhǔn)測試。
類5:神經(jīng)網(wǎng)絡(luò)、統(tǒng)計模型等算法研究。本研究所提及的神經(jīng)網(wǎng)絡(luò)指人工神經(jīng)網(wǎng)絡(luò),亦稱計算機(jī)神經(jīng)網(wǎng)絡(luò),是一種模仿動物的神經(jīng)網(wǎng)絡(luò)特征,進(jìn)行分布式并行信息處理的數(shù)學(xué)模型。這種網(wǎng)絡(luò)依靠系統(tǒng)的復(fù)雜程度,通過調(diào)整內(nèi)部大量節(jié)點之間相互連接的關(guān)系,從而達(dá)到處理信息的目的。在腫瘤預(yù)后預(yù)測領(lǐng)域,神經(jīng)網(wǎng)絡(luò)是一種經(jīng)典的算法,研究人員常將其與其他統(tǒng)計模型算法進(jìn)行比較。Hu SB 等[17]從電子病歷中獲得血液惡性腫瘤患者的常規(guī)生命體征和實驗室檢查數(shù)據(jù),使用神經(jīng)網(wǎng)絡(luò)算法建立預(yù)測成年住院患者臨床惡化(進(jìn)入ICU 和心臟驟停)事件的模型,并將神經(jīng)網(wǎng)絡(luò)模型的性能與VitalPac 早期預(yù)警評分進(jìn)行比較,結(jié)果顯示神經(jīng)網(wǎng)絡(luò)模型優(yōu)于現(xiàn)有模型,顯著提高了陽性預(yù)測值。Kuo RJ 等[18]建立了一種預(yù)測前列腺癌預(yù)后的兩階段模糊神經(jīng)網(wǎng)絡(luò),結(jié)果表明其所提出的兩階段模糊神經(jīng)網(wǎng)絡(luò)比其他算法可以更準(zhǔn)確地預(yù)測前列腺癌的預(yù)后。
類6:深度學(xué)習(xí)在腫瘤預(yù)后預(yù)測中的研究。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)領(lǐng)域中一個新的研究方向,深度學(xué)習(xí)的引入使機(jī)器學(xué)習(xí)更接近于人工智能。和其他機(jī)器學(xué)習(xí)算法相比,深度學(xué)習(xí)出現(xiàn)較晚,本研究發(fā)現(xiàn)其在腫瘤預(yù)后預(yù)測中的相關(guān)研究始于2016 年,但很快有學(xué)者開展了大量的研究,使其成為腫瘤預(yù)后預(yù)測機(jī)器學(xué)習(xí)領(lǐng)域研究數(shù)量最多的熱點方向,尤其是在乳腺腫瘤和前列腺腫瘤的診斷影像分析、病理學(xué)中具有較多應(yīng)用。
綜上所述,目前國際上腫瘤預(yù)后預(yù)測領(lǐng)域的機(jī)器學(xué)習(xí)研究快速發(fā)展,其中深度學(xué)習(xí)在該領(lǐng)域表現(xiàn)出最大的研究熱度。但該領(lǐng)域目前所研究的腫瘤主要集中在腦腫瘤、乳腺腫瘤、肺腫瘤、前列腺腫瘤,科研人員可以關(guān)注其他部位的腫瘤,充分運(yùn)用機(jī)器學(xué)習(xí)的方法開展預(yù)后預(yù)測研究。