王婷婷 陳娟 張婷 歐陽昭連
中國醫學科學院醫學信息研究所,北京 100020
生物標志物是指能夠通過化學或生物測試預測機體生理狀態、病理過程或藥物干預反應的指示物[1-3],常用于疾病診斷和分類,監測疾病發展,評價新藥等[4-7],對疾病的防控和治療具有重要價值。然而,目前應用到臨床或藥物開發中的生物標志物非常有限[8]。數據收集、樣品質量及生物檢測穩定性等方面的挑戰阻礙了生物標志物的研究進程[9]。近年來,人工智能在生物標志物研究領域的應用日益受到青睞,降低了成本,縮短了識別和臨床驗證周期[10-13]。本研究基于科技論文研究全球各國在人工智能輔助生物標志物領域的基礎研究現狀和實力,以期為我國科研人員提供參考。
在Web of Science 數據庫中檢索文章題目、摘要或關鍵詞中包括人工智能和生物標志物的文獻,檢索時間為從1970 年至2020 年7 月,文獻類型為Article或Proceeding paper,會議摘要不納入檢索結果。
對Web of Science 數據庫中人工智能輔助生物標志物研究相關論文進行以下幾方面的分析:①全球論文數量與發展趨勢;②對題目和摘要內容切詞后進行高頻詞聚類分析,研究全球研究熱點;③從論文數量、總被引頻次和篇均被引頻次等角度分析各國家和機構的研究規模及影響力;④了解全球及各國國際合作情況。
1970 年至2020 年7 月,人工智能輔助生物標志物研究的相關論文共計10 281 篇,其中2010 年至今共9223 篇,占89.71%。論文數量年度分布見圖1,20 世紀90 年代才開始有文獻發表,2010 年之后發文量快速增多,近10 年復合增長率達21.36%。

圖1 人工智能輔助生物標志物研究的科技論文年度分布
研究熱點主要包括三方面:第一方面(藍色區域)代表性關鍵詞包括癌癥、表達、預后、基因、生存、治療反應、預后、療法等,主要涉及基于生物標志物的癌癥發病、疾病進展、治療效果及預后預測研究;第二方面(紅色區域)代表性關鍵詞包括靈敏度、特異度、曲線下面積、血清樣本、特征曲線等,主要與生物標志物檢測及診斷方法研究相關;第三方面(綠色區域)代表性檢測包括特征、分類、網絡、準確性、性能、技術、圖像、支持向量機等,主要與模式識別研究相關,即采用計算方法根據樣本的特征劃分類別。見圖2。

圖2 人工智能輔助生物標志物研究的研究熱點
人工智能輔助生物標志物研究領域的論文數量排名前10 位的國家,以及各國論文被引用情況見表1。

表1 人工智能輔助生物標志物研究的論文數量排名前10 位的國家
發文數量。論文數量排名全球前五位的國家依次是美國(4331 篇)、中國(2250 篇)、英國(1125 篇)、德國(992 篇)和加拿大(610 篇),美國領先優勢明顯,中國緊隨其后。
發文影響力。總被引頻次排名前五位的國家依次是美國(114 774 次)、英國(28 588 次)、德國(26 601 次)、中國(26 124 次)和加拿大(17 135 次),這5 個國家中,中國的篇均被引頻次為11.61 次/篇,其他4 個國家均超過20 次/篇。從高被引論文來看,美國高被引論文多達80 篇,中國、英國和德國均為30 余篇。
發文數量排名前25 位的機構以及各機構論文被引用的情況見表2。

表2 人工智能輔助生物標志物研究領域論文數量排名前25 位的機構
發文數量。排名前25 位的機構中絕大部分為美國機構(16 家,占64%),另有中國機構3 家(中國科學院、上海交通大學和復旦大學)、法國機構3 家,德國、加拿大和英國機構各1 家。這些機構以高校或科研院所為主,未見任何公司進入全球前25 位。
發文影響力。加州大學系統和哈佛大學的總被引頻次遙遙領先,分別為高達19 492 次和17 548 次。中國科學院、上海交通大學和復旦大學的總被引次數分別為3662 次、1443 次和2422 次,總體影響力相對較弱。這三所大學論文的篇均被引頻次分別為17.27 次/篇、11.10 次/篇、18.92次/篇,與加州大學系統(40.78次/篇)、梅奧診所(39.42 次/篇)、約翰霍普金斯大學(36.70 次/篇)等機構相比差距較大。
美國與其他國家合作最多,共計2615 次,英國和德國分別與其他國家合作1704 次和1446 次,其他國家的國際合作次數均不足1000 次。從每篇文章的平均合作次數來看,美國每篇文章平均合作次數為0.60。中國平均0.39 次,無論是從合作總次數還是每篇文章平均合作次數來看,都比美國的國際合作力度弱。歐洲各國傾向于參與國際合作研究,每篇文章平均合作次數超過1 次。僅展示論文數量超過100 篇的23 個國家見表3。

表3 各國在人工智能輔助疾病預測領域的國際合作次數
從具體合作國別來看,美國與中國合作高達481 次,與英國、德國和加拿大分別合作314、282 次和234 次,與其他國家的合作相對較少。中國與美國合作最多(481 次),與其他國家合作均不足100 次。見圖3。

圖3 人工智能輔助生物標志物研究領域的全球國際合作情況
生物組學技術的發展加速了生物標志物的開發和鑒定,但生物組學大數據具有多元高維和多源異質以及噪聲高等特點[14-16]。近10 年來,隨著人工智能技術的日益成熟,多種算法平臺被開發用于處理復雜的生物組學大數據,在生物標志物的研究中展現出巨大的潛力[17-19]。
美國研究規模和影響力均遙遙領先。首先,在戰略布局方面高度重視?!蛾P鍵路徑計劃》及《國家人工智能研究和發展戰略計劃》等政策啟動以來,生物標志物及醫療人工智能的研究受到越來越多的關注和支持[20]。同時,生物組學數據是人工智能輔助生物標志物開發的基礎,在此方面,美國已經搭建了較為成熟的醫療大數據平臺[21]。此外,美國眾多大學或研究機構綜合實力居于世界前列,在生物標志物以及人工智能領域的基礎研究中均有豐厚的積累,奠定了基礎。
歐洲各國,以英國和德國表現較為突出。2015 年的歐洲藥品管理局路線圖中明確了對生物標志物與個性化醫療的支持[1]。同時,歐洲各國在人工智能領域重視國際合作,由25 國共同簽署的《人工智能合作宣言》,歐盟委員會發布的人工智能白皮書均強調加強各國間的合作[22]。但可能是由于歐洲高度重視醫療人工智能中的倫理挑戰和數據安全,對發展有所限制,導致其研究實力仍然與美國相差較大[23]。
我國在研究規模上僅次于美國,這與我國的布局密切相關?!笆濉庇媱澲忻鞔_指出要全面提升生物技術產業的核心競爭力,加速生物標志物在臨床及新藥開發中的應用。《“互聯網+”人工智能三年行動實施方案》《國務院辦公廳關于促進和規范健康醫療大數據應用發展的指導意見》等一系列政策[24]推動了人工智能在醫療領域的研究與應用。但我國人工智能醫療領域數據獲取難度大、醫療大數據平臺建立不完善、人工智能算法缺乏創新等問題[25-27]使得研究成果的影響力較弱。同時,我國合作力度較弱,國內各研究機構可以重點關注前沿機構的研究方向和研究熱點,并鼓勵開展國際作,提升國際競爭力。