林紫洛 楊雪梅 于詩睿 陳逸菲 唐小利
(中國醫學科學院/北京協和醫學院醫學信息研究所/圖書館 北京 100005)
近年來,我國對突破性研究的重視程度逐步提高。具體到生物醫學領域,在一些情況下生物醫學創新受到關鍵科學發現的指導,當醫療供應方取得科學突破或新進展時,可能促成醫學創新[1]。學術論文作為基礎研究工作的重要呈現形式,具有發現新觀點、傳播新方法、承載新理論、推廣新技術等作用[2],若能在論文發表初期把握其中反映的重大突破,有助于推進突破性研究的遴選與培育,為相關機構加強重要研究項目資助提供參考依據。在論文寫作過程中作者有時會采用特定描述聲明一項研究的首創性,分析這些描述的語言學特征可以揭示論文新發現的語言模式[3]。因此,通過論文文本的語言學特征識別潛在突破性論文是目前值得探索的方向。
突破性研究指根本性突破或重要進展,影響力可輻射其他領域,同時具有原創性[4]。記錄突破性研究、表現突破性意義的學術論文為突破性論文,其識別方法分為基于文獻計量學和基于文獻內容兩種。
基于文獻計量學的識別方法主要可分為引文頻次分析、引文網絡分析和多維分析。引文頻次分析從論文被引頻次、引用時間分布入手,進行統計分析或繪制引文曲線。早期識別潛在突破性論文的方法是找到高被引論文[5-6]。隨著引文分析方法的發展,研究者逐漸意識到僅使用引文頻次不足以衡量論文價值,不再通過設置被引閾值篩選論文,如Bornmann L等[7]通過計算學科領域和時間的動態標準化影響評分來識別突破性論文。引文網絡分析的基礎是文獻之間的相互引證。Marx W等[8]引入引文出版年光譜,通過引文高峰年份找到關鍵的開創性論文。Huang Y H等[9]認為突破性研究會引起現有范式論文引用鏈遭到破壞,計算“破裂分數”以識別這種變化。引文分析方法表現良好,但在論文發表初期,與引用相關的特征并不明顯,需要一定時間窗口的積累。多維分析從論文、期刊、作者等多個維度遴選文獻外部特征,采用回歸分析或機器學習方法進行突破性識別。如Wolcott H N等[10]考察引用計數、是否開放獲取、合著者數量等一系列指標,使用隨機森林模型評估其識別突破性論文的能力。梁國強[11]遴選變革性研究的參考文獻及施引文獻特征,采用熵權法、因子分析法等構建變革性研究的早期識別模型。這類方法避免了使用單一指標無法全面測度研究的問題,但是部分特征不易獲取或計算復雜,在推廣應用上有所局限。
相比起引文特征,論文的文本特征不需時間積累,更有利于突破性論文的早期識別,基于內容的識別方式應運而生。目前基于文獻內容的識別方法所用語料主要是引用語句。Small H等[12]將引用時使用“discovery”“discover”和“discovered”等術語的句子稱為發現句,并提出用機器學習方法識別描述科學發現的論文。王雪等[13]獲取突破性文獻集引用語句中表征突破性評價意義的特征詞,提出基于引用語句,結合深度學習算法的突破性論文識別方法。引用語料的獲取受限于論文全文的可訪問性,相比之下,摘要的可獲取性更強。在摘要中作者可能討論研究目的、總結研究成果、評估研究意義或影響,從而突出論文價值。杜建等[14]在分析典型變革性研究論文中的表達時發現,其標題或摘要在表述上突顯變革性,如“propose a new type of…,we overcome the limit by…”。從這個角度考慮,論文標題或摘要若出現類似術語可能是潛在的突破性論文。Fischer I等[15]將隨機試驗報告按照重要性分類,使用神經網絡方法學習摘要語言模式,發現報告的重要程度與摘要語言的情感相關。已有研究證明基于內容識別突破性論文具備可行性,且摘要語料更易獲取,能夠彌補引文滯后性導致的引用不足,因此本文旨在探索使用論文摘要文本識別生物醫學領域潛在突破性論文的方法。
3.1.1 金標準數據集 突破性論文摘要特征提取的首要任務是選擇具有代表性的突破性論文作為金標準數據集,這些論文相較于其他論文可能具有突出的語言學特征。本研究從兩方面考慮,將以下4個來源的論文納入金標準數據集。一方面是具有滯后性的重大科學貢獻出版物評審,如科學界最高獎項諾貝爾獎,其官網自1981年開始在介紹當年獲獎者時會列舉其關鍵論文;《自然》雜志不定期發布“里程碑”系列專題,總結某領域在過去取得的突破性進展。另一方面是針對近期發表論文的評審,如《科學》雜志自1996年起每年評選出當年最具代表性的10個科學突破并提供參考文獻;Faculty Opinions數據庫遴選生物醫學領域重要論文,由領域專家對論文進行評價和推薦,少數論文被推薦為“里程碑”。資料獲取時間為2022年10月。刪除其中綜述、評論、新聞等類型的文獻并去重,最終得到968篇(89.5%)可獲取摘要的突破性論文。
3.1.2 突破性特征句式 為說服讀者接受文章觀點,作者會采用顯性或隱性描述闡明研究的重要意義或新穎成果[16]。對論文摘要進行語言學特征分析,分析角度包括常用于表述突破性研究的特征詞及其搭配、特征句在摘要中的位置等。采用人工判別方式閱讀金標準突破性論文摘要,找出表明研究具有新發現、新觀點、新方法以及存在重要意義或貢獻的句子。單詞具有廣泛搭配,某個詞在詞組中的含義可能與原來不同,因此從前述篩選的句子中提取出特征詞及其搭配,根據句中單詞的依存關系組成特征句式。提取時,將名詞分別以單數和復數形式表示,將動詞以不同時態表示,見表1。

表1 突破性特征句式提取過程示例
3.1.3 突破性特征句位置特點 摘要是對文獻內容的高度概括,為盡可能多提供信息,作者可能會將背景、目的、方法、結果、結論等內容組織進摘要中,描述這些內容的句子稱為語步??萍嘉墨I知識人工智能引擎SciAIEngine[17]集成自動識別摘要語步類型功能。使用其對摘要進行語步劃分,并統計突破性特征句在摘要中的位置,進一步考察其位置特點。
基本科學指標數據庫(essential science indicators,ESI)是評估學者、機構等學術水平及影響力的重要指標,入選ESI一定程度上說明論文具有較高學術價值,更有可能是突破性論文。與之相對,影響因子較低的期刊論文中存在突破性論文的可能性較低。因此從近10年生物醫學領域ESI論文中隨機抽取一部分含摘要的非綜述類論文,同時獲取與ESI論文發表年份和學科領域相同,被《期刊引證報告》(journal citation report,JCR)收錄為Q4期刊分區的論文。將突破性論文的識別任務轉換為“是否為突破性論文”的二分類任務,對摘要進行人工標注,若摘要表征文章具有重大發現或首創性,則標注為“1”,反之標注為“0”。
3.3.1 摘要語步劃分 由于學術論文摘要之間存在體量差異,一些較長摘要中存在諸多非關鍵信息句,可能影響利用摘要識別突破性研究的效果,因此引入語步識別方法拆分摘要結構,得到背景、目的、方法、結果、結論,對文本進行降維處理。此外,通過前期獲取的突破性特征句式匹配摘要中的特征句,特征句和摘要語步共同構成輸入語料。
3.3.2 識別模型構建 采用深度學習算法進行識別模型訓練,自動學習語言學特征并實現分類。前期使用小樣本測試支持向量機(support vector machine,SVM)、卷積神經網絡(convolutional neural networks,CNN)、深度神經網絡(deep neural networks,DNN)、雙向編碼器表征(bidirectional encoder representation from transformers,BERT)等多種深度學習算法,發現BERT和DNN表現較優,并且DNN能以更快速度與更優性能得到和BERT相近的結果,因此選擇DNN算法進行識別模型構建。DNN是一種多層深度神經網絡算法,包括輸入層、隱藏層和輸出層,層與層之間存在相互連接、具有某種線性關系的神經元,再經由激活函數得到分類結果。在模型訓練階段,首先由隱藏層將語料中的詞轉化為固定維度的詞向量,以表示不同詞之間的語義關系,然后模型自動學習輸入語料的語言特征與人工標注結果的關系;在測試階段,模型將對語料進行同樣處理,輸出標簽為“1”和“0”的分類結果及對應概率。
通過人工判別方式從395篇金標準數據集摘要(占總數的40.8%)中篩選出477個顯性描述文章突破性意義的句子,并提取出1 192個突破性特征句式。在含有顯性突破性特征句的摘要中,特征句在各語步中出現的概率分別為背景2.0%、目的16.6%、方法1.1%、結果13.7%、結論66.7%,說明作者撰寫摘要時更可能在目的、結果或結論中使用顯性表述闡明研究的突破性價值。在目的中出現次數較多的特征句式有“第1次(for the first time)”等,表明研究的重要意義;結果中出現較多的特征句式有“我們找到(we found)”“我們發現(we discovered)”等,說明研究的關鍵發現;結論中出現較多的特征句式有“據我們所知(to our knowledge)”“提供……證據(provide...evidence)”等,突出研究的特殊價值或創新性貢獻。
獲取5 000條ESI論文摘要(占近10年生物醫學ESI論文總數的6%)和5 000篇被JCR收錄的Q4期刊分區論文摘要,923篇摘要經人工標注后標為“1”,9 077篇摘要標為“0”,正負樣本比例約為1∶9。樣本不平衡可能影響預測結果,可以采用減少負樣本或增強正樣本的方法解決??紤]到減少負樣本可能忽略數據中的有用信息,本研究使用美國Protago實驗室提出的簡單數據增強技術(easy data augmentation,EDA)增加正樣本數量[18],使正負樣本比例達到1∶1,模型性能得到一定提升。
對摘要進行語步劃分,其中含目的語步的摘要有7 975篇、結果8 658篇、結論9 738篇,使用不同語步作為輸入語料進行自動識別模型訓練,見表2。可以看出,使用語步訓練的模型識別效果優于使用摘要,而加入特征句能夠有效提升識別效果。整體而言,使用目的、結論語步和特征句的語料訓練模型識別效果最好,F1值為0.835 1。

表2 突破性論文摘要識別模型訓練結果
T細胞作為特殊淋巴細胞,在免疫系統中發揮著重要作用,識別T細胞生物學發展進程中的重大突破,有助于未來研究人員對高效免疫治療方法的探索。實證測試集的正樣本包括兩個部分。一是Faculty Opinions數據庫中每篇受推薦的論文都有相應評級與分類,評級說明研究的重要程度,exceptional等級重要程度最高,分類包括controversial、good for teaching、new finding等10類,其中new finding類表明該研究存在新發現,被推薦為new finding類的次數越多可能表明研究首創性越強。評級為exceptional且被推薦為new finding類次數大于6的T細胞領域論文共125篇,約占該數據庫中T細胞領域受推薦文章的2%,是較頂尖的醫學論文,可視為潛在突破性論文。二是《自然》雜志于2022年12月推出T細胞“里程碑”系列專題,回顧過去60年內T細胞研究關鍵進展,并總結34篇相關里程碑文章。兩部分內容去重后得到154篇正樣本論文。負樣本獲取方式與訓練數據相同,以相同數量T細胞領域的Q4期刊分區論文作為負樣本,將測試集的摘要文本語料輸入識別模型后得到預測結果。
4.4.1 識別效果評估 利用訓練中識別效果最優的“目的+結論+特征句”模型對T細胞領域測試集進行識別,共識別出90篇突破性論文,其中65篇被收錄在Faculty Opinions數據庫或《自然》雜志“里程碑”系列,精確率為72.2%。在全部154篇正樣本中,有89篇未被識別為突破性論文,其中37篇摘要沒有表征論文突破性意義的句子,調整后對突破性論文識別的召回率為52.3%??傮w來看,本研究構建的摘要識別模型一定程度上能夠識別出潛在突破性論文,精確率略高于召回率。
4.4.2 正樣本識別結果分析 進一步分析正樣本中的兩類論文,Faculty Opinions數據庫的潛在突破性論文精確率為76.1%,召回率為43.2%,而《自然》雜志“里程碑”系列論文精確率為61.9%,召回率為39.4%,識別效果弱于Faculty Opinions數據庫論文。可能的原因是“里程碑”往往是某一研究方向的開創者,顛覆了過去的研究視角或模式,研究成果有待時間檢驗,作者在撰寫摘要時傾向于避免使用過于積極的話語表述,但具有開創性的里程碑論文畢竟是少數,大多數突破性論文屬于領域內的漸進式重大進展,相對而言作者在摘要中使用顯性特征句說明研究貢獻的概率更高。
本研究在分析金標準突破性論文摘要語言學特征的基礎上,提取摘要突破性特征句式,并利用深度神經網絡DNN訓練突破性論文自動識別模型。實踐說明通過摘要的語步及語言學特征識別突破性論文具有可行性,能夠避免利用引文相關指標進行識別的時滯性問題,為突破性論文的早期識別提供參考。但本研究也存在局限性,在具體醫學領域中進行實證時召回率較低,后續研究中可以將語言特征和計量特征相結合,驗證二者結合的方法是否能兼顧精確率與召回率,并盡可能實現早期識別。此外,模型語料中使用語步結構,語步識別工具精度會對模型實證研究結果造成一定影響。