丁恒,張靜,陳佳卓,曹高輝
(華中師范大學信息管理學院,武漢 430079)
學術文獻作為人類社會化進程中不可或缺的知識載體之一,以其無限的方式塑造著人類的思維、行為和決策:科學家通過批判性地閱讀學術文獻,激發新的思維,展開新的研究并創造新的知識;專業醫療人員依靠學術文獻指導臨床實踐,并為患者提供最新的醫療建議;政策制定者借助最新的學術文獻,以科學證據為基礎制定政策和規定;商業人員則通過學術文獻了解相關市場的消費者行為和偏好,為產品開發和市場推廣提供指導。然而,隨著學術文獻數量的爆炸性增長,如何在信息過載的時代中幫助用戶更好地檢索和利用學術文獻知識,已成為信息資源管理、知識管理、自然語言處理和信息檢索領域學者的必答之問。
自圖書情報學領域出現以來,學術文獻的分類、組織、檢索和利用始終是領域內的核心研究課題,在人工智能符號主義時代做出了很多重要貢獻。例如,①創造系統化的分類體系、主題詞表等工具,用于描述和索引文獻內容[1];②發展和應用各種知識組織模式和技術進行文獻組織[2];③制定檢索策略、構建索引詞表、開發檢索語言和搜索算法,以提高文獻檢索效率和準確性[3]。然而,學術文獻作為由人類以自然語言形式創作的一種知識形態,本質上屬于非結構化的、具有稀疏符號序列特點的文本。對于基于數值計算基礎構建的現代信息/計算機系統而言,這種符號序列化的表示方式存在著固有差異和隔閡。
近年來,計算機領域學者針對符號化表示方法的缺陷,以深度神經網絡為核心工具,利用非結構化純文本或結構化知識庫作為數據源,將文本表示方法從依賴詞匯符號的稀疏表示推進到以數值向量為基礎的稠密表示,即所謂的文本/語義/知識表示學習[4]。相較于符號化的稀疏表示,基于數值向量的稠密表示不僅能體現出文本在詞匯符號層面的關系,而且適用于挖掘文本間高層語義間的聯系。計算機學科對文本表示學習的探索主要集中在:①創造語義表征能力更強的神經網絡結構,如ELMo(embeddings from language models)[5]和Transformer[6];②尋找適用于不同領域和任務的模型訓練方式,包括訓練任務的構造和訓練數據的選擇,如BERT(bi‐directional encoder representations from transformers)[7]和SpanBERT[8]。圖情領域學者敏銳地意識到稠密向量表示對學術文獻知識加工和組織具有潛在價值,在實踐應用層面展開了積極探索。例如,文獻[9-10] 以BERT神經網絡構建語言模型,用于學術詞語功能識別和學術實體標注任務,利用大規模學術文本數據從詞匯層次出發研究學術詞語的數學表示方法;文獻[11-12] 將深度神經網絡模型用于學術文本句子或段落的向量表示,實現學術文本句子分類和學術文本段落結構功能識別任務。
已有研究表明,利用大規模學術語料中無標注文本單元(詞與詞、句與句)間的鄰近關系訓練神經網絡,能夠有效提升模型的語義表達能力,從而有益于學術文獻分類、檢索和推薦等下游任務[13]。在一項被簡稱為SPECTER(scientific paper embed‐dings using citation informed transformers)[14]的工作中,研究者不僅采用Transformer神經網絡將學術文獻編碼成表示向量,并且為神經網絡輸出的表示向量附加限制,即假設存在引用關系的文獻間向量距離較近,而不存在引用關系的文獻間向量距離較遠;研究結果表明,基于引用關系的文獻距離假設可顯著提升模型表示能力。根據圖情領域關于引文的研究可知,引用動機是復雜的,被引文獻與施引文獻不一定在語義內容上十分相關,而非引用文獻之間不一定完全無關,因此,我們認為SPECTER的假設可能引入噪聲訓練樣本,從而影響模型最終的性能。
盡管SPECTER由計算機科學家提出,但基于引用關系衡量文獻間相關性的思想在圖情領域早已有論述[15]。此外,有些圖情領域學者發現引文共現層次關系[16]和引文鄰近距離[15]均可被用于衡量文獻間距離。例如,Elkiss等[16]發現,“在相同的章節、段落或句子內共同引用的論文更相似”(以下簡稱“引文共現層次關系假設”);Eto[15]提出“彼此距離較遠的兩個引文比彼此距離較近的引文關系弱”的假設(以下簡稱“引文鄰近關系假設”)。基于上述觀點,本文提出了一種新的引文共現層次采樣算法,該算法首先將文獻的篇章結構轉換為引文共現層次樹,然后對多文獻的引文共現層次樹進行融合構造異構引文共現網絡,最后基于異構引文共現網絡進行正負樣本采樣,優化學術文本的語義表征向量;并且通過論文分類、用戶行為預測、引文預測和論文推薦四類下游任務,證實該方法在學術文獻特征表示上的有效性,從而回答以下兩個研究問題:(1)引文共現層次關系假設是否有助于學術文獻表示學習?(2)引文鄰近關系假設是否有助于學術文獻表示學習?
文本表示是指將自然語言符號轉化為計算機可處理、可計算的數學形式,是自然語言處理、文本分析挖掘任務中一個基礎且重要的步驟。當前,文本表示方法主要有基于向量空間模型的方法[17]、基于主題模型的方法[18]、基于圖的方法[19]、基于知識庫的方法[20]以及基于神經網絡的方法[21]。
基于向量空間模型的方法通過特征空間構造和特征權重計算兩個步驟,將文本表示為特征空間中的高維向量,維度對應于文本的特征項,特征空間不同方向的坐標對應文本在不同特征項上的權重值。不同的向量空間模型主要是在特征項選擇方式或特征權重計算公式兩個方面進行差異化設計,常見的特征項包括詞根[22]、詞[23]、短語[24]及n-gram[25]等,特征項權重則主要采用詞頻、對數頻率權重、TF-IDF(term frequency-inverse document frequency)[26]和內部類頻率[27]等計算方法。向量空間模型方法的特征項選擇建立在詞項組合和篩選的基礎上,容易導致特征項數量,即特征空間維度過高,從而陷入維數災難[28]。
基于主題模型的方法通過概率生成模型將高維詞項空間映射到低維的主題空間,在降低空間維數的同時盡可能保留文本的主題語義信息,主題模型特征空間中的每個維度對應一個主題,而主題則通常是一組詞的聚類。經典概率主題模型LDA(latent Dirichlet allocation)[29]依據“文檔-主題”及“主題-詞項”的先驗分布來估計一個概率圖生成模型,從而實現將“文檔-詞項”矩陣轉化為“文檔-主題”矩陣和“主題-詞項”矩陣,該模型假設主題隨機變量服從Dirichlet分布且主題之間相互獨立,忽視了語料中不同主題之間的相關性。有些研究針對LDA模型的假設缺陷進行了優化。例如,模型CTM(correlated topic model)[30]假設主題隨機變量符合邏輯斯蒂-正態概率分布,模型CGTM(correlated Gaussian topic model)[31]則運用詞潛入技術把主題描述為向量空間中的多維高斯分布。也有些研究則在文檔、主題、詞項之外引入新的建模變量,如情感主題模型[32]、鏈接主題模型[33]、作者主題模型[34]等。
基于圖的文本表示方法的核心思想是依據某種規則將自然語言文本轉化為圖結構,圖中的節點為文本單元,邊則表示文本單元之間的關系,文本單元節點和邊類型的不同是該系列方法間的主要差異來源,常見的文本單元節點包括字、詞、短語、實體、句子等,邊關系則可以考慮共現關系、句法關系和語義關系等。例如,TextRank模型[35]將名詞、動詞、形容詞等組合起來構造關鍵詞節點,然后采用關鍵詞共現關系構建節點之間邊。
基于知識庫的文本表示方法主要借用外部知識庫中的文本關聯關系對文本進行表示建模,相較于其他方法,其構造的語義特征空間更符合人類認知。例如,ESA(explicit semantic analysis)模型[36]利用維基百科知識庫中的概念構造語義特征空間,NTEE(neural text-entity encoder)模型[37]則在DBpe‐dia摘要語料和維基百科語料上捕捉詞、實體之間的語義聯系,構造文本和實體的表示向量。
基于神經網絡的方法利用多層深度神經網絡的語義特征抽取能力,能夠從海量無監督數據中逐級學習文本的有效特征表示,當前該方法研究的主要優化思路包括神經網絡架構優化和無監督訓練任務優化。其中,前者發展出LSTM(long short-term memory)、CNN(convolutional neural network)、Transformer等神經網絡模型架構,而后者發展出word2vec(中心詞預測和鄰居詞預測)[38]、BERT(鄰居句預測和掩碼預測)[39]、ALBERT(a lite BERT)(句子順序預測)[40]、BART(bidirectional and auto-regressive transformers)(句子排列)[41]、PEGASUS(pre-training with extracted gap-sentences for abstractive summariza‐tion sequence-to-sequence models)(空白句填寫)[42]等研究工作。
相較于其他文本表示方法,基于神經網絡的方法具有更強的表征能力,近期的大語言模型研究表明,拓展網絡深度和增大模型參數能夠極大地改善模型表征能力上限,并在零樣本學習、少樣本學習等任務上展現了令人驚嘆的優勢[43]。
不同領域中語言可能呈現截然不同的特質,有必要開展針對特定領域的文本表示學習研究。相較于社交媒體、文學小說、商務信件等日常生活類文本,學術文本具有語言結構規范、詞匯語義豐富、概念關系復雜等特點。如何充分挖掘學術文本間的關系、有效進行學術文本特征表示始終是情報學、語言學、計算機科學等學科領域的重要研究內容[44]。
根據處理文本粒度的差異,學術文本表示研究可分為詞匯層次、句段層次和文獻層次。其中,詞匯層次研究學術詞語的數學表示方法,主要用于學術詞語功能識別[9]、學術實體標注[45]、學術實體鏈接等任務;句段層次研究學術文本句子或段落的向量表示方法,主要用于學術文本句子分類[46]、學術文本段落結構功能識別[47]、學術段落檢索等任務;文獻層次的學術文本表示是研究如何構建文獻整體層面的語義表示方法,它與文獻分類、學術搜索和論文推薦等下游任務具有天然的適配性,因此,當前學術文本表示研究焦點已從詞匯句子層次轉移到文獻層次[48-50]。
文獻[13] 通過在大規模學術文獻語料庫(生物醫學和計算機科學)上微調BERT神經語言模型參數,構建了面向學術文本表示的SciBERT模型,并使用SciBERT模型抽取文獻標題和摘要文本的語義向量作為文獻層次的表示向量。文獻[44] 使用無監督圖神經網絡方法,從學術文獻關系網絡(引文網絡、共被引網絡和文獻耦合網絡)中學習通用的學術文獻特征表示向量,與SciBERT模型強調文本字面語義關系不同,該方法抽取的是文獻間的結構關系特征。文獻[13] 提出一種SPECTER模型,該方法結合文獻間的相互引用關系構建訓練數據微調Sci‐BERT模型,從而將文獻間的結構關系特征融入文本語義向量。
從自監督對比學習的視角來看,SPECTER模型成功的關鍵在于采用學術文獻間的關系構造代理任務(pretext task),且通過三元組對比損失將目標(query)文獻與正樣本(positive)文獻的距離拉近,而將目標文獻與負樣本(negative)文獻的距離拉遠。文獻[51] 指出如何有效挖掘正樣本文獻以及負樣本文獻的選擇是影響學術文獻表示學習的關鍵,SPECTER模型將目標文獻引用的文獻作為正樣本,將隨機文獻作為目標文獻的負樣本,這種采樣方法有兩個缺陷:①引用文獻的動機是復雜的,被引文獻與施引文獻不一定在語義內容上十分相關;②隨機負樣本文獻不一定與目標文獻無關,即不精準的采樣方法會引入噪聲訓練樣本,從而影響模型最終的性能。針對上述問題,本文提出了一種新的引文共現層次采樣算法,可以有效地排除噪聲訓練樣本,彌補SPECTER模型采樣方法的缺陷。
對于給定的文獻集合D=(d1,d2, …,dn),di是D中的一篇文獻,文本表示學習的目標是找到一個映射函數F,對于任意文獻di可將其表示為k維向量,即F(di)→(x1,x2,…,xk),且該語義向量可適用于不同的下游任務。已有研究表明,自監督對比學習框架能夠對學術文本進行有效語義表征[13],挖掘文獻間的引用關系有利于優化文獻層次的學術文本表示[51]。受此啟發,本文采用自監督對比學習框架,提出了一種基于引文共現的層次樹采樣算法,從結構化全文數據中挖掘文獻間的潛在關聯,構造自監督前置訓練任務用于訓練文獻級的學術文本表示模型,模型總體框架如圖1所示,主要包括3個部分。

圖1 模型總體框架
(1)引文共現層次采樣算法。該模塊從結構化全文數據中挖掘不同層次的引文共現關系,構建引文共現層次樹,然后融合成異構引文共現網絡,并進行采樣構造三元組訓練數據(q,q+,q-)。
(2)語義編碼器。該模塊采用Transformer神經網絡架構,對輸入的學術文本進行特征抽取,將di∈D映射為特征空間中的特征向量vi=(x1,x2,…,xk)。
(3)三元組對比損失函數。該模塊定義了模型的優化目標,使訓練數據中相關樣本(q,q+)的特征向量距離縮小,不相關樣本(q,q-)的特征向量距離拉大。
自監督對比學習中,三元組(q,q+,q-)是指由3個樣本構成的一條訓練數據,其中q稱為目標樣本,q+和q-分別為正樣本和負樣本。在本文中,若q是給定的一篇學術文獻,q+代表與q相關/相似的學術文獻,q-則可以代表:①與q不相關/不相似的文獻,常稱為簡單負樣本;②與q相關/相似但相關/相似程度小于q+的文獻,又稱困難負樣本。已有研究表明,自監督對比學習易受前置任務即三元組訓練數據挖掘的影響[40,49];具體而言,對于任意目標文獻q,如何定義相關與非相關,并從無標注數據中選擇正樣本q+和負樣本q-,是利用對比學習有效進行學術文本表示的核心問題。文獻[51] 認為,若目標文獻q引用了文獻q+,則兩者相關且q+可作為三元組中的正樣本;若目標文獻q未引用文獻q-,則q-可作為三元組中的負樣本。本質上,是將文獻引用看作語義相關,而無引用關系看作語義無關,然而目標文獻q引用的文獻q+不一定與文獻q語義相關,而文獻q未引用的文獻q-也可能與q語義相關,因此,該方法易導致引入噪聲數據。考慮到研究者在書寫學術論文時往往將相似的參考文獻并列/近鄰論述,即相關文獻在學術文獻結構化全文數據中分布距離較近,本文提出了一種引文共現層次采樣算法,具體如圖2所示。該算法將文獻的篇章結構轉換為引文共現層次樹,然后對多文獻的引文共現層次樹進行融合構造異構引文共現網絡,最后基于異構引文共現網絡進行正負樣本采樣,具體如下。

圖2 引文共現層次采樣
(1)單文獻引文共現層次樹構建。對于文獻集合中的每一篇文獻d,其參考文獻列表記為REFL=(ref1,…,reft),依據參考文獻REFL在文獻d的篇章結構布局構建引文共現層次樹tree(d),具體過程如下:首先,將文獻標題作為根節點,并以章節標題作為根節點的子節點,即章節層子節點;其次,對于每個章節節點,將該章節下的每個段落作為對應章節節點的子節點,即段落層子節點;再其次,對于每個段落節點,將該段落中的每個句子作為該段落節點的一個子節點,即句子層子節點;最后,對于每個句子節點,將句子中包含的參考文獻(引文)作為句子節點的葉子節點。對于任意引文refi和refj且i,j∈(1,t),若refi和refj擁有同一個章節祖先節點,則稱refi和refj為章節共現;若refi和refj擁有同一個段落祖先節點,則稱refi和refj為段落共現;若refi和refj擁有同一個句子父節點,則稱refi和refj為句子共現。
(2)跨文獻引文共現融合。對于文獻集合D=(d1,d2, …,dn)中所有文獻均可構建對應的引文共現層次樹tree(di),i∈(1,n)。算法第二步以所有引文共現層次樹為輸入,輸出一個異構引文共現網絡G,網絡G中的節點v為文獻集合D中出現的參考文獻,網絡的邊etype=(refi, refj), type∈{coSection,coParagraph, coSentence},分別表示文獻refi和refj曾經同時在某文獻的章節/段落/句子中共現。對于引文共現層次樹tree(d),遍歷該樹上的所有參考文獻節點refi∈REFL,若網絡G中不存在refi,則在G中添加refi。從tree(d)中任取兩個參考文獻節點refi和refj,若兩者在tree(d)中句子共現,則在網絡G中添加邊(refi,coSentence, refj);若兩者在tree(d)中段落共現,則在網絡G中添加邊(refi,coParagraph, refj);若兩者在tree(d)中章節共現,則在網絡G中添加邊(refi,coSection,refj)。對文獻集合D中所有文獻的引文共現層次樹重復上述操作,即可完成異構引文共現網絡G的構造。
(3)訓練數據采樣。給定異構引文共現網絡G=(V,E),V表示網絡中的節點集合,即文獻集合D包含的所有參考文獻;E表示網絡中節點間存在的邊,即任意兩節點在文獻集合D中是否存在章節/段落/句子共現。對于一篇目標文獻q,在異構引文共現網絡G中,隨機選擇K個鄰居節點作為正樣本q+,隨機選擇K個非鄰居節點作為負樣本q-,即構建K個三元組訓練數據。同理,對于一組N個目標文獻,重復上述過程構建N×K個三元組數據。
語義編碼器是一個能夠將學術文獻d的文本轉換為k維向量v=(x1,x2,…,xk)的神經網絡,理論上該模塊可采用任意神經網絡模型,鑒于Transformer架構[52]在自然語言處理任務中的優異表現,本文基于Transformer模型構建了具有提取上下文功能的語義編碼器Encoder,Transformer模型能夠利用自注意力機制捕獲單詞之間的長距離依賴關系,并根據上下文信息動態調整詞嵌入,相較于其他文本特征表示模型表現更好。學術文獻全文的長度一般在8000~10000單詞,超出了絕大多數Transformer模型的處理能力,考慮到文獻的標題和摘要提供了全文的簡潔而全面的概括,本文用特殊分割符[SEP] 將標題文本和摘要文本拼接起來,輸入語義編碼器獲取文獻的特征表示,即
自監督對比學習框架中,損失函數定義了模型優化的方向,它指導語義編碼器Encoder調整神經網絡層中的權重,輸出更符合優化目標的表示向量。本文采用三元組對比損失作為目標優化函數,其公式為
其中,vq、vq+、vq-分別表示目標文獻q、正樣本文獻q+和負樣本文獻q-的表示向量,對應于文獻在語義編碼器上的輸出向量。m表示用于控制正負樣本距離間的偏離量,使模型不需要考慮優化過于簡單的負例。dist(*)是距離函數,本文采用歐幾里得距離,表示文獻i特征向量第m維的數值,計算公式為
本文使用艾倫人工智能研究院(Allen Institute for AI)發布的S2ORC(The Semantic Scholar Open Research Corpus)數據集[53]抽取數據訓練模型,數據集靜態存儲版本為20200705v1。該版本數據集包含8100萬篇學術文獻元數據,其中1200萬篇文獻存在結構化的全文數據,囊括文獻ID、標題、摘要、章節標題、段落文本、參考文獻列表及參考文獻出現的位置等信息。首先,遍歷1200萬篇全文文獻數據,依據2.2節中的單文獻引文共現層次樹構建及跨文獻引文共現融合方法,構造異構引文共現網絡G,該網絡共有52620852個節點和2216391068條邊。其次,從SPECTER的訓練集三元組中抽取所有目標文獻的標題,并通過文本匹配獲取其在S2ORC數據集中對應的文獻ID,共計獲取目標文獻261821篇。最后,以上述文獻ID作為三元組采樣的目標文獻集合,采用2.2節中介紹的訓練數據采樣方法構造三元組數據,每個目標文獻采樣5個正樣本和5個負樣本,共計構造1309105個三元組。具體實驗中,進行了多組采樣策略,每組采樣策略均構造1309105個三元組,然后訓練對應的模型,采樣策略設置詳見3.3節。
本文采用SciDocs基準測試集[8]對實驗結果進行評估,該測試集包含論文分類、用戶行為預測、引文預測和論文推薦四類任務,每個任務均不對學術文獻表示向量進行額外微調,而是直接將文本表示模型輸出的表示向量作為輸入特征執行任務。例如,在論文分類任務中,每篇論文被文本表示模型轉化成向量后與一個簡單分類器相連,執行分類并匯報結果。在引文預測任務中,成對的文獻被文本表示模型轉化成兩個向量,然后與一個分類器相連進行二分類,其中,0表示兩個文獻沒有引用關系,1表示兩個文獻存在引用關系。除文本特征由文本表示模型抽取外,其他具體任務均由SciDocs評測腳本執行,以保證評價的公平性。論文分類包含MeSH(medical subject headings)醫學主題詞分類[54]和MAG(Microsoft academic graph)領域標簽分類兩個子任務,其任務評價指標為F1值,計算公式為
其中,Precison表示精確率;Recall表示召回率;F1值的取值范圍在0到1之間,越接近1,代表模型的分類效果越好。
用戶行為預測包括co-view共瀏覽和co-read共閱讀兩個子任務。co-view共瀏覽旨在預測用戶在同一會話中瀏覽的文獻集合,co-read共閱讀則是預測用戶在觀看某篇文獻頁面時是否會點擊其他文獻的獲取鏈接。該類任務采用nDCG(normalized dis‐counted cumulative gain)和MAP(mean average pre‐cision)兩個指標進行評價。nDCG值越大,代表模型的排序效果越好,即推薦結果和用戶真實興趣度的匹配程度越高;MAP反映的是平均精度,越接近1,說明排序效果越好。計算公式分別為
其中,f(di)表示文獻di的價值得分;K表示截取文獻數;|R|表示按價值得分從大到小排列的前K條文獻;AP值表示Precision和Recall曲線下的面積;N表示相關樣本總數。
引文預測任務分為引用預測和共引預測,即給定某篇文獻,預測其引用文獻和共引文獻,該類任務也采用nDCG和MAP兩個指標進行評價。論文推薦任務是根據查詢文獻向用戶推薦相似文獻列表,并通過點擊事件獲取用戶反饋,該任務采用傾向調整P@1和兩個指標進行評價,計算公式分別為
其中,R@1表示排在第一位的文獻是否與用戶的查詢相關,相關則其值為1,否則為0;T@1表示在模型返回的排序結果中,排在第一位的文獻總數;P@1表示第一篇文獻的預測準確率;N表示多個查詢總數;nDCGn表示第n個查詢的nDCG值;值通常用于評估排序算法的性能。
SciDocs基準測試集的數據構建及任務詳情參見文獻[14] 。
為了回答引言中提出的兩個研究問題,本文基于以下采樣策略訓練了多個模型。
(1)隨機采樣。按照2.2節所述,對于每一個目標文獻隨機從異構引文共現網絡取5個鄰居節點作為正樣本,隨機取5個非鄰居節點作為負樣本。基于隨機采樣可構建三元組訓練模型,記為CCHT(Random)。
(2)正樣本固定層次采樣。在隨機采樣的基礎上,限制正樣本鄰居節點必須來源于同一類邊。例如,固定正樣本采樣層次為同句共現時,在異構網絡中找到與目標文獻相連且類型為coSentence的邊,并以這些邊連接的鄰居節點為候選集合,隨機抽取5個作為正樣本,且負樣本采樣隨機采樣。分別固定正樣本采樣層次為句子共現、段落共現和章節共現,可構建三個三元組集合,基于不同三元組集合分別訓練3個模型,記為CCHT(Sentence)、CCHT(Paragraph)、CCHT(Section)。
(3)困難負樣本采樣。已有研究表明,選擇與目標文獻完全不相似的隨機負樣本無法為模型訓練提供有效梯度,在采樣過程中引入困難負樣本有利于特征表示學習[14]。考慮不同層次共現關系,本文設計了一種困難負樣本選擇方法,具體如下:Q+表示與目標文獻q句子共現的文獻集合,Q-表示與目標文獻q段落或章節共現的文獻集合,表示目標文獻q的非共現文獻集合,取q+∈Q+為正樣本,正樣本數量為5;取q-∈Q-為困難負樣本,困難負樣本數量為kq-;取為簡單負樣本,簡單負樣本數量為5-kq-。此時,研究假設相較于段落或章節共現的文獻,句子共現的文獻具有更高的語義相似度。為分析困難負樣本數量對模型的影響,kq-的取值設置為[1,2,3,4,5] ,并基于不同三元組集合訓練5個模型,分別記為CHTT(0.2)、CHTT(0.4)、CHTT(0.6)、CHTT(0.8)和CHTT(1.0),括號中的數值表示困難負樣本占總負樣本的比例。
隨機采樣和正樣本固定層次采樣策略均采用引文共現層次關系假設,即在相同的章節、段落或句子內共同引用的論文更相似。困難負樣本采樣策略則采用引文鄰近關系假設,即句子共現的文獻比段落或章節共現的文獻更相似。
語義編碼器采用Transformer模型架構,模型架構參數與SciBERT[13]相同,包括12層Transformer網絡,每層的隱藏狀態尺寸為768,每層包含12個自注意力頭。實驗采用Adam優化器進行模型訓練,學習率設為2e-5,dropout始終保持為0.1,beta1設為0.9,beta2設為0.999,batch size設置為8,且使用梯度累計技術將實際批次大小增大到256,每個模型均在V100 GPU上進行兩個周期的迭代訓練,即epoch=2。模型在2個V100 GPU上進行并行訓練,每個迭代周期耗時約25小時。
本文與多個基線方法進行了比較,包括基于詞向量的通用文本表示方法doc2vec[55]、FastText-sum[56]、SIF(smooth inverse frequency)[57]、ELMo[5]和Citeo‐matic[58],基于圖卷積的通用文本表示方法SGC(simple graph convolution)[59],基于句向量的通用文本表示方法Sentence-BERT[60],學術文本表示方法SciBERT[13]和SPECTER[14],以及非監督對比學習表示方法Unsup-SimCSE(simple contrastive sentence embedding)[61]、Contriever[62]和DiffCSE(differencebased contrastive learning for sentence embeddings)[63]。
表1匯總了各模型在SciDocs測試集各任務上的效果。總體而言,可以觀察到本文提出的CHTT(Random)學術文獻表示模型在所有任務上均取得了顯著的改進,所有任務指標的平均值為81.1,比次優基線(SPECTER)提高了1.1。
對于MAG分類任務而言,SPECTER性能表現最優,F1值為82;其次是CCHT(Random),F1值為81.1,比SPECTER略低。在MeSH分類任務中,CCHT(Random)得分最高,其F1值高達88.9,比SPECTER高出2.5。此外,針對所有的用戶活動預測和引文預測任務,CCHT(Random)相對于所有基線表現更為出色。最后,就推薦任務而言,SPEC‐TER的P@1指標表現最佳,達到了20,而CCHT(Random)的P@1指標得分為19.3。然而,在指標方面,CCHT(Random)表現與SPECTER相當。
本文旨在評估CCHT方法中三元組訓練數據集選擇對性能的影響。結果顯示,基于引文共現的層次樹采樣算法可以明顯提升SciDocs測試集任務上的性能表現,特別是在用戶行為預測和引文預測任務上的提升效果最為明顯。由表1可以發現,平均性能分數從80.0提升至81.1,其提升效果較為顯著,這有助于在實際應用中為學術界和產業界提供更加準確可靠的分類、推薦、用戶行為預測和引文預測服務。
表2展示了3個學術文獻表示模型——CCHT(Sentence)、CCHT(Paragraph)和CCHT(Section)與最優基線SPECTER在SciDocs測試集任務上性能表現。總體而言,CCHT(Sentence)、CCHT(Paragraph)和CCHT(Section)在所有指標上的平均性能達到了81.3、81.2和81.1,比之前最先進的SPECTER模型分別提高了1.3、1.2和1.1。由表2可知,CCHT(Sentence)性能優于CCHT(Paragraph)和CCHT(Sec‐tion),這說明句子共現相關性>段落共現相關性>章節共現相關性。因此,句子共現、段落共現和章節共現這3種不同層次的相關性明顯會影響到學術文獻的表征學習,進而導致模型在SciDocs各任務中的性能變化。

表2 正樣本固定層次采樣模型在SciDocs測試集上的評價結果
對于MAG分類,SPECTER表現效果最好,F1達到了82.0;其次是CCHT(Section),F1為80.9,降低了1.1。對于MeSH分類,CCHT(Section)得分最高,F1為88.9,比SPECTER(86.4)高出2.5。在用戶活動預測(user activity prediction)任務中,CCHT(Sentence)、CCHT(Paragraph)和CCHT(Section)模型的MAP和nDCG評分均高于其他基線。此外,對于引文預測任務,也存在類似的趨勢,本文模型的性能表現均超過了SPECTER。在推薦任務上,CCHT(Sentence)在該任務上的表現明顯優于SPEC‐TER(次優基線),和P@1分別達到了54.7和20.8。
總之,本文的研究結果表明,基于不同細粒度層級的共現關系對CCHT模型的性能至關重要,均會使其在SciDocs測試集上的性能得到提升。
圖3顯示了當困難負樣本采樣比例取值分別為0、0.2、0.4、0.6、0.8和1.0時,CCHT(Sentence)模型在SciDocs測試集中4個任務上的平均性能變化趨勢。當困難負樣本采樣比例逐步增大時,模型在論文分類、用戶行為預測、引文預測和論文推薦四類任務上的指標平均值均呈現下降趨勢,且當困難負樣本數量取值為0時,模型性能達到峰值。

圖3 困難負樣本采樣比例在SciDocs測試集上的結果變化趨勢
Cohan等[14]已證實在采樣過程中引入有效困難負樣本有利于特征表示學習。本文假設,相較于段落或章節共現的文獻,句子共現的文獻具有更高的語義相似度,并基于此進行困難負樣本采樣。研究結果表明,該方法易引入噪聲數據,導致模型性能隨困難負樣本比例升高而降低。CCHT(Sentence)模型的困難負樣本候選集Q-是與目標文獻段落或章節共現的文獻集合,理論上來說,研究者在書寫學術論文時,往往將相似的參考文獻并列/近鄰論述,即同句中的參考文獻相關性更高,而困難負樣本與目標文獻距離較遠,相關性更低。但實際上,由于各研究者思維邏輯和書寫風格的多樣化,在學術文獻結構化全文數據中,分布距離較遠的文獻之間相關性也可能較高。例如,在圖4中,假設目標文獻q取11,則其困難負樣本集合Q-為(50, 51),由該片段可知,q與Q-均表示被引量預測主題相關研究,即目標文獻與困難負樣本之間的語義相似度并不如理論而言是較低的;反之,是較高的。因此,本文在異構引文共現網絡中,根據層次采樣引入困難負樣本,容易導致引入噪聲數據,從而影響模型最終性能。

圖4 同段落文獻結構片段(截取自文獻[64] )
為進一步深入分析CCHT模型的表達性,本文利用t-SNE(t-distributed stochastic neighbor embed‐ding)算法在SciDocs文本分類任務MeSH數據集上執行可視化,Unsup-SimCSE、SPECTER以及CCHT這3個模型抽取的學術文獻表示向量被投影為二維平面中的點,具體如圖5所示,圖中點的顏色代表文獻原本所屬的醫學類型。由圖5可知,非監督對比學習表示方法Unsup-SimCSE在不同類之間呈現模糊的邊界,難以學習到判別性強的低維表示。針對已有方法中最優模型SPECTER,雖然多數類型的節點被清晰地分類,但部分類別間仍然存在一定重疊,少數類型數據點無法被清晰地識別。本文的CCHT模型將點清晰地劃分成不同的部分,即CCHT模型的表示向量具有更顯著的區分能力,CCHT模型有能力將同類型的文獻投射到距離相近的空間中,并將不同類型文獻間的距離拉開。

圖5 不同方法表示向量的可視化分析(彩圖請見https://qbxb.istic.ac.cn)
有效進行學術文本特征表示,是實現學術文獻的分類、組織、檢索和推薦的關鍵。本文將圖情領域的引文共現層次關系假設[16]及引文鄰近關系假設[15]引入自監督對比學習框架,提出一種基于引文共現層次采樣算法的學術文本表示學習方法,在SciDocs基準測試集上,針對論文分類、用戶行為預測、引文預測以及論文推薦四大下游任務進行了相關實驗。實驗結果表明,CCHT(Random)模型在SciDocs基準測試集中性能優于其他先進的基線模型,且比已有研究的最佳模型SPECTER提高了1.1,即引入引文共現層次關系假設能夠有效提升學術文獻表示學習模型效果。針對引文鄰近關系假設(句子共現的文獻比段落或章節共現的文獻更相似),本文通過引入困難負樣本采樣構造三元組訓練模型。實驗結果表明,該方式易引入噪聲數據,即引文鄰近關系假設在學術文獻表示學習研究中不完全成立。這可能是因為本文定義的困難負樣本為同段/同章共現引文,這些文獻之間的語義關系十分接近,在構建正負樣本對時容易出現對撞數據,即目標文獻與正樣本的距離大于目標文獻與負樣本的距離,在模型訓練過程引入了噪聲數據,從而影響了模型最終的性能。如何排除困難負樣本中的噪聲數據是后續研究可改進的方向之一。
此外,受限于GPU計算資源,本文根據經驗設置了部分超參數,如實驗中對每個目標文獻僅采樣k=5個三元組數據,改變超參數設置可能也會對模型訓練產生積極影響,值得進一步探索。另外,如何考慮文獻共現次數構建加權異構共引網絡,改進三元組采樣也是值得探索的研究方向。最后,在對比學習框架下損失函數是關鍵核心組件,設計更適合于學術文獻表示學習的對比損失函數是未來研究的重要方向之一。