面向學術文本的語義增強自然語言推理模型

2025-07-30 00:00:00張貞港余傳明王靜楠

現代情報 2025年8期

摘要：［目的/意義］旨在利用大模型生成學術文本的高質量同義句，通過實施語義增強策略，以優化自然語言推理模型的性能。［方法/過程］在利用大語言模型生成學術文本同義句的基礎上，提出語義增強的自然語言推理模型SENLI，該模型包括表示模塊、語義增強模塊和推理模塊。其中，表示模塊負責獲取學術文本及其對應同義句的語義特征；語義增強模塊將同義句的語義特征融合到學術文本的原始語義特征，獲取語義增強特征；推理模塊則基于學術文本的原始語義特征和語義增強特征，預測學術文本對的語義關系。將本文模型應用到SciTail、SciNLI和ZwNLI數據集上，開展實證研究。［結果/結論］實驗結果顯示，SENLI模型在SciTail、SciNLI和ZwNLI這3個基準數據集上的準確率分別達到了95.11%、79.20%和98.43%，相較于基線模型，提升幅度至少為1.27%、1.08%和0.92%，彰顯了本文模型的有效性。應用大語言模型生成的學術文本同義句進行語義增強可以提高自然語言推理模型的效果，研究有助于推動自然語言推理領域的發展，并為信息檢索、學術文獻挖掘等相關應用提供潛在的技術支持。

關鍵詞：自然語言推理；學術文本；語義增強；深度學習；大語言模型

DOI：10.3969/j.issn.1008-0821.2025.08.002

〔中圖分類號〕TP391.1；TP181 〔文獻標識碼〕A 〔文章編號〕1008-0821（2025）08-0018-13

A Semantic-Enhanced Natural Language Inference Model for Academic Texts

Zhang Zhengang Yu Chuanming* Wang Jingnan

（School of Information Engineering，Zhongnan University of Economics and Law，Wuhan 430073，China）

Abstract：［Purpose/Significance］The paper aims to generate high-quality synonymous sentences for academic texts utilizing large language models and enhance the performance of natural language inference model through the implementation of semantic enhancement strategies.［Method/Process］Based on the utilization of large language model to generate synonymous sentences for academic texts，the paper proposed a semantic-enhanced natural language inference model，SENLI.The model consisted of a representation module，a semantic enhancement module，and an inference module.Specifically，the representation module was responsible for capturing the semantic features of academic texts and their corresponding synonymous sentences.The semantic enhancement module integrated the semantic features of the synonymous sentences into the original semantic features of the academic texts，thereby obtaining semantic-enhanced features.Finally，the inference module predicted the semantic relationship between pairs of academic texts based on both the original semantic features and the semantic-enhanced features.The study conducted an empirical study by applying the proposed model to the SciTail，SciNLI，and ZwNLI datasets.［Result/Conclusion］The experimental results show that the SENLI model achieves accuracy rates of 95.11%，79.20%，and 98.43% on the SciTail，SciNLI，and ZwNLI datasets，respectively.Compared to the baseline models，the improvements are at least 1.27%，1.08%，and 0.92%，demonstrating the effectiveness of the proposed model.The utilization of synonymous sentences generated by large language models for semantic enhancement can enhance the performance of natural language inference model.The research contributes to advancing the field of natural language inference and provides potential technical support for applications such as information retrieval and academic literature mining.

Key words：natural language inference;academic text;semantic enhancement;deep learning;large language model

自然語言推理的核心目標是判斷兩段文本在語義上的關系，包含蘊含、矛盾或中立等［1］。自然語言推理技術已經在信息檢索［2-3］、技術管理［4-5］、數據挖掘［6-7］等多個領域中獲得了廣泛應用。近年來，隨著深度學習技術的發展，卷積神經網絡（Convolutional Neural Network，CNN）［8］、循環神經網絡（Recurrent Neural Network，RNN）［9］以及Transformer［10］等神經網絡模型已被廣泛應用于自然語言推理任務。上述神經網絡模型通過獲取文本的語義特征，提高了自然語言推理的準確性，尤其是對于通用語言理解，但針對特定領域，特別是面向學術文獻文本的定制化需求仍未充分滿足。學術文獻作為記錄和傳播科學技術知識的重要載體，面向學術文獻的數據治理［11］、關鍵詞提取［12］以及知識組織［13］等方面的研究已經獲得了學術界的廣泛關注。同樣的，學術文獻包含了眾多具有專業術語和復雜表達的學術文本，這要求自然語言推理模型具備高度的領域適應性和深度語義理解能力。在此背景下，構建面向學術文本的自然語言推理模型顯得尤為重要，這不僅能夠促進學術文獻的高效檢索，還能加強知識關聯和智能推薦。然而，將視角轉向學術文本時，可以發現現有研究在以下兩方面依然存在局限性：第一，面向學術文本的自然語言推理數據集相對較少，這限制了模型訓練的有效性和泛化能力；第二，學術文本經常使用專業術語和復雜表達，這些術語和表達在不同語義背景下可能具有不同的表述方式，學術文本的多樣性表達給模型推理造成了一定的挑戰，需要模型具備更強的語義理解能力。

基于上述背景，鑒于同義句在保持語義一致性的同時，展現了語言的多樣性和復雜性。因此，本研究聚焦同義句在語義增強自然語言推理模型的應用，以期為更廣泛的語義增強研究提供啟示。大語言模型已經在學界獲得了廣泛的研究［14-15］，鑒于已有研究證明了BERT模型［16］在自然語言理解任務上相較于大語言模型仍存在一定優勢［17］，但大語言模型在自然語言生成上的優秀表現已經獲得了廣泛驗證。基于此，本文嘗試通過大語言模型生成的高質量學術文本同義句實施語義增強，提出一個語義增強的自然語言推理模型（Semantic-Enhanced Natural Language Inference Model，SENLI），有效緩解了模型在學術文本表達多樣性背景下的語義理解不足挑戰，從而提高了模型在復雜語境下的推理準確率。此外，為了解決學術文本自然語言推理數據集過少的問題，本文聚焦圖書館學與情報學領域，使用該領域期刊論文的結構式摘要構建了一個自然語言推理數據集。本研究有效提升了學術文本情境下的自然語言推理準確率，為大語言模型驅動的自然語言推理研究提供了新視角。

1 相關研究工作

基于是否使用同義詞典、知識圖譜等額外資源增強自然語言推理模型效果，本文將自然語言推理領域的研究工作劃分為兩類進行探討，即基于深度學習的自然語言推理模型和基于增強的自然語言推理模型。此外，鑒于本文聚焦學術文本，同時探討了學界面向學術文本的句子分類與結構信息抽取方法的相關研究工作。

1.1 基于深度學習的自然語言推理模型

基于深度學習的自然語言推理模型主要使用深度學習方法（如卷積神經網絡、循環神經網絡、Transformer等）。基于模型的內在結構，將其分為基于表示的自然語言推理模型、基于交互的自然語言推理模型以及基于預訓練模型的自然語言推理模型的三類方法進行論述。

1）基于表示的自然語言推理模型。該模型通常采用孿生網絡架構以對文本對進行編碼，從而提取它們的深層語義特征，并通過計算余弦相似度或歐幾里得距離等方式來預測兩者之間的語義關系。以DSSM模型［15］為例，該模型利用深度神經網絡技術將成對的文本轉換為同一語義空間內的向量，并通過向量間的點積來評估文本對的相關性。ARCI模型［19］通過卷積神經網絡獲取文本的語義特征，并進一步應用多層感知機來預測文本間的語義關系，以彌補DSSM模型對上下文信息建模的不足。Palangi H等［20］提出了一種使用LSTM-RNN的方法，該方法專注于獲取文本中的順序信息，以便更精確地建模詞序信息。基于表示的模型由于結構簡單，因此擁有高效率和較強的泛化能力。然而，基于表示的模型由于未能充分獲取文本對之間的交互細節，因而限制了其在自然語言推理任務中的深度語義理解能力。

2）基于交互的自然語言推理模型。該模型通過獲取文本對之間的交互信息來提升預測的準確性。例如，DIIN［21］模型基于創建的三維交互張量，利用DenseNet［22］網絡來提取文本對之間的交互信息。BiMPM模型［23］引入了雙向多視角的匹配方法，利用4個不同的配對方式來全面獲取文本間的交互信息。ESIM模型［1］通過Bi-LSTM獲取文本的上下文信息，并采用注意力機制來進行局部推理以抽取文本對之間的交互信息，之后使用LSTM對這些局部推理進行增強，最終通過聚合特征來預測文本對的語義關系。RE2模型［24］通過反復的循環交互過程，成功地保留了詞嵌入的初始信息、文本之間的交互信息以及上下文信息這3個關鍵要素，有效提高了模型推理效率。此外，也有研究從動態注意力重讀［25］、共注意力［26］等角度提升文本交互效果。總體來說，基于交互的模型相對于基于表示的模型建模了文本交互信息，能夠獲取更深層次的語義關聯。

3）基于預訓練模型的自然語言推理模型。該方法主要使用預訓練模型獲取文本對的語義信息。例如，BERT［16］通過疊加的Transformer［27］單元來深化對文本語義的理解，顯著增強了模型在自然語言推理任務中的性能。RoBERTa模型［28］提出了改進的模型訓練技巧，包括動態掩碼、更大的批處理大小、更長的序列等。ALBERT模型［29］則引入參數精簡技術，提升了模型的運行效率。SciBERT模型［30］則針對科學文獻進行了預訓練，增強了模型在處理專業科學文本時的理解能力和準確性。由于能夠獲取長距離依賴和復雜的句法、語義關系以及預訓練—微調范式，基于預訓練模型的自然語言推理方法顯著提升了模型的語義理解能力與任務適應性。

上述模型在自然語言推理任務中已經取得了積極的進展。然而，上述模型未能充分整合對外部資源的利用，這些資源對獲取文本語義至關重要，能夠提供豐富的背景知識和相關語義，涵蓋知識圖譜、同義表達及詞匯歧義等方面。鑒于此，深入研究如何在自然語言推理任務框架內實施增強策略，以期增強模型性能，顯得尤為迫切和重要。

1.2 基于增強的自然語言推理模型

基于增強的自然語言推理模型已經獲得了廣泛研究，根據模型增強方式，將其分為基于數據增強的自然語言推理模型、基于知識增強的自然語言推理模型以及基于語義增強的自然語言推理模型進行論述。

1）基于數據增強的自然語言推理模型。該模型主要通過對原始數據集進行變換，增加新訓練樣本以提升模型效果，包括替換方法［31］、回譯方法［32］等。例如，Wei J等［31］使用同義詞替換、隨機插入、隨機互換和隨機刪除4種方法進行數據增強，對原數據集進行擴充。Xie Q等［32］使用將英文翻譯成法語后再翻譯回英語等方法擴充訓練集。上述數據增強模型通過變換原始數據集創造額外訓練樣本，有效提升了模型泛化能力。然而，盡管有效增強了模型的泛化能力，數據增強技術仍面臨語義偏差、語法錯誤、信息損失等挑戰，尤其是在處理復雜句式或專業術語時，同義詞替換、回譯等方法產生的文本可能變得不通順或有明顯的語法問題。

2）基于知識增強的自然語言推理模型。該模型關注如何將實體、三元組等外部知識整合進模型中，以提升模型的知識水平。例如，IKAAS模型［33］通過將詞匯與知識圖譜中的實體相連，并采用TransE［34］算法來提取實體特征，進而將其融入詞匯表示中，有效地實現了實體信息的集成。Jiang K X等［35］使用單詞定義和文本三元組信息作為外部知識來增強模型的語義理解能力。ExBERT模型［36］將知識三元組轉換為文本描述，然后將其融合到BERT輸出的文本語義中。ERNIE［37］通過預測整個屏蔽短語和命名實體來訓練模型學習本地上下文和全局上下文中的依賴信息，并在此基礎上通過結構感知和語義感知任務獲取語料庫的句法和語義信息。K-BERT模型［38］將三元組形式的領域知識嵌入至語言模型內部，并運用軟定位機制與可見性矩陣來篩選并減少知識噪聲的影響。基于知識增強的模型通過融入實體和三元組等外部知識，有效提升了模型的語義理解與知識水平，但也面臨知識過載可能扭曲語義信息及知識噪聲等問題。

3）基于語義增強的自然語言推理模型。該模型主要通過利用文本的相關內容，包括單詞詞義、詞語關系等內容，增強模型的文本語義能力。例如，LET模型［39］利用HowNet知識庫提供的單詞詞義和構成要素信息進行語義增強，通過結合上下文信息來消除詞義的不明確性，顯著降低了詞義模糊對模型性能的負面影響。BERTsim［40］利用WordNet來捕捉單詞間的相似度，并將這一信息注入BERT模型的多頭注意力機制里，從而有效地增強了BERT模型的性能。Yu C M等［41］提出了一種輕量級的文本匹配模型SEIN，集成了來自WordNet數據庫的單詞描述，以豐富文本語義信息。PICSO模型［42］通過實體感知適配器將多域上下文同義詞注入預訓練語言模型中，解決了同義詞歧義性和語義理解一致性問題。基于語義增強的模型通過融入詞匯語義及語境關系等信息，提升了文本理解的精確度，有效解決了詞義模糊等問題，增強了模型在復雜語境下的性能。盡管如此，現有模型的語義增強機制存在偏重微觀詞匯層面的局限性，未能充分考慮文本的整體語境。

上述增強策略通過直接擴展數據集、整合外部知識或深化語義理解，共同推動了自然語言推理任務性能的提升。然而，上述研究也面臨著語法錯誤、知識噪聲以及側重微觀詞匯語義增強等挑戰。

1.3 面向學術文本的句子分類與結構信息抽取方法

近年來，學術界在面向學術文本的自然語言處理研究中呈現出多元化和深入化的趨勢，尤其是在句子分類、結構信息抽取等方面。例如，謝林蕾等［43］構建了融合出版領域的未來工作句識別與分類語料庫，并利用支持向量機和樸素貝葉斯等方法對學術論文中描述未來研究工作的句子進行自動識別與分類。Zhang Y Y等［44］使用公式化表達脫敏和上下文增強提取學術論文中的問題句和方法句，通過數據增強和上下文整合策略，該研究提升了模型對問題句和方法句提取的性能。張恒等［45］采用SciBERT模型，結合ChatGPT對學術文本采取同義詞替換、隨機插入等策略進行數據增強，實現了對學術論文研究流程段落的有效識別。陸偉等［46］系統性地探究了大語言模型在學術文本分類、信息抽取等任務中的應用，構建了一個包含文本分類、信息抽取、文本推理和文本生成4個能力維度的評測框架，并通過實驗分析了不同指令策略對模型性能的影響。李楠等［47］以醫學、圖書情報、經濟、數據和出版5個學科的6 452篇結構式摘要作為語料庫，探討了學術文本結構功能分類的學科適用性。通過采用自然語言處理技術和大語言模型，研究者們提升了模型對學術論文文本的提取與理解能力。上述研究不僅促進了學術知識的有效提取，也為研究者提供了精準和高效的智能工具，進一步推動了科學研究的發展。

本研究聚焦學術文本，提出了一種新的語義增強自然語言推理模型——SENLI。該模型利用大語言模型生成的高質量學術文本同義句，從文本的整體語境出發，通過語義增強方法進一步提升模型在自然語言推理任務上的準確率。

2 研究問題與方法

2.1 研究問題

本研究通過學術文本的同義句實施語義增強，以期為語義增強的自然語言推理任務提供新的視角和方法。在此背景下，將面向學術文本的語義增強自然語言推理任務形式化定義如下，即給定學術文本對Ta={wa1，wa2，…，wal_a}和Tb={wb1，wb2，…，wbl_b}，以及Ta和Tb對應的同義句T={w1，w2，…，wl_}和T={w1，w2，…，wl_}，其中，wji代表文本j的第i個詞匯項，lj代表文本的詞匯數量。本文的任務是設計一個函數f，以Ta、Tb、T和T為輸入，預測學術文本對Ta和Tb的語義關系。基于上述背景，本文提出了一種語義增強的自然語言推理模型，并在此基礎上探究以下幾個研究問題：

1）在自然語言推理任務中，SENLI模型是否能夠超越現有的深度學習模型？

2）同義句的增強和生成方式對SENLI模型效果是否有影響？具體來說，主要探究：①進行語義增強時同義句數量是否對模型效果有影響；②數據增強和語義增強哪種方式對SENLI模型更加有效？③同義句生成方式對模型效果是否有影響？

2.2 研究方法

為探究上述研究問題，本文在使用大語言模型生成學術文本同義句的基礎上，提出了語義增強的自然語言推理模型SENLI，并在此基礎上開展實證研究。如圖1所示，SENLI模型包含表示模塊、語義增強模塊和推理模塊。其中，表示模塊用來抽取學術文本Ta與Tb及其同義句T與T的語義特征，此步驟確保了學術文本原始句及其同義句的語義特征均得以有效編碼。語義增強模塊用來將同義句語義特征融合到學術文本的原始語義特征中，獲取學術文本的語義增強特征，為模型提供更全面和深層次的語義理解。推理模塊使用學術文本對特征和語義增強特征，使用兩層的前饋神經網絡獲取預測結果。通過所提的3個模塊，SENLI模型實現了從基礎語義表示到語義增強再到語義關系推理的全過程。

2.2.1 同義句生成

學術文本同義句的生成質量至關重要，本文采用Qwen1.5-72B-Chat模型輸出了學術文本的同義句。Qwen1.5-72B-Chat是一種由Transformer解碼器堆疊而成的神經網絡架構，同時加入了SwiGLU［48］、RoPE［49］等技術，實現了對自然語言的深入理解，并具有較好的多語言能力。Qwen1.5-72B-Chat在多項評測任務中的性能與GPT-4非常接近，綜合考慮易用性、穩定性和模型性能等因素，本文選擇將其作為同義句生成工具。具體來說，對于中文數據集，提示詞為“{學術文本}，對于上面的句子，請給我6個意義相同但表達不同的同義句。請用中文回答，請直接輸出，不要輸出其他任何無關內容”。對于英文數據集，提示詞則是“{Academic Text}.For the above sentence，please give me six synonymous sentences with the same meaning but different expressions.Please answer in English.Please output directly and do not output any other irrelevant content.”。

為了驗證大模型獲取的學術文本同義句的有效性，隨機選擇了一個樣例進行測試，結果如圖2所示。可以發現，Qwen1.5-72B-Chat模型生成的學術文本同義句顯示出了與原始句在語義上的高度一致性；使用BERT模型獲取了學術文本原始句和同義句的語義相似度矩陣并進行可視化，如圖3所示。可以發現，原始句和同義句的語義相似度均在0.95以上，表明Qwen1.5-72B-Chat生成的學術文本同義句在語義相似度維度下的可用性。

2.2.2 表示模塊

表示模塊用來獲取學術文本原始句及其同義句的語義特征。對于學術文本原始句的語義特征獲取，將學術文本對和兩段學術文本分別輸入到BERT模型［16］，使用BERT輸出的最后一層隱藏狀態作為其語義特征，分別為Tab、Ta和Tb，如式（1）～（3）所示：

Tab=BERT（［cls］，wa1，wa2，…，wal_a，［sep］，wb1，wb2，…，wbl_b），Tab∈

為了獲取學術文本同義句的語義特征，本文采用GloVe［50］對學術文本同義句進行表示，并將其輸入到BiLSTM中以獲取同義句的上下文信息，其計算方法如式（4）和式（5）所示：

其中，l是學術文本a同義句的詞匯數量，l是學術文本b同義句的詞匯數量，d2是設置的BiLSTM的隱藏層維度。

2.2.3 語義增強模塊

語義增強模塊主要是將學術文本同義句的語義特征融合到原始句的語義特征中，以通過學術文本的不同表達方式增強模型對學術文本的語義理解能力。參考Jiang K X等［51］的工作，本文設計了一個融合策略，旨在將學術文本原始句特征Ta和同義句特征T融合以獲得語義增強特征T，為了確保融合過程既能夠充分利用同義句的語義信息，又能減少可能引入的噪聲，本文在語義增強模塊中引入門控機制，通過神經網絡來控制原始文本特征和同義句特征的融合比例。具體而言，本文定義了一個融合函數，該函數以原始句特征Ta和同義句特征T為輸入，利用神經網絡學習到的門控向量G和中間狀態向量X，動態地調整原始文本特征和同義句特征在融合過程中的貢獻度，從而獲取語義增強特征T，融合函數的定義如式（6）～（8）所示。同樣的，本文采用相同方式獲取學術文本b的語義增強特征T。

2和d3是設置的隱藏層維度。

2.2.4 推理模塊

推理模塊旨在使用學術文本對的語義特征和語義增強特征，預測學術文本對的語義關系。具體而言，使用文本對特征Tab、語義增強特征T和T，經過池化拼接后輸入到兩層前饋神經網絡，最后經過一層Softmax后獲取模型的預測結果，如式（9）所示：

Out=Softmax（GeLU（［Pooling（Tab）;Pooling（T）;Pooling（T）］W4+b4）W5+b

Loss=-1M∑Mi=1∑Nj=1yji·log（ji）（10）

其中，M代表測試集中樣本的總數，N代表數據集中類別的數量；yji表示第i個樣本是第j個類別的標簽，ji表示模型預測的第i個樣本是第j個類別的概率值（取值范圍是0～1）。

3 實驗

3.1 數據集

為了驗證本文模型的效果，使用SciTail［52］、SciNLI［53］和本文構建的ZwNLI數據集。其中，SciTail是一個專注于科學領域的數據集，其核心任務是判斷兩段文本的語義關系，包括蘊含和中立兩種關系。該數據集設計了一系列源自科學問題的假設，而對應的前提文本則是從互聯網上選取的相關內容。SciNLI數據集包括從自然語言處理和計算語言學領域學術論文中提取的107 412個句子對，包含對比、推理、蘊含和中立4種語義關系。為了彌補中文學術文本自然語言推理數據集較少的問題，本文構建了ZwNLI數據集，包括從圖書館學與情報學領域期刊論文結構式摘要中抽取的47 983個文本對。為了構建文本對語義關系的標簽，對于結構式摘要中的內容，在前人研究基礎［52-53］上做如下假設：①目的引導了方法的選擇；②方法的實施產生了結果；③文章標題內容通常蘊含了方法；④不同論文摘要的任意兩段文本在語義上是獨立的。基于上述假設，本文構建的ZwNLI數據集包括引導、產生、蘊含和中立4種語義關系。數據集的詳細信息如表1所示。

3.2 實驗參數設置

本文模型使用的超參數如表2所示，將模型的訓練輪次設定為20輪，選擇Adam優化器來調整網絡權重，學習率設置為1e-5，在訓練過程中，設置批次大小為16，為了減少模型過擬合的風險，將隨機失活率設為0.2。此外，將神經網絡的隱藏層維度分別設置為300、512和256。所有實驗在配備兩張3090TI顯卡的服務器上運行，使用PyTorch實現模型。

3.3 模型與基線方法的實驗結果對比分析

為了驗證所提模型的效果，本文選取ESIM［1］、RE2［24］、SciBERT［30］、BERT［16］、RoBERTa［28］、ALBERT［29］和Qwen1.5-72B-Chat作為基線方法，采用準確率、宏平均的精確率、召回率和F1值作為評價指標，對比本文模型和基線方法在SciTail、SciNLI和ZwNLI這3個數據集上的效果差異，表3～5展示了SENLI模型與基線方法的實驗結果。

總體來說，SENLI模型在SciTail、SciNLI和ZwNLI這3個基準測試集上的效果均優于基線方法，相比于基線方法，SENLI模型在SciTail、SciNLI和ZwNLI數據集的準確率指標上至少提升了1.27、1.08和0.92個百分點，在精確率、召回率和F1值的絕大多數指標上也均取得了最優結果，顯示出其在自然語言推理任務上的優越性能。具體來說，與經典模型ESIM、RE2以及預訓練模型ALBERT、BERT相比，SENLI在所有3個數據集上均取得了更高的準確率、精確率、召回率和F1值；與使用科學文獻作為訓練語料的SciBERT模型相比，實驗結果也證明了SENLI在理解和推理學術文本的優秀性能；與Qwen1.5-72B-Chat大模型相比，雖然SENLI模型在SciTail數據集的精確率上略低于Qwen1.5-72B-Chat模型，但SENLI模型在準確率、召回率和F1值指標上均遠優于Qwen1.5-72B-Chat模型。可以發現，Qwen1.5-72B-Chat在自然語言推理任務上的準確率、召回率和F1值指標上效果相對較差，但其擁有較優的自然語言生成能力，借助于其生成的高質量學術文本同義句，本文通過實施同義句語義增強提升了模型的自然語言推理性能。總的來說，SENLI模型的優越性能表明了其在面向學術文本的自然語言推理任務中的廣泛應用前景。

3.4 同義句數量對模型效果的影響分析

為了驗證使用不同數量的同義句進行語義增強對模型效果的影響，本文在SciTail、SciNLI和ZwNLI這3個數據集上進行實驗，同義句數量區間為0～6，步長為1，探究同義句數量對模型性能的影響，實驗結果如圖4～6所示，采用準確率作為實驗指標。

使用同義句進行語義增強要優于不使用同義句進行語義增強的方式，這表明語義增強在自然語言推理任務上的有效性。具體來說，在SciTail數據集上，無語義增強的基線準確率為93.41%，而實驗1～6的準確率范圍為94.78%～95.11%，這表明在SciTail數據集上，語義增強對于模型性能有著積極的效果。在類別數更多的SciNLI數據集上，模型的3的79.20%，這表明語義增強對于復雜推理任務依然有效。對于ZwNLI數據集，基線準確率為97.51%，而實驗1～6的準確率均在98.35%以上，最高達到98.43%，這一結果表明即使在準確率已經相對較高的情況下，語義增強仍能進一步提升模型的性能。值得注意的是，當同義句達到一定數量時，對于SciTail和SciNLI數據集是3，對于ZwNLI數據集是4，隨著同義句數量的進一步提升，模型效果未能進一步繼續提升，反而可能因信息冗余干擾原始語義理解，這表明存在一個最優的同義句數量，超過此量將不利于模型性能。綜上所述，使用同義句進行語義增強能夠提高模型對于給定學術文本的理解深度，這對于提升自然語言推理任務的性能具有積極的作用。

3.5 同義句增強方式對模型效果的影響分析

為了驗證同義句增強方式對模型效果的影響，本文對比了如下兩種方式：①數據增強，即在訓練集直接增加樣本的同義句作為訓練樣本；②語義增強，即在原樣本上使用樣本的同義句進行語義增強。實驗結果如圖7～9所示，采用準確率作為實驗指標。

總體來說，語義增強的方式要優于數據增強的方式，這表明在處理具有較為豐富語義結構的文本對時，語義增強能夠提供更加深入的語義理解，從而提高模型的性能。在SciTail和SciNLI數據集上，語義增強展現出一致的性能優勢。對于ZwNLI數據集，兩種方法的性能非常接近，語義增強策略并沒有顯示出顯著的優勢。這可能是因為ZwNLI數據集本身的難度較低，模型即使在直接訓練情況下也能達到非常高的準確率。然而，值得注意的是，語義增強在每次實驗中都略優于或等于數據增強的結果，表明即使在較易的數據集上，語義增強也對模型性能產生積極的作用。

3.6 同義句生成方式對模型效果的影響分析

為了驗證不同的同義句生成方式對模型效果的影響，對比了以下幾種方式，包括同義詞替換、隨機插入、隨機交換、隨機刪除、回譯和大語言模型等方式，為了更加公平地探究不同的同義句生成方式對模型性能的影響，以上方式均產生1個同義句進行語義增強。其中，同義詞替換是從句子中隨機選擇一個非停用詞單詞，用其隨機選擇的同義詞替換該單詞，對于英文語境使用的是WordNet的同義詞庫，中文語境則是采用構建的同義詞庫。隨機插入是在句子中隨機找到一個非停用詞的單詞的隨機同義詞，將該同義詞插入句子中的任意位置。隨機交換則在句子中隨機選擇兩個單詞，并交換它們的位置。隨機刪除則是對于句子中的每個單詞，設置概率p將其隨機刪除，參考EDA方法［31］的研究，將概率p設置為0.1。回譯是將句子首先翻譯為俄語，隨后再將其翻譯為英文或者中文，本文采用的是t5模型進行回譯。大語言模型采用的是Qwen1.5-72B-Chat，采用2.2.1節（同義句生成）輸出的樣本的一個同義句，實驗結果如表6所示，采用準確率作為實驗指標。

總體來說，不同的同義句生成方式對模型效果的影響呈現出顯著差異，大語言模型在所有的同義句生成方法中表現最優。具體而言，同義詞替換和回譯策略相較于無同義句增強的基線表現出一定的性能提升，表明這兩種方法在保持句子語義完整性的同時，有效增加了學術文本表達的多樣性，從而增強了模型的泛化能力。相比之下，隨機交換單詞、隨機插入同義詞和隨機刪除單詞在英文語境下導致模型性能下降，這可能是由于這些方法在處理句子時未能充分考慮到詞匯間的語義關聯和句子結構的完整性，從而引入了噪聲，干擾了模型的語義理解能力。值得注意的是，大語言模型Qwen1.5-72B-Chat在所有數據集上都顯著優于其他同義句生成方法，這表明大模型在理解和生成學術文本方面具有較好的能力，能夠為SENLI模型提供更高質量的增強效果。

4 討論

4.1 研究討論

在上述實證研究的基礎上，針對2.1節的研究問題展開討論。

1）針對研究問題1（在自然語言推理任務中，SENLI模型是否能夠超越現有的深度學習模型？），對比了不同的基線方法，例如BERT、RoBERTa、SciBERT等，實驗結果表明，SENLI模型在自然語言推理任務上的性能顯著優于基線方法。此外，所提模型在英文數據集SciTail、SciNLI以及中文數據集ZwNLI上均展現出優越的性能，驗證了其在跨語言場景下的廣泛適用性和有效性。

2）針對研究問題2（同義句的增強和生成方式對SENLI模型效果是否有影響？），本文從同義句的數量、數據增強與語義增強方式的有效性對比，以及同義句的生成方式這3個維度，全面探究它們對SENLI模型性能的影響。實驗結果表明，首先，進行語義增強時同義句的數量對模型性能存在一定影響，采用同義句增強機制相較于未采用此策略顯著提升了模型性能，然而，當同義句的引入量達到某一閾值后，模型性能的提升趨于平緩，表明存在一個最優的同義句數量。其次，本文證實了同義句增強方式的選擇至關重要，本研究框架內的語義增強方法相較于傳統數據增強方法，展現了更高的性能提升，凸顯了語義增強在本文模型中的重要作用。最后，驗證了同義句生成方式對模型效果的影響，發現不同的同義句生成方式對模型效果確實存在顯著影響，其中大語言模型的生成方式展現出了最優的性能。

4.2 研究局限

盡管本文在面向學術文本的自然語言推理任務中已經取得了較好的效果，然而本文依然存在以下三方面的研究局限性：其一，本研究主要聚焦模型在自然語言推理任務上的表現，缺乏對模型在不同下游任務中的泛化能力的系統性評估。其二，本文主要使用學術文本的同義句進行語義增強，未能融合詞語關系、單詞詞義等其他類型的信息，這可能導致模型在深層次語義理解方面的性能受限。其三，本研究未能充分利用學術文獻的多模態特性（如文本與圖像的結合），從而限制了模型在綜合理解多模態信息方面的能力。

在未來的研究中，將致力于以下3個方面：第一，探究如何將本文模型應用到下游任務的技術路徑。第二，探索在自然語言推理模型中融合詞語關系、單詞詞義等信息的語義增強方法，以提升模型對學術文本的語義理解能力。第三，鑒于學術文獻的多模態特征，計劃將研究視野拓寬至多模態信息處理領域，整合文本、圖像等多種模態的信息，通過構建統一的多模態表示與推理框架，為學術文獻的綜合語義分析提供更為全面的技術工具。

4.3 研究啟示

本文主要有以下研究啟示。第一，本文驗證了不同的同義句生成方式對模型效果的影響，發現大語言模型生成方式展現出最優性能，啟示研究者在選擇同義句生成策略時，應考慮生成模型的生成性能；第二，本文探討了同義句增強對模型性能的影響，發現在自然語言推理任務中，語義增強方法相較于直接增加訓練樣本的數據增強方法能更顯著提升模型性能，這啟示研究者在進行模型訓練時，應重視語義層面的增強策略。

5 總結

本文面向學術文本提出了一種語義增強的自然語言推理模型，旨在使用大語言模型生成的高質量學術文本同義句，通過語義增強的方式提升模型的推理性能。鑒于學術文本領域自然語言推理數據集的稀缺性，本文特別構建了一個面向圖書館學與情報學領域論文的自然語言推理數據集ZwNLI。將所建模型應用于SciTail、SciNLI和ZwNLI數據集，實驗結果表明所建模型在自然語言推理任務中取得了較好的結果。本文不僅驗證了SENLI模型在自然語言推理任務中的優秀性能，而且深入探討了同義句的增強和生成方式對其性能的影響，為未來模型優化和語義增強的自然語言推理研究提供了有價值的參考，也為學術文獻的高效檢索、知識關聯和智能推薦等潛在應用提供了有力工具。

參考文獻

［1］Chen Q，Zhu X D，Ling Z H，et al.Enhanced LSTM for Natural Language Inference［C］//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics.Stroudsburg：ACL，2017：1657-1668.

［2］Li R H，Cheng L L，Wang D P，et al.Siamese BERT Architecture Model with Attention Mechanism for Textual Semantic Similarity［J］.Multimedia Tools and Applications，2023，82（30）：46673-46694.

［3］Wang X，Yang H M.MGMSN：Multi-Granularity Matching Model Based on Siamese Neural Network［J］.Frontiers in Bioengineering and Biotechnology，2022，10：839586.

［4］李綱，余輝，毛進.基于多層語義相似的技術供需文本匹配模型研究［J］.數據分析與知識發現，2021，5（12）：25-36.

［5］余輝，夏文蕾，黃煒，等.基于文本匹配-組態優化的兩階段技術供需匹配方法研究［J］.情報學報，2024，43（3）：261-273.

［6］Abu-Salih B，Alweshah M，Alazab M，et al.Natural Language Inference Model for Customer Advocacy Detection in Online Customer Engagement［J］.Machine Learning，2024，113（4）：2249-2275.

［7］Wu L W，Liu P S，Zhao Y Q，et al.Human Cognition-Based Consistency Inference Networks for Multi-Modal Fake News Detection［J］.IEEE Transactions on Knowledge and Data Engineering，2024，36（1）：211-225.

［8］Song Y，Hu Q V，He L.P-CNN：Enhancing Text Matching with Positional Convolutional Neural Network［J］.Knowledge-Based Systems，2019，169：67-79.

［9］Yu X M，Shen Y D，Ni Y，et al.CapsTM：Capsule Network for Chinese Medical Text Matching［J］.BMC Medical Informatics and Decision Making，2021，21（Suppl 2）：94.

［10］Gan L，Hu L H，Tan X D，et al.TBNF：A Transformer-Based Noise Filtering Method for Chinese Long-Form Text Matching［J］.Applied Intelligence，2023，53（19）：22313-22327.

［11］范萌，常志軍，錢力，等.面向結構化篇級科技文獻數據治理的高性能分布式計算框架研究［J］.情報雜志，2024，43（3）：182-189，121.

［12］程芮，張海軍.一種基于數據增強的科技文獻關鍵詞提取模型［J］.情報雜志，2024，43（1）：135-141，120.

［13］蘇新寧.傳統知識組織方法的智能力［J］.科技情報研究，2024，6（1）：1-9.

［14］劉細文，孫蒙鴿，王茜，等.DIKIW邏輯鏈下GPT大模型對文獻情報工作的潛在影響分析［J］.圖書情報工作，2023，67（21）：3-12.

［15］張強，王瀟冉，高穎，等.ChatGPT生成與學者撰寫文獻摘要的對比研究——以信息資源管理領域為例［J］.圖書情報工作，2024，68（8）：35-47.

［16］Devlin J，Chang M W，Lee K，et al.BERT：Pre-training of Deep Bidirectional Transformers for Language Understanding［C］//Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics：Human Language Technologies，Volume 1（Long and Short Papers）.Minneapolis，Minnesota：ACL，2019：4171-4186.

［17］Zhong Q H，Ding L，Liu J H，et al.Can ChatGPT Understand Too？A Comparative Study on ChatGPT and Fine-Tuned BERT［J］.arXiv Preprint arXiv：2302.10198，2023.

［18］Huang P S，He X D，Gao J F，et al.Learning Deep Structured Semantic Models for Web Search Using Clickthrough Data［C］//Proceedings of the 22nd ACM International Conference on Information amp; Knowledge Management.New York：ACM Press，2013：2333-2338.

［19］Hu B T，Lu Z D，Li H，et al.Convolutional Neural Network Architectures for Matching Natural Language Sentences［C］//Proceedings of the Advances in Neural Information Processing Systems.Cambridge：MIT Press，2014：2042-2050.

［20］Palangi H，Deng L，Shen Y L，et al.Deep Sentence Embedding Using Long Short-Term Memory Networks：Analysis and Application to Information Retrieval［J］.IEEE/ACM Transactions on Audio，Speech，and Language Processing，2016，24（4）：694-707.

［21］Gong Y C，Luo H，Zhang J.Natural Language Inference Over Interaction Space［J］.arXiv Preprint arXiv：1709.04348，2017.

［22］Huang G，Liu Z，Van Der Maaten L，et al.Densely Connected Convolutional Networks［C］//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Hawaii，USA：IEEE，2017：4700-4708.

［23］Wang Z G，Hamza W，Florian R.Bilateral Multi-Perspective Matching for Natural Language Sentences［C］//Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence.San Francisco：Morgan Kaufmann Press，2017：4144-4150.

［24］Yang R Q，Zhang J H，Gao X，et al.Simple and Effective Text Matching with Richer Alignment Features［C］//Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics，Stroudsburg：Association for Computational Linguistics，2019：4699-4709.

［25］Zhang K，Lv G Y，Wu L，et al.LadRa-Net：Locally Aware Dynamic Reread Attention Net for Sentence Semantic Matching［J］.IEEE Transactions on Neural Networks and Learning Systems，2023，34（2）：853-866.

［26］Hu Z，Fu Z，Peng C，et al.Enhanced Sentence Alignment Network for Efficient Short Text Matching［C］//Proceedings of the Sixth Workshop on Noisy User-generated Text（W-NUT 2020），2020：34-40.

［27］Vaswani A，Shazeer N，Parmar N，et al.Attention is All You Need［C］//Proceedings of the Advances in Neural Information Processing Systems.Cambridge：MIT Press，2017：5998-6008.

［28］Liu Y H，Ott M，Goyal N，et al.RoBERTa：A Robustly Optimized BERT Pretraining Approach［EB/OL］.［2022-06-11］.https：//arxiv.org/pdf/1907.11692.pdf.

［29］Lan Z Z，Chen M D，Goodman S，et al.ALBERT：A Lite BERT for Self-Supervised Learning of Language Representations［EB/OL］.［2022-06-11］.https：//arxiv.org/pdf/1909.11942.pdf.

［30］Beltagy I，Lo K，Cohan A.SciBERT：A Pretrained Language Model for Scientific Text［C］//Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing（EMNLP-IJCNLP）.Hong Kong，China：Association for Computational Linguistics，2019：3615-3620.

［31］Wei J，Zou K.EDA：Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks［J］.arXiv Preprint arXiv：1901.11196，2019.

［32］Xie Q Z，Dai Z H，Hovy E，et al.Unsupervised Data Augmentation for Consistency Training［J］.Advances in Neural Information Processing Systems，2020，33：6256-6268.

［33］Huang W Y，Qu Q，Yang M.Interactive Knowledge-Enhanced Attention Network for Answer Selection［J］.Neural Computing and Applications，2020，32（15）：11343-11359.

［34］Bordes A，Usunier N，Garcia-Duran A，et al.Translating Embeddings for Modeling Multi-Relational Data［C］//Proceedings of the Neural Information Processing Systems.Cambridge，MA：MIT Press，2013，26：2787-2795.

［35］Jiang K X，Jin G Z，Zhang Z G，et al.Incorporating External Knowledge for Text Matching Model［J］.Computer Speech amp; Language，2024，87：101638.

［36］Gajbhiye A，Moubayed N A，Bradley S.ExBERT：An External Knowledge Enhanced BERT for Natural Language Inference［C］//Artificial Neural Networks and Machine Learning-ICANN 2021：30th International Conference on Artificial Neural Networks，Bratislava，Slovakia，September 14-17，2021，Proceedings，Part V 30.Springer International Publishing，2021：460-472.

［37］Sun Y，Wang S H，Li Y K，et al.ERNIE 2.0：A Continual Pre-Training Framework for Language Understanding［C］//Proceedings of the AAAI Conference on Artificial Intelligence.New York，USA：AAAI，2020，34（5）：8968-8975.

［38］Liu W J，Zhou P，Zhao Z，et al.K-BERT：Enabling Language Representation with Knowledge Graph［C］//Proceedings of the AAAI Conference on Artificial Intelligence.New York，USA：AAAI，2020，34（3）：2901-2908.

［39］Lyu B，Chen L，Zhu S，et al.LET：Linguistic Knowledge Enhanced Graph Transformer for Chinese Short Text Matching［C］//Proceedings of the AAAI Conference on Artificial Intelligence.Online：ACL，2021，35（15）：13498-13506.

［40］Xia T Y，Wang Y，Tian Y，et al.Using Prior Knowledge to Guide BERTs Attention in Semantic Textual Matching Tasks［C］//Proceedings of the Web Conference 2021.Ljubljana Slovenia：ACM，2021：2466-2475.

［41］Yu C M，Xue H D，An L，et al.A Lightweight Semantic-Enhanced Interactive Network for Efficient Short-Text Matching［J］.Journal of the Association for Information Science and Technology，2023，74（2）：283-300.

［42］Li Y N，Chen J Y，Li Y H，et al.Embracing Ambiguity：Improving Similarity-Oriented Tasks with Contextual Synonym Knowledge［J］.Neurocomputing，2023，555：126583.

［43］謝林蕾，向熠，章成志.面向融合出版前沿主題發現的學術論文未來工作句挖掘研究［J］.情報工程，2023，9（5）：123-138.

［44］Zhang Y Y，Zhang C Z.Extracting Problem and Method Sentence from Scientific Papers：A Context-Enhanced Transformer Using Formulaic Expression Desensitization［J］.Scientometrics，2024，129（6）：3433-3468.

［45］張恒，趙毅，章成志.基于SciBERT與ChatGPT數據增強的研究流程段落識別［J］.情報理論與實踐，2024，47（1）：164-172，153.

［46］陸偉，劉寅鵬，石湘，等.大模型驅動的學術文本挖掘——推理端指令策略構建及能力評測［J］.情報學報，2024，43（8）：946-959.

［47］李楠，方麗，張逸飛.學術文本結構功能深度學習識別方法的多學科對比分析［J］.現代情報，2019，39（12）：55-63，87.

［48］Shazeer N.GLU Variants Improve Transformer［J］.arXiv Preprint arXiv：2002.05202，2020.

［49］Su J L，Ahmed M，Lu Y，et al.RoFormer：Enhanced Transformer with Rotary Position Embedding［J］.Neurocomputing，2024，568：127063.

［50］Pennington J，Socher R，Manning C.Glove：Global Vectors for Word Representation［C］//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing（EMNLP）.Doha，Qatar：Association for Computational Linguistics，2014：1532-1543.

［51］Jiang K X，Zhao Y H，Jin G Z，et al.KETM：A Knowledge-Enhanced Text Matching Method［C］//2023 International Joint Conference on Neural Networks（IJCNN）.IEEE，2023：1-8.

［52］Khot T，Sabharwal A，Clark P.SciTaiL：A Textual Entailment Dataset from Science Question Answering［C］//Proceedings of the 32th AAAI Conference on Artificial Intelligence.Palo Alto：AAAI Press，2018：5189-5197.

［53］Sadat M，Caragea C.SciNLI：A Corpus for Natural Language Inference on Scientific Text［C］//Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics（Volume 1：Long Papers）.Dublin，Ireland：Association for Computational Linguistics，2022：7399-7409.

（責任編輯：郭沫含）