999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向?qū)W術(shù)文本的語義增強(qiáng)自然語言推理模型

2025-07-30 00:00:00張貞港余傳明王靜楠
現(xiàn)代情報 2025年8期
關(guān)鍵詞:大語言模型深度學(xué)習(xí)

摘 要:[目的/意義]旨在利用大模型生成學(xué)術(shù)文本的高質(zhì)量同義句,通過實施語義增強(qiáng)策略,以優(yōu)化自然語言推理模型的性能。[方法/過程]在利用大語言模型生成學(xué)術(shù)文本同義句的基礎(chǔ)上,提出語義增強(qiáng)的自然語言推理模型SENLI,該模型包括表示模塊、語義增強(qiáng)模塊和推理模塊。其中,表示模塊負(fù)責(zé)獲取學(xué)術(shù)文本及其對應(yīng)同義句的語義特征;語義增強(qiáng)模塊將同義句的語義特征融合到學(xué)術(shù)文本的原始語義特征,獲取語義增強(qiáng)特征;推理模塊則基于學(xué)術(shù)文本的原始語義特征和語義增強(qiáng)特征,預(yù)測學(xué)術(shù)文本對的語義關(guān)系。將本文模型應(yīng)用到SciTail、SciNLI和ZwNLI數(shù)據(jù)集上,開展實證研究。[結(jié)果/結(jié)論]實驗結(jié)果顯示,SENLI模型在SciTail、SciNLI和ZwNLI這3個基準(zhǔn)數(shù)據(jù)集上的準(zhǔn)確率分別達(dá)到了95.11%、79.20%和98.43%,相較于基線模型,提升幅度至少為1.27%、1.08%和0.92%,彰顯了本文模型的有效性。應(yīng)用大語言模型生成的學(xué)術(shù)文本同義句進(jìn)行語義增強(qiáng)可以提高自然語言推理模型的效果,研究有助于推動自然語言推理領(lǐng)域的發(fā)展,并為信息檢索、學(xué)術(shù)文獻(xiàn)挖掘等相關(guān)應(yīng)用提供潛在的技術(shù)支持。

關(guān)鍵詞:自然語言推理;學(xué)術(shù)文本;語義增強(qiáng);深度學(xué)習(xí);大語言模型

DOI:10.3969/j.issn.1008-0821.2025.08.002

〔中圖分類號〕TP391.1;TP181 〔文獻(xiàn)標(biāo)識碼〕A 〔文章編號〕1008-0821(2025)08-0018-13

A Semantic-Enhanced Natural Language Inference Model for Academic Texts

Zhang Zhengang Yu Chuanming* Wang Jingnan

(School of Information Engineering,Zhongnan University of Economics and Law,Wuhan 430073,China)

Abstract:[Purpose/Significance]The paper aims to generate high-quality synonymous sentences for academic texts utilizing large language models and enhance the performance of natural language inference model through the implementation of semantic enhancement strategies.[Method/Process]Based on the utilization of large language model to generate synonymous sentences for academic texts,the paper proposed a semantic-enhanced natural language inference model,SENLI.The model consisted of a representation module,a semantic enhancement module,and an inference module.Specifically,the representation module was responsible for capturing the semantic features of academic texts and their corresponding synonymous sentences.The semantic enhancement module integrated the semantic features of the synonymous sentences into the original semantic features of the academic texts,thereby obtaining semantic-enhanced features.Finally,the inference module predicted the semantic relationship between pairs of academic texts based on both the original semantic features and the semantic-enhanced features.The study conducted an empirical study by applying the proposed model to the SciTail,SciNLI,and ZwNLI datasets.[Result/Conclusion]The experimental results show that the SENLI model achieves accuracy rates of 95.11%,79.20%,and 98.43% on the SciTail,SciNLI,and ZwNLI datasets,respectively.Compared to the baseline models,the improvements are at least 1.27%,1.08%,and 0.92%,demonstrating the effectiveness of the proposed model.The utilization of synonymous sentences generated by large language models for semantic enhancement can enhance the performance of natural language inference model.The research contributes to advancing the field of natural language inference and provides potential technical support for applications such as information retrieval and academic literature mining.

Key words:natural language inference;academic text;semantic enhancement;deep learning;large language model

自然語言推理的核心目標(biāo)是判斷兩段文本在語義上的關(guān)系,包含蘊(yùn)含、矛盾或中立等[1]。自然語言推理技術(shù)已經(jīng)在信息檢索[2-3]、技術(shù)管理[4-5]、數(shù)據(jù)挖掘[6-7]等多個領(lǐng)域中獲得了廣泛應(yīng)用。近年來,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[8]、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[9]以及Transformer[10]等神經(jīng)網(wǎng)絡(luò)模型已被廣泛應(yīng)用于自然語言推理任務(wù)。上述神經(jīng)網(wǎng)絡(luò)模型通過獲取文本的語義特征,提高了自然語言推理的準(zhǔn)確性,尤其是對于通用語言理解,但針對特定領(lǐng)域,特別是面向?qū)W術(shù)文獻(xiàn)文本的定制化需求仍未充分滿足。學(xué)術(shù)文獻(xiàn)作為記錄和傳播科學(xué)技術(shù)知識的重要載體,面向?qū)W術(shù)文獻(xiàn)的數(shù)據(jù)治理[11]、關(guān)鍵詞提取[12]以及知識組織[13]等方面的研究已經(jīng)獲得了學(xué)術(shù)界的廣泛關(guān)注。同樣的,學(xué)術(shù)文獻(xiàn)包含了眾多具有專業(yè)術(shù)語和復(fù)雜表達(dá)的學(xué)術(shù)文本,這要求自然語言推理模型具備高度的領(lǐng)域適應(yīng)性和深度語義理解能力。在此背景下,構(gòu)建面向?qū)W術(shù)文本的自然語言推理模型顯得尤為重要,這不僅能夠促進(jìn)學(xué)術(shù)文獻(xiàn)的高效檢索,還能加強(qiáng)知識關(guān)聯(lián)和智能推薦。然而,將視角轉(zhuǎn)向?qū)W術(shù)文本時,可以發(fā)現(xiàn)現(xiàn)有研究在以下兩方面依然存在局限性:第一,面向?qū)W術(shù)文本的自然語言推理數(shù)據(jù)集相對較少,這限制了模型訓(xùn)練的有效性和泛化能力;第二,學(xué)術(shù)文本經(jīng)常使用專業(yè)術(shù)語和復(fù)雜表達(dá),這些術(shù)語和表達(dá)在不同語義背景下可能具有不同的表述方式,學(xué)術(shù)文本的多樣性表達(dá)給模型推理造成了一定的挑戰(zhàn),需要模型具備更強(qiáng)的語義理解能力。

基于上述背景,鑒于同義句在保持語義一致性的同時,展現(xiàn)了語言的多樣性和復(fù)雜性。因此,本研究聚焦同義句在語義增強(qiáng)自然語言推理模型的應(yīng)用,以期為更廣泛的語義增強(qiáng)研究提供啟示。大語言模型已經(jīng)在學(xué)界獲得了廣泛的研究[14-15],鑒于已有研究證明了BERT模型[16]在自然語言理解任務(wù)上相較于大語言模型仍存在一定優(yōu)勢[17],但大語言模型在自然語言生成上的優(yōu)秀表現(xiàn)已經(jīng)獲得了廣泛驗證。基于此,本文嘗試通過大語言模型生成的高質(zhì)量學(xué)術(shù)文本同義句實施語義增強(qiáng),提出一個語義增強(qiáng)的自然語言推理模型(Semantic-Enhanced Natural Language Inference Model,SENLI),有效緩解了模型在學(xué)術(shù)文本表達(dá)多樣性背景下的語義理解不足挑戰(zhàn),從而提高了模型在復(fù)雜語境下的推理準(zhǔn)確率。此外,為了解決學(xué)術(shù)文本自然語言推理數(shù)據(jù)集過少的問題,本文聚焦圖書館學(xué)與情報學(xué)領(lǐng)域,使用該領(lǐng)域期刊論文的結(jié)構(gòu)式摘要構(gòu)建了一個自然語言推理數(shù)據(jù)集。本研究有效提升了學(xué)術(shù)文本情境下的自然語言推理準(zhǔn)確率,為大語言模型驅(qū)動的自然語言推理研究提供了新視角。

1 相關(guān)研究工作

基于是否使用同義詞典、知識圖譜等額外資源增強(qiáng)自然語言推理模型效果,本文將自然語言推理領(lǐng)域的研究工作劃分為兩類進(jìn)行探討,即基于深度學(xué)習(xí)的自然語言推理模型和基于增強(qiáng)的自然語言推理模型。此外,鑒于本文聚焦學(xué)術(shù)文本,同時探討了學(xué)界面向?qū)W術(shù)文本的句子分類與結(jié)構(gòu)信息抽取方法的相關(guān)研究工作。

1.1 基于深度學(xué)習(xí)的自然語言推理模型

基于深度學(xué)習(xí)的自然語言推理模型主要使用深度學(xué)習(xí)方法(如卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、Transformer等)。基于模型的內(nèi)在結(jié)構(gòu),將其分為基于表示的自然語言推理模型、基于交互的自然語言推理模型以及基于預(yù)訓(xùn)練模型的自然語言推理模型的三類方法進(jìn)行論述。

1)基于表示的自然語言推理模型。該模型通常采用孿生網(wǎng)絡(luò)架構(gòu)以對文本對進(jìn)行編碼,從而提取它們的深層語義特征,并通過計算余弦相似度或歐幾里得距離等方式來預(yù)測兩者之間的語義關(guān)系。以DSSM模型[15]為例,該模型利用深度神經(jīng)網(wǎng)絡(luò)技術(shù)將成對的文本轉(zhuǎn)換為同一語義空間內(nèi)的向量,并通過向量間的點積來評估文本對的相關(guān)性。ARCI模型[19]通過卷積神經(jīng)網(wǎng)絡(luò)獲取文本的語義特征,并進(jìn)一步應(yīng)用多層感知機(jī)來預(yù)測文本間的語義關(guān)系,以彌補(bǔ)DSSM模型對上下文信息建模的不足。Palangi H等[20]提出了一種使用LSTM-RNN的方法,該方法專注于獲取文本中的順序信息,以便更精確地建模詞序信息。基于表示的模型由于結(jié)構(gòu)簡單,因此擁有高效率和較強(qiáng)的泛化能力。然而,基于表示的模型由于未能充分獲取文本對之間的交互細(xì)節(jié),因而限制了其在自然語言推理任務(wù)中的深度語義理解能力。

2)基于交互的自然語言推理模型。該模型通過獲取文本對之間的交互信息來提升預(yù)測的準(zhǔn)確性。例如,DIIN[21]模型基于創(chuàng)建的三維交互張量,利用DenseNet[22]網(wǎng)絡(luò)來提取文本對之間的交互信息。BiMPM模型[23]引入了雙向多視角的匹配方法,利用4個不同的配對方式來全面獲取文本間的交互信息。ESIM模型[1]通過Bi-LSTM獲取文本的上下文信息,并采用注意力機(jī)制來進(jìn)行局部推理以抽取文本對之間的交互信息,之后使用LSTM對這些局部推理進(jìn)行增強(qiáng),最終通過聚合特征來預(yù)測文本對的語義關(guān)系。RE2模型[24]通過反復(fù)的循環(huán)交互過程,成功地保留了詞嵌入的初始信息、文本之間的交互信息以及上下文信息這3個關(guān)鍵要素,有效提高了模型推理效率。此外,也有研究從動態(tài)注意力重讀[25]、共注意力[26]等角度提升文本交互效果。總體來說,基于交互的模型相對于基于表示的模型建模了文本交互信息,能夠獲取更深層次的語義關(guān)聯(lián)。

3)基于預(yù)訓(xùn)練模型的自然語言推理模型。該方法主要使用預(yù)訓(xùn)練模型獲取文本對的語義信息。例如,BERT[16]通過疊加的Transformer[27]單元來深化對文本語義的理解,顯著增強(qiáng)了模型在自然語言推理任務(wù)中的性能。RoBERTa模型[28]提出了改進(jìn)的模型訓(xùn)練技巧,包括動態(tài)掩碼、更大的批處理大小、更長的序列等。ALBERT模型[29]則引入?yún)?shù)精簡技術(shù),提升了模型的運(yùn)行效率。SciBERT模型[30]則針對科學(xué)文獻(xiàn)進(jìn)行了預(yù)訓(xùn)練,增強(qiáng)了模型在處理專業(yè)科學(xué)文本時的理解能力和準(zhǔn)確性。由于能夠獲取長距離依賴和復(fù)雜的句法、語義關(guān)系以及預(yù)訓(xùn)練—微調(diào)范式,基于預(yù)訓(xùn)練模型的自然語言推理方法顯著提升了模型的語義理解能力與任務(wù)適應(yīng)性。

上述模型在自然語言推理任務(wù)中已經(jīng)取得了積極的進(jìn)展。然而,上述模型未能充分整合對外部資源的利用,這些資源對獲取文本語義至關(guān)重要,能夠提供豐富的背景知識和相關(guān)語義,涵蓋知識圖譜、同義表達(dá)及詞匯歧義等方面。鑒于此,深入研究如何在自然語言推理任務(wù)框架內(nèi)實施增強(qiáng)策略,以期增強(qiáng)模型性能,顯得尤為迫切和重要。

1.2 基于增強(qiáng)的自然語言推理模型

基于增強(qiáng)的自然語言推理模型已經(jīng)獲得了廣泛研究,根據(jù)模型增強(qiáng)方式,將其分為基于數(shù)據(jù)增強(qiáng)的自然語言推理模型、基于知識增強(qiáng)的自然語言推理模型以及基于語義增強(qiáng)的自然語言推理模型進(jìn)行論述。

1)基于數(shù)據(jù)增強(qiáng)的自然語言推理模型。該模型主要通過對原始數(shù)據(jù)集進(jìn)行變換,增加新訓(xùn)練樣本以提升模型效果,包括替換方法[31]、回譯方法[32]等。例如,Wei J等[31]使用同義詞替換、隨機(jī)插入、隨機(jī)互換和隨機(jī)刪除4種方法進(jìn)行數(shù)據(jù)增強(qiáng),對原數(shù)據(jù)集進(jìn)行擴(kuò)充。Xie Q等[32]使用將英文翻譯成法語后再翻譯回英語等方法擴(kuò)充訓(xùn)練集。上述數(shù)據(jù)增強(qiáng)模型通過變換原始數(shù)據(jù)集創(chuàng)造額外訓(xùn)練樣本,有效提升了模型泛化能力。然而,盡管有效增強(qiáng)了模型的泛化能力,數(shù)據(jù)增強(qiáng)技術(shù)仍面臨語義偏差、語法錯誤、信息損失等挑戰(zhàn),尤其是在處理復(fù)雜句式或?qū)I(yè)術(shù)語時,同義詞替換、回譯等方法產(chǎn)生的文本可能變得不通順或有明顯的語法問題。

2)基于知識增強(qiáng)的自然語言推理模型。該模型關(guān)注如何將實體、三元組等外部知識整合進(jìn)模型中,以提升模型的知識水平。例如,IKAAS模型[33]通過將詞匯與知識圖譜中的實體相連,并采用TransE[34]算法來提取實體特征,進(jìn)而將其融入詞匯表示中,有效地實現(xiàn)了實體信息的集成。Jiang K X等[35]使用單詞定義和文本三元組信息作為外部知識來增強(qiáng)模型的語義理解能力。ExBERT模型[36]將知識三元組轉(zhuǎn)換為文本描述,然后將其融合到BERT輸出的文本語義中。ERNIE[37]通過預(yù)測整個屏蔽短語和命名實體來訓(xùn)練模型學(xué)習(xí)本地上下文和全局上下文中的依賴信息,并在此基礎(chǔ)上通過結(jié)構(gòu)感知和語義感知任務(wù)獲取語料庫的句法和語義信息。K-BERT模型[38]將三元組形式的領(lǐng)域知識嵌入至語言模型內(nèi)部,并運(yùn)用軟定位機(jī)制與可見性矩陣來篩選并減少知識噪聲的影響。基于知識增強(qiáng)的模型通過融入實體和三元組等外部知識,有效提升了模型的語義理解與知識水平,但也面臨知識過載可能扭曲語義信息及知識噪聲等問題。

3)基于語義增強(qiáng)的自然語言推理模型。該模型主要通過利用文本的相關(guān)內(nèi)容,包括單詞詞義、詞語關(guān)系等內(nèi)容,增強(qiáng)模型的文本語義能力。例如,LET模型[39]利用HowNet知識庫提供的單詞詞義和構(gòu)成要素信息進(jìn)行語義增強(qiáng),通過結(jié)合上下文信息來消除詞義的不明確性,顯著降低了詞義模糊對模型性能的負(fù)面影響。BERTsim[40]利用WordNet來捕捉單詞間的相似度,并將這一信息注入BERT模型的多頭注意力機(jī)制里,從而有效地增強(qiáng)了BERT模型的性能。Yu C M等[41]提出了一種輕量級的文本匹配模型SEIN,集成了來自WordNet數(shù)據(jù)庫的單詞描述,以豐富文本語義信息。PICSO模型[42]通過實體感知適配器將多域上下文同義詞注入預(yù)訓(xùn)練語言模型中,解決了同義詞歧義性和語義理解一致性問題。基于語義增強(qiáng)的模型通過融入詞匯語義及語境關(guān)系等信息,提升了文本理解的精確度,有效解決了詞義模糊等問題,增強(qiáng)了模型在復(fù)雜語境下的性能。盡管如此,現(xiàn)有模型的語義增強(qiáng)機(jī)制存在偏重微觀詞匯層面的局限性,未能充分考慮文本的整體語境。

上述增強(qiáng)策略通過直接擴(kuò)展數(shù)據(jù)集、整合外部知識或深化語義理解,共同推動了自然語言推理任務(wù)性能的提升。然而,上述研究也面臨著語法錯誤、知識噪聲以及側(cè)重微觀詞匯語義增強(qiáng)等挑戰(zhàn)。

1.3 面向?qū)W術(shù)文本的句子分類與結(jié)構(gòu)信息抽取方法

近年來,學(xué)術(shù)界在面向?qū)W術(shù)文本的自然語言處理研究中呈現(xiàn)出多元化和深入化的趨勢,尤其是在句子分類、結(jié)構(gòu)信息抽取等方面。例如,謝林蕾等[43]構(gòu)建了融合出版領(lǐng)域的未來工作句識別與分類語料庫,并利用支持向量機(jī)和樸素貝葉斯等方法對學(xué)術(shù)論文中描述未來研究工作的句子進(jìn)行自動識別與分類。Zhang Y Y等[44]使用公式化表達(dá)脫敏和上下文增強(qiáng)提取學(xué)術(shù)論文中的問題句和方法句,通過數(shù)據(jù)增強(qiáng)和上下文整合策略,該研究提升了模型對問題句和方法句提取的性能。張恒等[45]采用SciBERT模型,結(jié)合ChatGPT對學(xué)術(shù)文本采取同義詞替換、隨機(jī)插入等策略進(jìn)行數(shù)據(jù)增強(qiáng),實現(xiàn)了對學(xué)術(shù)論文研究流程段落的有效識別。陸偉等[46]系統(tǒng)性地探究了大語言模型在學(xué)術(shù)文本分類、信息抽取等任務(wù)中的應(yīng)用,構(gòu)建了一個包含文本分類、信息抽取、文本推理和文本生成4個能力維度的評測框架,并通過實驗分析了不同指令策略對模型性能的影響。李楠等[47]以醫(yī)學(xué)、圖書情報、經(jīng)濟(jì)、數(shù)據(jù)和出版5個學(xué)科的6 452篇結(jié)構(gòu)式摘要作為語料庫,探討了學(xué)術(shù)文本結(jié)構(gòu)功能分類的學(xué)科適用性。通過采用自然語言處理技術(shù)和大語言模型,研究者們提升了模型對學(xué)術(shù)論文文本的提取與理解能力。上述研究不僅促進(jìn)了學(xué)術(shù)知識的有效提取,也為研究者提供了精準(zhǔn)和高效的智能工具,進(jìn)一步推動了科學(xué)研究的發(fā)展。

本研究聚焦學(xué)術(shù)文本,提出了一種新的語義增強(qiáng)自然語言推理模型——SENLI。該模型利用大語言模型生成的高質(zhì)量學(xué)術(shù)文本同義句,從文本的整體語境出發(fā),通過語義增強(qiáng)方法進(jìn)一步提升模型在自然語言推理任務(wù)上的準(zhǔn)確率。

2 研究問題與方法

2.1 研究問題

本研究通過學(xué)術(shù)文本的同義句實施語義增強(qiáng),以期為語義增強(qiáng)的自然語言推理任務(wù)提供新的視角和方法。在此背景下,將面向?qū)W術(shù)文本的語義增強(qiáng)自然語言推理任務(wù)形式化定義如下,即給定學(xué)術(shù)文本對Ta={wa1,wa2,…,wal_a}和Tb={wb1,wb2,…,wbl_b},以及Ta和Tb對應(yīng)的同義句T={w1,w2,…,wl_}和T={w1,w2,…,wl_},其中,wji代表文本j的第i個詞匯項,lj代表文本的詞匯數(shù)量。本文的任務(wù)是設(shè)計一個函數(shù)f,以Ta、Tb、T和T為輸入,預(yù)測學(xué)術(shù)文本對Ta和Tb的語義關(guān)系。基于上述背景,本文提出了一種語義增強(qiáng)的自然語言推理模型,并在此基礎(chǔ)上探究以下幾個研究問題:

1)在自然語言推理任務(wù)中,SENLI模型是否能夠超越現(xiàn)有的深度學(xué)習(xí)模型?

2)同義句的增強(qiáng)和生成方式對SENLI模型效果是否有影響?具體來說,主要探究:①進(jìn)行語義增強(qiáng)時同義句數(shù)量是否對模型效果有影響;②數(shù)據(jù)增強(qiáng)和語義增強(qiáng)哪種方式對SENLI模型更加有效?③同義句生成方式對模型效果是否有影響?

2.2 研究方法

為探究上述研究問題,本文在使用大語言模型生成學(xué)術(shù)文本同義句的基礎(chǔ)上,提出了語義增強(qiáng)的自然語言推理模型SENLI,并在此基礎(chǔ)上開展實證研究。如圖1所示,SENLI模型包含表示模塊、語義增強(qiáng)模塊和推理模塊。其中,表示模塊用來抽取學(xué)術(shù)文本Ta與Tb及其同義句T與T的語義特征,此步驟確保了學(xué)術(shù)文本原始句及其同義句的語義特征均得以有效編碼。語義增強(qiáng)模塊用來將同義句語義特征融合到學(xué)術(shù)文本的原始語義特征中,獲取學(xué)術(shù)文本的語義增強(qiáng)特征,為模型提供更全面和深層次的語義理解。推理模塊使用學(xué)術(shù)文本對特征和語義增強(qiáng)特征,使用兩層的前饋神經(jīng)網(wǎng)絡(luò)獲取預(yù)測結(jié)果。通過所提的3個模塊,SENLI模型實現(xiàn)了從基礎(chǔ)語義表示到語義增強(qiáng)再到語義關(guān)系推理的全過程。

2.2.1 同義句生成

學(xué)術(shù)文本同義句的生成質(zhì)量至關(guān)重要,本文采用Qwen1.5-72B-Chat模型輸出了學(xué)術(shù)文本的同義句。Qwen1.5-72B-Chat是一種由Transformer解碼器堆疊而成的神經(jīng)網(wǎng)絡(luò)架構(gòu),同時加入了SwiGLU[48]、RoPE[49]等技術(shù),實現(xiàn)了對自然語言的深入理解,并具有較好的多語言能力。Qwen1.5-72B-Chat在多項評測任務(wù)中的性能與GPT-4非常接近,綜合考慮易用性、穩(wěn)定性和模型性能等因素,本文選擇將其作為同義句生成工具。具體來說,對于中文數(shù)據(jù)集,提示詞為“{學(xué)術(shù)文本},對于上面的句子,請給我6個意義相同但表達(dá)不同的同義句。請用中文回答,請直接輸出,不要輸出其他任何無關(guān)內(nèi)容”。對于英文數(shù)據(jù)集,提示詞則是“{Academic Text}.For the above sentence,please give me six synonymous sentences with the same meaning but different expressions.Please answer in English.Please output directly and do not output any other irrelevant content.”。

為了驗證大模型獲取的學(xué)術(shù)文本同義句的有效性,隨機(jī)選擇了一個樣例進(jìn)行測試,結(jié)果如圖2所示。可以發(fā)現(xiàn),Qwen1.5-72B-Chat模型生成的學(xué)術(shù)文本同義句顯示出了與原始句在語義上的高度一致性;使用BERT模型獲取了學(xué)術(shù)文本原始句和同義句的語義相似度矩陣并進(jìn)行可視化,如圖3所示。可以發(fā)現(xiàn),原始句和同義句的語義相似度均在0.95以上,表明Qwen1.5-72B-Chat生成的學(xué)術(shù)文本同義句在語義相似度維度下的可用性。

2.2.2 表示模塊

表示模塊用來獲取學(xué)術(shù)文本原始句及其同義句的語義特征。對于學(xué)術(shù)文本原始句的語義特征獲取,將學(xué)術(shù)文本對和兩段學(xué)術(shù)文本分別輸入到BERT模型[16],使用BERT輸出的最后一層隱藏狀態(tài)作為其語義特征,分別為Tab、Ta和Tb,如式(1)~(3)所示:

Tab=BERT([cls],wa1,wa2,…,wal_a,[sep],wb1,wb2,…,wbl_b),Tab∈

為了獲取學(xué)術(shù)文本同義句的語義特征,本文采用GloVe[50]對學(xué)術(shù)文本同義句進(jìn)行表示,并將其輸入到BiLSTM中以獲取同義句的上下文信息,其計算方法如式(4)和式(5)所示:

其中,l是學(xué)術(shù)文本a同義句的詞匯數(shù)量,l是學(xué)術(shù)文本b同義句的詞匯數(shù)量,d2是設(shè)置的BiLSTM的隱藏層維度。

2.2.3 語義增強(qiáng)模塊

語義增強(qiáng)模塊主要是將學(xué)術(shù)文本同義句的語義特征融合到原始句的語義特征中,以通過學(xué)術(shù)文本的不同表達(dá)方式增強(qiáng)模型對學(xué)術(shù)文本的語義理解能力。參考Jiang K X等[51]的工作,本文設(shè)計了一個融合策略,旨在將學(xué)術(shù)文本原始句特征Ta和同義句特征T融合以獲得語義增強(qiáng)特征T,為了確保融合過程既能夠充分利用同義句的語義信息,又能減少可能引入的噪聲,本文在語義增強(qiáng)模塊中引入門控機(jī)制,通過神經(jīng)網(wǎng)絡(luò)來控制原始文本特征和同義句特征的融合比例。具體而言,本文定義了一個融合函數(shù),該函數(shù)以原始句特征Ta和同義句特征T為輸入,利用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到的門控向量G和中間狀態(tài)向量X,動態(tài)地調(diào)整原始文本特征和同義句特征在融合過程中的貢獻(xiàn)度,從而獲取語義增強(qiáng)特征T,融合函數(shù)的定義如式(6)~(8)所示。同樣的,本文采用相同方式獲取學(xué)術(shù)文本b的語義增強(qiáng)特征T。

2和d3是設(shè)置的隱藏層維度。

2.2.4 推理模塊

推理模塊旨在使用學(xué)術(shù)文本對的語義特征和語義增強(qiáng)特征,預(yù)測學(xué)術(shù)文本對的語義關(guān)系。具體而言,使用文本對特征Tab、語義增強(qiáng)特征T和T,經(jīng)過池化拼接后輸入到兩層前饋神經(jīng)網(wǎng)絡(luò),最后經(jīng)過一層Softmax后獲取模型的預(yù)測結(jié)果,如式(9)所示:

Out=Softmax(GeLU([Pooling(Tab);Pooling(T);Pooling(T)]W4+b4)W5+b

Loss=-1M∑Mi=1∑Nj=1yji·log(ji)(10)

其中,M代表測試集中樣本的總數(shù),N代表數(shù)據(jù)集中類別的數(shù)量;yji表示第i個樣本是第j個類別的標(biāo)簽,ji表示模型預(yù)測的第i個樣本是第j個類別的概率值(取值范圍是0~1)。

3 實 驗

3.1 數(shù)據(jù)集

為了驗證本文模型的效果,使用SciTail[52]、SciNLI[53]和本文構(gòu)建的ZwNLI數(shù)據(jù)集。其中,SciTail是一個專注于科學(xué)領(lǐng)域的數(shù)據(jù)集,其核心任務(wù)是判斷兩段文本的語義關(guān)系,包括蘊(yùn)含和中立兩種關(guān)系。該數(shù)據(jù)集設(shè)計了一系列源自科學(xué)問題的假設(shè),而對應(yīng)的前提文本則是從互聯(lián)網(wǎng)上選取的相關(guān)內(nèi)容。SciNLI數(shù)據(jù)集包括從自然語言處理和計算語言學(xué)領(lǐng)域?qū)W術(shù)論文中提取的107 412個句子對,包含對比、推理、蘊(yùn)含和中立4種語義關(guān)系。為了彌補(bǔ)中文學(xué)術(shù)文本自然語言推理數(shù)據(jù)集較少的問題,本文構(gòu)建了ZwNLI數(shù)據(jù)集,包括從圖書館學(xué)與情報學(xué)領(lǐng)域期刊論文結(jié)構(gòu)式摘要中抽取的47 983個文本對。為了構(gòu)建文本對語義關(guān)系的標(biāo)簽,對于結(jié)構(gòu)式摘要中的內(nèi)容,在前人研究基礎(chǔ)[52-53]上做如下假設(shè):①目的引導(dǎo)了方法的選擇;②方法的實施產(chǎn)生了結(jié)果;③文章標(biāo)題內(nèi)容通常蘊(yùn)含了方法;④不同論文摘要的任意兩段文本在語義上是獨立的。基于上述假設(shè),本文構(gòu)建的ZwNLI數(shù)據(jù)集包括引導(dǎo)、產(chǎn)生、蘊(yùn)含和中立4種語義關(guān)系。數(shù)據(jù)集的詳細(xì)信息如表1所示。

3.2 實驗參數(shù)設(shè)置

本文模型使用的超參數(shù)如表2所示,將模型的訓(xùn)練輪次設(shè)定為20輪,選擇Adam優(yōu)化器來調(diào)整網(wǎng)絡(luò)權(quán)重,學(xué)習(xí)率設(shè)置為1e-5,在訓(xùn)練過程中,設(shè)置批次大小為16,為了減少模型過擬合的風(fēng)險,將隨機(jī)失活率設(shè)為0.2。此外,將神經(jīng)網(wǎng)絡(luò)的隱藏層維度分別設(shè)置為300、512和256。所有實驗在配備兩張3090TI顯卡的服務(wù)器上運(yùn)行,使用PyTorch實現(xiàn)模型。

3.3 模型與基線方法的實驗結(jié)果對比分析

為了驗證所提模型的效果,本文選取ESIM[1]、RE2[24]、SciBERT[30]、BERT[16]、RoBERTa[28]、ALBERT[29]和Qwen1.5-72B-Chat作為基線方法,采用準(zhǔn)確率、宏平均的精確率、召回率和F1值作為評價指標(biāo),對比本文模型和基線方法在SciTail、SciNLI和ZwNLI這3個數(shù)據(jù)集上的效果差異,表3~5展示了SENLI模型與基線方法的實驗結(jié)果。

總體來說,SENLI模型在SciTail、SciNLI和ZwNLI這3個基準(zhǔn)測試集上的效果均優(yōu)于基線方法,相比于基線方法,SENLI模型在SciTail、SciNLI和ZwNLI數(shù)據(jù)集的準(zhǔn)確率指標(biāo)上至少提升了1.27、1.08和0.92個百分點,在精確率、召回率和F1值的絕大多數(shù)指標(biāo)上也均取得了最優(yōu)結(jié)果,顯示出其在自然語言推理任務(wù)上的優(yōu)越性能。具體來說,與經(jīng)典模型ESIM、RE2以及預(yù)訓(xùn)練模型ALBERT、BERT相比,SENLI在所有3個數(shù)據(jù)集上均取得了更高的準(zhǔn)確率、精確率、召回率和F1值;與使用科學(xué)文獻(xiàn)作為訓(xùn)練語料的SciBERT模型相比,實驗結(jié)果也證明了SENLI在理解和推理學(xué)術(shù)文本的優(yōu)秀性能;與Qwen1.5-72B-Chat大模型相比,雖然SENLI模型在SciTail數(shù)據(jù)集的精確率上略低于Qwen1.5-72B-Chat模型,但SENLI模型在準(zhǔn)確率、召回率和F1值指標(biāo)上均遠(yuǎn)優(yōu)于Qwen1.5-72B-Chat模型。可以發(fā)現(xiàn),Qwen1.5-72B-Chat在自然語言推理任務(wù)上的準(zhǔn)確率、召回率和F1值指標(biāo)上效果相對較差,但其擁有較優(yōu)的自然語言生成能力,借助于其生成的高質(zhì)量學(xué)術(shù)文本同義句,本文通過實施同義句語義增強(qiáng)提升了模型的自然語言推理性能。總的來說,SENLI模型的優(yōu)越性能表明了其在面向?qū)W術(shù)文本的自然語言推理任務(wù)中的廣泛應(yīng)用前景。

3.4 同義句數(shù)量對模型效果的影響分析

為了驗證使用不同數(shù)量的同義句進(jìn)行語義增強(qiáng)對模型效果的影響,本文在SciTail、SciNLI和ZwNLI這3個數(shù)據(jù)集上進(jìn)行實驗,同義句數(shù)量區(qū)間為0~6,步長為1,探究同義句數(shù)量對模型性能的影響,實驗結(jié)果如圖4~6所示,采用準(zhǔn)確率作為實驗指標(biāo)。

使用同義句進(jìn)行語義增強(qiáng)要優(yōu)于不使用同義句進(jìn)行語義增強(qiáng)的方式,這表明語義增強(qiáng)在自然語言推理任務(wù)上的有效性。具體來說,在SciTail數(shù)據(jù)集上,無語義增強(qiáng)的基線準(zhǔn)確率為93.41%,而實驗1~6的準(zhǔn)確率范圍為94.78%~95.11%,這表明在SciTail數(shù)據(jù)集上,語義增強(qiáng)對于模型性能有著積極的效果。在類別數(shù)更多的SciNLI數(shù)據(jù)集上,模型的3的79.20%,這表明語義增強(qiáng)對于復(fù)雜推理任務(wù)依然有效。對于ZwNLI數(shù)據(jù)集,基線準(zhǔn)確率為97.51%,而實驗1~6的準(zhǔn)確率均在98.35%以上,最高達(dá)到98.43%,這一結(jié)果表明即使在準(zhǔn)確率已經(jīng)相對較高的情況下,語義增強(qiáng)仍能進(jìn)一步提升模型的性能。值得注意的是,當(dāng)同義句達(dá)到一定數(shù)量時,對于SciTail和SciNLI數(shù)據(jù)集是3,對于ZwNLI數(shù)據(jù)集是4,隨著同義句數(shù)量的進(jìn)一步提升,模型效果未能進(jìn)一步繼續(xù)提升,反而可能因信息冗余干擾原始語義理解,這表明存在一個最優(yōu)的同義句數(shù)量,超過此量將不利于模型性能。綜上所述,使用同義句進(jìn)行語義增強(qiáng)能夠提高模型對于給定學(xué)術(shù)文本的理解深度,這對于提升自然語言推理任務(wù)的性能具有積極的作用。

3.5 同義句增強(qiáng)方式對模型效果的影響分析

為了驗證同義句增強(qiáng)方式對模型效果的影響,本文對比了如下兩種方式:①數(shù)據(jù)增強(qiáng),即在訓(xùn)練集直接增加樣本的同義句作為訓(xùn)練樣本;②語義增強(qiáng),即在原樣本上使用樣本的同義句進(jìn)行語義增強(qiáng)。實驗結(jié)果如圖7~9所示,采用準(zhǔn)確率作為實驗指標(biāo)。

總體來說,語義增強(qiáng)的方式要優(yōu)于數(shù)據(jù)增強(qiáng)的方式,這表明在處理具有較為豐富語義結(jié)構(gòu)的文本對時,語義增強(qiáng)能夠提供更加深入的語義理解,從而提高模型的性能。在SciTail和SciNLI數(shù)據(jù)集上,語義增強(qiáng)展現(xiàn)出一致的性能優(yōu)勢。對于ZwNLI數(shù)據(jù)集,兩種方法的性能非常接近,語義增強(qiáng)策略并沒有顯示出顯著的優(yōu)勢。這可能是因為ZwNLI數(shù)據(jù)集本身的難度較低,模型即使在直接訓(xùn)練情況下也能達(dá)到非常高的準(zhǔn)確率。然而,值得注意的是,語義增強(qiáng)在每次實驗中都略優(yōu)于或等于數(shù)據(jù)增強(qiáng)的結(jié)果,表明即使在較易的數(shù)據(jù)集上,語義增強(qiáng)也對模型性能產(chǎn)生積極的作用。

3.6 同義句生成方式對模型效果的影響分析

為了驗證不同的同義句生成方式對模型效果的影響,對比了以下幾種方式,包括同義詞替換、隨機(jī)插入、隨機(jī)交換、隨機(jī)刪除、回譯和大語言模型等方式,為了更加公平地探究不同的同義句生成方式對模型性能的影響,以上方式均產(chǎn)生1個同義句進(jìn)行語義增強(qiáng)。其中,同義詞替換是從句子中隨機(jī)選擇一個非停用詞單詞,用其隨機(jī)選擇的同義詞替換該單詞,對于英文語境使用的是WordNet的同義詞庫,中文語境則是采用構(gòu)建的同義詞庫。隨機(jī)插入是在句子中隨機(jī)找到一個非停用詞的單詞的隨機(jī)同義詞,將該同義詞插入句子中的任意位置。隨機(jī)交換則在句子中隨機(jī)選擇兩個單詞,并交換它們的位置。隨機(jī)刪除則是對于句子中的每個單詞,設(shè)置概率p將其隨機(jī)刪除,參考EDA方法[31]的研究,將概率p設(shè)置為0.1。回譯是將句子首先翻譯為俄語,隨后再將其翻譯為英文或者中文,本文采用的是t5模型進(jìn)行回譯。大語言模型采用的是Qwen1.5-72B-Chat,采用2.2.1節(jié)(同義句生成)輸出的樣本的一個同義句,實驗結(jié)果如表6所示,采用準(zhǔn)確率作為實驗指標(biāo)。

總體來說,不同的同義句生成方式對模型效果的影響呈現(xiàn)出顯著差異,大語言模型在所有的同義句生成方法中表現(xiàn)最優(yōu)。具體而言,同義詞替換和回譯策略相較于無同義句增強(qiáng)的基線表現(xiàn)出一定的性能提升,表明這兩種方法在保持句子語義完整性的同時,有效增加了學(xué)術(shù)文本表達(dá)的多樣性,從而增強(qiáng)了模型的泛化能力。相比之下,隨機(jī)交換單詞、隨機(jī)插入同義詞和隨機(jī)刪除單詞在英文語境下導(dǎo)致模型性能下降,這可能是由于這些方法在處理句子時未能充分考慮到詞匯間的語義關(guān)聯(lián)和句子結(jié)構(gòu)的完整性,從而引入了噪聲,干擾了模型的語義理解能力。值得注意的是,大語言模型Qwen1.5-72B-Chat在所有數(shù)據(jù)集上都顯著優(yōu)于其他同義句生成方法,這表明大模型在理解和生成學(xué)術(shù)文本方面具有較好的能力,能夠為SENLI模型提供更高質(zhì)量的增強(qiáng)效果。

4 討 論

4.1 研究討論

在上述實證研究的基礎(chǔ)上,針對2.1節(jié)的研究問題展開討論。

1)針對研究問題1(在自然語言推理任務(wù)中,SENLI模型是否能夠超越現(xiàn)有的深度學(xué)習(xí)模型?),對比了不同的基線方法,例如BERT、RoBERTa、SciBERT等,實驗結(jié)果表明,SENLI模型在自然語言推理任務(wù)上的性能顯著優(yōu)于基線方法。此外,所提模型在英文數(shù)據(jù)集SciTail、SciNLI以及中文數(shù)據(jù)集ZwNLI上均展現(xiàn)出優(yōu)越的性能,驗證了其在跨語言場景下的廣泛適用性和有效性。

2)針對研究問題2(同義句的增強(qiáng)和生成方式對SENLI模型效果是否有影響?),本文從同義句的數(shù)量、數(shù)據(jù)增強(qiáng)與語義增強(qiáng)方式的有效性對比,以及同義句的生成方式這3個維度,全面探究它們對SENLI模型性能的影響。實驗結(jié)果表明,首先,進(jìn)行語義增強(qiáng)時同義句的數(shù)量對模型性能存在一定影響,采用同義句增強(qiáng)機(jī)制相較于未采用此策略顯著提升了模型性能,然而,當(dāng)同義句的引入量達(dá)到某一閾值后,模型性能的提升趨于平緩,表明存在一個最優(yōu)的同義句數(shù)量。其次,本文證實了同義句增強(qiáng)方式的選擇至關(guān)重要,本研究框架內(nèi)的語義增強(qiáng)方法相較于傳統(tǒng)數(shù)據(jù)增強(qiáng)方法,展現(xiàn)了更高的性能提升,凸顯了語義增強(qiáng)在本文模型中的重要作用。最后,驗證了同義句生成方式對模型效果的影響,發(fā)現(xiàn)不同的同義句生成方式對模型效果確實存在顯著影響,其中大語言模型的生成方式展現(xiàn)出了最優(yōu)的性能。

4.2 研究局限

盡管本文在面向?qū)W術(shù)文本的自然語言推理任務(wù)中已經(jīng)取得了較好的效果,然而本文依然存在以下三方面的研究局限性:其一,本研究主要聚焦模型在自然語言推理任務(wù)上的表現(xiàn),缺乏對模型在不同下游任務(wù)中的泛化能力的系統(tǒng)性評估。其二,本文主要使用學(xué)術(shù)文本的同義句進(jìn)行語義增強(qiáng),未能融合詞語關(guān)系、單詞詞義等其他類型的信息,這可能導(dǎo)致模型在深層次語義理解方面的性能受限。其三,本研究未能充分利用學(xué)術(shù)文獻(xiàn)的多模態(tài)特性(如文本與圖像的結(jié)合),從而限制了模型在綜合理解多模態(tài)信息方面的能力。

在未來的研究中,將致力于以下3個方面:第一,探究如何將本文模型應(yīng)用到下游任務(wù)的技術(shù)路徑。第二,探索在自然語言推理模型中融合詞語關(guān)系、單詞詞義等信息的語義增強(qiáng)方法,以提升模型對學(xué)術(shù)文本的語義理解能力。第三,鑒于學(xué)術(shù)文獻(xiàn)的多模態(tài)特征,計劃將研究視野拓寬至多模態(tài)信息處理領(lǐng)域,整合文本、圖像等多種模態(tài)的信息,通過構(gòu)建統(tǒng)一的多模態(tài)表示與推理框架,為學(xué)術(shù)文獻(xiàn)的綜合語義分析提供更為全面的技術(shù)工具。

4.3 研究啟示

本文主要有以下研究啟示。第一,本文驗證了不同的同義句生成方式對模型效果的影響,發(fā)現(xiàn)大語言模型生成方式展現(xiàn)出最優(yōu)性能,啟示研究者在選擇同義句生成策略時,應(yīng)考慮生成模型的生成性能;第二,本文探討了同義句增強(qiáng)對模型性能的影響,發(fā)現(xiàn)在自然語言推理任務(wù)中,語義增強(qiáng)方法相較于直接增加訓(xùn)練樣本的數(shù)據(jù)增強(qiáng)方法能更顯著提升模型性能,這啟示研究者在進(jìn)行模型訓(xùn)練時,應(yīng)重視語義層面的增強(qiáng)策略。

5 總 結(jié)

本文面向?qū)W術(shù)文本提出了一種語義增強(qiáng)的自然語言推理模型,旨在使用大語言模型生成的高質(zhì)量學(xué)術(shù)文本同義句,通過語義增強(qiáng)的方式提升模型的推理性能。鑒于學(xué)術(shù)文本領(lǐng)域自然語言推理數(shù)據(jù)集的稀缺性,本文特別構(gòu)建了一個面向圖書館學(xué)與情報學(xué)領(lǐng)域論文的自然語言推理數(shù)據(jù)集ZwNLI。將所建模型應(yīng)用于SciTail、SciNLI和ZwNLI數(shù)據(jù)集,實驗結(jié)果表明所建模型在自然語言推理任務(wù)中取得了較好的結(jié)果。本文不僅驗證了SENLI模型在自然語言推理任務(wù)中的優(yōu)秀性能,而且深入探討了同義句的增強(qiáng)和生成方式對其性能的影響,為未來模型優(yōu)化和語義增強(qiáng)的自然語言推理研究提供了有價值的參考,也為學(xué)術(shù)文獻(xiàn)的高效檢索、知識關(guān)聯(lián)和智能推薦等潛在應(yīng)用提供了有力工具。

參考文獻(xiàn)

[1]Chen Q,Zhu X D,Ling Z H,et al.Enhanced LSTM for Natural Language Inference[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics.Stroudsburg:ACL,2017:1657-1668.

[2]Li R H,Cheng L L,Wang D P,et al.Siamese BERT Architecture Model with Attention Mechanism for Textual Semantic Similarity[J].Multimedia Tools and Applications,2023,82(30):46673-46694.

[3]Wang X,Yang H M.MGMSN:Multi-Granularity Matching Model Based on Siamese Neural Network[J].Frontiers in Bioengineering and Biotechnology,2022,10:839586.

[4]李綱,余輝,毛進(jìn).基于多層語義相似的技術(shù)供需文本匹配模型研究[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2021,5(12):25-36.

[5]余輝,夏文蕾,黃煒,等.基于文本匹配-組態(tài)優(yōu)化的兩階段技術(shù)供需匹配方法研究[J].情報學(xué)報,2024,43(3):261-273.

[6]Abu-Salih B,Alweshah M,Alazab M,et al.Natural Language Inference Model for Customer Advocacy Detection in Online Customer Engagement[J].Machine Learning,2024,113(4):2249-2275.

[7]Wu L W,Liu P S,Zhao Y Q,et al.Human Cognition-Based Consistency Inference Networks for Multi-Modal Fake News Detection[J].IEEE Transactions on Knowledge and Data Engineering,2024,36(1):211-225.

[8]Song Y,Hu Q V,He L.P-CNN:Enhancing Text Matching with Positional Convolutional Neural Network[J].Knowledge-Based Systems,2019,169:67-79.

[9]Yu X M,Shen Y D,Ni Y,et al.CapsTM:Capsule Network for Chinese Medical Text Matching[J].BMC Medical Informatics and Decision Making,2021,21(Suppl 2):94.

[10]Gan L,Hu L H,Tan X D,et al.TBNF:A Transformer-Based Noise Filtering Method for Chinese Long-Form Text Matching[J].Applied Intelligence,2023,53(19):22313-22327.

[11]范萌,常志軍,錢力,等.面向結(jié)構(gòu)化篇級科技文獻(xiàn)數(shù)據(jù)治理的高性能分布式計算框架研究[J].情報雜志,2024,43(3):182-189,121.

[12]程芮,張海軍.一種基于數(shù)據(jù)增強(qiáng)的科技文獻(xiàn)關(guān)鍵詞提取模型[J].情報雜志,2024,43(1):135-141,120.

[13]蘇新寧.傳統(tǒng)知識組織方法的智能力[J].科技情報研究,2024,6(1):1-9.

[14]劉細(xì)文,孫蒙鴿,王茜,等.DIKIW邏輯鏈下GPT大模型對文獻(xiàn)情報工作的潛在影響分析[J].圖書情報工作,2023,67(21):3-12.

[15]張強(qiáng),王瀟冉,高穎,等.ChatGPT生成與學(xué)者撰寫文獻(xiàn)摘要的對比研究——以信息資源管理領(lǐng)域為例[J].圖書情報工作,2024,68(8):35-47.

[16]Devlin J,Chang M W,Lee K,et al.BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding[C]//Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies,Volume 1(Long and Short Papers).Minneapolis,Minnesota:ACL,2019:4171-4186.

[17]Zhong Q H,Ding L,Liu J H,et al.Can ChatGPT Understand Too?A Comparative Study on ChatGPT and Fine-Tuned BERT[J].arXiv Preprint arXiv:2302.10198,2023.

[18]Huang P S,He X D,Gao J F,et al.Learning Deep Structured Semantic Models for Web Search Using Clickthrough Data[C]//Proceedings of the 22nd ACM International Conference on Information amp; Knowledge Management.New York:ACM Press,2013:2333-2338.

[19]Hu B T,Lu Z D,Li H,et al.Convolutional Neural Network Architectures for Matching Natural Language Sentences[C]//Proceedings of the Advances in Neural Information Processing Systems.Cambridge:MIT Press,2014:2042-2050.

[20]Palangi H,Deng L,Shen Y L,et al.Deep Sentence Embedding Using Long Short-Term Memory Networks:Analysis and Application to Information Retrieval[J].IEEE/ACM Transactions on Audio,Speech,and Language Processing,2016,24(4):694-707.

[21]Gong Y C,Luo H,Zhang J.Natural Language Inference Over Interaction Space[J].arXiv Preprint arXiv:1709.04348,2017.

[22]Huang G,Liu Z,Van Der Maaten L,et al.Densely Connected Convolutional Networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Hawaii,USA:IEEE,2017:4700-4708.

[23]Wang Z G,Hamza W,F(xiàn)lorian R.Bilateral Multi-Perspective Matching for Natural Language Sentences[C]//Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence.San Francisco:Morgan Kaufmann Press,2017:4144-4150.

[24]Yang R Q,Zhang J H,Gao X,et al.Simple and Effective Text Matching with Richer Alignment Features[C]//Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics,Stroudsburg:Association for Computational Linguistics,2019:4699-4709.

[25]Zhang K,Lv G Y,Wu L,et al.LadRa-Net:Locally Aware Dynamic Reread Attention Net for Sentence Semantic Matching[J].IEEE Transactions on Neural Networks and Learning Systems,2023,34(2):853-866.

[26]Hu Z,F(xiàn)u Z,Peng C,et al.Enhanced Sentence Alignment Network for Efficient Short Text Matching[C]//Proceedings of the Sixth Workshop on Noisy User-generated Text(W-NUT 2020),2020:34-40.

[27]Vaswani A,Shazeer N,Parmar N,et al.Attention is All You Need[C]//Proceedings of the Advances in Neural Information Processing Systems.Cambridge:MIT Press,2017:5998-6008.

[28]Liu Y H,Ott M,Goyal N,et al.RoBERTa:A Robustly Optimized BERT Pretraining Approach[EB/OL].[2022-06-11].https://arxiv.org/pdf/1907.11692.pdf.

[29]Lan Z Z,Chen M D,Goodman S,et al.ALBERT:A Lite BERT for Self-Supervised Learning of Language Representations[EB/OL].[2022-06-11].https://arxiv.org/pdf/1909.11942.pdf.

[30]Beltagy I,Lo K,Cohan A.SciBERT:A Pretrained Language Model for Scientific Text[C]//Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing(EMNLP-IJCNLP).Hong Kong,China:Association for Computational Linguistics,2019:3615-3620.

[31]Wei J,Zou K.EDA:Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks[J].arXiv Preprint arXiv:1901.11196,2019.

[32]Xie Q Z,Dai Z H,Hovy E,et al.Unsupervised Data Augmentation for Consistency Training[J].Advances in Neural Information Processing Systems,2020,33:6256-6268.

[33]Huang W Y,Qu Q,Yang M.Interactive Knowledge-Enhanced Attention Network for Answer Selection[J].Neural Computing and Applications,2020,32(15):11343-11359.

[34]Bordes A,Usunier N,Garcia-Duran A,et al.Translating Embeddings for Modeling Multi-Relational Data[C]//Proceedings of the Neural Information Processing Systems.Cambridge,MA:MIT Press,2013,26:2787-2795.

[35]Jiang K X,Jin G Z,Zhang Z G,et al.Incorporating External Knowledge for Text Matching Model[J].Computer Speech amp; Language,2024,87:101638.

[36]Gajbhiye A,Moubayed N A,Bradley S.ExBERT:An External Knowledge Enhanced BERT for Natural Language Inference[C]//Artificial Neural Networks and Machine Learning-ICANN 2021:30th International Conference on Artificial Neural Networks,Bratislava,Slovakia,September 14-17,2021,Proceedings,Part V 30.Springer International Publishing,2021:460-472.

[37]Sun Y,Wang S H,Li Y K,et al.ERNIE 2.0:A Continual Pre-Training Framework for Language Understanding[C]//Proceedings of the AAAI Conference on Artificial Intelligence.New York,USA:AAAI,2020,34(5):8968-8975.

[38]Liu W J,Zhou P,Zhao Z,et al.K-BERT:Enabling Language Representation with Knowledge Graph[C]//Proceedings of the AAAI Conference on Artificial Intelligence.New York,USA:AAAI,2020,34(3):2901-2908.

[39]Lyu B,Chen L,Zhu S,et al.LET:Linguistic Knowledge Enhanced Graph Transformer for Chinese Short Text Matching[C]//Proceedings of the AAAI Conference on Artificial Intelligence.Online:ACL,2021,35(15):13498-13506.

[40]Xia T Y,Wang Y,Tian Y,et al.Using Prior Knowledge to Guide BERTs Attention in Semantic Textual Matching Tasks[C]//Proceedings of the Web Conference 2021.Ljubljana Slovenia:ACM,2021:2466-2475.

[41]Yu C M,Xue H D,An L,et al.A Lightweight Semantic-Enhanced Interactive Network for Efficient Short-Text Matching[J].Journal of the Association for Information Science and Technology,2023,74(2):283-300.

[42]Li Y N,Chen J Y,Li Y H,et al.Embracing Ambiguity:Improving Similarity-Oriented Tasks with Contextual Synonym Knowledge[J].Neurocomputing,2023,555:126583.

[43]謝林蕾,向熠,章成志.面向融合出版前沿主題發(fā)現(xiàn)的學(xué)術(shù)論文未來工作句挖掘研究[J].情報工程,2023,9(5):123-138.

[44]Zhang Y Y,Zhang C Z.Extracting Problem and Method Sentence from Scientific Papers:A Context-Enhanced Transformer Using Formulaic Expression Desensitization[J].Scientometrics,2024,129(6):3433-3468.

[45]張恒,趙毅,章成志.基于SciBERT與ChatGPT數(shù)據(jù)增強(qiáng)的研究流程段落識別[J].情報理論與實踐,2024,47(1):164-172,153.

[46]陸偉,劉寅鵬,石湘,等.大模型驅(qū)動的學(xué)術(shù)文本挖掘——推理端指令策略構(gòu)建及能力評測[J].情報學(xué)報,2024,43(8):946-959.

[47]李楠,方麗,張逸飛.學(xué)術(shù)文本結(jié)構(gòu)功能深度學(xué)習(xí)識別方法的多學(xué)科對比分析[J].現(xiàn)代情報,2019,39(12):55-63,87.

[48]Shazeer N.GLU Variants Improve Transformer[J].arXiv Preprint arXiv:2002.05202,2020.

[49]Su J L,Ahmed M,Lu Y,et al.RoFormer:Enhanced Transformer with Rotary Position Embedding[J].Neurocomputing,2024,568:127063.

[50]Pennington J,Socher R,Manning C.Glove:Global Vectors for Word Representation[C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing(EMNLP).Doha,Qatar:Association for Computational Linguistics,2014:1532-1543.

[51]Jiang K X,Zhao Y H,Jin G Z,et al.KETM:A Knowledge-Enhanced Text Matching Method[C]//2023 International Joint Conference on Neural Networks(IJCNN).IEEE,2023:1-8.

[52]Khot T,Sabharwal A,Clark P.SciTaiL:A Textual Entailment Dataset from Science Question Answering[C]//Proceedings of the 32th AAAI Conference on Artificial Intelligence.Palo Alto:AAAI Press,2018:5189-5197.

[53]Sadat M,Caragea C.SciNLI:A Corpus for Natural Language Inference on Scientific Text[C]//Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics(Volume 1:Long Papers).Dublin,Ireland:Association for Computational Linguistics,2022:7399-7409.

(責(zé)任編輯:郭沫含)

猜你喜歡
大語言模型深度學(xué)習(xí)
大語言模型賦能中醫(yī)藥研究生科研能力策略研究
大語言模型在操作系統(tǒng)課程教學(xué)中的應(yīng)用研究
大語言模型下《麥琪的禮物》中的隱性進(jìn)程研究
大語言模型賦能語料庫建設(shè)的方法探究
大模型驅(qū)動的課程三維重構(gòu):角色、生態(tài)與個性賦能
有體驗的學(xué)習(xí)才是有意義的學(xué)習(xí)
電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識別研究
MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
主站蜘蛛池模板: 美女一区二区在线观看| 99在线视频免费| 国产精品视频导航| 在线播放91| 日韩欧美国产区| 高清国产在线| 免费一极毛片| 亚洲AV无码一区二区三区牲色| 久久情精品国产品免费| 国产一区二区三区精品欧美日韩| 凹凸国产分类在线观看| 久久99久久无码毛片一区二区| 国产区成人精品视频| 一级毛片免费观看久| 无码日韩精品91超碰| 精品91视频| 久久国语对白| 国产尤物在线播放| P尤物久久99国产综合精品| 婷婷综合亚洲| 国产精品自在在线午夜区app| 国产精品任我爽爆在线播放6080| 中文字幕在线永久在线视频2020| 伊人天堂网| 无码免费试看| 91精品专区| 国产福利一区视频| 国产免费网址| 欧美成人亚洲综合精品欧美激情| 国产精品美女在线| 亚洲成a人片| www.91在线播放| 99激情网| 亚洲水蜜桃久久综合网站| 国产日韩精品一区在线不卡 | 精品亚洲欧美中文字幕在线看| 午夜精品久久久久久久无码软件| 久久精品一品道久久精品| 国产女人水多毛片18| 国产福利在线免费| 国产成人免费高清AⅤ| 欧美中文字幕在线视频 | 一本色道久久88亚洲综合| 国产jizzjizz视频| 色精品视频| 人妻中文字幕无码久久一区| 亚洲天堂视频网站| 久久国产拍爱| 欧美日韩国产高清一区二区三区| 丁香六月激情综合| 精品福利视频网| 一区二区三区四区在线| 精品無碼一區在線觀看 | 欧美亚洲日韩中文| 97在线免费视频| 91视频青青草| 91探花国产综合在线精品| 国产欧美精品专区一区二区| 日韩专区欧美| 亚洲视屏在线观看| 无码丝袜人妻| 亚洲天堂免费| 中文字幕日韩视频欧美一区| 一级毛片免费高清视频| 久久免费视频6| 91黄视频在线观看| 中文字幕欧美日韩| 高清不卡毛片| 九月婷婷亚洲综合在线| 欧美日韩一区二区在线播放| 波多野结衣一区二区三区AV| 女同国产精品一区二区| 国内精品伊人久久久久7777人| 国产成人无码AV在线播放动漫| 日韩在线成年视频人网站观看| 国产一二三区视频| 色偷偷一区| 国产一区二区人大臿蕉香蕉| 国产午夜一级淫片| 黄色网站在线观看无码| 71pao成人国产永久免费视频| 国产成人综合亚洲网址|