999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大語言模型在摘要結(jié)構(gòu)功能識別上的應(yīng)用研究

2025-03-27 00:00:00翁夢娟王曉光桂恒劉文斌石佛波
現(xiàn)代情報 2025年4期

關(guān)鍵詞:結(jié)構(gòu)功能識別;生成式大模型:大語言模型;結(jié)構(gòu)化摘要:語步識別

近年來,隨著數(shù)據(jù)、算法、算力的飛速發(fā)展,以GPT 4.0為代表的生成式大語言模型因其規(guī)模效應(yīng)和智能涌現(xiàn),成為自然語言處理領(lǐng)域的研究熱點。生成式大模型的訓(xùn)練語料主要來自互聯(lián)網(wǎng)上大量的英文文本數(shù)據(jù),同時包含少量中文在內(nèi)的其他多語種語料。大語言模型通過在大規(guī)模語料庫上進行自監(jiān)督訓(xùn)練,在機器翻譯、文本分類、智能問答等經(jīng)典任務(wù)上都取得了重要突破,甚至在語義理解、常識推理和對話生成等任務(wù)上達到甚至超越了人類的平均水平。

基于GPT的聊天應(yīng)用ChatGPT的發(fā)布引起信息資源管理學(xué)科學(xué)者的廣泛關(guān)注。陸偉等、葉鷹等展望了大語言模型對學(xué)科領(lǐng)域各方面可能的影響,并提出學(xué)科發(fā)展與教育建議。與此同時,學(xué)術(shù)界也掀起了基于該模型對信息抽取、自動摘要、情報工作、知識組織系統(tǒng)構(gòu)建等典型情報研究與實踐任務(wù)的測評。但當(dāng)前的相關(guān)測試關(guān)注的多為基于單個大語言模型實現(xiàn)的生成式任務(wù),對生成式大模型在句子多分類任務(wù)等典型判別式任務(wù)的關(guān)注較少。

摘要語義增強是語義出版的基本形式,結(jié)構(gòu)化摘要是摘要語義增強的典型方式,越來越多的期刊選擇采用結(jié)構(gòu)化摘要。摘要結(jié)構(gòu)化是典型的句子多分類任務(wù)。結(jié)構(gòu)化的劃分有助于讀者快速定位目標(biāo)結(jié)構(gòu)、確定文獻與自己研究的相關(guān)、提高用戶的閱讀效率,同時便于細粒度的知識檢索、挖掘與發(fā)現(xiàn)。與非結(jié)構(gòu)化摘要相比,結(jié)構(gòu)化摘要為研究人員提供了更大的價值,同時提高了研究被發(fā)現(xiàn)的可能性。

為測試生成式大語言模型在句子多分類這一判別式任務(wù)上的可行性及應(yīng)用潛力,研究選擇摘要結(jié)構(gòu)化任務(wù),自構(gòu)涵蓋多領(lǐng)域、多語種和多時間段的測試數(shù)據(jù)集,并在該數(shù)據(jù)集上對GPT 4.0等大語言模型的性能進行測試,探索其在摘要結(jié)構(gòu)識別任務(wù)上的具體表現(xiàn)。通過評估和比較多種生成式大語言模型在摘要句子分類任務(wù)中的表現(xiàn),研究提供了對這類模型在摘要句子分類任務(wù)上適用性的深入理解。這有助于揭示大模型在實際應(yīng)用中可能存在的問題,為GPT 4.0等生成式方法在判別式任務(wù)上的實際應(yīng)用提供參考與建議。

1摘要結(jié)構(gòu)功能識別相關(guān)研究

根據(jù)研究目的,摘要結(jié)構(gòu)功能識別現(xiàn)有研究可以分為3個類別:①對比同一模型在不同數(shù)據(jù)的表現(xiàn):將摘要結(jié)構(gòu)功能識別視為分類任務(wù),針對同一模型,構(gòu)建測試集,對比其在不同領(lǐng)域、不同結(jié)構(gòu)類別的分類效果:②對比不同特征或模型在同一數(shù)據(jù)的表現(xiàn):基于同一數(shù)據(jù),構(gòu)建或使用不同模型,對比不同模型的性能表現(xiàn),或以控制變量的方法測試文本樣本規(guī)模和文本表示方式對特定模型性能的影響;③設(shè)計并開發(fā)摘要結(jié)構(gòu)功能識別算法。

在第一類研究中,主要對比同一模型在不同領(lǐng)域數(shù)據(jù)集和不同結(jié)構(gòu)功能類別上的性能表現(xiàn)。展開來說,李楠等基于Word2vec和CNN模型實現(xiàn)結(jié)構(gòu)識別,研究發(fā)現(xiàn)學(xué)科差異性對深度學(xué)習(xí)模型的效果有顯著影響,其中醫(yī)學(xué)領(lǐng)域的效果明顯高于其他4個學(xué)科,相比于其他結(jié)構(gòu)功能類別,“方法”和“結(jié)果”類別的識別效果更好。筆者認為,識別效果更好的領(lǐng)域或結(jié)構(gòu)類別是因為該領(lǐng)域或結(jié)構(gòu)類別文本的語言表示更有規(guī)律且有更多的專有高頻詞。但是該論文將《數(shù)據(jù)分析與知識發(fā)現(xiàn)》與《圖書情報工作》的論文分屬于圖情和數(shù)據(jù)領(lǐng)域,可能會對測試結(jié)果產(chǎn)生影響。孟旭陽等以NSTL內(nèi)的英文科技論文摘要為測試集,基于BERT的掩藏句子模型實現(xiàn)任務(wù),研究結(jié)果顯示,醫(yī)學(xué)、工學(xué)領(lǐng)域的效果更好,理學(xué)、農(nóng)學(xué)的效果較差:“結(jié)論”“方法”類別的效果更好,“背景”類別的效果較差。研究認為,這與其使用的模型是在PubMed數(shù)據(jù)集上訓(xùn)練得到的有關(guān)。可以看出,兩項研究結(jié)果呈現(xiàn)出共性:在領(lǐng)域上,醫(yī)學(xué)領(lǐng)域的效果較好;在結(jié)構(gòu)類別上,“方法”的效果較好。

在第二類研究中,部分研究基于同一數(shù)據(jù),構(gòu)建或使用不同模型,對比不同模型的性能表現(xiàn),如王東波等基于情報領(lǐng)域中文論文摘要開展測試,發(fā)現(xiàn)與CRF結(jié)合的神經(jīng)網(wǎng)絡(luò)(RNN-CRF和LSTM-CRF)在結(jié)構(gòu)功能識別任務(wù)上比LSTM有優(yōu)勢,SVM整體效果不理想。張智雄等發(fā)現(xiàn),Attention-BiL-STM的效果顯著好于其他3個模型,而DNN和LSTM效果差別不大。劉忠寶等針對情報領(lǐng)域中文摘要開展測試,發(fā)現(xiàn)相比于BiRNN、BiLSTM、BiL-STM-CRF模型,BERT模型更適用于結(jié)構(gòu)功能識別任務(wù)且性能穩(wěn)定。毛進等在eHealth領(lǐng)域的數(shù)據(jù)上展開實驗,發(fā)現(xiàn)ERNIE模型在各個功能類別識別上均效果不錯,BERT-TextCNN模型在短句子上效果更好,而BERT-BiLSTM模型對于長句子的識別效果更好。部分研究側(cè)重在同一數(shù)據(jù)上,以控制變量的方法測試文本樣本規(guī)模和文本表示方式對特定模型性能的影響,如Nam S等發(fā)現(xiàn),與詞袋、語言特征、語法特征和結(jié)構(gòu)特征相比,語言特征對SVM模型性能產(chǎn)生的影響更大。丁良萍等發(fā)現(xiàn),樣本規(guī)模、N-gram中N值、停用詞和詞頻加權(quán)方式均會對SVM模型性能產(chǎn)生較大影響。以上研究為摘要結(jié)構(gòu)識別任務(wù)的特征選擇和模型選擇指明方向。

第三類研究則專注于設(shè)計并開發(fā)摘要結(jié)構(gòu)功能識別算法,要么視其為序列標(biāo)記算法,要么視其為句子分類任務(wù)。這類研究旨在提高摘要結(jié)構(gòu)識別的效果。具體來說,可以將其分為3個大類:基于規(guī)則的方法、基于傳統(tǒng)機器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法。早期,隱馬爾可夫模型、樸素貝葉斯、條件隨機場、支持向量機等傳統(tǒng)機器學(xué)習(xí)算法均被應(yīng)用于摘要結(jié)構(gòu)化任務(wù)。近年來,基于深度學(xué)習(xí)的算法成為主流,一方面是卷積神經(jīng)網(wǎng)絡(luò)及其變形、LSTM模型及其變形等深度學(xué)習(xí)算法的廣泛應(yīng)用:另一方面Bert等判別式預(yù)訓(xùn)練模型與微調(diào)結(jié)合算法也開始被用于摘要結(jié)構(gòu)功能識別任務(wù),而預(yù)訓(xùn)練模型同時被用于文本嵌入表示。以上研究除研究和研究是在公開數(shù)據(jù)集展開研究外,均采用的是自建數(shù)據(jù)集,使用的數(shù)據(jù)集集中在醫(yī)學(xué)、計算機、圖書情報3個領(lǐng)域。隨著算法的升級,摘要結(jié)構(gòu)功能識別的F1值基本能達到80%以上,最佳能接近100%。由于各項研究使用的數(shù)據(jù)集、使用的摘要結(jié)構(gòu)功能類別、選擇的基準(zhǔn)模型不一致等原因,為更廣泛的算法對比帶來了困難。

通過對以上相關(guān)研究文章的內(nèi)容進行梳理發(fā)現(xiàn):①盡管各個領(lǐng)域的摘要結(jié)構(gòu)功能類別略有差異,但又具有一致性,基本可以統(tǒng)一到“背景”“目的”“方法”“結(jié)果”“結(jié)論”的框架中。②準(zhǔn)確率(Ac-curacy)、精確率(Precision)、召回率(Recall)和F1值是摘要結(jié)構(gòu)功能識別任務(wù)中使用的評估指標(biāo),混淆矩陣常被用于模型分類效果分析。混淆矩陣通常是在整體數(shù)據(jù)集層面上計算得到,但當(dāng)把摘要結(jié)構(gòu)功能類別任務(wù)視為多分類任務(wù)時,精確率、召回率和F1值的計算方式又有些微差異。③隨著自然語言處理領(lǐng)域的發(fā)展,用于摘要結(jié)構(gòu)化任務(wù)的算法也隨之升級。最近GPT等生成式大語言模型的流行為摘要結(jié)構(gòu)化任務(wù)提供了新的可能,但生成式方法能否被應(yīng)用到判別式任務(wù)仍待進一步研究。

2研究設(shè)計

研究旨在明確在零樣本和單輪對話的條件下,以作者或期刊的標(biāo)注結(jié)果為準(zhǔn),測試GPT 4.0、Qwen1.5和ERNIE 4.0這3個大語言模型在摘要結(jié)構(gòu)功能識別任務(wù)上的可行性及性能表現(xiàn),并依此來看大語言模型在科學(xué)文本信息結(jié)構(gòu)提取任務(wù)上的潛力。具體來說,關(guān)注在不同學(xué)科領(lǐng)域(醫(yī)學(xué)、計算機、圖情)、不同發(fā)表時間、不同語種(中、英文)的科學(xué)論文摘要上的分類效果以及效果是否存在顯著差異。研究通過對3個大語言模型在不同領(lǐng)域、時間、語言測試集上的性能指標(biāo)(準(zhǔn)確率、查準(zhǔn)率、查全率、F1)進行單因素方差分析,來定量分析大語言模型在不同學(xué)科領(lǐng)域、不同發(fā)表時間和不同語種測試集上的性能是否存在顯著差異。

研究設(shè)計主要包括測試集構(gòu)建、模型選擇與提示設(shè)計、摘要結(jié)構(gòu)分類效果評估3個部分,如圖1所示。GPT、ERNIE和Qwen分別為OpenAI、百度和阿里發(fā)布的大語言模型。GPT 4.0、ERNIE4.0和Qwen l.5選用的版本分別為gpt 4-1160-preview.ernie-4.0-8k-preview和110b-chat-vl.5-fp16.

2.1任務(wù)定義

根據(jù)文獻的調(diào)查,在實際使用中背景、目的、方法、結(jié)果、結(jié)論句在科學(xué)論文摘要中占比94%,在一定程度上反映出這5個結(jié)構(gòu)功能類別頗具代表性。因此,本文選擇將科學(xué)論文摘要的結(jié)構(gòu)功能分為“背景/BACKGROUND”“目的/OBJEC-TIVE”“方法/METHODS”“結(jié)果/RESULTS”和“結(jié)論/CONCLUSIONS”。

科學(xué)論文摘要由若干句子組成,每個句子僅屬于一個結(jié)構(gòu)功能類別。為了避免分句結(jié)果對大語言模型效果的影響,將分句處理后的摘要作為模型輸入。研究將科學(xué)論文摘要結(jié)構(gòu)功能識別任務(wù)定義為:以單篇科學(xué)論文摘要文本的句子集合作為輸入測試樣本,通過特定的提示詞,提示大語言模型對摘要文本中每個句子輸出一個結(jié)構(gòu)功能類別標(biāo)簽,要求最終輸出與摘要文本句子數(shù)相同的標(biāo)簽類別個數(shù)。

2.2測試集構(gòu)建

為滿足實驗需求,研究基于Web of Science核心合集、北大核心、南大CSSCI等期刊目錄確定期刊范圍,從中篩選出提供結(jié)構(gòu)化文本摘要的期刊,然后刪除同屬于兩個及以上測試領(lǐng)域的期刊,結(jié)合期刊采用結(jié)構(gòu)化摘要的程度,最終確定作為獲取結(jié)構(gòu)化摘要的數(shù)據(jù)源期刊。其中,醫(yī)學(xué)、圖情和計算機領(lǐng)域期刊數(shù)量分別為8種、6種和2種。

對從各期刊采集到的結(jié)構(gòu)化摘要進行數(shù)據(jù)清洗和結(jié)構(gòu)功能提取,具體包括剔除非研究性論文,以及基于Python 3.7.9使用Jieba、Nltk等工具的摘要文本分句等。各個期刊采用的摘要結(jié)構(gòu)功能類別并不相同,研究統(tǒng)一將結(jié)構(gòu)功能類別映射到“背景/BACKGROUND”“目的/OBJECTIVE”“方澎METH-ODS”“結(jié)果/RESUITS”與“結(jié)論/CONCLUSIONS”,映射規(guī)則原則上與文獻[16]保持一致。

根據(jù)領(lǐng)域、出版時間、語種,從處理后的數(shù)據(jù)集合中分層隨機采樣得到指定數(shù)量的12個互斥子集作為測試集,為不同的實驗?zāi)康淖鰷?zhǔn)備。其中,出版時間以2023年為界,各子集數(shù)據(jù)詳情如表1、圖2所示。

從表1、圖2中可以看到,測試集各子集內(nèi)“背景”句的數(shù)量較少,有的不包含“背景”句;“方法”“結(jié)果”“結(jié)論”句的數(shù)量普遍較多。各條形高低差別明顯,說明各類之間句子數(shù)量分布并不均勻。總的來說,測試集中包含14045篇摘要,共包括125136個單句,其中“結(jié)果/RESULTS”類包含35696條單句,數(shù)量最多;“背景/BACKGROUND”類包含3047條單句,數(shù)量最少:“目的/OBJECTIVE”類、“方法/METHODS”類、“結(jié)論/CONCLUSIONS”類包含的單句數(shù)量分別為22223條、33797條、30193條。

2.3模型選擇與提示設(shè)計

由于大語言模型的輸入Token每日有數(shù)量限制,摘要結(jié)構(gòu)功能分類的完成時間并不完全一致。每一次執(zhí)行任務(wù)時,均根據(jù)任務(wù)定義、輸出格式等內(nèi)容對大語言模型進行提示,且僅輸入單個分好句的摘要。經(jīng)過多次提示測試后,研究采用的中、英文提示如表2所示。實際開展任務(wù)時,為了避免輸出結(jié)果受歷史對話的影響,研究為每個測試樣本創(chuàng)建一個新的聊天對話,并將提示和單個測試樣本同時作為對話的輸入。為了確保API給出的類別在給定范圍內(nèi)且數(shù)量與實際句子數(shù)量一致,在提示中明確給出句子數(shù)量和預(yù)設(shè)的標(biāo)簽范圍。

2.4實驗效果評估與分析方法

研究分別在各個測試子集和測試全集上生成混淆矩陣,計算各結(jié)構(gòu)功能類別和整體的準(zhǔn)確率(acc)、查準(zhǔn)率(P)、查全率(R)、F1。具體來說:

根據(jù)測試子集或測試全集的預(yù)測類別和實際類別生成混淆矩陣,如表3所示。

其中,當(dāng)在測試子集內(nèi)生成混淆矩陣和計算評估指標(biāo)時,m=5;當(dāng)在測試全集內(nèi)生成混淆矩陣和計算評估指標(biāo)時,m=10。

測試子集或測試全集的整體acc、P、R、F1的計算分別如式(4)~(6)所示,即采用宏平均的方式計算得到:

其中,n為測試集內(nèi)實際包含的結(jié)構(gòu)功能類別數(shù)量。即是測試全集時,n=10;是測試子集時,如果子測試集中不存在“背景/BACKGROUND”句時,則n=4;如果子測試集存在“背景/BACK-GROUND”句時,則n=5。

為對比模型在不同結(jié)構(gòu)功能類別、不同領(lǐng)域、不同語種、不同時間上的識別效果是否存在顯著差異,研究通過對模型在不同結(jié)構(gòu)功能類別、領(lǐng)域、語種、日寸間樣本上的性能表現(xiàn)(acc、P、R、F1),進行單因素方差分析。當(dāng)p值小于0. 05時,認為結(jié)果存在顯著性差異。

3測試結(jié)果與分析

圖3~5分別對GPT 4.0、Qwen1.5和ERNIE4.0在各個數(shù)據(jù)集的輸出結(jié)果進行統(tǒng)計。從輸出結(jié)果與預(yù)期結(jié)果的一致程度(藍色條紋)來看,Qwen對提示的理解程度遠不如GPT和ERNIE.GPT和ERNIE的表現(xiàn)相當(dāng)。一致比例較高說明使用生成式模型解決判別式任務(wù)基本可用。具體來說,①GPT:標(biāo)簽數(shù)量與句子數(shù)量不一致且預(yù)測標(biāo)簽不在設(shè)定范圍內(nèi)的摘要數(shù)量幾乎沒有(黃色條形在圖中幾乎不可見):標(biāo)簽數(shù)量與句子數(shù)量一致但預(yù)測標(biāo)簽不在設(shè)定范圍內(nèi)的摘要數(shù)量較少(橙色條形在圖中較短)。②Qwen:標(biāo)簽數(shù)量與句子數(shù)量不一致且預(yù)測標(biāo)簽不在設(shè)定范圍內(nèi)的摘要數(shù)量較少(黃色條形較短),標(biāo)簽數(shù)量與句子數(shù)量一致但預(yù)測標(biāo)簽不在設(shè)定范圍內(nèi)的摘要幾乎沒有(橙色條形幾乎不可見)。③標(biāo)簽數(shù)量與句子數(shù)量不一致且預(yù)測標(biāo)簽不在設(shè)定范圍內(nèi)的摘要和標(biāo)簽數(shù)量與句子數(shù)量一致但預(yù)測標(biāo)簽不在設(shè)定范圍內(nèi)的摘要數(shù)量相當(dāng)。

研究對不在設(shè)定范圍內(nèi)的標(biāo)簽進行分類統(tǒng)計。除預(yù)測標(biāo)簽錯誤外,研究將不在設(shè)定范圍內(nèi)的標(biāo)簽分為3類:①輸出的標(biāo)簽與設(shè)定的標(biāo)簽范圍不一致,但標(biāo)簽語義也在可接受的范圍:這類問題在3個大語言模型中均有出現(xiàn)。在英文數(shù)據(jù)集上,CONCLU-SION、OBJECTIVES、METHOD、RESULT等只是單復(fù)數(shù)與設(shè)定的范圍不一樣。LIMITATIONS及其變形、FUTURE WORK及其變形、IMPLICATIONS、DISCUS-SION、“局限”“限制”等是可以接受的摘要結(jié)構(gòu)類型。②模型在給出預(yù)測的同時給出解釋,盡管解釋可能是錯誤的。如輸出內(nèi)容為:“背景,目的,方法,結(jié)果”,請注意,由于輸出要求,未給出“結(jié)論”類別,但根據(jù)文本內(nèi)容,“為有效阻斷鄰避輿情演化為現(xiàn)實群體性事件一要優(yōu)化鄰避治理的資源供給…”這句話及其后面的內(nèi)容,可以歸為“結(jié)論”類別。這類錯誤僅出現(xiàn)在ERNIE中。③續(xù)寫句子:這表明模型并未理解提示。這類錯誤僅出現(xiàn)在Qwen和ERNIE中。

3個大語言模型的共性表現(xiàn)在:標(biāo)簽數(shù)量與句子數(shù)量不一致但預(yù)測標(biāo)簽均在設(shè)定范圍內(nèi)的摘要數(shù)量均較多(灰色條紋在圖中明顯可見)。而且,灰色條紋較明顯的子集均為2023年之前的摘要。遺憾的是,實驗設(shè)計階段考慮到輸出成本,因此未輸出標(biāo)簽對應(yīng)的句子詳情,無法對出現(xiàn)這一現(xiàn)象的原因進行深入分析。

在后續(xù)的分析中,研究僅在標(biāo)簽數(shù)量與句子數(shù)量一致且預(yù)測標(biāo)簽在設(shè)定范圍內(nèi)的摘要集合(即藍色條紋部分)上進行。如表4所示,基于提示的GPT模型在測試全集上的結(jié)構(gòu)類別識別準(zhǔn)確率為0.72,P、R、F1分別為0.68、0.72和0.63。ERNIE的性能表現(xiàn)與GPT幾乎一致。Qwen的性能表現(xiàn)則低于GPT和ERNIE將近10%。盡管和最新深度學(xué)習(xí)算法的效果相比仍有一定差距,但在零樣本的情況下達到此效果實屬不錯。這與文獻[35]在分析多個ChatGPT用于分類任務(wù)的結(jié)果一致,當(dāng)前ChatGPT與提示可以用來標(biāo)注文本,但當(dāng)前它并不是最好的模型;如果追求性能,使用微調(diào)Transformer仍是最好的選擇。

3.1各結(jié)構(gòu)功能類別識別效果與分析

從表5的F1值來看,3個大語言模型對“背景/BACKGROUND”類別的識別效果均最差,識別效果遠低于其他結(jié)構(gòu)類別:對“目的/OBJECTIVE\"類別的識別效果也均較差,僅好于“背景/BACK-GROUND”類別:“方澎METHODS”“結(jié)/RESUITS”“結(jié)論/CONCLUSIONS”類別的識別效果在0.60~0. 88間波動。可以看出,模型在不同結(jié)構(gòu)類別上的識別效果存在明顯差距,無論是中文還是英文摘要數(shù)據(jù),“方法/METHODS”“結(jié)果/RESULTS”“結(jié)論/CONCLUSIONS”類別的識別效果均不錯,且好于“背景/BACKGROUND”和“目的/OBJECTIVE”類別。

對3個大語言模型在各測試子集上不同結(jié)構(gòu)功能類別的P、R、F1進行單因素方差分析,以定量的方式分析不同結(jié)構(gòu)功能類別樣本的識別效果是否有顯著差異。方差分析如表6所示,從表6中可以看出,3個模型在不同結(jié)構(gòu)功能類別樣本的P、R、F1均存在顯著差異,且有著較為明顯差異的組別高度一致:“結(jié)論/CONCLUSIONS”“方法/METH-ODS”“目的/OBJECTIVE”“結(jié)果/RESULTS”的P、R、F1均顯著高于“背景/BACKGROUND”,“方法”“結(jié)果”“結(jié)論”的P、R、F1,還顯著高于“目的”,而“目的”的P、R、F1則顯著高于“背景”。這與測試全集上的效果基本一致,說明各結(jié)構(gòu)功能類別的分類效果差異源于其內(nèi)生的語言特征,與分類使用的模型無關(guān)。

3.2混淆矩陣分析

研究分別統(tǒng)計了不同模型在中、英文測試集上的混淆矩陣,分別如表7、表8所示,行為真實標(biāo)簽列為預(yù)測標(biāo)簽。容易被誤認的類別的語言特征存在較高相似性。不同的模型混淆矩陣表現(xiàn)出高度的一致性:①在中文測試集上,“背景”句幾乎只會被誤認為“目的”句,“目的”類主要被誤認為“背景”句,“方法”句主要被誤認為“目的”句,“結(jié)果”句主要被誤認為“方法”句,“結(jié)論”句主要被誤認為“結(jié)果”句。②在英文測試集上,“BACKGROUND”主要被誤認為“OBJECTIVE”句,“OBJECTIVE”句主要被誤認為“BACKGROUND”句,“METHODS”句主要被誤認為“RESULTS”句,“RESULTS”句主要被誤認為“METHODS”句和“CONCLUSIONS”句,“CONCLUSIONS”句主要被誤認為“RESULTS”句。各測試子集的混淆矩陣表現(xiàn)出與之相似的特征。

總結(jié)表7、表8中的兩個混淆矩陣的共同點可以發(fā)現(xiàn),“背景/BACKGROUND”和“目的/OBJEC-TIVE”互為對方最易被誤識的結(jié)構(gòu)功能類別,“結(jié)果/RESULTS”和“結(jié)論/CONCLUSIONS”句也容易被誤認。由此來看,不同語種的表達混淆存在共性。

3.3不同領(lǐng)域、時間和語種下摘要結(jié)構(gòu)識別效果差異顯著性對比

從表9可以看出,GPT在醫(yī)學(xué)、圖情、計算機各個領(lǐng)域相關(guān)的4個子測試集總體分類的F1值范圍分別為0. 64~0.84、0.40~0.76、0.66~0.74,acc值范圍分別為0. 80~0.86、0.48~0.71、0.66~0.70。Qwen在醫(yī)學(xué)、圖情、計算機各個領(lǐng)域相關(guān)的4個子測試集總體分類的F1值范圍分別為0.53~0.59、0.40~0.68、0.52~0.62,acc值范圍分別為0.56~0.75、0.49~0.65、0.51~0.63。ERNIE在醫(yī)學(xué)、圖情、計算機各個領(lǐng)域相關(guān)的4個子測試集總體分類的F1值范圍分別為058~0.82、0.45~0.68、0.61~0.79,acc值范圍分別為0.52~0.62、0.76~0.84、0.67~0.75。由此來看,在各個子集上,GPT的效果略優(yōu)于ERNIE,且明顯高于Qwen。

基于表9中的各測試子集的識別效果數(shù)據(jù),利用單因素方差分析不同大語言模型在研究領(lǐng)域(圖情、計算機、醫(yī)學(xué))、時間(2023年之前、2023年及之后)和語種(中、英文)上,F(xiàn)1、P、R和acc的差異性,結(jié)果如表10所示。從表10可以看出,GPT和ERNIE在不同時間樣本的P、R、F1、acc上均不會表現(xiàn)出顯著性:在不同語種樣本的R和acc上不會表現(xiàn)出顯著性(pgt;0.05),但在P和F1上會表現(xiàn)出顯著性:在不同領(lǐng)域樣本的P和F1上不會表現(xiàn)出顯著性,但在R和acc上不會表現(xiàn)出顯著性。Qwen則在不同時間、不同語種、不同領(lǐng)域樣本的P、R、F1和acc上不會表現(xiàn)出顯著性。

具體來說,GPT和ERNIE均在不同領(lǐng)域的R上呈現(xiàn)出0.01水平顯著性,這表示模型在醫(yī)學(xué)、計算機領(lǐng)域上的召回率顯著高于在圖情領(lǐng)域的表現(xiàn):在不同領(lǐng)域的acc上呈現(xiàn)出0.01水平顯著性,這表示模型在醫(yī)學(xué)領(lǐng)域的準(zhǔn)確率顯著高于在圖情和計算機領(lǐng)域的表現(xiàn)。這與文獻的測試結(jié)論一致,說明生成式大語言模型應(yīng)用于摘要結(jié)構(gòu)識別任務(wù)時,表現(xiàn)出與傳統(tǒng)機器學(xué)習(xí)模型和深度學(xué)習(xí)方法相同的特點;在不同語種的P和F1均呈現(xiàn)出0.01水平顯著性,這表示模型在中文樣本上的準(zhǔn)確率和F1明顯低于英文樣本。

4結(jié)論與建議

摘要結(jié)構(gòu)功能識別算法的開發(fā)始終緊跟自然語言處理領(lǐng)域的最新進展,隨著以GPT等為代表的生成式大語言模型的發(fā)展,其被應(yīng)用于摘要結(jié)構(gòu)化等科技文本信息抽取任務(wù)可謂是必然。但是對利用生成式大語言模型解決摘要結(jié)構(gòu)功能識別這類判別式任務(wù)可能存在的問題認識仍不清晰,提高對這一問題的認識有助于高效構(gòu)建高質(zhì)量科技情報智慧數(shù)據(jù)。研究構(gòu)建涵蓋不同領(lǐng)域、時間和語種的文獻摘要數(shù)據(jù)集,在零樣本和單輪提示的條件下,測試了GPT4.0、ERNIE 4.0和Qwen 1.5這3個生成式大語言模型在摘要結(jié)構(gòu)功能識別這一判別式任務(wù)的性能表現(xiàn)及性能在不同領(lǐng)域、不同時間、不同語種、不同結(jié)構(gòu)功能類別上的差異程度。

研究表明,GPT4.0等生成式大語言模型應(yīng)用到判別式任務(wù)時會出現(xiàn)輸出結(jié)果不可控的問題。這意味著在解決判別式任務(wù)時,需要對輸出結(jié)果做進一步處理以保證其結(jié)果的可控性。GPT4.0等生成式大語言模型輸出的少量標(biāo)簽盡管不在給定范圍內(nèi),但基本屬于可接受的范疇。這意味著基于提示的方法并不完全可控,但又基本可用。研究目前并未將這一部分內(nèi)容納入性能統(tǒng)計范疇,換句話說,研究未將輸出的不受控標(biāo)簽映射到給定的5個標(biāo)簽類別上,這可能會對實驗結(jié)果產(chǎn)生影響。實際上,在摘要結(jié)構(gòu)功能類別定義上,期望期刊的結(jié)構(gòu)類別標(biāo)簽統(tǒng)一是不切實際的想法,研究認為有必要構(gòu)建涵蓋現(xiàn)存的所有功能結(jié)構(gòu)類別的映射規(guī)則,為細粒度檢索與檢索系統(tǒng)的評估提供參考。

研究表明,不同模型的語言理解能力和在摘要句子分類任務(wù)上的性能存在差異。GPT4.0對提示的理解能力好于另外兩個大語言模型,不存在續(xù)寫句子等錯誤輸出。GPT 4.0和ERNIE 4.0在不同領(lǐng)域和不同語種的數(shù)據(jù)集上性能存在明顯差異,受時間影響不明顯。但是失控標(biāo)簽的輸出則主要集中在2023年之前的數(shù)據(jù),輸出僅包括標(biāo)簽的約束使得無法得知生成標(biāo)簽數(shù)量與句子數(shù)量不一致的原因。此外,在單輪提示和零樣本的條件下,GPT在摘要結(jié)構(gòu)功能識別任務(wù)上的性能表現(xiàn)不如基于Bert等判別式大語言模型的微調(diào)算法。研究僅在零樣本情況下測試單輪對話下不同大語言模型的性能,對單樣本和多樣本的情況和多輪對話的情況未測試。未來如何通過提示工程(如提示樣本的構(gòu)建、提示策略的調(diào)整、多輪對話機制)、模型微調(diào)、AI Agent的設(shè)計等實現(xiàn)性能的提升仍需進一步研究。

生成式大語言模型的下游應(yīng)用前景廣闊,但也帶來了輸出結(jié)果不可控與不可靠、能源等其他成本與偏見.安全等風(fēng)險。未來基于生成式大語言模型構(gòu)建智能情報服務(wù)時應(yīng)著重關(guān)注輸出結(jié)果的可控性、領(lǐng)域自適應(yīng)等。此外,盡管ERNIE是國內(nèi)的大語言模型,但它在中文數(shù)據(jù)集上的表現(xiàn)也不如英文數(shù)據(jù)集,這反映出中文高質(zhì)量語料庫的缺失。我國應(yīng)加快中文大語言模型研發(fā),針對不同領(lǐng)域形成不同的提示策略或建設(shè)高質(zhì)量領(lǐng)域知識庫,以應(yīng)對未知風(fēng)險和挑戰(zhàn)。

主站蜘蛛池模板: 国产幂在线无码精品| 久久这里只有精品国产99| 成人在线观看不卡| 不卡无码h在线观看| 最新日韩AV网址在线观看| 国产高清又黄又嫩的免费视频网站| 亚洲三级片在线看| 国产欧美日韩va另类在线播放 | 久久伊人久久亚洲综合| 欧美乱妇高清无乱码免费| 亚洲国产天堂久久九九九| 日韩免费毛片| 一区二区三区四区精品视频| 九九九精品成人免费视频7| 久久香蕉国产线看精品| 日本福利视频网站| 日韩视频福利| 久久亚洲国产视频| 色婷婷综合激情视频免费看| 伊人久热这里只有精品视频99| 99er精品视频| 国产幂在线无码精品| 色九九视频| 精品少妇人妻无码久久| V一区无码内射国产| 亚洲无码免费黄色网址| 国产凹凸视频在线观看 | 亚洲AV成人一区二区三区AV| 国产在线观看人成激情视频| a欧美在线| 国产精品不卡永久免费| 日韩精品无码一级毛片免费| 狠狠色噜噜狠狠狠狠色综合久| 亚洲国产精品国自产拍A| 欧美午夜视频| 婷婷中文在线| 欧美日韩一区二区三区四区在线观看 | 国产一区免费在线观看| 国产乱子伦视频三区| 伦伦影院精品一区| 欧美成人免费| 亚洲欧美激情小说另类| a级毛片免费播放| 人妻中文久热无码丝袜| 亚洲综合色婷婷| 日韩精品一区二区三区大桥未久 | 亚洲天堂免费| 青青草原国产av福利网站| 亚洲成年人网| 久久国产黑丝袜视频| 午夜啪啪福利| 国产99精品久久| 国产精欧美一区二区三区| 国产欧美另类| 亚洲美女一区| 国产精品19p| 不卡无码h在线观看| 人禽伦免费交视频网页播放| 国产日本欧美在线观看| 精品国产aⅴ一区二区三区| 91精品啪在线观看国产91九色| 这里只有精品在线| 精品小视频在线观看| 视频二区中文无码| 亚洲成人精品久久| 国产精品大白天新婚身材| 日韩美一区二区| 无码一区18禁| 国产丰满成熟女性性满足视频| 国产精品入口麻豆| 国产va免费精品观看| 伊人久久大香线蕉成人综合网| 成人国产免费| 午夜福利无码一区二区| 亚洲欧美一区二区三区蜜芽| 亚洲欧美自拍中文| 成人午夜久久| 被公侵犯人妻少妇一区二区三区| 欧美激情视频一区| 亚洲欧美成人网| 国产欧美高清| 人妖无码第一页|