











關(guān)鍵詞:中醫(yī)古籍;相似度計(jì)算;預(yù)訓(xùn)練語(yǔ)言模型;SimCSE;AIGC
中醫(yī)古籍,中華文化之瑰寶,載千年醫(yī)道之精粹,古籍所書,不獨(dú)醫(yī)藥方劑,更含養(yǎng)生之術(shù),辯證之法,治病之經(jīng),皆以不朽之經(jīng)典,傳承至今。文本相似度技術(shù)對(duì)古籍整理、文獻(xiàn)溯源、文獻(xiàn)查找等方面具有重要意義:①集注集釋整理,可精準(zhǔn)比對(duì)不同古籍中的相似文段,極大提升整理古籍時(shí)的效率和準(zhǔn)確性,從而為研究者呈現(xiàn)更為清晰、完整的中醫(yī)知識(shí)體系;②文本生成溯源方面,則助力追蹤和分析特定醫(yī)學(xué)理論或治療方法的發(fā)展歷程,揭示中醫(yī)學(xué)術(shù)思想的演變和流變:③對(duì)于重出文獻(xiàn)的追尋和查找,文本相似度計(jì)算能有效識(shí)別并對(duì)比古籍中的相似或重復(fù)內(nèi)容,便利版本比較與校勘工作。然而,中醫(yī)古籍的文本內(nèi)容涵蓋多個(gè)世紀(jì)的醫(yī)學(xué)知識(shí)和實(shí)踐經(jīng)驗(yàn),包含了大量特殊術(shù)語(yǔ)和古代漢字,這也使得傳統(tǒng)的自然語(yǔ)言處理(NLP)方法不能勝任,因此,如何構(gòu)建適用于中醫(yī)古籍領(lǐng)域的相似度計(jì)算模型已成為一個(gè)重要的研究問題。
SimCSE(Supervised and Unsupervised ImprovedContrastive Sentence Embedding)作為主流的相似度計(jì)算方法,已在多個(gè)領(lǐng)域文本相似度計(jì)算任務(wù)中取得顯著效果,主要分為有監(jiān)督和無(wú)監(jiān)督兩種。有監(jiān)督的SimCSE相較于無(wú)監(jiān)督能夠更準(zhǔn)確地捕捉語(yǔ)義信息,效果也更為可靠,但需標(biāo)注一定規(guī)模的高質(zhì)量數(shù)據(jù)作為訓(xùn)練集,而對(duì)于本文的中醫(yī)古文相似度任務(wù),其痛點(diǎn)在于,一方面,市面上并無(wú)開源的中醫(yī)古文相似數(shù)據(jù)集,若采取人工標(biāo)注則需標(biāo)注者在具備古文理解力的同時(shí)具備強(qiáng)大的中醫(yī)知識(shí)基礎(chǔ),速度慢,產(chǎn)能低;另一方面,SimCSE方法基于預(yù)訓(xùn)練語(yǔ)言模型,而現(xiàn)有的語(yǔ)言模型多以通用古籍類為主,針對(duì)中醫(yī)古籍這一細(xì)分領(lǐng)域,尚未有相關(guān)的模型。
隨著以ChatGPT、ChatGLM為代表的生成式大語(yǔ)言模型取得飛速突破,自然語(yǔ)言處理也迎來(lái)新的研究范式和多樣化選擇。大語(yǔ)言模型能夠根據(jù)用戶輸入的Prompt提示詞,利用自身強(qiáng)大的語(yǔ)言理解和生成能力給出流暢通順的回答。在此情境下,采用AI生成的自監(jiān)督標(biāo)注(Automated Supervision byAI)方法來(lái)取代傳統(tǒng)有監(jiān)督人工標(biāo)注下游任務(wù)訓(xùn)練集成為一大可能。
結(jié)合上述情況,本文在多個(gè)通用古籍模型增量預(yù)訓(xùn)練的基礎(chǔ)上,利用AIGC技術(shù)生成全部下游任務(wù)數(shù)據(jù),在此基礎(chǔ)上結(jié)合SimCSE對(duì)比學(xué)習(xí)方法,設(shè)計(jì)出一種針對(duì)中醫(yī)古籍領(lǐng)域的古文相似度計(jì)算模型。本文主要貢獻(xiàn)在于:①對(duì)現(xiàn)有多個(gè)通用古籍BERT模型進(jìn)行增量預(yù)訓(xùn)練,獲得適用于中醫(yī)古籍領(lǐng)域的BERT模型,以更好地表示中醫(yī)古籍語(yǔ)義文本特征。②針對(duì)中醫(yī)古籍領(lǐng)域暫無(wú)公開數(shù)據(jù)集且標(biāo)注成本高的情況,利用生成式AI技術(shù),構(gòu)建適用于中醫(yī)古籍領(lǐng)域?qū)Ρ葘W(xué)習(xí)的正負(fù)樣本訓(xùn)練集,極大地減輕了人工標(biāo)注工作量。③首次提出針對(duì)中醫(yī)古籍領(lǐng)域的古文相似度計(jì)算模型,實(shí)驗(yàn)比較了不同訓(xùn)練方式、不同預(yù)訓(xùn)練語(yǔ)言模型、不同種類Prompt提示詞構(gòu)建的正負(fù)樣本進(jìn)行對(duì)比學(xué)習(xí)的效果,探討了不同正樣本混合方式對(duì)模型性能的提升策略,證明了在零樣本訓(xùn)練集條件下,基于AIGC的樣本訓(xùn)練數(shù)據(jù)構(gòu)造方法具備一定的可行性,效果顯著優(yōu)于傳統(tǒng)的無(wú)監(jiān)督對(duì)比學(xué)習(xí)。
1相關(guān)研究
1.1從淺層距離到深度語(yǔ)義探索:文本相似度研究歷程
文本相似度是一種用于確定兩個(gè)或多個(gè)文本之間語(yǔ)義或結(jié)構(gòu)相似性的任務(wù)。早期的文本相似度方法大多是通過度量文本間的距離進(jìn)行計(jì)算,如Sim-Hash、BM25等。隨著特征工程的興起,文本相似度領(lǐng)域開始通過構(gòu)建合適的特征來(lái)將文本表示為詞向量或句向量,并使用向量之間的距離或相似性度量來(lái)衡量文本的相似程度,如詞袋模型、TF-IDF、N-gram等。這類方法在一定程度上提高了文本相似度的效果,但難以表示文本中的全部語(yǔ)義信息,因此實(shí)際效果并不顯著。再后來(lái),利用諸如Word2vec、GloVe等詞向量模型進(jìn)行文本表示更具便捷性,可以自動(dòng)學(xué)習(xí)語(yǔ)義特征表示,逐漸取代了相對(duì)繁瑣的特征工程方法。近年來(lái),隨著預(yù)訓(xùn)練語(yǔ)言模型技術(shù)的迅猛發(fā)展,研究者們開始利用BERT模型提取文本的上下文語(yǔ)義信息,并使用其生成的語(yǔ)義向量進(jìn)行相似度量,這也使得文本相似計(jì)算效果得到進(jìn)一步提高。已有實(shí)驗(yàn)證實(shí),相較于利用BERT直接獲取語(yǔ)義向量表示的方法,SimCSE方法可有效解決向量表達(dá)存在各向異性以及向量分布不均勻的情況,能更好地學(xué)習(xí)到句向量表征,可進(jìn)一步優(yōu)化BERT模型在文本相似度計(jì)算中的應(yīng)用效果,提高模型的魯棒性和泛化能力,這也為文本相似度計(jì)算提供了更為強(qiáng)大和可靠的工具。
1.2零樣本資源下的智慧啟迪:AIGC賦能NLP經(jīng)典任務(wù)
自ChatGPT問世以來(lái),憑借其深厚的語(yǔ)義理解和智能推理能力,實(shí)現(xiàn)了對(duì)復(fù)雜語(yǔ)境的準(zhǔn)確把握與敏銳回應(yīng),從而在對(duì)話生成和智能問答中顯露出獨(dú)特優(yōu)勢(shì),同時(shí)也為NLP經(jīng)典任務(wù)注入了新的活力與可能。當(dāng)前,就生成式AI技術(shù)能否直接應(yīng)用于NLP經(jīng)典任務(wù),相關(guān)學(xué)者以此為契機(jī)進(jìn)行了探索。如,張華平等在零樣本資源情況下使用9個(gè)數(shù)據(jù)集評(píng)估ChatGPT的中文表現(xiàn)性能,發(fā)現(xiàn)在NLP經(jīng)典理解式任務(wù)上表現(xiàn)較好,在情感分析上具有85%以上的準(zhǔn)確率,在閉卷問答上出現(xiàn)事實(shí)性錯(cuò)誤的概率較高。鮑彤等評(píng)估ChatGPT在典型中文信息抽取任務(wù)中的性能,發(fā)現(xiàn)ChatGPT在事件抽取中具有較好的表現(xiàn),在命名實(shí)體識(shí)別、關(guān)系抽取中的效果與中文預(yù)訓(xùn)練模型存在較大差距。
上述研究表明,生成式AI技術(shù)在傳統(tǒng)理解式任務(wù)上表現(xiàn)出優(yōu)異性能,但對(duì)于復(fù)雜場(chǎng)景下特定領(lǐng)域的判別式、抽取式任務(wù)上,效果并不領(lǐng)先,此后部分學(xué)者開始嘗試?yán)肁IGC技術(shù)簡(jiǎn)化傳統(tǒng)NLP方法處理流程,如,張恒等針對(duì)研究流程段落識(shí)別任務(wù),在SciBERT模型的基礎(chǔ)之上,利用ChatGPT通過數(shù)據(jù)增強(qiáng),顯著提高了分類的準(zhǔn)確率和F1值。因而,本研究認(rèn)為,在大語(yǔ)言模型無(wú)法很好地勝任且傳統(tǒng)NLP處理方法又缺少標(biāo)注數(shù)據(jù)的情境下,利用生成式AI技術(shù)構(gòu)建樣本訓(xùn)練集具備一定的可行性。
2研究介紹
2.1研究框架
本文的研究框架,如圖1所示,主要分為語(yǔ)料收集及預(yù)處理、融合領(lǐng)域知識(shí)的繼續(xù)預(yù)訓(xùn)練、基于對(duì)比學(xué)習(xí)的SimCSE相似度計(jì)算3個(gè)部分:①語(yǔ)料收集及預(yù)處理,通過模擬鼠標(biāo)鍵盤點(diǎn)擊的方式爬取《中華醫(yī)典》數(shù)據(jù)庫(kù)中的所有數(shù)據(jù),之后通過進(jìn)行數(shù)據(jù)清洗以形成繼續(xù)預(yù)訓(xùn)練所需的中醫(yī)古籍純文本語(yǔ)料;②融合領(lǐng)域知識(shí)的繼續(xù)預(yù)訓(xùn)練,選擇多個(gè)通用古籍語(yǔ)言模型進(jìn)行繼續(xù)預(yù)訓(xùn)練,采用10%的中醫(yī)古籍語(yǔ)料作為驗(yàn)證集,使用困惑度指標(biāo)(PPL,Per-plexity)初步評(píng)估模型的性能;③基于對(duì)比學(xué)習(xí)的SimCSE相似度計(jì)算,通過設(shè)計(jì)不同的Prompt模板,采用AI技術(shù)構(gòu)建不同種類的正負(fù)樣本對(duì)作為訓(xùn)練集,在多個(gè)模型繼續(xù)預(yù)訓(xùn)練的基礎(chǔ)上結(jié)合SimCSE方法進(jìn)行多次實(shí)驗(yàn)對(duì)比,同時(shí)探討不同正樣本混合策略對(duì)模型性能的提升。
2.2融合領(lǐng)域知識(shí)的繼續(xù)預(yù)訓(xùn)練
BERT模型作為一種自監(jiān)督學(xué)習(xí)的語(yǔ)言表示模型,已在許多自然語(yǔ)言處理任務(wù)中取得顯著的成就。然而,當(dāng)被應(yīng)用到具有特定領(lǐng)域知識(shí)的任務(wù)時(shí),其通用的預(yù)訓(xùn)練框架可能不足以捕獲領(lǐng)域特有的語(yǔ)義細(xì)節(jié),領(lǐng)域知識(shí)融合則是將任務(wù)相關(guān)的數(shù)據(jù)或特定領(lǐng)域的知識(shí)引入預(yù)訓(xùn)練模型,使其能夠更好地理解語(yǔ)境和上下文,從而提升其特定任務(wù)的性能表現(xiàn)。如,趙一鳴等將醫(yī)學(xué)信息查詢相關(guān)的語(yǔ)料對(duì)BERT模型進(jìn)行繼續(xù)預(yù)訓(xùn)練,在較低的資源和時(shí)間成本下獲得預(yù)訓(xùn)練模型MQ-BERT,使其更好地表征醫(yī)學(xué)信息查詢式的詞向量,以適應(yīng)意圖強(qiáng)度識(shí)別任務(wù)。
2.3基于對(duì)比學(xué)習(xí)的SimCSE相似度計(jì)算
SimCSE是一種在預(yù)訓(xùn)練語(yǔ)言模型的基礎(chǔ)上,通過對(duì)比學(xué)習(xí)來(lái)提高相似度計(jì)算效果的方法,其訓(xùn)練主要分為無(wú)監(jiān)督和有監(jiān)督兩種方式。無(wú)監(jiān)督的SimCSE采用Dropout作為簡(jiǎn)單的數(shù)據(jù)增強(qiáng)技術(shù),通過對(duì)同一個(gè)輸入句子進(jìn)行兩次前向傳播以產(chǎn)生兩個(gè)略有差異的正樣本,同時(shí)使用與輸入句子長(zhǎng)度不同的負(fù)樣本來(lái)進(jìn)行訓(xùn)練,其弊端在于訓(xùn)練完成的模型傾向于認(rèn)為長(zhǎng)度相近的句子在語(yǔ)義上也更為相似。有監(jiān)督的SimCSE需要一定規(guī)模的精加工標(biāo)簽數(shù)據(jù)集,使用預(yù)先定義的正樣本對(duì)和負(fù)樣本對(duì)來(lái)訓(xùn)練。由于直接從標(biāo)記數(shù)據(jù)中學(xué)習(xí),有監(jiān)督的SimCSE能夠更準(zhǔn)確地捕捉語(yǔ)義信息,與無(wú)監(jiān)督相比,效果更為可靠。
3融合中醫(yī)古籍知識(shí)的繼續(xù)預(yù)訓(xùn)練實(shí)驗(yàn)
3.1實(shí)驗(yàn)語(yǔ)料收集
本文所進(jìn)行的繼續(xù)預(yù)訓(xùn)練實(shí)驗(yàn)語(yǔ)料來(lái)源為“九五”國(guó)家重點(diǎn)電子出版規(guī)劃項(xiàng)目的重要成果《中華醫(yī)典》數(shù)據(jù)庫(kù)。該數(shù)據(jù)庫(kù)按圖書館分類法將歷代中醫(yī)古籍分為醫(yī)經(jīng)、診法、本草等12個(gè)大類,條理清晰、涇渭分明,涵蓋到民國(guó)為止的中國(guó)傳統(tǒng)醫(yī)學(xué)文化建設(shè)的主要成就,卷帙上萬(wàn),是目前市面上規(guī)模最為宏大的中醫(yī)古籍類電子叢書。
表1列出《中華醫(yī)典》各類目具體數(shù)量及字?jǐn)?shù)。從字?jǐn)?shù)統(tǒng)計(jì)結(jié)果來(lái)看,共67346246個(gè)漢字,單本古籍字?jǐn)?shù)最少的為臨證各科類目,最多的為方書;不重復(fù)漢字共8628個(gè),各個(gè)類目不重復(fù)漢字?jǐn)?shù)均占50%以上,反映出中醫(yī)古籍用詞凝練度高,專業(yè)術(shù)語(yǔ)集中性強(qiáng)。
3.2實(shí)驗(yàn)評(píng)測(cè)指標(biāo)
困惑度(PPL,Perplexity)作為一種衡量語(yǔ)言模型預(yù)測(cè)樣本概率的指標(biāo),被廣泛應(yīng)用于各類預(yù)訓(xùn)練任務(wù)的評(píng)測(cè)中。理論上來(lái)講,困惑度越低,模型的性能越好,對(duì)數(shù)據(jù)的不確定性越小,如式(1)所示:
3.3基線模型介紹
盡管現(xiàn)有的古籍語(yǔ)言模型在古籍領(lǐng)域表現(xiàn)出一定的普適性,但應(yīng)用于更加專業(yè)和細(xì)分的自然語(yǔ)言處理任務(wù)日寸,其性能往往受到限制。因此,面對(duì)中醫(yī)專業(yè)知識(shí)密集的中醫(yī)古籍領(lǐng)域,有必要在通用古籍模型的基礎(chǔ)上進(jìn)行繼續(xù)預(yù)訓(xùn)練。
基線模型選擇方面,筆者綜合考察了現(xiàn)有古籍方面的NLP任務(wù)所用模型,發(fā)現(xiàn)guwenbert-base、SikuBERT、SikuRoBERTa這三類模型所用居多,如劉江峰等對(duì)典籍文本進(jìn)行命名實(shí)體識(shí)別,張逸勤等針對(duì)跨語(yǔ)言典籍進(jìn)行跨語(yǔ)言風(fēng)格計(jì)算,均采用了上述3種模型進(jìn)行對(duì)比。與前人已有研究略有區(qū)別的是,本文在選擇前面三類模型的基礎(chǔ)上新增Gujibert、Gujiroberta兩種模型進(jìn)行對(duì)比,其主要原因在于這兩種模型在繼續(xù)預(yù)訓(xùn)練過程中語(yǔ)料類型較為特殊,為簡(jiǎn)繁混合型,而本研究的中醫(yī)古籍語(yǔ)料分布年代各異,簡(jiǎn)繁體眾多,若采用現(xiàn)有軟件全部統(tǒng)一為簡(jiǎn)體或繁體,難免出現(xiàn)遺漏。考慮到上述情況,本研究最終選擇以下5種基線模型,如表2所示,在此基礎(chǔ)上進(jìn)行繼續(xù)預(yù)訓(xùn)練,旨在開發(fā)出更加適應(yīng)中醫(yī)古籍的預(yù)訓(xùn)練模型,以在下游文本相似度計(jì)算場(chǎng)景中取得更好的性能表現(xiàn)。
GuwenBERT-base基于RoBERTa模型,由北京理工大學(xué)閻覃開發(fā)構(gòu)建古漢語(yǔ)預(yù)訓(xùn)練語(yǔ)言模型。該模型使用的訓(xùn)練數(shù)據(jù)為殆知閣古代文獻(xiàn)數(shù)據(jù)集,包含15694本古典中文書籍,涵蓋佛教、儒家、歷史等多個(gè)領(lǐng)域,總共有大約17億個(gè)字符,同時(shí)在繼續(xù)預(yù)訓(xùn)練過程中,所有傳統(tǒng)字符都經(jīng)過簡(jiǎn)體轉(zhuǎn)換處理。SikuBERT和SikuRoBERTa是由南京農(nóng)業(yè)大學(xué)信息管理學(xué)院開發(fā)的針對(duì)古文文本自然語(yǔ)言處理的預(yù)訓(xùn)練語(yǔ)言模型,采用校驗(yàn)后的高質(zhì)量《四庫(kù)全書》總共約5.36億字繁體語(yǔ)料作為訓(xùn)練集,其中,SikuBERT基于BERT中文模型框架預(yù)訓(xùn)練,SikuRoBERTa則在RoBERTa模型的基礎(chǔ)上繼續(xù)預(yù)訓(xùn)練。Gujibert和Gujiroberta兩類模型與SikuBERT和SikuRoBERTa訓(xùn)練過程基本相似,但與Siku系列模型相比,兩者的訓(xùn)練來(lái)源有所不同,與gu-wenbert-base模型相比,其不同點(diǎn)則是在于訓(xùn)練語(yǔ)料類型為簡(jiǎn)繁混合型。
3.4實(shí)驗(yàn)參數(shù)設(shè)置
研究設(shè)置了一系列超參數(shù),如表3所示,其中,學(xué)習(xí)率(Learning Rate)決定了模型權(quán)重更新的速度,將其設(shè)置為Se-05,有助于模型在學(xué)習(xí)過程中穩(wěn)定地調(diào)整和優(yōu)化;訓(xùn)練輪數(shù)(num_train_epochs)設(shè)定為3,確保模型有足夠的時(shí)間學(xué)習(xí)古籍文本的細(xì)微特征,防止因過多訓(xùn)練輪次而引起過擬合;設(shè)置梯度累積策略(gradient_accumulation_ steps)為4,可有效批量訓(xùn)練,從而優(yōu)化內(nèi)存使用并提升模型性能。
3.5繼續(xù)預(yù)訓(xùn)練實(shí)驗(yàn)結(jié)果
針對(duì)不同模型訓(xùn)練所需的語(yǔ)料類型,通過OpenCC包對(duì)訓(xùn)練語(yǔ)料進(jìn)行簡(jiǎn)繁互換后,在5種通用古籍BERT模型上進(jìn)行繼續(xù)預(yù)訓(xùn)練,并在相應(yīng)的驗(yàn)證數(shù)據(jù)集上進(jìn)行了性能評(píng)估。繼續(xù)預(yù)訓(xùn)練所獲得的模型分別命名為TCM-guwenbert-base、TCM-Siku-BERT、TCM-SikuRoBERTa.TCM-Guibert、TCM-Gujiroberta。從表4實(shí)驗(yàn)結(jié)果看,各個(gè)預(yù)訓(xùn)練模型都取得了相對(duì)不錯(cuò)的效果,TCM-SikuBERT最好,為5.928,TCM-guwenbert-base最差,為6.495。
4中醫(yī)古文相似度計(jì)算實(shí)驗(yàn)
4.1實(shí)驗(yàn)樣本來(lái)源
古籍中的普通語(yǔ)句較為通俗,缺乏深層次的哲理內(nèi)涵,這可能不利于模型捕捉語(yǔ)言的深層含義:而古籍名言因其深刻的意義和精辟的表達(dá),往往被后世頻繁引用,具有很高的辨識(shí)度和豐富的文化背景。因此,本文選擇《中華醫(yī)典》數(shù)據(jù)庫(kù)lt;辭典gt;類目下的所有古籍名言作為實(shí)驗(yàn)樣本,使模型更加集中于理解中醫(yī)古文的語(yǔ)義特征和文化內(nèi)涵上,而非僅僅是語(yǔ)言形式上的相似性,以增強(qiáng)模型在實(shí)際應(yīng)用中的識(shí)別力。
為保證匹配的粒度相對(duì)統(tǒng)一,減少句長(zhǎng)差異帶來(lái)的干擾,本研究將名言長(zhǎng)度大致限定在8~30字的范圍內(nèi)。如果長(zhǎng)度超過30,那么按照句子中間較大語(yǔ)義停頓的標(biāo)點(diǎn)符號(hào)(如句號(hào)、感嘆號(hào)、問號(hào)等)進(jìn)行分句,最終獲得3036條中醫(yī)古籍名言。表5列出部分中醫(yī)古籍名言示例及出處。
4.2基于AIGC的正負(fù)樣本對(duì)生成
4.2.1正負(fù)樣本對(duì)構(gòu)造方式
正樣本對(duì):在不改變語(yǔ)義的情況下,基于AIGC的方式通過同義詞替換(Chat_SR)、隨機(jī)插入(Chat_RI)、隨機(jī)交換(Chat_RS)、隨機(jī)刪除(Chat_RD)、混合改寫(Chat_RW)5種方式生成相似樣本。
負(fù)樣本對(duì):當(dāng)前主流的負(fù)樣本構(gòu)造方式往往采用隨機(jī)選取樣本中句子作為負(fù)例,其問題在于隨機(jī)選的負(fù)樣本太容易區(qū)分,無(wú)法最大程度提升模型性能,因此本研究采用這一方法的同日寸新增一種方式進(jìn)行對(duì)比,即通過AIGC生成一個(gè)句式相同但語(yǔ)義不同的低相似樣本。
4.2.2Prompt提示詞構(gòu)建步驟
盡管以ChatGPT為代表的AIGC技術(shù)功能強(qiáng)大,但其效能的發(fā)揮仍然依賴于精心設(shè)計(jì)的Prompt提示詞。Prompt提示詞可以被視為一種機(jī)器人響應(yīng)的指令或問題,引導(dǎo)AI沿著用戶的意圖進(jìn)行思考,以生成用戶期望的回答。一個(gè)優(yōu)質(zhì)Prompt提示詞可以減少歧義,提升答復(fù)的相關(guān)性與準(zhǔn)確性,使AI機(jī)器能夠精準(zhǔn)把握用戶意圖,生成包含洞察力的回答。
在Prompt提示詞工程中,需要考慮問題的背景、語(yǔ)境,以及問題的明確性、信息的完整性、關(guān)鍵詞的使用、邏輯的清晰性.期望的回答類型等諸多方面。在多數(shù)情況下,Prompt的性能上限與對(duì)“好結(jié)果”的理解程度成正比,只有充分理解所謂的“好結(jié)果”具體好在哪些“點(diǎn)”,才能將這些“點(diǎn)”形式化為Prompt,從而把用戶的意圖更準(zhǔn)確地傳達(dá)給模型。基于以上要求,本文基于種子樣本,在不同的任務(wù)需求下,根據(jù)ChatGPT-4構(gòu)建用于古文正負(fù)樣本對(duì)生成的Prompt,主要分為以下五步工作,圖2列出AI機(jī)器基于“l(fā)t;同義詞替換gt;”這一構(gòu)建方式生成相似古文樣本。
1)指定模型所扮演的角色(Role):指定模型扮演的角色/身份以幫助模型更好地定位答復(fù)的內(nèi)容與風(fēng)格。
2)提供代表性的樣例(One-shot Prompt):為ChatGPT提供一個(gè)答案的參考,使其充分理解要求,提升模型性能表現(xiàn)。
3)提供任務(wù)說明和要求(Demand):提供給ChatGPT語(yǔ)句流暢、意圖清晰、表達(dá)精簡(jiǎn)的任務(wù)描述。
4)指定生成結(jié)果的格式(Format):通過顯示規(guī)定模型返回結(jié)果的格式,以便于后續(xù)統(tǒng)計(jì)分析。
5)設(shè)置拒答策略(Refusal Strategy):雖然Chat-GPT設(shè)置了諸如“我的知識(shí)截至2021年9月…”“作為一個(gè)人工智能模型…”這樣的拒答策略,但仍舊無(wú)法完全避免大模型胡說八道。本文嘗試手動(dòng)設(shè)置拒答策略,即讓模型在沒有把握的時(shí)候拒絕回答問題,提高生成數(shù)據(jù)的質(zhì)量。
4.2.3基于AIGC的正負(fù)樣本對(duì)生成結(jié)果
在正負(fù)樣本對(duì)生成結(jié)束后,通過AI的方式對(duì)所有句子對(duì)進(jìn)行排序打分,賦值范圍為0~5,其中0代表完全不相似,5代表完全相似。研究對(duì)每對(duì)句子進(jìn)行5次評(píng)估打分并取平均值,以此抵消單次評(píng)估中的隨機(jī)波動(dòng)或偏好傾向,在此基礎(chǔ)上結(jié)合人工2次評(píng)估調(diào)整得到最終評(píng)分。表6、表7列出了不同構(gòu)建方式下正負(fù)樣本的生成示例,表8為訓(xùn)練數(shù)據(jù)集AI打分結(jié)果示例。
4.3文本相似度計(jì)算評(píng)估指標(biāo)
斯皮爾曼相關(guān)系數(shù)(Sperman
Correlation)被用來(lái)衡量模型產(chǎn)生的排序結(jié)果與數(shù)據(jù)集中標(biāo)注的參考排序之間的相關(guān)程度。取值范圍在-1~1之間,1表示完全正相關(guān),-1表示完全負(fù)相關(guān),0表示沒有相關(guān)性。其主要優(yōu)勢(shì)在于直接從排序角度評(píng)價(jià)模型的性能,不依賴于具體的閾值設(shè)置,避免閾值選擇的主觀性和不確定性。具體來(lái)講,通過將模型輸出的相似度分?jǐn)?shù)轉(zhuǎn)換為一個(gè)等級(jí)序列,而將數(shù)據(jù)集中預(yù)先標(biāo)注的“正確”排序作為另一個(gè)等級(jí)序列,然后通過計(jì)算這兩個(gè)序列之間的相關(guān)性,以評(píng)估模型排序結(jié)果的準(zhǔn)確性,如式(2)所示。
4.4實(shí)驗(yàn)參數(shù)設(shè)置
文本相似度實(shí)驗(yàn)參數(shù)設(shè)置,如表9所示,除學(xué)習(xí)率(learning_rate)、批量大小(batch_size)等常見指標(biāo)外,設(shè)置Dropout比率為0.1,以減少過擬合的風(fēng)險(xiǎn),增強(qiáng)模型對(duì)未見數(shù)據(jù)的泛化能力;設(shè)置最大長(zhǎng)度(max_len)為100,保證模型可以處理不同長(zhǎng)度的文本,同時(shí)優(yōu)化內(nèi)存利用率和計(jì)算效率;設(shè)置隨機(jī)種子(seed)為42,確保模型訓(xùn)練過程的可重復(fù)性,該指標(biāo)影響著數(shù)據(jù)集的分割、權(quán)重初始化以及模型訓(xùn)練過程中的任何隨機(jī)性決策,通過固定這個(gè)值,確保每次實(shí)驗(yàn)在相同的初始條件下進(jìn)行,從而使不同實(shí)驗(yàn)間的比較成為可能。
4.5文本相似度結(jié)果與分析
4.5.1不同訓(xùn)練方式、不同預(yù)訓(xùn)練語(yǔ)言模型、不同正負(fù)樣本構(gòu)造方法對(duì)比學(xué)習(xí)實(shí)驗(yàn)結(jié)果
鑒于各個(gè)模型的困惑度指標(biāo)值差距不大,因此,將上述5個(gè)繼續(xù)預(yù)訓(xùn)練后的模型全部納入,以更好地比對(duì)在下游古文相似度任務(wù)中的效果。本研究采用精確的人工標(biāo)注方法來(lái)創(chuàng)建一個(gè)測(cè)試集,包含了500對(duì)真實(shí)中醫(yī)古籍中的相似文本及相似得分(0分~5分)。表10列出了不同訓(xùn)練方式、不同預(yù)訓(xùn)練語(yǔ)言模型、不同正負(fù)樣本構(gòu)造方法對(duì)比學(xué)習(xí)結(jié)果。
1)不同訓(xùn)練方式對(duì)比:從實(shí)驗(yàn)結(jié)果來(lái)看,無(wú)監(jiān)督學(xué)習(xí)中,模型性能普遍最低,表明模型在缺乏明確的正負(fù)樣本指導(dǎo)時(shí)難以捕捉到古文的深層語(yǔ)義信息。相對(duì)而言,當(dāng)引入AI自監(jiān)督學(xué)習(xí),特別是結(jié)合隨機(jī)負(fù)樣本時(shí),性能得到明顯的提升。此外,基于AIGC技術(shù)生成構(gòu)建語(yǔ)義不同的低相似度樣本日寸,模型的性能得到最大程度的提升。這表明,通過AIGC構(gòu)建的高質(zhì)量負(fù)樣本可顯著提高模型的區(qū)分能力,在提升模型性能方面起到?jīng)Q定性的作用。
2)不同預(yù)訓(xùn)練語(yǔ)言模型對(duì)比:不同的模型展現(xiàn)出了性能差異,揭示了它們?cè)谔幚砉盼恼Z(yǔ)義上的不同能力。與其他模型相比,TCM-Gujiroberta模型性能往往更好,這可能是由于RoBERTa架構(gòu)在面對(duì)AIGC生成的高質(zhì)量負(fù)樣本時(shí)優(yōu)化了對(duì)內(nèi)部語(yǔ)義關(guān)系的捕捉,從而對(duì)古文有更深刻的理解。TCM-SikuBERT和TCM-SikuRoBERTa模型雖然也顯示出良好的性能,但相比Guji系列模型略顯不足,TCM-guwenbert-base性能最低,這可能意味著該模型的結(jié)構(gòu)、預(yù)訓(xùn)練數(shù)據(jù)或訓(xùn)練策略相對(duì)較簡(jiǎn)單,不足以充分捕捉中醫(yī)古文的語(yǔ)義復(fù)雜性。
3)不同正負(fù)樣本對(duì)構(gòu)造方式對(duì)比:基于AIGC的正樣本構(gòu)建方式同樣顯著影響模型性能,同義詞替換和混合改寫,在所有模型上都表現(xiàn)出較高的性能,其主要原因在于這兩種方法能夠在保持原文語(yǔ)義的同時(shí)引入適當(dāng)?shù)淖兓捎行椭P蛯W(xué)習(xí)理解不同表達(dá)形式下的相同意義。隨機(jī)插入策略的性能較低,可能因?yàn)樗诠盼闹幸腩~外的噪聲,從而降低模型的理解能力。相對(duì)而言,隨機(jī)刪除雖然也引入了一定的隨機(jī)性,但由于它在減少原文內(nèi)容的時(shí)候主要以無(wú)實(shí)際意義的虛詞為主,對(duì)模型性能的影響較小。隨機(jī)交換其性能則介于隨機(jī)插入和隨機(jī)刪除之間,但這種策略有時(shí)可能擾亂文本原有的語(yǔ)義結(jié)構(gòu)。
4.5.2低相似負(fù)樣本情況下不同正樣本混合策略對(duì)各類模型效果的提升
從表10實(shí)驗(yàn)結(jié)果來(lái)看,高質(zhì)量的負(fù)樣本可顯著提升模型的性能,而單一的正樣本類型顯然不能最大程度提升模型的性能,因此在低相似負(fù)樣本情況下,選擇上述結(jié)果較優(yōu)的同義詞替換(Chat_SR)、隨機(jī)刪除(Chat_RD)、混合改寫(Chat_RW)3種正樣本構(gòu)建方式,按照20%、30%、50%的比例隨機(jī)抽取混合,形成新的樣本訓(xùn)練集進(jìn)行實(shí)驗(yàn),以更好地探討不同正樣本混合方式對(duì)模型性能的提升,具體結(jié)果如表11所示。
實(shí)驗(yàn)結(jié)果表明,選擇低相似負(fù)樣本,并隨機(jī)混合不同正樣本后,各個(gè)模型的性能得到了進(jìn)一步提升。其中,繼續(xù)預(yù)訓(xùn)練后的TCM-Gujibert模型在20%(隨機(jī)刪除)+30%(同義詞替換)+50%(混合改寫)的樣本組合下效果最好,達(dá)到0.932。此外,相同的混合策略下,各個(gè)模型性能表現(xiàn)差異顯著,如混合改寫(Chat_RW)占據(jù)主導(dǎo)地位(50%比例)時(shí),TCM-Gujibert模型在這種組合下分?jǐn)?shù)最高,分別為0.924和0.932,而TCM-guwenbert-base僅為0.878和0.864。
5總結(jié)與展望
文本相似度計(jì)算為古籍研究之要點(diǎn)。以此技藝,辨識(shí)古文之同異,窮盡文獻(xiàn)之深意,如行云流水,得以串聯(lián)歷代典籍之相互關(guān)聯(lián),揭示古代學(xué)術(shù)之綿延不絕。相似度之運(yùn)用,宛如慧眼,洞察文辭之微妙變化,觀歷史文化之深遠(yuǎn)脈絡(luò)。由此覽古今之變遷,探思想文化之演進(jìn),昭示人文社科研究之新徑,開拓中醫(yī)學(xué)術(shù)研究之新天地。
本研究設(shè)計(jì)出一種針對(duì)中醫(yī)古籍領(lǐng)域的古文相似度計(jì)算模型,同時(shí)解決了通用BERT模型在中醫(yī)古籍領(lǐng)域語(yǔ)義表征困難和下游數(shù)據(jù)標(biāo)注成本高昂的問題。研究在現(xiàn)有五類通用古籍模型增量預(yù)訓(xùn)練的基礎(chǔ)上,結(jié)合SimCSE方法,對(duì)不同訓(xùn)練方式、不同預(yù)訓(xùn)練語(yǔ)言模型、不同正負(fù)樣本構(gòu)造方法進(jìn)行對(duì)比實(shí)驗(yàn),并探討低相似負(fù)樣本情況下不同正樣本混合策略對(duì)模型性能的提升。實(shí)驗(yàn)結(jié)果表明,無(wú)監(jiān)督學(xué)習(xí)中,模型性能普遍偏低,當(dāng)引入AI自監(jiān)督生成的正負(fù)樣本對(duì)后,模型性能得到明顯的提升。其中,AIGC驅(qū)動(dòng)的語(yǔ)義不同的低相似負(fù)樣本結(jié)合同義詞替換的正樣本構(gòu)成訓(xùn)練集后,TCM-Gujiroberta模型表現(xiàn)最佳,為0.909。此外,選擇低相似負(fù)樣本,并隨機(jī)混合不同正樣本,可進(jìn)一步提升模型效果,如TCM-Gujibert模型在20%(隨機(jī)刪除)+30%(同義詞替換)+50%(混合改寫)的樣本組合下效果最好,達(dá)到0.932。
本文設(shè)計(jì)了一種巧妙的數(shù)據(jù)標(biāo)注方法,其優(yōu)點(diǎn)在于無(wú)需人工標(biāo)注任何訓(xùn)練數(shù)據(jù),并通過大量對(duì)比實(shí)驗(yàn)驗(yàn)證了該方法的有效性。當(dāng)然,由于實(shí)驗(yàn)和篇幅的限制,本研究仍然存在一些不足,后續(xù)將繼續(xù)開展以下研究以補(bǔ)充和完善本文的工作。
1)在繼續(xù)預(yù)訓(xùn)練語(yǔ)料的選取上,設(shè)計(jì)自動(dòng)化的算法,如實(shí)施動(dòng)態(tài)選擇機(jī)制,根據(jù)模型在訓(xùn)練過程中的表現(xiàn)反饋調(diào)整語(yǔ)料選擇,有效識(shí)別和選擇那些對(duì)模型性能提升最有幫助的語(yǔ)料,同時(shí)減少對(duì)無(wú)效或低效語(yǔ)料的依賴,以提高預(yù)訓(xùn)練的效果。
2)數(shù)據(jù)構(gòu)建策略方面,目前實(shí)驗(yàn)僅選擇了5種AI生成的正樣本構(gòu)造方式,雖然這些構(gòu)造方式有效,但可能無(wú)法覆蓋中醫(yī)古文的所有語(yǔ)義復(fù)雜性。后續(xù)將探索更多樣化的AI數(shù)據(jù)構(gòu)建技術(shù),如針對(duì)不同朝代特定語(yǔ)言風(fēng)格構(gòu)建等,以更全面地覆蓋中醫(yī)古文的語(yǔ)義特點(diǎn)。
3)目前的分析主要集中在模型的表現(xiàn)層面,對(duì)于模型為何在特定數(shù)據(jù)組合策略下表現(xiàn)更佳的內(nèi)部機(jī)制探索仍不夠深入。未來(lái)將通過模型可視化和解釋性分析,如注意力機(jī)制可視化等方法,觀察模型在不同數(shù)據(jù)組合策略下的關(guān)鍵依賴點(diǎn)。