999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于知識(shí)注入提示學(xué)習(xí)的專利短語相似度計(jì)算

2024-04-23 10:14:56鄧遠(yuǎn)飛李加偉蔣運(yùn)承
計(jì)算機(jī)工程 2024年4期
關(guān)鍵詞:分類文本方法

鄧遠(yuǎn)飛, 李加偉, 蔣運(yùn)承, 2

(1. 華南師范大學(xué)計(jì)算機(jī)學(xué)院,廣東 廣州 510631;2. 華南師范大學(xué)人工智能學(xué)院,廣東 佛山 528225)

0 引言

專利是知識(shí)產(chǎn)權(quán)的一種形式,對(duì)于管理信息和知識(shí)、研發(fā)活動(dòng)以及減少研究周期和費(fèi)用都有幫助[1-2]。專利的申請(qǐng)數(shù)量每年都在持續(xù)增長(zhǎng),需要高效的系統(tǒng)來管理如此龐大的數(shù)據(jù)。現(xiàn)有研究提供了許多方法來解決這個(gè)問題,如有效處理、分析、分類和存儲(chǔ)專利數(shù)據(jù)的方法[3-4]。

最近幾十年來,專利法和專利技術(shù)的創(chuàng)新實(shí)證研究受益于質(zhì)量越來越高的專利數(shù)據(jù)集,這些數(shù)據(jù)集在國(guó)家、企業(yè)、團(tuán)隊(duì)和個(gè)人層面都被廣泛應(yīng)用。專利數(shù)據(jù)有多種用途,如作為知識(shí)輸入的代理或?qū)@麅r(jià)值的度量,也被用作創(chuàng)新代理的度量。由于專利數(shù)據(jù)量龐大,因此需要大量的人力成本來研究和搜索專利。目前,專利管理和搜索的方式主要是基于傳統(tǒng)的數(shù)據(jù)庫(kù),即技術(shù)人員需要識(shí)別目標(biāo)的關(guān)鍵字并進(jìn)行搜索,然后從數(shù)據(jù)庫(kù)中檢索專利[5]。因此,為了有效地對(duì)專利文本進(jìn)行語義相似度計(jì)算,需要設(shè)計(jì)一種準(zhǔn)確的專利語義表示方法。

USPTO(United States Patent and Trademark Office)數(shù)據(jù)在專利分析、經(jīng)濟(jì)學(xué)、起訴和訴訟工具等領(lǐng)域頻繁使用。大多研究中使用的專利分類系統(tǒng)是參照國(guó)際專利分類法(IPC)和聯(lián)合專利分類(CPC)所建立的。目前,針對(duì)USPTO數(shù)據(jù)的專利相似度計(jì)算及檢索相關(guān)研究,僅利用自然語言處理相關(guān)技術(shù)來實(shí)現(xiàn)[6]。

隨著預(yù)訓(xùn)練語言模型(PLM)的不斷發(fā)展,BERT[7]等具有動(dòng)態(tài)語義表征能力的模板逐漸成為文本表示領(lǐng)域的通用模型,使得解決下游任務(wù)的策略從重新訓(xùn)練模型轉(zhuǎn)變?yōu)楦鶕?jù)任務(wù)調(diào)整其參數(shù)。然而,在預(yù)訓(xùn)練和微調(diào)的過程中,不同階段的優(yōu)化目標(biāo)不同。于是,起源于生成式預(yù)訓(xùn)練Transformer(GPT)[8]并由模式探索訓(xùn)練(PET)[9]等發(fā)展而來的“提示學(xué)習(xí)”[10]新范式應(yīng)運(yùn)而生。值得注意的是,已有很多工作嘗試將外部知識(shí)融入以BERT為代表的預(yù)訓(xùn)練語言模型中,但主要集中在常識(shí)領(lǐng)域知識(shí)[11]和開放領(lǐng)域知識(shí)[12]。清華大學(xué)曾通過外部知識(shí)圖譜擴(kuò)展標(biāo)簽映射的方法,即知識(shí)集成的提示調(diào)優(yōu)(KPT)[13],在關(guān)系抽取、文本分類等任務(wù)中取得了較大的性能提升。此外,文獻(xiàn)[14]研究表明,并不是所有的外部知識(shí)都能帶來增益。目前,該領(lǐng)域主要面臨2個(gè)挑戰(zhàn):1)如何有效地植入外部知識(shí),解決專利短語信息不足的問題?2)如何充分利用專利短語中的標(biāo)簽信息,解決知識(shí)噪聲和異構(gòu)性問題?如果這些技術(shù)被有效地應(yīng)用于專利檢索、專利分類等任務(wù),專利推薦、自動(dòng)專利質(zhì)量預(yù)測(cè)等應(yīng)用在未來甚至可以實(shí)現(xiàn)。

針對(duì)專利短語相似度語義匹配問題,本文首先提出基于知識(shí)注入的提示學(xué)習(xí)方法并應(yīng)用到專利短語相似度計(jì)算中;其次引入外部知識(shí)圖譜Wikidata,提出基于實(shí)體影響度的鄰域過濾機(jī)制,獲取相關(guān)實(shí)體的鄰域特征信息,通過外部信息源擴(kuò)充標(biāo)簽與專利短語信息,提高分類準(zhǔn)確度同時(shí)解決專利短語信息不足的問題;接著應(yīng)用交叉熵?fù)p失函數(shù)來訓(xùn)練所提模型,將擴(kuò)展標(biāo)簽詞的分?jǐn)?shù)映射到標(biāo)簽分?jǐn)?shù)上。此外,本文設(shè)計(jì)一種有效的提示生成文本,并驗(yàn)證其在現(xiàn)有數(shù)據(jù)集上的有效性。

1 相關(guān)工作

1.1 專利相關(guān)工作

近年來,許多機(jī)器學(xué)習(xí)技術(shù)已應(yīng)用于專利相關(guān)研究,主要集中在專利檢索、專利分類和相似度計(jì)算中,提高了專利分析工作的效率[2]。文獻(xiàn)[6]提出一種兩階段專利檢索方法,通過考慮權(quán)利要求的結(jié)構(gòu),將檢索到的文檔重新排序,取前N個(gè)文檔,這意味著權(quán)利要求在專利中具有重要意義。隨后,文獻(xiàn)[15]通過使用USPTO專利數(shù)據(jù),利用一種引文分析方法來改進(jìn)專利檢索技術(shù)。文獻(xiàn)[16]提出一種基于聚類的專利檢索技術(shù),通過使用IPC代碼提供額外的數(shù)據(jù),滿足用戶的信息需求。

另一方面,盡管專利具有半結(jié)構(gòu)化的性質(zhì),但是大多數(shù)現(xiàn)有的關(guān)于專利分類的研究工作都側(cè)重于文本信息。如今,深度學(xué)習(xí)方法(如卷積神經(jīng)網(wǎng)絡(luò))在圖像處理、語音識(shí)別等領(lǐng)域取得了巨大進(jìn)展,但尚未應(yīng)用于專利分類任務(wù)。文獻(xiàn)[17]提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)和詞向量嵌入的深度學(xué)習(xí)算法DeepPatent并用于專利分類。PatentBERT專注于微調(diào)預(yù)先訓(xùn)練的 BERT 模型,該模型僅使用專利的第一項(xiàng)權(quán)利要求,并在CPC子類級(jí)別的656個(gè)標(biāo)簽上取得了顯著的成果。Patent2Vec[18]在專利分類工作中使用標(biāo)簽的文檔學(xué)習(xí)專利的低維表示,從多視圖的角度執(zhí)行專利分類任務(wù)。

1.2 提示學(xué)習(xí)

經(jīng)過微調(diào)的PLM[19]在各種自然語言處理任務(wù)中取得了巨大的成功。PLM可學(xué)習(xí)關(guān)于語言的語法[20]、語義[21]和結(jié)構(gòu)[22]信息,在智能問答[23]、文本分類[24]和機(jī)器翻譯[25]等領(lǐng)域廣泛應(yīng)用。然而,PLM仍然阻礙下游任務(wù)對(duì)預(yù)訓(xùn)練知識(shí)的充分利用。為此,受GPT-3[26]的啟發(fā),提示學(xué)習(xí)方法應(yīng)運(yùn)而生,其將下游任務(wù)轉(zhuǎn)換為一些形式化目標(biāo)并取得了優(yōu)異的性能[17]。

提示學(xué)習(xí)[27-28]是最近出現(xiàn)的模型訓(xùn)練方法,最初由人工設(shè)計(jì)模板。文獻(xiàn)[29]提出的PET借助自然語言構(gòu)成的模板,使用BERT的掩碼語言模型來進(jìn)行預(yù)測(cè)。但是,PET方法的局限性在于需要人工選擇模板,而且PET的準(zhǔn)確率嚴(yán)重依賴模板的質(zhì)量。文獻(xiàn)[30]提出前綴調(diào)優(yōu)(Prefix-tuning),其放棄模板由自然語言構(gòu)成這一常規(guī)要求,使用連續(xù)空間內(nèi)的向量作為模板。GPT-3、 ChatGPT[26]相關(guān)研究表明,通過快提示調(diào)優(yōu)和上下文學(xué)習(xí),大規(guī)模語言模型可以在低數(shù)據(jù)狀態(tài)下實(shí)現(xiàn)優(yōu)異的性能。P-tuning[31]利用可訓(xùn)練的向量來自動(dòng)構(gòu)建提示文本模板,重點(diǎn)解決提示調(diào)優(yōu)在小模型上效果不佳的問題。手工定義或自動(dòng)搜索得到的標(biāo)簽詞映射有主觀性強(qiáng)、覆蓋面小等缺點(diǎn),KPT[12]通過外部知識(shí)庫(kù)擴(kuò)展描述器的提示調(diào)優(yōu),用于提高文本分類的準(zhǔn)確率。同時(shí),KPT也為在提示學(xué)習(xí)下引入外部知識(shí)提供了參考。

2 背景知識(shí)

2.1 專利短語相似度語義匹配數(shù)據(jù)

本文使用的專利短語相似度語義匹配數(shù)據(jù)集(PPSD)是一個(gè)人類專家評(píng)級(jí)的CPC上下文專利技術(shù)短語(術(shù)語)到短語匹配數(shù)據(jù)集。表1所示為專利短語相似度匹配數(shù)據(jù)集的一個(gè)示例,完整的數(shù)據(jù)集可以通過 Kaggle(https:∥www.kaggle.com/datasets/google/google-patent-phrase-similarity-dataset)公開獲取。

表1 專利短語相似度語義匹配數(shù)據(jù)示例Table 1 Example of semantic matching data for patent phrases similarity

專利短語相似度語義匹配數(shù)據(jù)集包含近 50 000 個(gè)評(píng)級(jí)短語對(duì),每個(gè)短語對(duì)都有一個(gè) CPC 類作為上下文,分為訓(xùn)練集 (75%)、驗(yàn)證集 (5%) 和測(cè)試集 (20%)。數(shù)據(jù)集中存在成對(duì)的專利短語 (Anchor和Target),并對(duì)它們的相似度進(jìn)行評(píng)分,分?jǐn)?shù)從0(完全不相似) 到1(意思相同)。在數(shù)據(jù)集中,相似度(Score)表示2個(gè)專利短語(Anchor和Target) 在上下文(Context)中的相似度,其值在0~1范圍內(nèi),增量為 0.25。本文使用第4.2節(jié)的方法得到最終的擴(kuò)展標(biāo)簽詞,如表2所示,具體描述如下:

表2 擴(kuò)展標(biāo)簽詞示例Table 2 Examples of extended label words

1)錨短語(Anchor):第1個(gè)專利短語。

2)目標(biāo)短語(Target):第2個(gè)專利短語。

3)CPC分類(Context):上下文 CPC 分類,指出進(jìn)行相似度評(píng)分的專利短語的主題分類。

4)相似度等級(jí)(Rating):相似度等級(jí)標(biāo)簽,來自一個(gè)或多個(gè)手工專家評(píng)級(jí)的組合。

5)相似度(Score):相似度評(píng)分,來自一個(gè)或多個(gè)手工專家評(píng)級(jí)的組合。

2.2 問題定義

本文使用余弦距離來計(jì)算2個(gè)專利短語的相似度,然后計(jì)算其與人工評(píng)分之間的相關(guān)系數(shù)結(jié)果,包括Pearson 相關(guān)系數(shù)(PCC)和Spearman相關(guān)系數(shù)(SRC)。

3 專利短語相似度計(jì)算方法

3.1 提示學(xué)習(xí)

提示調(diào)優(yōu)通過自動(dòng)編碼器調(diào)整將分類任務(wù)形式化為一個(gè)掩碼語言模型(MLM)問題。提示調(diào)優(yōu)可用于文本分類任務(wù),構(gòu)建一個(gè)含有[MASK]的模板,然后讓掩碼語言模型去預(yù)測(cè)[MASK]位置的單詞。因此,文本分類任務(wù)被轉(zhuǎn)化為一個(gè)掩碼語言建模問題。

假設(shè)M是一個(gè)在大規(guī)模語料庫(kù)上預(yù)訓(xùn)練的語言模型。在文本分類任務(wù)中,輸入序列x=(x0,x1,…,xn)被分類為類別標(biāo)簽y∈Y。具體來說,提示調(diào)優(yōu)用模板包裝輸入序列,而模板是一段自然語言文本。例如,本文將x=“The similarity between patent ′faucet assembly′ and patent ′tap inputs′.”分類為“not related”(相似度標(biāo)記為0)或 “exact”(相似度標(biāo)記為1),可以封裝成:

xp=[CLS]xis [MASK]

(1)

在專利短語相似度匹配任務(wù)中,本文使用xA=WordAnchor表示原始專利短語(Anchor),使用xT=WordTarget表示目標(biāo)專利短語(Target),則xA和xT可劃分到一個(gè)相同相似度等級(jí)的分類標(biāo)簽y∈Y中。由表1可以看出,在專利短語數(shù)據(jù)集中,相似度是一個(gè)離散值。因此,本文將專利短語相似度計(jì)算問題轉(zhuǎn)化成專利短語分類問題來解決。使用xA和xT替代x,則式(1)可以轉(zhuǎn)換成:

xp=[CLS]xAandxTis [MASK]

(2)

接著,預(yù)訓(xùn)練的語言模型M給出了詞匯表中每個(gè)單詞v被[MASK]詞元(token)的概率,即PM([MASK]=v∈Vyxp)。在提示學(xué)習(xí)中,本文需要一個(gè)標(biāo)簽詞映射(verbalizer),將[MASK]位置上對(duì)于詞表中詞匯的預(yù)測(cè)轉(zhuǎn)化成分類標(biāo)簽。例如在{0: “not related”, 1: “exact”}這個(gè)映射下,預(yù)訓(xùn)練模型在[MASK]位置,對(duì)于“not related”或“exact”這個(gè)相似度程度標(biāo)簽詞的預(yù)測(cè)概率值會(huì)被當(dāng)成是對(duì)“0”或“1”這個(gè)標(biāo)簽的預(yù)測(cè)值。標(biāo)簽詞映射器首先要定義詞表中哪些詞是合適[MASK]詞元位置的標(biāo)簽詞,其次要定義標(biāo)簽詞概率如何轉(zhuǎn)化為最終的類別概率。

P(y∈Y|xp)=

f(PM([MASK]=v∈Vy|xp))

(3)

其中:f是一個(gè)函數(shù),其將標(biāo)簽詞的概率值轉(zhuǎn)化為標(biāo)簽的概率值。

在上面的例子中,常規(guī)提示調(diào)優(yōu)可以定義V1= {“exact”},V2= {“not related”},f為恒等函數(shù),如果“exact”的概率大于“not related”,則本文將這個(gè)實(shí)例劃分為“exact”標(biāo)簽。

提示學(xué)習(xí)的本質(zhì)是設(shè)計(jì)一個(gè)比較契合上游預(yù)訓(xùn)練任務(wù)的模板,通過增加提示模板,將訓(xùn)練數(shù)據(jù)轉(zhuǎn)成自然語言的形式,并在合適的位置 MASK。提示學(xué)習(xí)主要包括設(shè)計(jì)預(yù)訓(xùn)練語言模型、設(shè)計(jì)輸入模板樣式和設(shè)計(jì)標(biāo)簽樣式及模型輸出映射到標(biāo)簽(label)的方式3個(gè)步驟。本文提出知識(shí)注入的提示學(xué)習(xí)方法,利用外部知識(shí)來提高提示調(diào)優(yōu)的語言表達(dá)能力,其模型框架如圖1所示, 在本文方法中,通過擴(kuò)展標(biāo)簽詞及輸入專利短語,達(dá)到注入外部知識(shí)的目的。

圖1 本文模型框架Fig.1 The framework of the model in this paper

3.2 知識(shí)注入

基于上下文的掩碼詞預(yù)測(cè)過程并不是一對(duì)一的選擇過程。因此,標(biāo)簽詞映射中的標(biāo)簽詞應(yīng)該具備2個(gè)屬性,即廣泛的覆蓋范圍和較低的主觀偏見。為此,本文使用外部知識(shí)來構(gòu)建標(biāo)簽詞映射,即通過Wikidata(https:∥www.wikidata.org)獲取相關(guān)實(shí)體的信息。

對(duì)于每個(gè)專利短語中的實(shí)體,本文首先使用專利短語或者標(biāo)簽詞稱作為查詢關(guān)鍵詞,通過Wikidata獲取相關(guān)實(shí)體的信息;然后使用相似度算法對(duì)專利短語和Wikidata實(shí)體進(jìn)行匹配,以確定它們之間的關(guān)系;最后根據(jù)匹配結(jié)果將專利短語中的實(shí)體鏈接到Wikidata知識(shí)圖譜中的相應(yīng)實(shí)體上,實(shí)現(xiàn)實(shí)體的語義統(tǒng)一。

(4)

如果將專利短語實(shí)體的所有一階鄰居作為知識(shí)注入的提示學(xué)習(xí)模板,則工作量巨大。然而,僅針對(duì)相似度值進(jìn)行過濾,則容易丟失專利短語實(shí)體間的潛在關(guān)系。因此,本文利用鄰居實(shí)體的影響度對(duì)專利短語的鄰域信息過濾進(jìn)行干預(yù)篩選,得到其鄰域信息,并作為知識(shí)注入模板的標(biāo)簽詞:

(5)

其中:Dxk為實(shí)體節(jié)點(diǎn)xk的度;Φ(·)為鄰域節(jié)點(diǎn)的篩選函數(shù)。本文取鄰居相似度值與鄰居節(jié)點(diǎn)度的乘積的前m個(gè)最大值 (為了避免由于引入高階鄰居而帶來的噪聲影響,同時(shí)簡(jiǎn)化計(jì)算,設(shè)m=1)。

如圖1所示,以提示生成的輸入文本“[CLS] The similarity is exact between cocoa beans and free fatty acid in B01 [SEP] Coffee_bean Biochemistry”為例,目的是將專利短語對(duì)“cocoa beans” 和 “free fatty acid”歸類到“exact”標(biāo)簽(即相似度為1)。對(duì)于專利短語“cocoa beans”,首先找到它的Wikidata實(shí)體“Cocoa_bean”;然后通過Wikidata實(shí)體間的關(guān)系構(gòu)建其對(duì)應(yīng)的一階鄰居圖;接著采用node2vec圖嵌入算法分別計(jì)算其與一階鄰居的相似度,如“Cocoa_bean”與一階鄰居“Coffee_bean”的相似度為0.72;隨后逐個(gè)計(jì)算“Cocoa_bean”一階鄰居的度(“Coffee_bean” 一階鄰居的度為78);最后分別計(jì)算“Cocoa_bean”的一階鄰居相似度值與鄰居節(jié)點(diǎn)度的乘積,將其降序排序,找出前m個(gè)最大的一階鄰居(設(shè)m=1,即獲取到最終的外部知識(shí)圖譜Wikidata中的實(shí)體“Coffee_bean”)。標(biāo)簽詞“exact”與另一個(gè)專利短語“free fatty acid”也使用上述方法獲取。

3.3 提示生成

本文構(gòu)造有遮蔽的提示文本,其中,xA和xT表示專利短語,rA和rT分別為專利短語xA和xT的相關(guān)詞,Context為CPC分類,[MASK]為預(yù)測(cè)的分類,[CLS]和[SEP]為預(yù)訓(xùn)練模型中的分隔符。考慮到不同提示生成的文本對(duì)最終結(jié)果的影響不同,本文構(gòu)造如下T1~T7提示生成的輸入文本:

T1=[CLS][MASK][SEP]xA[SEP]xT

T2=[CLS] The similarity is [MASK] betweenxAandxT

T3=[CLS] The similarity is [MASK] betweenxAandxTin Context

T4=[CLS] The similarity is [MASK] betweenxAandxT[SEP]rArT

T5=[CLS] The similarity is [MASK] betweenxAandxTin Context [SEP]rArT

T6=[CLS] The similarity is [MASK] betweenxAandxT[SEP]rArT

T7=[CLS]rArT[SEP] The similarity is [MASK] betweenxAandxTin Context

提示文本生成是基于提示學(xué)習(xí)機(jī)制構(gòu)造融合專利領(lǐng)域知識(shí)的提示文本。添加提示文本不僅有利于模型獲得上下文的語義聯(lián)系,而且能夠顯著提升下游的任務(wù)效果,充分利用預(yù)訓(xùn)練語言模型可以從海量的語料中學(xué)習(xí)到通用的語言表示。

3.4 分類

本文采取對(duì)每個(gè)類所有標(biāo)簽詞的概率值取平均的方法,定義標(biāo)簽詞和類別的映射關(guān)系,得到最終類別y對(duì)應(yīng)的預(yù)測(cè)概率:

(6)

3.5 損失函數(shù)

(7)

4 實(shí)驗(yàn)驗(yàn)證

4.1 實(shí)驗(yàn)設(shè)置

在實(shí)驗(yàn)過程中,本文模型和對(duì)比基線都是通過 Python 來實(shí)現(xiàn),使用工具包OpenPrompt(https:∥github.com/thunlp/OpenPrompt)實(shí)現(xiàn)基于知識(shí)注入的專利短語相似度分類方法。Our(T5) 是本文提出的基于知識(shí)注入提示學(xué)習(xí)的專利短語相似度計(jì)算方法。使用性能最好的提示文本T5與基線方法進(jìn)行比較。

4.2 對(duì)比方法

為了證明本文方法的有效性,將所提方法與經(jīng)典方法及最近出現(xiàn)的方法進(jìn)行比較,對(duì)比方法具體如下:

1)Word2Vec[33]從大量文本預(yù)料中以無監(jiān)督方式學(xué)習(xí)語義知識(shí),用于學(xué)習(xí)文本中的單詞表示。本文使用 tensorflow_hub工具包加載英語維基百科語料版的Word2Vec預(yù)訓(xùn)練文本嵌入向量。

2)GloVe[34]構(gòu)造一個(gè)單詞共現(xiàn)矩陣,然后最小化詞向量之間的歐幾里得距離的平方來學(xué)習(xí)詞向量。本文通過加載預(yù)訓(xùn)練好的“Wikipedia2014 + Gigaword(glove.6B.zip)”詞向量實(shí)現(xiàn)GloVe。

3)FastText[35]基于用實(shí)數(shù)向量表示文本中單詞的思想,使用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)從單詞到向量的映射。本文加載預(yù)訓(xùn)練好的“wiki-news-300d-1M.vec”詞向量獲取每個(gè)專利短語的FastText向量表示。

4)BERT[7]和PatentBERT。BERT是一個(gè)基于Transformer的模型,使用一個(gè)大型的無監(jiān)督語言建模數(shù)據(jù)集來學(xué)習(xí)一個(gè)句子的表示,這個(gè)句子中單詞的順序是不變的。對(duì)于BERT,本文使用BERT-large 模型。為了進(jìn)行比較,本文在與 BERT-large 相同大小的專利數(shù)據(jù)上進(jìn)行訓(xùn)練后得到 PatentBERT 模型。

5)Sentence-BERT[36]使用深度學(xué)習(xí)模型來預(yù)測(cè)句子中的下一個(gè)單詞。本文使用“sentence-transformers”工具包加載“all-mpnet-base-v2”實(shí)現(xiàn)Sentence-BERT。

6)P-tuning[31]利用可訓(xùn)練的向量來自動(dòng)構(gòu)建提示文本模板,使用BiLSTM對(duì)模板中的初始化向量進(jìn)行表征,增加嵌入向量之間的相關(guān)性。

7)KPT[12]通過外部知識(shí)庫(kù)擴(kuò)展描述器的提示調(diào)優(yōu),用于提高文本分類的準(zhǔn)確率。

8)Patent2Vec[18]用于專利分類,使用圖嵌入來生成低維表示,通過視圖增強(qiáng)模塊和基于注意力的多視圖融合方法來豐富和對(duì)齊不同視圖的信息。

4.3 評(píng)估指標(biāo)

在語義相似性計(jì)算任務(wù)中,給定一個(gè)數(shù)據(jù)集,可以通過計(jì)算預(yù)測(cè)得分與人工評(píng)分之間的相關(guān)系數(shù)來評(píng)價(jià)模型性能。有2種常用的相關(guān)系數(shù),即PCC和SRC,前者用來衡量2個(gè)變量之間的關(guān)系強(qiáng)度,后者偏向于相關(guān)度的評(píng)價(jià)。

除此之外,本文還使用文本分類評(píng)估指標(biāo)進(jìn)行比較,其中包括準(zhǔn)確率(RAccuracy)、精確率(RPrecision)、召回率(RRecall)和 F1值,它們的結(jié)果包括4個(gè)部分,即真正例(NTP)、假正例(NTN)、真負(fù)例(NFP)和假負(fù)例(NFN),則對(duì)應(yīng)的RAccuracy、RPrecision、RRecall和 F1 值的計(jì)算公式分別為:

4.4 實(shí)驗(yàn)結(jié)果

表3所示為對(duì)比方法在專利短語相似度匹配數(shù)據(jù)集PPSD上的PCC和SRC性能表現(xiàn)。從表3可以看出:靜態(tài)預(yù)訓(xùn)練模型 Word2Vec、GloVe 和FastText性能表現(xiàn)不佳,考慮到數(shù)據(jù)集結(jié)構(gòu) (如許多具有不同含義的匹配專利術(shù)語)的影響,實(shí)驗(yàn)結(jié)果符合預(yù)期;PatentBERT模型顯著優(yōu)于常規(guī)的 BERT 模型,這意味著通用預(yù)訓(xùn)練模型對(duì)于專利中發(fā)現(xiàn)的專利術(shù)語而言效果不佳。

表3 不同語義相似度計(jì)算方法在PPSD上的性能表現(xiàn)Table 3 Performance of different semantic similarity calculation methods on PPSD

然而,本文從PatentBERT和 Sentence-BERT模型中得到了一個(gè)較好的結(jié)果,因?yàn)橐呀?jīng)針對(duì)用于短語相似性匹配數(shù)據(jù)的預(yù)訓(xùn)練進(jìn)行了微調(diào)。 KPT和本文方法都是基于提示學(xué)習(xí)進(jìn)行微調(diào)的提示調(diào)優(yōu)方法,表3顯示,本文專利短語相似度計(jì)算方法(Our(T5))性能優(yōu)于KPT,也比所有的對(duì)比基線方法更優(yōu),這驗(yàn)證了將知識(shí)圖譜中蘊(yùn)含的知識(shí)引入提示學(xué)習(xí)中的數(shù)據(jù)增強(qiáng)方式具有有效性。

4.5 實(shí)驗(yàn)分析

4.5.1 提示文本的影響

表4所示為使用不同提示文本的 PCC、SRC、準(zhǔn)確率、精確率、召回率、 F1 值的實(shí)驗(yàn)結(jié)果,最優(yōu)結(jié)果加粗標(biāo)注。表4顯示,提示文本T1~T7的 PCC波動(dòng)比較明顯,在T5上取得了最好的PCC性能。從式(6)可知,T5考慮了上下文 Context特征信息和相關(guān)詞 relatedWord 特征信息,說明本文計(jì)算方法具有有效性,同樣的結(jié)論也可從T5在SRC上的性能表現(xiàn)得出。

表4 不同提示文本的實(shí)驗(yàn)結(jié)果Table 4 Experimental results of different prompt texts

從表4可以看出:T1~T7的準(zhǔn)確率波動(dòng)較小,在T4和T5上取得了較好的準(zhǔn)確率,可知本文方法對(duì)正樣本的查準(zhǔn)效果更好;T1~T7的精確率波動(dòng)也較小,在T5上取得了最佳值,反映了本文方法分類結(jié)果準(zhǔn)確率穩(wěn)定,也說明整體分類效果較好;召回率是正確預(yù)測(cè)專利短語分類數(shù)與數(shù)據(jù)集PPSD中該類別實(shí)際包括專利數(shù)的比值,在T1~T7上表現(xiàn)相當(dāng)穩(wěn)定,說明本文方法對(duì)正樣本的查全效果較好;F1值是精確率和召回率的調(diào)和平均數(shù),綜合平衡了精確率和召回率,在T1~T7上的表現(xiàn)波動(dòng)更小,說明本文計(jì)算方法的整體分類效果較好。

圖2所示為不同提示文本在驗(yàn)證集上的損失值變化情況(彩色效果見《計(jì)算機(jī)工程》官網(wǎng)HTML版)。從圖2可以看出,在 Epoch為5之前,不同提示文本的驗(yàn)證集損失值波動(dòng)較大,但是隨后就穩(wěn)定下來,說明模型泛化效果較好,也進(jìn)一步說明了其有效性。

圖2 不同提示文本在驗(yàn)證集上的損失值變化情況Fig.2 Changes in loss values of different prompt texts on the validation set

4.5.2 消融實(shí)驗(yàn)分析

從式(6)的提示文本T1~T7中選出提示文本T1、T2、T4和T5進(jìn)行消融實(shí)驗(yàn)分析。從表5的實(shí)驗(yàn)結(jié)果可以看出,在提示階段,不同的提示文本對(duì)應(yīng)的 PCC和 SRC不同且相差較大,提示文本的長(zhǎng)度、上下文 Context和相關(guān)詞的選擇均會(huì)影響最終的實(shí)驗(yàn)結(jié)果,且提示文本中不同特征信息交換位置時(shí)也在一定程度上影響了拼接后的語義,導(dǎo)致 PCC和 SRC較低。因此,尋求合適的提示文本是提示學(xué)習(xí)能否取得較好性能的關(guān)鍵。

表5 考慮不同特征信息時(shí)提示文本的PCC和SRC性能表現(xiàn)Table 5 PCC and SRC performance of prompt text considering different feature information

對(duì)于提示文本T1、T2、T4和T5,在提示文本中輸入的合理信息越多,其性能越優(yōu),該結(jié)果也能驗(yàn)證本文基于知識(shí)注入提示學(xué)習(xí)的專利短語相似度計(jì)算方法的有效性。

對(duì)比提示文本T1和T2可以看出,T2的 PCC 和 SRC 性能表現(xiàn)都優(yōu)于T1,說明T2的提示文本設(shè)置比T1更加合理,也說明了上下文 Context(CPC分類)的有效性。對(duì)比T4和T5可知,缺失 CPC 分類特征信息對(duì)T4的PCC和SRC性能影響更大,也進(jìn)一步驗(yàn)證了上下文Context的重要性。

對(duì)比提示文本T1和T4,T4的PCC和SRC表現(xiàn)優(yōu)于T1,說明T4的提示文本設(shè)置比T1更加合理,也說明了相關(guān)詞 relatedWord 特征信息的有效性。對(duì)比T2和T4可知,T4的PCC和SRC性能更佳,說明考慮相關(guān)詞 relatedWord 特征信息比考慮上下文信息更加有效,也驗(yàn)證了相關(guān)詞篩選方法的有效性。相比T2,T5的PCC和SRC性能大幅提升,說明了相關(guān)詞 relatedWord特征信息的有效性,也驗(yàn)證了相關(guān)詞選擇方法的合理性。

從表5還可以看出,不同提示文本之間的PCC和SRC性能表現(xiàn)差距較大。相比T1,T5的PCC和SRC性能大幅提升,說明上下文Context信息和相關(guān)詞relatedWord特征信息具有有效性,進(jìn)一步驗(yàn)證了本文計(jì)算方法的合理性。

5 結(jié)束語

專利是邁向知識(shí)型社會(huì)的重要資源,開發(fā)高效的系統(tǒng)來管理海量專利數(shù)據(jù)非常重要。為了解決專利短語信息不足的問題,本文利用專利短語中的相似度標(biāo)簽信息,提出一種基于知識(shí)注入的提示學(xué)習(xí)方法。實(shí)驗(yàn)結(jié)果驗(yàn)證了該方法的有效性。隨著人工神經(jīng)網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,基于數(shù)據(jù)驅(qū)動(dòng)的預(yù)訓(xùn)練和提示學(xué)習(xí)技術(shù)變得更加有效,但是人類的知識(shí)也在不斷更新,如在不同時(shí)間階段三元組知識(shí)(蘋果,CEO,喬布斯)會(huì)更新為(蘋果,CEO,庫(kù)克)。因此,更新預(yù)訓(xùn)練語言模型中的參數(shù)空間知識(shí)將是下一步的研究方向。

猜你喜歡
分類文本方法
分類算一算
在808DA上文本顯示的改善
分類討論求坐標(biāo)
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 91成人在线免费视频| 国内精品久久九九国产精品| 亚洲AV无码久久精品色欲| 成人午夜视频网站| 中日韩欧亚无码视频| 国产一区二区影院| 在线网站18禁| 亚洲国产成人无码AV在线影院L| 亚洲成aⅴ人片在线影院八| 欧美亚洲一区二区三区在线| 久热99这里只有精品视频6| 国产亚洲欧美日韩在线观看一区二区| 亚洲久悠悠色悠在线播放| 国产精品偷伦视频免费观看国产| 精品国产91爱| 国产精品无码一区二区桃花视频| 欧美国产综合视频| 亚洲国产成人自拍| 久久福利网| 91久久夜色精品国产网站 | 国产香蕉在线视频| 无码内射在线| 呦女亚洲一区精品| 欧美激情视频一区二区三区免费| 综1合AV在线播放| 免费在线成人网| 456亚洲人成高清在线| 亚洲国产亚综合在线区| 九九精品在线观看| 中文字幕无码电影| 国产91成人| 国产美女无遮挡免费视频| 国产激情影院| 永久免费无码成人网站| 成人午夜网址| 91亚瑟视频| 亚洲国产日韩欧美在线| 中文成人在线视频| 91精品小视频| 无码中文字幕精品推荐| 无码中文字幕乱码免费2| 波多野结衣一级毛片| 久久国产精品娇妻素人| 亚洲av综合网| 国产成人综合日韩精品无码首页| 国产精品无码AV中文| 91精品国产一区| 亚洲一级毛片在线观| 久草中文网| 日本人又色又爽的视频| 亚洲无线一二三四区男男| 在线欧美日韩| 国产亚洲日韩av在线| 成人综合久久综合| 亚洲精品无码人妻无码| 无码AV动漫| 欧美啪啪精品| 日韩欧美国产精品| 欧美69视频在线| 亚洲日韩国产精品无码专区| 国产免费网址| 久久99热这里只有精品免费看 | 一本综合久久| 国产欧美专区在线观看| 国产精品视频a| 亚洲成在人线av品善网好看| 国产色偷丝袜婷婷无码麻豆制服| 国产剧情国内精品原创| 国产91九色在线播放| 亚洲无线观看| 国产JIZzJIzz视频全部免费| 青青青国产视频| 日韩欧美国产区| 亚洲另类色| 亚洲人成影院午夜网站| 亚洲无卡视频| 制服丝袜国产精品| 国产XXXX做受性欧美88| 丁香婷婷激情综合激情| 伊人久久精品亚洲午夜| 欧美日韩中文字幕在线| 久久伊人久久亚洲综合|