999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于SCDV及各向異性調整BERT的文本語義消歧方法

2022-12-31 00:00:00李保珍顧秀蓮
計算機應用研究 2022年10期

摘要:文本表示需要解決文本詞語的歧義性問題,并能夠準確界定詞語在特定上下文語境中的語義特征。針對詞語的多義性及語境特征問題,提出了一種文本語義消歧的SCDVAB模型。其基于分區平均技術,將場景語料庫轉換為文檔嵌入,并引入各向異性,改進了軟聚類的稀疏復合文檔向量(SCDV)算法,以提高BERT的語境化表示能力;將調整各向異性后的BERT詞語嵌入,作為靜態詞語向量的文檔嵌入,以提升文本語義消歧的能力。通過大量實驗進一步證明,SCDVAB模型的效果明顯優于傳統的文本消歧算法,可有效提高文本語義消歧的綜合性能。

關鍵詞:語義消歧;各向異性;BERT;稀疏復合文檔向量;文本表示

中圖分類號:TP391文獻標志碼:A

文章編號:1001-3695(2022)10-014-2979-05

doi:10.19734/j.issn.1001-3695.2022.03.0094

Text semantic disambiguation based on SCDV and anisotropy adjusted BERT

Li Baozhen,Gu Xiulian

(College of Information Engineering,Nanjing Audit University,Nanjing 211815,China)

Abstract:Solving the problem of ambiguity of text words is important for text representation,and it can accurately define the semantic characteristics of words in a specific context.Aiming at the polysemy and contextual characteristics of words,this paper proposed a semantic disambiguation model of SCDVAB.Based on the partition average technology,it could convert scene corpus into document embedding,and introduced anisotropy to improved the sparse composite document vector(SCDV) algorithm of soft clustering to improve the contextual representation ability of BERT,and then it could improve the ability of text semantic disambiguation by embedding the BERT words after adjusting the anisotropy as a static word vector.Experimental results show that SCDVAB model is significantly better than the traditional text disambiguation algorithm.SCDVAB model can effectively improve the comprehensive performance of text semantic disambiguation.

Key words:semantic disambiguation;anisotropy;BERT;SCDV;text representation

0引言

文本語義高度依賴于組成文本的詞語,同一詞語在不同的上下文語境中可能具有不同的含義,進而存在歧義性干擾。如何通過消歧來提高文本表示的準確性,一直是理論和實踐所關注的重點。 對文本表示的一系列研究表明,用于句子表示的詞向量加權平均通常優于更復雜的神經模型。SCDV(sparse composite document vectors,稀疏復合文檔向量)將能夠界定詞語場景性語義的詞語嵌入模型與能夠處理不同詞義的潛在主題模型結合起來,可增強詞語的表達能力。使用嵌入的軟聚類技術可有效學習主題特征空間,通過文檔向量的稀疏化操作,可減少處理向量任務的時間和空間復雜性,并能夠有效處理文本表示的分布式段落向量。

靜態詞嵌入的一個顯著問題是多義詞的所有含義共用一個固定的靜態向量,但靜態詞向量難以有效解決一詞多義問題。用基于上下文語境的詞語嵌入代替靜態詞嵌入可以提高詞語消歧的效果,如以BERT為例的深層神經語言模型可將靜態嵌入替換為上下文語境的詞嵌入。通過預訓練的BERT模型能夠將多義詞分別放置在具有不同含義的語義空間中,進而可輸出不同的詞向量,解決靜態嵌入無法有效解決一詞多義的問題,實現基于語境化嵌入的可解釋詞義消歧。此外,BERT模型中上下文語境性詞語表示具有各向異性的特征,即它們在不同方向上不是均勻分布的,在向量空間中占據一個狹窄的圓錐體[1]。各向異性是指文本詞語的全部或部分含義隨著語義空間維度方向的改變而有所變化,在不同的語義空間維度方向上呈現出差異的性質。例如詞語“蘋果”,在上下文語境為水果的語義空間維度中,在水果相關特征維度的方向具有更為顯著的投影;在上下文語境為電子產品的語義空間維度中,在電子產品相關特征維度方向具有更為顯著的投影。一個詞語的語境化表示中只有不到5%的差異可以用該詞語的靜態嵌入來解釋[2]。這也為調整各向異性,減少各向異性對文本詞語語境化表示的影響提供了必要性理由。

針對上述問題,本文提出一種簡單有效的無監督表示方法SCDVAB(SCDV+Anisotrop+BERT)模型,主要創新點為:a)通過軟聚類的稀疏復合文檔向量(SCDV)分區平均技術,將場景語料庫轉換為文檔嵌入;b)在SCDV流程中,基于自相似性、句內相似性及最大可解釋方差調整各向異性,以提高BERT的語境化表示能力;c)將調整各向異性后的BERT詞語嵌入作為靜態詞語向量的文檔嵌入,以提升文本語義消歧的能力。相關實驗結果顯示出SCDVAB模型在精確性上優于現有技術,能夠提高概念匹配及語義文本相似度等相關任務的性能。

1相關工作

對于短文本和文檔表示任務,需要將詞語嵌入擴展到整個段落和文檔。Le等人[3]在2014年提出了兩種文本分布式表示模型,即分布式內存模型段落向量(PV-DM)和分布式BoWs段落向量(PV-DBoW),將每個句子視為共享的全局潛在向量。這兩種模型訓練詞語和段落向量來預測上下文,但在段落之間共享詞嵌入。然而,詞語在不同的語境中可能有不同的語義。在包含相同詞語的兩個不同意義上的文本向量需要考慮這種區別,以便準確地表示文本的語義。此外,盡管段落向量可以包含多個主題和多個詞義,但它與詞語向量嵌入在同一空間中。段落向量還假設所有詞語在權重和質量上的貢獻相等,這忽略了詞語在不同文本中的重要性和獨特性。

Ling等人[4]將詞語嵌入映射到潛在主題空間,以捕捉詞語出現的不同意義,但是,其在與文字相同的空間中表示復雜文檔,降低了表達能力。2015年,Mukerjee等人提出了詞語向量的idf加權平均,以形成文檔向量[5],但是,其假定文本中的所有詞語都屬于同一語義主題。Gupta等人[6]在2016年提出了一種使用詞語嵌入和tf-idf值形成復合文檔向量的方法,稱為詞語包向量(BoWV)。BoWV背后的核心思想是語義不同的詞屬于不同的主題,但是該模型的詞向量平均設置具有一定的局限性。

Mekala等人[7]在2017年通過對預先計算的詞向量進行軟稀疏聚類,使用tf-idf加權形成稀疏復合文檔向量。SCDV作為一種文檔的特征向量形成技術克服了廣泛用于文本表示的分布式段落向量表示的一些缺點。然而這種方法在一定程度上忽略了文本詞語的歧義性問題以及上下文語境的語義特征問題。2020年,Gupta等人[8]在字向量上獲得的多感嵌入將SCDV擴展到了SCDV-MS,強調了多義詞嵌入如何解決聚類消歧問題,提高了嵌入性能,進一步增強了SCDV,證明了基于上下文消除多義詞的歧義可以更好地進行文檔表示。Gupta還表明,聚類中的稀疏性約束是有利的。進一步提高SCDV的文檔表示能力需要進一步提高消除文本詞語歧義能力。

為了彌補以上工作的缺陷,本文使用預訓練的BERT上下文嵌入作為更穩健的語義消歧感知詞語嵌入,與SCDV軟聚類相結合并調整各向異性以提高文本語義消歧的綜合性能,從而更有效地進行文本表示。

2模型架構

本文提出的模型SCDVAB框架主要由四個模塊組成,即語料庫語境化、調整各向異性、詞簇向量的形成、文檔表示的形成。首先,通過語料庫語境化模塊消除該詞在語料庫文檔中的歧義出現,這個過程發生在語料庫中的每一個獨特詞上;其次,通過在BERT模型上調整各向異性減少對文本詞語語境化影響;然后,通過詞簇向量形成模塊將上一步獲得的上下文化詞嵌入聚類到k個劃分中,進行稀疏概率分布加權獲得詞簇向量,這一過程發生在語料庫中的每個消歧詞上;最后,通過文檔表示模塊最終生成稀疏復合文檔特征向量SCDVDn。SCDVAB文本表示模型流程如圖1所示。

具體過程如算法1所示。

算法 1SCDVAB(SCDV+Anisotropy+BERT)算法

輸入:文檔Dn,n=1,…,N。

輸出:文檔向量SCDVDn,n=1,…,N。

對于每個Wi,運用BERT模型計算語境化嵌入表示bwi;

計算idf值:idf(Wi);

計算

SelfSim(W)=1n2-n∑j∑k≠jcos(f(sj,ij),f(sk,ik))

IntraSim(s)=1n∑icos(s,f(s,i))

其中s=1n∑if(s,i)

MEV(W)=σ21∑i σ2i;

基于K-means模型對bwi聚類,形成K類;

將Cw1,Cw2,…,Cwk分別作為K類的中心節點;

基于詞語Wi和計算類Ck,計算其條件依賴概率P(ck|Wi);

for詞匯表V中每一個詞語Wi

for每一個Ck

計算WCKik=WVi×P(Ck|Wi);

end

計算Wtvi=idf(Wi)×⊕kk=1WCvik;

end

for n∈(1,…,N)do

初始化文本向量dVDn=0;

for詞語Wi in Dn

計算dv=∑Pi=1Wtvi;

end

計算SCDVDn=make-sparse(dVDn) ;

end

2.1語料庫語境化

SCDVAB表示法第一步是語料庫語境化,目的是通過單獨解釋消除語料庫文檔中詞語出現的歧義。例如,“植物是靠它的根從土壤中吸收水分”中的“水分”一詞和“他說的話有很大的水分”中的“水分”一詞,基于不同的使用語境有不同的含義。給定一個詞語W及其在語料庫文本中的所有出現的語境形式W1,W2,…,Wn,對每個Wi利用預訓練語言的BERT得到其上下文嵌入表示bwi。將詞語消歧問題視為上下文化詞語向量的局部聚類問題[9]。對通過預訓練BERT模型獲得的上下文化詞語嵌入bwi進行聚類。使用K均值聚類將語義消歧詞向量bwi聚類到語料庫V中詞的k個劃分中,其中k表示語料庫所有文本中詞語W的全部可能的解釋。在上下文語義空間中,余弦距離能夠反映方向上的差異,故可使用文本詞語間的余弦距離作為聚類度量。

2.2詞簇向量的形成

設Cw1,Cw2,…,Cwk為對詞語W進行K均值聚類后得到的k個聚類質心。將k個質心表示視為詞語W的k個意義的多義詞表示。在對語料庫中出現的每個詞語W進行聚類后,計算BERT表示和質心嵌入(即Cw1,Cw2,…,Cwk)之間的余弦相似度來執行上下文化的詞義消歧,找到最近的聚類質心j,即該事件的詞義作為該詞語W出現的上下文消歧詞語嵌入。指定嵌入Cwj的最近鄰聚類質心作為該詞W出現的語境化消歧詞嵌入。對所有出現的詞語W重復上述過程,獲得最終意義的上下文消歧詞語嵌入。詞語W的每一個語境化嵌入都充當了消除歧義的詞語向量。

2.3調整各向異性

調整各向異性的過程使用三種不同的度量標準來衡量一個詞的上下文表示方式,即自相似性、句內相似性和最大可解釋方差[10,11]。對于自相似性和句內相似性,基線來自不同上下文的均勻隨機抽樣詞語表示之間的平均余弦相似性。對于最大可解釋方差(MEV),通過計算由均勻隨機抽樣詞語表示的第一主成分解釋的方差比例,并從原始MEV中減去該比例。使用BERT最后一層進行詞語嵌入[12]。這里的自相似性是指n個唯一上下文中上下文化表示之間的平均余弦相似性。

SelfSim(w)=1n2-n∑j∑k≠jcos(f(sj,ij),f(sk,ik))(1)

其中:f(s,i)是一個將s[i]映射到模型f的層中表示的函數。

詞語W越語境化,自相似性越低。一個句子的句內相似度是它的詞表示和句子向量之間的平均余弦相似度,也就是這些詞向量的平均值。

IntraSim(s)=1n∑icos(s,f(s,i))

where s=1n∑if(s,i)(2)

最大可解釋方差是W對給定層的語境化表示的方差比例,可以用第一主成分來解釋,說明靜態嵌入可以在多大程度上替代詞語的上下文表示。

MEV(w)=σ21∑iσ2i(3)

其中:[f(s1,i1)…f(sn,in)]是W的事件矩陣;σ是矩陣的奇異值。

為了調整各向異性的影響,使用三條各向異性基線,每一條基線對應上下文度量。對于自相似性和句內相似性,基線是來自不同上下文的均勻隨機抽樣詞語表示之間的平均余弦相似性。給定層中的詞語表示越各向異性,該基線越接近1。對于最大可解釋方差,基線是由第一主成分解釋的均勻隨機抽樣的詞語表示中的方差比例。給定層中的表示越各向異性,該基線越接近1。從每個度量值中減去其各自值基線,獲得各向異性調整的同期性度量。原始度量和基線都是使用1k均勻隨機抽樣的詞語表示進行估計的。

Baseline(f)=Ex,y~U(o)[cos(f(x),f(y))]

SelfSim*(w)=SelfSim(w)-Baseline(f)(4)

其中:o是所有詞語出現的集合。上下文化表示通常在較高的層中更具各向異性[13]。上下文各向異性在不同的模型中的表現也是不同的。BERT層越高,平均自相似性越低。相反地,層次越高,上下文化表示就越具體[14]。同一個詞在不同語境中的表示仍然比兩個不同詞的表示具有更大的余弦相似性,這種自相似性在上層要低得多。語境化模型的上層會產生更為特定的語境表示,很像LSTM的上層如何生成更多特定于任務的表示。

2.4文檔表示

針對預訓練BERT獲得的每個詞語Wi的詞向量WVi,計算idf值idf(Wi),i=1,…,|V|。其中|V|是詞匯量。通過引入軟聚類確保每個詞都以一定的概率P(ck|Wi)屬于每個聚類類別。

通過貝葉斯規則計算給定主題詞和給定詞語Wj的概率。其中:

P(wk|ci)=P(ci|wk)P(wk)P(ci)(5)

P(ci)=∑ki=1P(ci|wk)P(wk)(6)

P(wk)=#(wk)∑Vi=1#(wi)(7)

對于詞匯表中每一個詞語Wi及每一個聚類Ck;

wckjk=wvi*P(ck|wi)(8)

對于每個詞語Wi,通過加權詞語在第k個聚類中的概率分布P(ck|wi),創建k個不同的d維詞語聚類向量WCVik。然后,將所有k個詞聚類向量WCVik連接到一個K×d維嵌入中,并使用Wi的逆文檔頻率即idf對其進行加權,形成一個上下文化的詞主題向量Wtvi。

wtvi=idf(wi)×⊕Kk=1wcvik(9)

其中:⊕是串聯的意思。

初始化文檔向量dVDn=0,n∈(1,…,N)。最后,對于文檔Dn中出現的所有詞語,將它們的詞主題向量Wtvi相加獲得文檔向量dvDn。

dV=∑ji=1wtvi(10)

對向量進行歸一化,dvDn中的大多數值都非常接近于零[15]。通過將絕對值接近閾值的屬性值歸零,使文檔向量dvDn稀疏,從而生成稀疏復合文檔向量SCDVDn。

SCDVDn=make-sparse(dVDn)(11)

3實驗與分析

為了評估SCDVAB算法的綜合性能,首先對算法的嵌入精確性和其他最新上下文嵌入技術進行對比,并且在概念匹配和語義文本相似度任務上進行了實驗。

3.1實驗環境

算法的實驗環境如表1所示。

3.2數據集和基線

為了分析語境化的詞語表示,需要輸入句子到預先訓練好的模型中。在四個廣泛使用并且公開的分類數據集上進行了實驗比較精確性:a)Amazon數據集,有4個類別,8 000條文本;b)classic數據集,有4個類別,7 095條文本;c)20NG數據集,是新聞組文本數據集,有20個類別,每個類別樣本數目相同,一共包含18 846篇文本;d)Twitter數據集,有3個類別,3 115條文本。實驗將doc2vecc、idf加權的word2vec、BERT、SCDV+word2vec、SCDV+BERT(加權平均值)、SCDV+BERT設為對比基線。特別地,設置SCDV+BERT(加權平均值)為基線,是為了分析基于詞義消歧的詞向量能夠更有效地捕捉詞的多重含義。設置SCDV+BERT基線,目的是分析減少了各向異性的影響,使用k=6配合各向異性調整。基線取自文獻[16]的實驗部分。

概念匹配任務是將概念與相關項目聯系起來。概念匹配數據集包括來自下一代科學標準3 (NGSS)的53個獨特概念的537對項目和概念,以及來自Science Buddies的230個獨特項目。實驗與TF-IDF加權向量、SCDV+word2vec預訓練的BERT基線之間的余弦相似度進行對比。基線取自文獻[17]的實驗部分。

句子相似性任務是計算兩個文本在語義層面的相似性,實驗的輸入數據來自涉及2012—2016年間的27項語義文本相似性(STS)任務[18]。數據集中每年有4~6項STS任務,詳細任務如表2所示。使用這些數據集是因為它們包含相同詞語出現在不同上下文中的句子。在所有的數據集中,每一個詞語都有多個多義詞。基線取自文獻[16,19,20]的實驗部分。

3.3實驗設置

使用BERT無基礎預訓練模型獲得詞語嵌入,并使用K-means對給定詞語進行上下文聚類。為了簡單起見,實驗對所有的數據使用了0.8的相似性閾值(τ),這導致每個詞都有多個多義詞表示。統計相似程度的分布,其中,實驗不考慮出現在不到5個獨特上下文中的詞語。訓練集和測試集按八二比例劃分,對于SCDV,將詞語嵌入的維度設置為200,設置k=6進行各向異性調整,使用5倍交叉驗證來調整SCDV的稀疏閾值。

3.4實驗結果分析

表3為SCDVAB與其他基線模型在四個數據集上的精確性表現,實驗結果為各模型訓練10次的平均值。從表2實驗結果可知,SCDVAB模型在所有數據集上比其他的上下文語境文本表示方法效果都更為出色。

通過表3實驗結果分析,語境化的BERT+SCDV比加權平均的BERT+SCDV表現更好。詞向量的簡單加權通常能夠產生有效的句子表示,但表示包含多個句子的長文本時,相比基于詞義消歧的詞向量效果要差。這是因為較長句子的文本可能包含大量不同話題的詞語。實驗結果表明基于詞義消歧的詞向量能夠捕捉到詞的多重含義,證明了語義消除歧義的貢獻。其次,SCDVAB相比BERT+SCDV模型的精確度分別高了0.85%、1.72%、1.2%和1.06%,證明了調整各向異性的優勢影響。SCDVAB模型的性能優于BERT(加權平均)+SCDV,這表明SCDVAB基于詞義消歧的詞向量能夠有效地捕捉多義詞,調整各向異性能夠提升語境化表示能力,更符合語料庫語境。

基于表4觀察各模型的性能表現,SCDVAB模型在精確率和F1值上分別比預訓練的BERT和word2vec+SCDV模型分別高出4.2%、4%和5.3%、4.6%。對比BERT+SCDV模型在精確率和F1值上分別高出了1.8%和0.8%,證明了SCDVAB模型在概念匹配任務上的優越性,側面體現了SCDVAB模型在解決文本詞語的歧義性以及準確界定詞語在特定上下文語境中語義特征性能上的優勢。

表5展示了SCDVAB模型與各種最新嵌入技術的比較。實驗的數據為皮爾森相關系數乘以100。觀察各模型在數據集上的性能表現,SCDVAB模型顯著優于其他基線模型,證明了改進模型的有效性。根據實驗結果觀察到,通過結合SCDV的算法模型比其他算法產生更好的性能。這種情況的主要原因是,SCDV通過對預先訓練的詞向量進行軟稀疏聚類,進一步將表示性能從句子擴展到文本,證明了SCDVAB利用SCDV的優越性。與word2vec+SCDV相比,由于考慮了詞義消歧以及語境化表示能力,SCDVAB顯著提高了Pearson的分數。BERT+SCDV相比word2vec+SCDV略有改進,但相比改進的SCDVAB還是略有遜色的。這是因為SCDAB模型考慮了調整各向異性對于BERT詞義消歧的影響。

為了驗證SCDVAB模型對比其他模型的性能優越性,下面展示了STS12數據集中MSRvid任務中的幾條樣本相似性用于部分實驗結果的可視化和分析,樣本描述如表6所示。表中數據已進行標準化處理。

觀察表6實驗結果發現,在SCDVAB模型上得到的相似性分數對比其他模型都更接近給定的相似性,證明了改進模型在計算兩個文本在語義層面的相似性上的優越性。

表7探討了幾個模型在STS16上文本相似性任務的實驗結果,用于進一步驗證SCDVAB的改進對于性能的提升。

根據表7的實驗結果可以看出,在STS16任務中改進模型在所有數據集上都優于其他算法,證明了SCDVAB模型的優越性。對比各模型在數據集上的表現,PSIF+PSL模型效果優于skip thought模型。這是因為P-SIF從文本中學習特定于主題的向量,考慮了文本主題結構利用了分區平均技術。skip thoughts模型結構借助skip-gram思想,缺少考慮詞語在特定上下文語境中的語義特征。BERT+SCDV與P-SIF+PSL模型相比效果相差不大,但略微差一些。猜測原因可能為,未作改進的BERT對于文本長度有限制,而P-SIF+PSL模型是針對長文本的分區平均算法更有針對性。SCDVAB模型對比BERT+SCDV模型性能有所提升,進一步體現了考慮各向異性的重要性。

4結束語

考慮文本表示時需要解決的詞語歧義性問題,以及詞語在特定上下文語境中的語義特征問題,本文提出了文本語義消歧的SCDVAB算法模型。通過預先訓練的BERT上下文化,并減少各向異性的影響來增強稀疏文本表示(SCDV),為上下文文檔表示提供了一個更高效、更準確的文本表示方法。

基于各向異性調整之后的BERT語義消歧詞向量,運用SCDV轉換為文本的特征向量,可準確表示詞語在特定上下文語境中的語義特征,具有較強的實際意義。實驗結果表明,SCDVAB模型優于其他無監督方法,在文本語義消歧的綜合性能上更出色。相關模型可有效提高多主題長文本表示、多場景文本概念消歧以及抽取式閱讀理解等文本表示相關任務的效率。

參考文獻:

[1]Mekala D,Zhang Xinyang,Shang Jingbo.META:metadata-empowered weak supervision for text classification[C]//Proc of Conference on Empirical Methods in Natural Language Processing.Stroudsburg,PA:Association for Computational Linguistics,2020:8351-8361.

[2]劉歡,張智雄,王宇飛.BERT模型的主要優化改進方法研究綜述[J].數據分析與知識發現,2021,5(1):3-15.(Liu Huan,Zhang Zhixiong,Wang Yufei.Review on the main optimization and improvement methods of BERT model[J].Data Analysis and Knowledge Discovery,2021,5(1):3-15.)

[3]Le Q,Mikolov T.Distributed representations of sentences and documents[C]//Proc of the 31st International Conference on International Conference on Machine Learning.[S.l.]:JMLR.org,2014:1188-1196.

[4] Ling Wang,Dyer C,Black A W,et al.Two/too simple adaptations of word2vec for syntax problems[C]//Proc of Conference of the North American Chapter of the Association for Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2015:1299-1304.

[5]劉勝杰,許亮.基于詞嵌入技術的文本表示研究現狀綜述[J].現代計算機,2020(1):40-43.(Liu Shengjie,Xu Liang.Summary of research status of text representation based on word embedding technology[J].Modern Computer,2020(1):40-43.)

[6]Gupta V,Harish K,Ashendra B,et al.Product classification in E-commerce using distribution semantics[C]//Proc of the 26th International Conference on Computational Linguistics:Technical Papers.[S.l.]:The COLING 2016 Organizing Committee,2016:536-546.

[7]王瑞琴,孔繁勝.無監督詞義消歧研究[J].軟件學報,2009,20(8):2138-2152.(Wang Ruiqin,Kong Fansheng.Research on unsupervised word sense disambiguation[J].Journal of Software,2009,20(8):2138-2152.)

[8]Mekala D,Gupta V,Paranjape B,et al.SCDV:sparse composite document vectors using soft clustering over distributional representations[C]//Proc of Conference on Empirical Methods in Natural Language Processing.Stroudsburg,PA:Association for Computational Linguistics,2017:659-669.

[9]Gupta V,Saw A,Nokhiz P,et al.Improving document classification with multi-sense embeddings[C]//Proc of the European Conference on Artificial Intelligence.2020.

[10]Peters M E,Neumann M,Iyyer M,et al.Deep contextualized word representations[C]//Proc of Conference of the North American Chapter of the Association for Computational Linguistics.2018:2227-2237.

[11]Yosinski J,Clune J,Bengio Y,et al.How transferable are features in deep neural networks?[C]//Proc of the 27th International Confe-rence on Neural Information Processing Systems.Cambridge,MA:MIT Press,2014:3320-3328.

[12]Bhatia K,Jain H,Kar P,et al.Sparse local embeddings for extreme multi-label classification[C]//Proc of the 28th International Confe-rence on Neural Information Processing Systems.Cambridge,MA:MIT Press,2015:730-738.

[13]Meng Yu,Shen Jiaming,Zhang Chao,et al.Weakly-supervised hierarchical text classification[EB/OL].(2018-12-29).http://doi.org/10.48550/arxiv.1812.11270.

[14]葉雪梅,毛雪岷,夏錦春,等.文本分類TF-IDF算法的改進研究[J].計算機工程與應用,2019,55(2):104-111.(Ye Xuemei,Mao Xuemin,Xia Jinchun,et al.Improvement of TF-IDF algorithm for text classification[J].Computer Engineering and Application,2019,55(2):104-111.)

[15]戴洪濤,侯開虎,周洲,等.基于VCK-vector模型的詞義消歧方法[J].軟件,2020,41(2):134-140.(Dai Hongtao,Hou Kaihu,Zhou Zhou,et al.Word sense disambiguation method based on VCK vector model[J].Software,2020,41(2):134-140.)

[16]王瑞,李弼程,杜文倩.基于上下文詞向量和主題模型的實體消歧方法[J].中文信息學報,2019,33 (11):46-56.(Wang Rui,Li Bicheng,Du Wenqian.Entity disambiguation method based on context word vector and topic model[J].Chinese Journal of Information Technology,2019,33(11):46-56.)

[17]Gupta V,Saw A,Nokhiz P,et al.P-SIF:document embedding using partition averaging[EB/OL].(2020-05-18).http://doi.org/10.48550/arxiv.2005.09069.

[18]Zhang J,Danescu-Niculescu-Mizil C.Balancing objectives in counseling conversations:advancing forwards or looking backwards[C]//Proc of the 58th Annual Meeting of the Association for Computational Linguists.Stroudsburg,PA:Association for Computational Linguistics,2020:5276-5289.

[19]Kim H K,Kim H,Cho S.Bag-of-concepts:comprehending document representation through clustering words in distributed representation[J].Neurocomputing,2017,266:336-352.

[20]Perone C S ,Silveira R ,Paula T S.Evaluation of sentence embeddings in downstream and linguistic probing tasks[EB/OL].(2018-06-16).http://doi.org/10.48550/arxiv.1806.06259.

[21]Devlin J,Chang M-W,Lee K,et al.BERT:pre-training of deep bidirectional transformers for language understanding[EB/OL].(2018-10-11)[2022-02-20].https://arxiv.org/abs/1810.04805.

[22]Ethayarajh K.How contextual are contextualized word representations Comparing the geometry of BERT,ELMo,and GPT-2 embeddings[C]//Proc of Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing.Stroudsburg,PA:Association for Computational Linguistics,2019:55-65.

收稿日期:2022-03-05;修回日期:2022-04-28基金項目:國家自然科學基金資助項目(72074117,71673122);江蘇現代財稅治理協同創新中心資助項目(20WTB007);江蘇省研究生科研創新項目(KYCX21_1948)

作者簡介:李保珍(1975-),男,山西晉中人,教授,碩導,博士,主要研究方向為網絡大數據分析、文本挖掘(bzli@nau.edu.cn);顧秀蓮(1997-),女,江蘇鹽城人,碩士,主要研究方向為自然語言處理.

主站蜘蛛池模板: 白丝美女办公室高潮喷水视频| 国产成人福利在线视老湿机| 中国精品自拍| 精品无码一区二区在线观看| 国产精品短篇二区| 亚洲an第二区国产精品| 国产精品男人的天堂| 1769国产精品视频免费观看| 伊人久热这里只有精品视频99| 国产在线视频二区| 91在线无码精品秘九色APP| 国产成人高清精品免费软件| 999精品在线视频| 麻豆a级片| 香蕉蕉亚亚洲aav综合| 五月天婷婷网亚洲综合在线| 91美女视频在线| 久久免费视频6| 亚洲欧美日本国产综合在线 | 在线观看国产黄色| 中文成人在线| 1769国产精品免费视频| 99精品免费欧美成人小视频| 一级毛片不卡片免费观看| 亚洲一区精品视频在线| 久青草网站| 99国产精品国产高清一区二区| 在线视频精品一区| 免费国产一级 片内射老| 国产传媒一区二区三区四区五区| 麻豆精选在线| 亚洲欧美日韩色图| 国产成人精品一区二区秒拍1o | 国产呦视频免费视频在线观看| 欧美成人免费午夜全| 黄色网在线| 亚洲天堂免费在线视频| 亚洲国产精品无码久久一线| 综合色区亚洲熟妇在线| 国产嫖妓91东北老熟女久久一| 国产成人精品高清在线| www精品久久| 日韩欧美中文字幕在线韩免费| 亚洲va精品中文字幕| 凹凸精品免费精品视频| 中文字幕啪啪| 亚洲国产精品无码AV| 欧洲高清无码在线| 欧美国产菊爆免费观看| 91色在线视频| 女人18毛片一级毛片在线 | 日本高清有码人妻| 国产一级毛片yw| 国产日韩AV高潮在线| 国产精品欧美激情| 国产高清在线观看91精品| 精品久久久久久中文字幕女| 久久久久国产一区二区| 亚洲热线99精品视频| www.国产福利| 国产丝袜91| 久久99这里精品8国产| 日韩美一区二区| 久久午夜夜伦鲁鲁片无码免费| 久草视频精品| 亚洲VA中文字幕| 美女被操91视频| 国产精品香蕉在线观看不卡| 色婷婷视频在线| 久久一本精品久久久ー99| 亚洲人成网站日本片| 久草青青在线视频| 成年免费在线观看| 国产又爽又黄无遮挡免费观看| 99热这里只有精品5| 国产成人综合在线观看| 国外欧美一区另类中文字幕| 国产高清在线观看| 无码免费视频| 91精品国产自产在线老师啪l| 99re经典视频在线| 国产黄网站在线观看|