999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Transformer和重要詞識別的句子融合方法

2023-08-10 07:03:52譚紅葉李飛艷
計算機(jī)應(yīng)用與軟件 2023年7期
關(guān)鍵詞:文本融合模型

譚紅葉 李飛艷

1(山西大學(xué)計算機(jī)與信息技術(shù)學(xué)院 山西 太原 030006)2(山西大學(xué)計算智能與中文信息處理教育部重點(diǎn)實驗室 山西 太原 030006)

0 引 言

文本生成是指給定文本或非文本輸入,輸出流暢、連貫且符合要求的文本。句子融合是一種典型的文本到文本的生成任務(wù),旨在為給定的一組相關(guān)句子(或一個比較長的句子)生成一個較短的概括性句子,且保留其中的重要信息。句子融合與文本摘要有類似之處,但也有區(qū)別。主要區(qū)別包括:(1) 輸入不同,句子融合的輸入為一個或多個句子,而文本摘要的輸入為單文檔或多文檔。一般來說后者輸入句子數(shù)多于前者,因此后者壓縮率大于前者。(2) 目標(biāo)不同,句子融合側(cè)重于去除相關(guān)句子的冗余信息,生成簡短的句子,而文本摘要旨在獲得概括篇章內(nèi)容的多個句子。(3) 句子融合可以作為文本摘要的一個中間技術(shù)。如:在抽取式摘要中,句子融合可以將其結(jié)果作為輸入,進(jìn)一步融合后,得到更為靈活緊湊的摘要。

句子融合的具體示例如圖1所示。可以看出,融合句不僅剔除了冗余和不重要的信息,而且生成了原句中未出現(xiàn)過的詞。如:示例1中的融合句剔除了原句中“中新網(wǎng)7月21日電”“妻子王洪濤反映”等不重要的短語,同時生成了“網(wǎng)曝”“綏化”和“檢方”等新詞。從示例2可以看出融合句結(jié)構(gòu)與原句也有不同。

原句1:“中新網(wǎng)7月21日電 據(jù)安縣人民政府網(wǎng)站消息,2015年7月21日上午,新浪微博出現(xiàn)一則慶安縣公安局經(jīng)刑偵大隊副大隊長姚永軍的妻子王洪濤反映其利用職務(wù)之便,貪污受賄、實施家暴的視頻。目前已被停職,慶安縣人民檢察院已介入調(diào)查。”標(biāo)準(zhǔn)融合句:“網(wǎng)曝綏化慶安刑偵大隊副大隊長利用職務(wù)之便,貪污受賄、實施家暴,目前已被停職,檢方介入調(diào)查。”原句2:“人民網(wǎng):北京11月29日電 今天,記者從中國鐵路總公司獲悉,自11月30日起,中國鐵路客戶服務(wù)中心12306網(wǎng)站支付寶賬戶支付服務(wù)功能上線試運(yùn)行,旅客網(wǎng)購火車票新增一種支付方式。”標(biāo)準(zhǔn)融合句:“人民網(wǎng):12306網(wǎng)站明日起新增支付寶支付服務(wù)功能。”

目前,由于句子融合相關(guān)的數(shù)據(jù)集規(guī)模小,句子融合方法主要為基于無監(jiān)督的方法。如,文獻(xiàn)[1]中使用了詞圖方法,從原句復(fù)制重要信息片段到融合句。Clarke等[2]提出了一種基于句法樹的方法,通過使用整數(shù)線性規(guī)劃將句子壓縮任務(wù)視為優(yōu)化問題。但由于上述方法未考慮上下文信息和句子結(jié)構(gòu),生成的融合句缺乏重要信息或有語法錯誤。

有監(jiān)督的文本生成的主流方法是基于神經(jīng)網(wǎng)絡(luò)的編碼器-解碼器框架。在編碼器-解碼器框架基礎(chǔ)上,文獻(xiàn)[3]提出Structure-infused復(fù)制機(jī)制,將原句的重要詞和關(guān)系復(fù)制到摘要句,以確保生成的結(jié)果包含原句重要信息。文獻(xiàn)[4]提出一種新穎的Focus-attention機(jī)制對句子進(jìn)行編碼,并設(shè)計了一個獨(dú)立的顯性選擇網(wǎng)絡(luò)管理信息流,來區(qū)分并強(qiáng)調(diào)原句重要信息。然而,這些方法還不能令人滿意,主要表現(xiàn)在生成的文本不包含重要信息,或者用詞偏離原句語義。

為了解決上述問題,本文采用Transformer架構(gòu),利用多頭注意力機(jī)制學(xué)習(xí)文本的長距離依賴關(guān)系,并結(jié)合重要詞識別模塊進(jìn)行句子融合。該方法主要包括兩個模塊:重要詞識別模塊與句子融合模塊。其中,重要詞識別模塊利用BiLSTM-CRF序列標(biāo)注模型識別原句重要詞;句子融合模塊將重要詞與原句輸入Transformer框架,利用BERT進(jìn)行語義表示,并在全連接層引入基于原句和詞表獲得的向量作為先驗知識生成融合句。該模型通過重要詞識別模塊加強(qiáng)了模型對重要詞的理解與關(guān)注,并且通過引入先驗知識,確保融合過程中包含更多原句中的詞,使得結(jié)果與原句語義一致。此外,本文還基于NLPCC2017會議上的單文檔摘要評測數(shù)據(jù)集,利用相似度計算方法獲得了一定規(guī)模的漢語句子融合數(shù)據(jù)集(大約包含35 000多個樣例)來訓(xùn)練模型。相關(guān)實驗表明,本文所提模型性能明顯優(yōu)于基線系統(tǒng)。

1 相關(guān)工作

關(guān)于句子融合。由于可獲得的句子融合數(shù)據(jù)集規(guī)模較小,因此大多數(shù)研究都使用無監(jiān)督的方法。如:文獻(xiàn)[7]提出了簡單的詞圖方法,從不同的輸入語句中復(fù)制片段并將它們連接起來形成最終句子。在此基礎(chǔ)上,研究者嘗試使用多種策略(如關(guān)鍵短語重新排名)改善詞圖方法[5-7]。為了改善融合后句子的語法合理性及新詞包含率,文獻(xiàn)[11]通過無監(jiān)督手段引入語義一致的句子對來訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,具體思想為:首先利用詞圖方法產(chǎn)生粗粒度壓縮文本B,然后用較短的同義詞替換壓縮文本中的詞產(chǎn)生新句子C,最后利用所獲得的語義一致的句子對(B,C)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型。

關(guān)于文本生成。現(xiàn)有的主流文本生成方法主要采用基于序列到序列(Seq2seq)的基本框架。在此基礎(chǔ)上,一些研究者通過使用注意力機(jī)制來選擇重要詞,如:文獻(xiàn)[15]在基于Attention的Seq2seq生成模型中引入VAE結(jié)構(gòu),將句子固定結(jié)構(gòu)特征作為潛在向量并采用VAE作為生成框架來解決推理生成問題。也有研究者引入復(fù)制機(jī)制來獲取句子重要信息,如:Song等[3]采用結(jié)構(gòu)注入復(fù)制機(jī)制將原句重要詞和依賴關(guān)系復(fù)制到目標(biāo)句子。隨著BERT的出現(xiàn),研究者嘗試在Seq2seq框架上引入BERT獲得了更好的系統(tǒng)性能。如:Liu等[10]在目標(biāo)數(shù)據(jù)集上調(diào)整預(yù)訓(xùn)練的BERT獲得文檔的輸入表示,并與Transformer解碼器相結(jié)合完成生成任務(wù),獲得了比之前模型更好的性能。然而,基于Transformer的方法仍存在一些局限,如:生成的融合句未包括原句重要信息,或者偏離原句內(nèi)容。

關(guān)于相關(guān)數(shù)據(jù)集。目前關(guān)于句子融合的大規(guī)模數(shù)據(jù)集較少,且多為英文數(shù)據(jù)集。較早的句子融合數(shù)據(jù)集來自于Newsblaster摘要系統(tǒng)的新聞報道并由人標(biāo)注產(chǎn)生,共包含3 000個樣例[11]。文獻(xiàn)[12]從Thomson-Reuters新聞專線中使用基于Bigram計數(shù)重疊的簡單貪婪方法來對齊句子,構(gòu)建了融合句-摘要句對形式數(shù)據(jù)集(約300個樣例)。文獻(xiàn)[13]為了探索有監(jiān)督的句子融合方法,通過制定一些規(guī)則從摘要任務(wù)數(shù)據(jù)集構(gòu)造了1 858個樣例。James等[2]在大規(guī)模新聞?wù)Z料Gigaword上,通過提取每篇文章的第一句和標(biāo)題并經(jīng)過數(shù)據(jù)清理,來獲得句子和標(biāo)題對作為句子融合的訓(xùn)練語料。

2 方 法

2.1 任務(wù)定義

本文提出了一種基于Transformer和重要詞識別的句子融合方法。該方法的模型總體架構(gòu)如圖2所示,主要包括句子重要詞識別和句子融合兩個模塊。其中,重要詞識別模塊利用BiLSTM-CRF序列標(biāo)注模型識別原句重要詞;句子融合模塊將重要詞與原句作為Transformer框架的輸入,利用BERT進(jìn)行語義表示,并在全連接層引入基于原句和詞表獲得的向量作為先驗知識生成融合句。

圖2 本文的句子融合模型框架

2.2 句子重要詞識別

為了使模型更好地捕捉原句重要信息,本文引入句子重要詞的相關(guān)概念,并基于BiLSTM-CRF模型進(jìn)行句子重要詞的識別。

句子重要詞是反映句子重要語義信息的詞,具體識別時以同時出現(xiàn)在原句與融合句中的實詞(主要指:名詞、動詞和形容詞)為判別依據(jù)。

本文將句子重要詞識別任務(wù)看作序列標(biāo)注問題,并通過式(2)來刻畫。

式中:W={w1,w2,…,wm}為輸入句子的詞序列,T*={t1,t2,…,tm}為輸出的最優(yōu)標(biāo)注序列。其中的標(biāo)記為1、0。1代表該詞為重要詞,反之則為0。

具體采用BiLSTM-CRF模型來識別,具體如圖2左部的模塊。該模型包括表示層、BiLSTM層和CRF層。其中,表示層將句子中的每個詞表示為詞向量;BiLSTM層負(fù)責(zé)將詞向量作為輸入對句子建模,同時更好地捕捉長距離依賴關(guān)系;CRF層為標(biāo)簽預(yù)測添加一些約束來保證預(yù)測標(biāo)簽的準(zhǔn)確性,并輸出句子中每個詞的標(biāo)簽得分以獲得最優(yōu)標(biāo)簽序列的概率。

2.3 句子融合

句子融合模塊采用Transformer框架(Dong等[14])實現(xiàn)編碼與解碼。該模塊首先對輸入句子集利用BERT獲得字的上下文語義表示H0={xw1,xw2,…,xwn}(n為輸入字序列的長度)。具體操作時,在輸入序列的首部添加[CLS]標(biāo)記,在每個句子末尾添加[SEP]標(biāo)記。然后,將BERT語義表示(Token Embedding)與位置嵌入(Position Embedding)、段嵌入(Segment Embedding)拼接形成輸入的向量表示。其中,段嵌入用來標(biāo)識原句和融合句,0對應(yīng)原句,1對應(yīng)融合句。

需要注意的是,本文使用的掩碼矩陣允許原句的字從前后兩個方向計算注意力值,而融合句的字只能對([MASK])及之前的字,以及原句的字計算注意力值。

式中:s和t為訓(xùn)練參數(shù)。

2.4 損失函數(shù)

對于重要詞識別任務(wù)和句子融合任務(wù),使用交叉熵函數(shù)作為句子融合模型訓(xùn)練的損失函數(shù),其計算式為:

式中:y表示真實結(jié)果;y′表示模型預(yù)測結(jié)果。

3 實驗與結(jié)果分析

3.1 數(shù)據(jù)集

如本文第1節(jié)所述,目前已公開的句子融合數(shù)據(jù)集主要為英文數(shù)據(jù)集,但規(guī)模都較小。對于中文來說,幾乎沒有公開的句子融合數(shù)據(jù)集。

本文基于NLPCC2017會議的中文單文檔摘要評測任務(wù)數(shù)據(jù)集構(gòu)建了句子融合數(shù)據(jù)集。該評測數(shù)據(jù)集共包含52 000個篇章-摘要形式的樣例,且摘要中包含一些原文沒有出現(xiàn)的詞。其中的篇章為今日頭條中文新聞文本,涉及的主題有體育、食品、娛樂、政治、科技、金融等。在該數(shù)據(jù)集的基礎(chǔ)上,我們按照如下方法構(gòu)建了句子融合數(shù)據(jù)集和句子重要詞識別的數(shù)據(jù)集。

句子融合數(shù)據(jù)集。對于每個篇章-摘要樣例,首先按標(biāo)點(diǎn)符號將摘要句切分為短句,然后用兩個句子中的共現(xiàn)詞數(shù)與句子長度之和的比值來度量其相似度,其計算式為:

式中:WSi表示第i個句子的詞集合;wk表示詞;|Si|表示第i個句子的長度。

然后,選擇原文最相似的句子構(gòu)成該摘要句的待融合句子集,從而形成原句-融合句(摘要句)形式的樣例。通過去重、剔除詞重疊率小于0.45的樣例,最終得到35 488條數(shù)據(jù)。其中,訓(xùn)練集31 488條,驗證集2 000條,測試集2 000條。

本文從新詞率、原詞率和壓縮率等方面對句子融合測試集進(jìn)行了分析。其中,新詞率指融合句中新詞(未出現(xiàn)在原句的詞)在原句的占比;原詞率指融合句中的原詞(出現(xiàn)在原句的詞)在原句的占比;壓縮率指融合句長度與原句長度之比。具體結(jié)果如表1所示,從原詞率、新詞率、壓縮率可以看出融合過程中,部分原詞被保留,大部分冗余信息被刪除,同時包含未在原句出現(xiàn)的詞,表明句子融合任務(wù)不是簡單地去除冗余信息,還需要生成一些新的詞語。

表1 句子融合測試集相關(guān)分析

句子重要詞識別數(shù)據(jù)集。在句子融合數(shù)據(jù)集上,通過對比原句與融合句中重疊的實詞自動標(biāo)注獲得重要詞數(shù)據(jù)集。具體過程為:如果原句中的實詞出現(xiàn)在融合句中,則標(biāo)注為1,否則為0。訓(xùn)練集、驗證集和測試集的比例與句子融合數(shù)據(jù)集相同。

3.2 實驗設(shè)置與評價指標(biāo)

對于句子重要詞識別,模型參數(shù)設(shè)置為:詞向量維度為300,隱藏層數(shù)為3,隱藏層單元個數(shù)為200,詞的最大長度為4,批次大小為32,學(xué)習(xí)率為0.015,訓(xùn)練1 000輪,優(yōu)化函數(shù)為Adam。

對于句子融合,為了節(jié)省計算量,對詞表進(jìn)行精簡,詞表規(guī)模|V|=13 584。模型其他參數(shù)設(shè)置為:字向量維度為768,隱藏狀態(tài)大小為768,具有12個注意力頭。根據(jù)對數(shù)據(jù)集的分析,句子長度都比較短,故將文本輸入的最大長設(shè)為256,輸出的最大長度設(shè)為110。批處理大小為16,學(xué)習(xí)率設(shè)為1e-5,訓(xùn)練100輪,優(yōu)化函數(shù)為Adam。

重要詞識別評價指標(biāo)。利用精確率、召回率和F1值來評價重要詞識別情況。

句子融合評價指標(biāo)。對模型生成的融合句,使用ROUGE-L、ROUGE-2、ROUGE-1和BLEU指標(biāo)進(jìn)行自動評估。ROUGRE-L是通過計算標(biāo)準(zhǔn)融合句和生成的融合句之間的最大公共子序列的統(tǒng)計量,來評價生成的融合句所含的信息量。BLEU通過統(tǒng)計生成的融合句與標(biāo)準(zhǔn)的融合句之間的匹配片段的個數(shù),來評價生成的融合句的合理性與流暢性。

3.3 句子融合的基線系統(tǒng)

由于句子融合是很多生成式摘要系統(tǒng)的重要子任務(wù),所以本文采用性能比較好的摘要生成系統(tǒng)作為對比基線系統(tǒng)。

(1) DRGD模型[9]。該模型面向摘要生成基于深度GRU遞歸模型學(xué)習(xí)目標(biāo)摘要中隱含的結(jié)構(gòu)信息,同時采用VAE作為生成框架來解決推理生成問題,以提高摘要質(zhì)量。

(2) Struct+2Way+Relation模型[3]。該模型在基于BiLSTM框架的摘要系統(tǒng)中引入Structure-Infused復(fù)制機(jī)制,將重要詞和句法依賴關(guān)系從原句復(fù)制到摘要句,提升了系統(tǒng)性能。

(3) UNILM模型[14]。該模型是融合了自然語言理解和自然語言生成能力的Transformer統(tǒng)一框架,其核心是通過特殊的Attention Mask來實現(xiàn)不同的語言模型。

本文沒有專門與文獻(xiàn)[10]中所提基于Transformer架構(gòu)的模型進(jìn)行對比是因為本文實驗是在基于Transformer框架的UNILM上進(jìn)行改進(jìn),已包含該框架的對比結(jié)果。

根據(jù)相應(yīng)文獻(xiàn)來源找到對應(yīng)模型代碼,將實驗數(shù)據(jù)換為本文實驗所用數(shù)據(jù),實驗其他設(shè)置與原論文保持一致。

本文系統(tǒng)基于UNILM模型結(jié)合任務(wù)特點(diǎn)進(jìn)行了改進(jìn),實現(xiàn)了較好的實驗結(jié)果。

3.4 結(jié)果分析

3.4.1句子融合結(jié)果分析

句子融合的具體實驗結(jié)果如表2所示。

表2 句子融合結(jié)果(%)

從表2可以看出,本文所提方法同其他方法相比獲得了最好性能。當(dāng)“UNILM”模型中同時加入先驗知識以及句子重要詞時,BLEU-4值提升了約2%,ROUGE-L值提升了約5%,ROUGE-2、ROUGE-1也有明顯提升,而且加入句子重要詞提升效果比加入先驗知識更明顯,表明如果模型可以正確識別句子的重要信息,就可以得到更準(zhǔn)確、流暢的結(jié)果。當(dāng)模型中僅加入先驗知識時,BLEU-4、ROUGE-L、ROUGE-2和ROUGE-1也有改進(jìn),表明先驗知識的引入在一定程度上可以提升句子融合的質(zhì)量。此外,還發(fā)現(xiàn)“UNILM”模型比“DRGD”模型、“Struct+2Way+Relation”模型的效果要好,表明“UNILM”模型擁有更強(qiáng)大的學(xué)習(xí)能力。

本文從實驗結(jié)果中隨機(jī)抽取了100條數(shù)據(jù)進(jìn)行分析,部分?jǐn)?shù)據(jù)如圖3所示。

原句1:“中新網(wǎng)7月21日電據(jù)安縣人民政府網(wǎng)站消息,2015年7月21日上午,新浪微博出現(xiàn)一則慶安縣公安局經(jīng)刑偵大隊副大隊長姚永軍的妻子王洪濤反映其利用職務(wù)之便,貪污受賄、實施家暴的視頻。目前已被停職,慶安縣人民檢察院已介入調(diào)查。”標(biāo)準(zhǔn)融合句:“網(wǎng)曝綏化慶安刑偵大隊副大隊長利用職務(wù)之便,貪污受賄、實施家暴,目前已被停職,檢方介入調(diào)查。”UNILM:“安慶慶安縣公安局經(jīng)刑偵大隊副大隊長姚永軍妻子王洪濤被舉報,其妻子王洪濤已被刑拘,檢方已介入調(diào)查。”UNILM+先驗知識:“慶安縣公安局經(jīng)刑偵大隊長妻子王洪濤貪污受賄、實施家暴,目前,慶安縣檢察院已介入調(diào)查。”UNILM+先驗知識+句子重要詞:“慶安刑偵大隊副大隊長利用職務(wù)之便,貪污受賄、實施家暴,目前已被介入調(diào)查。”原句2:“人民網(wǎng):北京11月29日電(記者孝金波)今天,記者從中國鐵路總公司獲悉,自11月30日起,中國鐵路客戶服務(wù)中心12306網(wǎng)站支付寶賬戶支付服務(wù)功能上線試運(yùn)行,旅客網(wǎng)購火車票新增一種支付方式。”標(biāo)準(zhǔn)融合句:“人民網(wǎng):12306網(wǎng)站明日起新增支付寶支付服務(wù)功能。”UNILM:“鐵路客戶服務(wù)中心12306網(wǎng)站支付寶賬戶支付服務(wù)功能上線試運(yùn)行,旅客網(wǎng)購火車票新增一種支付方式。”UNILM+先驗知識:“自11月30日起,中國鐵路客戶服務(wù)中心12306網(wǎng)站支付寶賬戶支付功能上線試運(yùn)行,新增一種支付方式。”UNILM+先驗知識+句子重要詞:“12306網(wǎng)站新增支付寶支付服務(wù)功能。”原句3:“中新網(wǎng)4月27日電:據(jù)外媒報道,《星期日泰晤士報》27日發(fā)布年度富豪榜,出生在烏克蘭的布拉瓦特尼克成為英國首富。伊麗莎白女王的財富增長1 000萬英鎊至3.4億英鎊,但卻首次跌出了該國的富豪前300強(qiáng)。”標(biāo)準(zhǔn)融合句:“英國公布年度富豪榜:烏克蘭裔商人131億英鎊居首,女王3.4億英鎊,首次跌出前300。”UNILM:“英國發(fā)布年度富豪榜,出生在烏克蘭的布拉瓦特尼克成為英國首富,但首次跌出該國富豪前300強(qiáng)。”UNILM+先驗知識:“英國首富布拉瓦特尼克成英國首富,伊麗莎白女王財富增長1000萬英鎊至3.4億英鎊,但首次跌出該國富豪前300強(qiáng)。”UNILM+先驗知識+句子重要詞:“英國富豪榜:烏克蘭女王成英國首富,女王財富3.4億英鎊,但首次跌出前300強(qiáng)。”

從結(jié)果的整體上看,加入先驗知識和句子重要詞識別兩個模塊后,在一定程度上改善了融合句子的準(zhǔn)確性和流暢性。例如,在示例1中,“UNILM+先驗知識”模型輸出句子中有更多的詞來源于原句;“UNILM+句子重要詞+先驗知識”模型比“UNILM+先驗知識”模型更準(zhǔn)確地識別到了原句重要信息,輸出的句子更接近于標(biāo)準(zhǔn)融合句。

然而,模型的輸出還存一些局限。如示例3中,由于句子中出現(xiàn)多個實體詞:“出生在烏克蘭的布拉瓦特尼克”和“伊麗莎白女王”,本文模型輸出了錯誤的實體匹配結(jié)構(gòu),導(dǎo)致融合的句子質(zhì)量變差。所以,對于出現(xiàn)多個同類實體的情況,還需要進(jìn)一步進(jìn)行研究和改進(jìn)。

3.4.2句子重要詞識別

原句重要詞識別實驗結(jié)果如表3所示。

表3 句子重要詞識別結(jié)果(%)

實驗結(jié)果顯示BiLSTM-CRF模型識別的精確度更高。本文在采用TextRank算法時,在句子中過濾掉停用詞,只保留指定詞性的詞,迭代得到每個詞的權(quán)重,根據(jù)原句子和融合句子的原詞率(見表1),本文選取前N(N=m×2/5,其中m為句子的長度)個權(quán)重較大的句子重要詞。在此過程中,并未考慮句子結(jié)構(gòu)信息,導(dǎo)致標(biāo)注了部分不重要的詞。對于BiLSTM-CRF模型,其考慮了句法信息,以及融合句與原句子的交互信息。從結(jié)果數(shù)據(jù)看,該模型結(jié)果雖有提升,但還不理想。所以,提升句子重要詞的預(yù)測能力將是下一步研究重點(diǎn)。

4 結(jié) 語

為了解決句子融合后存在重要信息缺失、語義偏離原句等問題,本文提出了一種基于Transformer和重要詞識別的句子融合方法。該方法主要分為兩個模塊:句子重要詞識別模塊負(fù)責(zé)識別原句的重要信息;句子融合模塊基于原句重要信息和先驗知識生成融合句。實驗結(jié)果表明,模型取得了較好效果。

然而模型還存在一些局限,如:未能準(zhǔn)確獲取句子中的實體匹配關(guān)系導(dǎo)致融合結(jié)果不夠好;詞語特征構(gòu)建不充分引起句子重要詞識別還不夠理想。未來,我們將加強(qiáng)句子重要信息的識別與句子語義關(guān)系分析,進(jìn)一步提升句子融合效果。

猜你喜歡
文本融合模型
一半模型
村企黨建聯(lián)建融合共贏
融合菜
從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
重要模型『一線三等角』
《融合》
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
主站蜘蛛池模板: 婷婷六月在线| 亚洲区一区| 久草国产在线观看| 国产人人干| 欧美一区精品| 国产网站免费看| 国产一区成人| 欧美成人A视频| 国产成人AV大片大片在线播放 | 精品国产黑色丝袜高跟鞋| 国产www网站| 综合社区亚洲熟妇p| 欧美中文字幕在线播放| 国产精品视频白浆免费视频| 欧洲熟妇精品视频| 成人免费午夜视频| 最新国产在线| 久久久噜噜噜久久中文字幕色伊伊 | 99伊人精品| 亚欧美国产综合| 久久久久久久久久国产精品| 日韩一区精品视频一区二区| 欧美中文字幕无线码视频| 精品一区二区三区自慰喷水| 国产美女无遮挡免费视频网站 | 国产久操视频| 婷婷六月天激情| 欧美日韩国产在线人| 亚洲综合激情另类专区| 无码久看视频| 国产乱人乱偷精品视频a人人澡| 日本免费一区视频| 欧美 亚洲 日韩 国产| 国产毛片基地| 婷婷综合在线观看丁香| 国产精品丝袜在线| 久久免费看片| 亚洲无码日韩一区| 欧美成人精品一区二区| 亚洲精品在线影院| 亚洲最新在线| 欧美一级大片在线观看| 亚洲人成网站在线观看播放不卡| 亚洲成人免费看| 黄色a一级视频| 91在线免费公开视频| 国产jizz| a在线亚洲男人的天堂试看| 污网站免费在线观看| 毛片基地美国正在播放亚洲 | 免费又黄又爽又猛大片午夜| 亚洲精品福利网站| 真人高潮娇喘嗯啊在线观看| 日韩一区二区三免费高清| 日本黄色不卡视频| 亚洲中文字幕久久无码精品A| 色亚洲激情综合精品无码视频| 免费A∨中文乱码专区| 国产区福利小视频在线观看尤物| 日本久久网站| 国产精品香蕉在线| 亚洲三级色| 国产91小视频| 亚洲一区二区成人| 99尹人香蕉国产免费天天拍| 日本黄色a视频| 国产精品网曝门免费视频| 日韩天堂网| 最新国产你懂的在线网址| 日本成人在线不卡视频| 亚洲欧美日韩动漫| 国产在线精彩视频二区| 小蝌蚪亚洲精品国产| 婷婷六月综合网| 亚洲欧美另类专区| 丁香婷婷激情综合激情| 国产成年无码AⅤ片在线| 97色伦色在线综合视频| 国产午夜福利在线小视频| 日韩不卡免费视频| 九九九九热精品视频| 免费无码AV片在线观看中文|