999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于biLSTM 的新型文本相似度計算模型?

2020-11-02 09:00:46黃建強趙梗明賈世林
計算機與數字工程 2020年9期
關鍵詞:分詞語料數據挖掘

黃建強 趙梗明 賈世林

(上海師范大學信息與機電工程學院 上海 200030)

1 引言

語義相似度計算是自然語言處理任務的重要組成部分,廣泛應用于QA 系統,信息檢索、機器翻譯,復述問題以及對話系統中[1~4]。很多學者針對文本相似度計算提出了許多相關模型算法,郭慶琳等[5]提出在改進DF 算法和TD-IDF 的用于文本相似度計算的空間向量模型。廖開際等[6]提出構建文本特征項的加權語義網模型來計算文本之間的相似度算法。李連等[7]提出考慮文本特征詞改進的空間向量模型方法計算文本相似度。張佩云等[8]提出了基于詞頻統計的考慮特征項在文本中的重要程度以及特征項之間的關系的加權語義文本相似度計算方法。王振振等[9]提出基于LDA 模型來計算文本相似度計算準確度。除此還有基于語義本體的文本相似度計算方法,主要有基于距離、屬性、信息內容以及混合式的語義相似度計算方法[10~14]。

以上基于語義,概率以及統計方法在文本相似度計算中得到了應用,但此類方法是針對特定任務人為設計的,導致其泛化能力差,而深度學習因具有自動特征提取特點而被廣泛應用,比如J Mueller等[15]提出基于LSTM 用于計算語義相似度的孿生網絡模型,Wenwen Li 等[16]提出基于多層神經網絡的地理本體語義文本相似度計算模型。而僅用深度學習模型文本特征,忽視了傳統的數據挖掘方法在特征提取方面的優勢,導致語義特征提取不全,難以在自然語言各類任務中有很好的表現。

針對以上問題,本文在結合以上方法的基礎上提出基于biLSTM 的三層快速堆疊式編碼結構融合數據挖掘方法的語義分析模型,充分提取文本數據特征,在實際的語義相似度計算任務中該種新型模型比傳統單模型神經網絡結構有更好的表現。

2 相關模型

2.1 基于Negative Sampling的CBOW模型

負采樣(Negative Sampling,NEG),是噪音對比估計(Noise Contrastive Estimation,NCE)的簡化版本。

在CBOW 模 型 中[17],預 測 詞w,對 于 已 知Context(w),其中Context(w)表示詞w的上下文,詞w就是正樣本,其他詞表示負樣本,假設我們已經獲得詞w的負樣本子集NEG(w),則有如下定義:

對于給定的正樣本(Context(w),w),模型目標函數如下表示:

2.2 長短時記憶網絡

圖1 LSTM網絡結構圖

LSTM 是RNN 的變種,在處理序列形式的數據時,鏈式結構的RNN 有好的表現,但在處理長序列時,RNN 會存在梯度消失的問題[18],針對該問題,LSTM 網絡作為RNN 的變種,在解決長序列問題中,有很好的表現[19]。LSTM 中的門結構:sigmoid神經網絡和點乘的操作結合。其中,以sigmoid 作為激活函數的全連接神經網絡會輸出0~1 之間的數值,描述當前通過的信息量,即sigmoid 輸出為1或0 時,信息全部或都不能通過。LSTM 對應網絡結構圖如圖1。

其中,f為遺忘門,i為輸入門,g為核控制單元,o:輸出門。ht-1表示上一時刻狀態,Ct-1表示cell狀態。

網絡結構前向傳播如下:

先將輸入xt和上一時刻狀態ht-1以σ變換求出決定Ct-1舍棄哪些信息。

再將輸入xt和上一時刻狀態ht-1以σ求變換決定Ct保留哪些信息。

其中it表示添加新信息的參數,gt表示生成新數據時的控制參數。

然后根據參數Ct-1,it,gt,ft計算出最終cell控制參數。

最后對于新輸入xt和上一狀態ht-1用σ作變化決定cell 狀態輸出哪些信息,再與cell 狀態的輸出做tanh 變換的值作點乘。

3 模型設計

用快捷堆疊式biLSTM 結合數據挖掘結合的方法實現基于孿生神經網絡對短文本句子相似度計算模型。

該模型主要由文本量化,編碼層,分類器三部分組成。

文本量化:利用遷移學習思想,詞向量表示以大量專業語料,利用基于負采樣的連續詞袋模型訓練出詞向量。將預訓練的詞向量用于以字級表示的文本,即一個字對應一個多維向量,最終將用于相似度計算的文本以矩陣形式表示。

編碼層:該模型[20]堆疊biLSTM 層數為3 層,biLSTMi表示第i層的biLSTM,因此第i層的biL?STM 在t時刻輸入的句子表示為(),則第i層biLSTM在時刻t的輸出表示為

W=(w1,w2,…,wn)表示句子序列,其中wi∈Rd表示句子中第i個詞的表示向量,則第i層biLSTM在時刻t表示為

假設模型是m層biLSTM,最后的文本向量表示可由最后第m層biLSTM輸出再經過最大池化操作獲得。最后一層表示為

其中,,v∈R2dm,Hm∈R2dm×n,dm表示biLSTM 隱藏狀態的維度,v表示句子的最后向量表示。

圖2 模型結構

數據挖掘特征:分別以Cosine 距離[21],編輯距離計算[22]出句子對特征,將兩者計算的特征融合,融合結果經過全連接層獲得向量輸出。

分類器:在獲得經過編碼器輸出的文本表示向量后,根據文獻,將相似度計算的文本向量相減取絕對值,點乘操作,以及文本向量拼接,最后將三者操作結果拼接成新向量,可有如下計算:

最后將拼接的結果經過全連接層(Fully Con?nected Layer,FC)計算獲得向量輸出,最后分別將數據挖掘特征和編碼器輸出特征向量拼接,再將拼接的向量通過全連接層,其中全連接層采用Drop?out思想,避免網絡過擬合,將全連接層的輸出作為最后softmax 分類器的輸入,根據分類最終達到對句子相似度計算目的。softmax函數公式:

其中,σ(z)表示K維實數向量,j=1,…,K。

4 實驗

本次實驗工具用開源深度學習框架tensorflow構建快捷堆疊式biLSTM 模型,以word2vec 模型將文本向量化,向量維度為300 維,結合數據挖掘計算文本特征,最終實驗多模型結合的網絡結構訓練。

文本分別以詞級和字級將文本量化,其中分詞用jieba 分詞工具。本實驗分為三組對比實驗,第一組實驗先對字符級和詞級做對比實驗;第二組實驗將本模型分別與CNN,LSTM,Bi-LSTM 結構的模型作比較;第三組實驗對比數據挖掘方法的優劣,以驗證數據挖掘方法融合傳統神經網絡方法的優越性。

4.1 實驗數據

實驗數據來自阿里天池比賽十萬對標注的支付寶對話語料,語料格式為句1,句2,標簽0 或1,1表示文本相似,0 表示不相似。其中90000 條作為訓練數據,10000條作為驗證數據。

4.2 數據預處理

清洗:針對數據存在亂碼,繁體字等情況,在分析數據后,決定將亂碼,符號等無用信息進行刪除,部分繁體字對于整句話是無用的,對于這部分繁體字刪除,部分繁體字包含語句信息,不予刪除,將其轉換成簡體中文,以保留文本上下文信息。

分詞:用jieba 分詞工具,對清洗后的數據進行分詞,清洗后的文本仍然存在與語義無關的字或詞,比如“了”“的”,這些詞對于整句話的語義表達沒有影響,甚至會影響最后的分類效果,因此將這些詞或字刪除。分詞工具會存在分詞不準確的現象,比如最新詞匯“支付寶”,利用該分詞工具無法分詞,針對此問題,該分詞工具提供了用戶添加自定義詞典功能,使其能夠識別新詞。

預訓練詞向量:由于該數據集是金融背景對話語料,本次實驗預訓練詞向量利用文獻在多家新聞網站收集的無監督的新聞語料訓練,訓練語料大小為6.2G,最終訓練詞的向量維度為300[23]。

數據增強:為了防止訓練結果過擬合,本次實驗對原始數據做增強,將部分詞語,比如“怎么”替換成“如何”,即近義詞替換,從而達到對原始數據增強的效果。

4.3 參數調整

學習率:由于文本量化采用預先訓練的詞向量表示,因此較低的學習率,能夠減小網絡訓練過擬合風險,因此網絡的初始學習率設置為0.001,訓練的總輪次為10,每批次訓練數為64,每兩輪將學習率降低一半,,訓練前期,網絡需要更快的擬合,訓練后期,網絡趨于擬合,降低學習率,有效避免過擬合現象。

Dropout 設置:為了避免過擬合現象,設置Dropout 參數,本次實驗設置的Dropout 值為0.8。Droput指在模型訓練過程中,以一定概率讓網絡隱含層部分節點停止工作,在刪除部分網絡單元后,網絡具有一定的稀疏性,減輕了不同特征之間協同效應[24]。

4.4 實驗結果分析

實驗分別以字符級和詞級表示原始文本,以Precision,Recall,Accuracy,F1score 作為模型評價,以F1score 作為最終的評價標準,分別將本論文模型與CNN,biLSTM 編碼的語義分析模型做對比,實驗結果見表1。

對實驗結果分析如下。

1)字級量化在四種特征提取模型中,SSE+數據挖掘方法效果最好,最高的F1 分數可達到0.523,最低的是biLSTM 模型,在詞級量化時,SSE+數據挖掘方法效果最好,F1分數最高可達0.542。

表1 模型對比

2)通過比較所有模型,以詞級量化的語義相似度計算效果優于字級。

3)以詞級量化文本,將數據挖掘方法融合SSE模型結果優于SSE 模型,表明該模型在文本語義相似度計算任務中具有優越性。

5 結語

本文在總結傳統神經網絡不足的基礎上,利用基于負采樣的連續詞袋模型作為語料訓練模型,將文本量化表示后,提出以數據挖掘特征結合多層堆疊編碼的網絡結構的方法,通過多模型的結合,達到對文本向量的特征充分提取的目的,以提高最終語義相似度判斷精確度。

針對本模型,有待提高的部分,如將文本以字符和詞級結合的方法將文本量化,再分別與字符級和詞級表示的結果作對比,本次實驗的訓練集關于金融場景對話,可用金融語料訓練詞向量。在后續的研究工作中,會對上述兩部分做對比分析。

猜你喜歡
分詞語料數據挖掘
探討人工智能與數據挖掘發展趨勢
結巴分詞在詞云中的應用
智富時代(2019年6期)2019-07-24 10:33:16
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
基于語料調查的“連……都(也)……”出現的語義背景分析
值得重視的分詞的特殊用法
一種基于Hadoop的大數據挖掘云服務及應用
華語電影作為真實語料在翻譯教學中的應用
《苗防備覽》中的湘西語料
國內外語用學實證研究比較:語料類型與收集方法
基于GPGPU的離散數據挖掘研究
主站蜘蛛池模板: 欧美精品1区2区| 国产午夜精品鲁丝片| 国产婬乱a一级毛片多女| 国产日韩久久久久无码精品| 成人午夜网址| 亚洲AV无码久久精品色欲| 污污网站在线观看| 欧美狠狠干| 国产精品网拍在线| 亚洲伊人久久精品影院| 狠狠五月天中文字幕| 亚洲伊人久久精品影院| 亚洲第一精品福利| 国产一区免费在线观看| 日韩 欧美 小说 综合网 另类| 波多野结衣中文字幕一区| 久996视频精品免费观看| 国产精品99一区不卡| 在线综合亚洲欧美网站| 久久精品日日躁夜夜躁欧美| 亚洲激情99| AV色爱天堂网| 在线不卡免费视频| 欧美日在线观看| 五月六月伊人狠狠丁香网| 亚洲国产中文在线二区三区免| 国产精品无码久久久久AV| 国产欧美日韩在线在线不卡视频| 欧美在线观看不卡| 欧美成一级| 精品剧情v国产在线观看| 日本一区二区三区精品国产| 一级爆乳无码av| 91精品国产麻豆国产自产在线| 中文字幕无线码一区| 亚洲国产中文精品va在线播放| 爆操波多野结衣| 强乱中文字幕在线播放不卡| 日韩免费中文字幕| 久久久噜噜噜久久中文字幕色伊伊| 亚洲综合色区在线播放2019| 第一区免费在线观看| 免费人成网站在线观看欧美| 国产一级视频久久| 精品国产一二三区| 97免费在线观看视频| 久久6免费视频| 成人免费黄色小视频| 不卡无码网| 中文字幕第4页| 岛国精品一区免费视频在线观看| 欧美国产在线一区| 久久视精品| 亚洲自偷自拍另类小说| 日韩精品一区二区深田咏美| 热久久国产| 日本午夜精品一本在线观看 | 国产美女精品在线| 亚洲最新地址| 高潮毛片无遮挡高清视频播放| 国产一区二区三区在线观看免费| 中文字幕亚洲乱码熟女1区2区| 成人毛片免费在线观看| 日本不卡在线| 奇米精品一区二区三区在线观看| 五月婷婷综合网| 亚洲一区二区三区中文字幕5566| a级高清毛片| 在线国产91| 国产在线精品99一区不卡| 欧美色99| 久久天天躁夜夜躁狠狠| 国产精品永久免费嫩草研究院| 日韩国产另类| 在线高清亚洲精品二区| 久久免费看片| 波多野结衣在线se| 精品无码人妻一区二区| 中文字幕欧美日韩高清| 日韩福利在线观看| 色综合手机在线| 99久久精彩视频|