999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Word2vec和改進TF-IDF算法的深度學習模型研究?

2021-06-02 07:30:14徐瑞龍
計算機與數字工程 2021年5期
關鍵詞:物流利用文本

石 琳 徐瑞龍

(江蘇科技大學計算機學院 鎮江 212003)

1 引言

隨著電子商務的發展,網上購物已經逐漸成為人們主要的消費方式,隨之催生了大量物流產業,而物流服務的好壞直接影響了客戶對網購的滿意度。因此對物流評論數據進行挖掘分析,不僅可以幫助商家更好地了解物流情況,選擇合適的合作廠家,還可以為物流業改進服務提供參考。因此,對物流評論進行情感分析具有重要的研究意義和實用價值。

目前用于文本情感分析的方法主要有:1)基于情感詞典的文本情感分析法;2)基于機器學習的文本情感分析方法。基于情感詞典[1]的情感分類方法是指提前建立好詞典,以情感詞典作為判斷情感傾向的依據,通過計算得分判斷最終極性。但是情感詞典的質量和覆蓋度直接影響其分類結果,同時構造情感詞典的和判斷規則又會耗費大量的人力,所以推廣能力較差。然而,基于機器學習的分類方法的性能主要取決于數據集的標注質量,但是數據的標注需要投入大量的人工成本[2]。

隨著深度學習的興起,深度神經網絡在自然語言處理領域也獲得了革命性的突破。在中文文本情感傾向方面,周詠梅等[3]提出了一種基于HowNet和SentiWordNet的漢語情感詞典構建方法,將單詞的情感強度分解為多個語義單元,自動計算出單詞的情感強度,并采用詞典校對技術優化了單詞的情感強度值。陽愛民等[4]根據Turney的思想,結合種子詞和其他詞語在搜索引擎中的回饋值,并通過計算詞語SO-PMI值,判斷詞語情感極性。楊力月等[5]在傳統情感詞典的基礎上通過優化語氣詞權重計算方法和詞典的構造方法,改進了情感詞典中的微博情感詞典。首先利用開源情感詞典、網絡情感詞典等構造出基礎情感詞典,然后在此詞典的基礎上結合中文語法規則,利用句間和句型關系計算句子的情感傾向,以此提高微博文本情感分類的準確性。張成功等[6]提出了一種以極性詞典為基礎改進的情感分析算法。主要做法是構建一個相對完備、高效的詞典,其中包含了基礎情感詞典、領域詞典、修飾詞典和網格詞典等,把情感傾向詞和情感修飾詞放在一起構建成極性短語,利用構建好的詞典進行情感傾向分析。楊超等[7]基于現有的詞典,提出了一種新的情感詞典并開發了一個自動輿情分析系統。

2003年,Ducharme等[8]利用神經網絡訓練詞向量來表示文本。詞向量不僅能夠有效地得到語義信息[9],而且還解決了數據稀疏性問題。利用詞向量描述文本,并且結合深度學習模型如卷積神經網絡(CNN)、循環神經網絡(RNN)等進行分類可以得到比傳統機器學習方法更好的效果。Sahar Sohan?gir[10]認為大數據對于研究至關重要,而使用深度學習最大的優勢就是分析大數據,這也使得深度學習成為研究大數據的工具。深度學習可以提取其中隱藏的信息,所以該文通過應用多種神經網絡模型例如長短期記憶網絡(Long Short-Term Memory,LSTM)、Doc2vec和CNN模型對股票市場觀點進行情感分析,結果表明深度學習方法可以有效地應用于金融情感分析。Kim等[11]通過改進的一維卷積神經網絡得到句子的特征,并在進行情感分析研究中,不斷調整參數和加入詞向量,在不同數據集上測試分類性能。文獻[12]利用LSTM把評論語句轉化成詞語序列進行情感分析。

論文利用Word2vec模型進行詞向量轉換,結合物流關鍵詞庫進行改進TF-IDF優化加權,最后把加權后的詞向量輸入LSTM進行訓練,自動提取評價中隱含的特征,完成對物流評價的準確預測。

2 相關模型介紹

2.1 TF-IDF模型

TF-IDF是一種加權技術。它主要采用一種統計的方法,根據關鍵的詞語在某個文檔中出現的頻率和在所有語料庫中出現的頻率來計算該詞語在整個語料中的重要程度。詞語的重要性會因為在文本中出現次數多而變高,同時也會因為在整個語料庫中出現次數過多而降低[13]。

TF意思是詞頻(Term Frequency),IDF意思是逆向文件頻率(Inverse Document Frequency)。所以在一篇文章中如果某個詞出現的頻率(TF)很高,并且在其他文章中(IDF)很少出現,則說明這個詞具有較好的類別能力。[14]

計算公式:

2.2 Word2vec模型

Word2vec是Google在2013年開源的一款將文本表示為數值向量的工具,主要的模型有CBOW和Skip-Gram兩種[15]。Word2vec通過訓練,把一些文本內容轉換為機器能夠理解地K維向量進行空間向量運算,而且向量空間上的相似度恰好可以表示文本語義上的相似度。[16]

本文采用的是Skip-Gram模型,Skip-Gram是依據已有的內容來預測上下文的,本模型有輸入層、投影層、輸出層三層,如圖1所示。

圖1 Skip-Gram模型

Skip-Gram模型的訓練目的就是如何讓式(2)中的值盡可能地變大:

式中,c>0表示的是窗口的大小,T是訓練文本的大小。基本的Skip-gram模型計算條件概率如式(3)。

其中,vw和分別是詞w的輸入和輸出向量。

2.3 LSTM模型

長短期記憶(LSTM)網絡是由RNN擴展而來,主要是在RNN中添加了一個可以判別信息是否有用的cell,通過設計其結構來刪除或者增加信息。

LSTM實際上也是一種特殊的循環神經網絡,所以它也包含鏈狀結構。然而與循環神經網絡重復模塊不同的是,它包含四層神經網絡層,每個網絡層之間用著特殊的方式相互作用,并不是單個簡單的神經網絡層[17]。網絡示意圖如圖2所示。

圖2 LSTM網絡結構

首先,LSTM要確定我們從細胞狀態中拋棄什么信息。這個是由一個稱為“遺忘門”的Sigmoid層控制的[18]。第一步是先獲取上一層輸出的ht-1和當層的xt,使用Sigmoid函數計算得到一個0-1的數[19]。其中,0代表“完全舍棄”,1代表“完全保留”。其計算公式為

其中,代表的是Sigmoid函數,wf代表的是遺忘門的權重,bf代表的是遺忘門的偏置。

輸入門主要是決定記憶單元中要存放哪些信息。它包括兩部分,第一部分是輸入門的Sigmoid層斷定需要變更的信息[20];第二部分是經過Tanh層構造一個新候選向量,計算公式如下:

其中,σ為Sigmoid函數,wi表示的是更新門權重,bi表示的是更新門偏置,tanh雙曲正切函數,wc更新候選值,bc更新候選值偏置,Ct候選值。

最終用舊狀態乘以ft,決定要丟掉的部分,和新的候選信息相加合成了細胞狀態的更新,計算公式如下:

其中,Ct表示新狀態。最后,將該輸出結果與Sigmoid函數的輸出值做乘積處理,以此獲取最后的分類結果。具體計算公式如下:

其中,wo更新輸出值的權重,bc更新輸出值偏置,ht最終確定輸出的那部分[21]。

3 物流模型構建

3.1 改進TFIDF模型

由于傳統的TFIDF方法單純以“詞頻”衡量一個詞的重要性,不夠全面,有時重要的詞可能出現次數并不多。于是我們調整TFIDF對特征項的權重計算,結合物流關鍵詞庫進行優化權重計算。

首先,利用正則表達式進行特征匹配,對于匹配的詞加入特征權值的計算。改進后的計算公式如下:

其中,Wk是結合物流關鍵詞庫匹配到的關鍵詞的權重。

3.2 物流模型的構建

1)Word2vec詞向量庫的構建

首先使用天貓某品牌服裝有關物流評價數據作為基礎語料進行模型訓練。其中包含了訓練樣本和測試樣本,神經網絡隱藏層的神經元個數即詞向量維數設置為200,利用negative sampling負采樣提高訓練速度改善詞向量的質量。

2)文本的向量表示

上文通過Word2vec把分詞后的評論已經變成低維的數值向量,這讓原本難以處理的高緯度高稀疏的數據變成容易讀取的矩陣數據表示。同時也節省了人工進行特征選取的巨大工作量。但是因為Word2vec無法量化關鍵詞語對評論的重要性,所以我們采用改進后的TF-IDF進行權重計算。

3)物流評價模型的構造

由于購物評價大部分是短文本,并且文本中會有數字、語氣詞等,所以在進行文本分類前首先進行文本預處理,去除一些沒有實際意義的詞語。然后將預處理后的文本作為輸入,通過Word2vec把文本轉換成詞向量,再通過改進的TF-IDF將優化權重,最后經過LSTM網絡進行分類預測。具體流程如圖3所示。

圖3 物流模型構造流程

4 實驗

論文實驗環境為Windows10操作系統,采用Python編程語言,利用Python中的Keras庫進行搭建LSTM。實驗中使用的硬件環境是聯想筆記本,具 體 配 置 為Intel(R)Core(TM)i5-6200U@2.30GHz,8G內存。

4.1 實驗參數設置

論文研究實驗軟件環境主要是基于Keras與Theano搭建的深度學習平臺,具體實驗參數如表1所示。

表1 實驗參數

4.2 實驗對比

論文采用Word2vec將評論進行詞向量訓練,接著利用改進的TF-IDF進行加權優化,最后通過LSTM進行預測得到結果并和其他單個模型及結合進行比較。

表2 不同模型實驗結果對比

從表2中可以看出,對權值進行優化后的TF-IDF要比一般TF-IDF預測效果好。因為Word2vec無法量化權重,所以把TF-IDF與Word2vec結合進行預測,要比兩個模型獨立預測效果要好。LSTM作為深度神經網絡,通過Word2vec生成詞向量并且用TF-IDF量化權重最后利用LSTM進行預測,準確度在原有的基礎上得到了6%的提高。

5 結語

本文的工作是利用Word2vec表示了高維的詞向量,克服了傳統情感詞典方法的局限性。利用改進的TF-IDF對物流好差評關鍵詞進行了加權。和傳統的機器學習方法不同的是,基于LSTM模型可以不用人為的特征提取,減少了訓練的時間。為商家對店鋪進行及時的物流分析和改進服務提供了有效的幫助。

猜你喜歡
物流利用文本
利用min{a,b}的積分表示解決一類絕對值不等式
中等數學(2022年2期)2022-06-05 07:10:50
利用一半進行移多補少
在808DA上文本顯示的改善
本刊重點關注的物流展會
“智”造更長物流生態鏈
汽車觀察(2018年12期)2018-12-26 01:05:44
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
利用數的分解來思考
Roommate is necessary when far away from home
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
基于低碳物流的公路運輸優化
現代企業(2015年2期)2015-02-28 18:45:09
主站蜘蛛池模板: 亚洲欧洲一区二区三区| jizz国产视频| 欧美在线中文字幕| 玖玖精品在线| 亚洲 欧美 日韩综合一区| 91av成人日本不卡三区| 六月婷婷精品视频在线观看| 91网址在线播放| a级免费视频| 中文天堂在线视频| 日本久久网站| 一本无码在线观看| 亚洲综合九九| 91色综合综合热五月激情| 日韩小视频网站hq| 青青草国产免费国产| 免费黄色国产视频| 国产对白刺激真实精品91| 尤物精品视频一区二区三区| 亚洲色图另类| 国产精品综合色区在线观看| 国产成人艳妇AA视频在线| 这里只有精品国产| 国产欧美日韩一区二区视频在线| 国产成人精品一区二区免费看京| 国产一线在线| 免费高清a毛片| 国产毛片基地| 亚洲精品国产日韩无码AV永久免费网| a色毛片免费视频| 久久婷婷综合色一区二区| 性激烈欧美三级在线播放| 欧美亚洲另类在线观看| 免费国产黄线在线观看| 国产成人综合久久| 国产青榴视频| 亚洲侵犯无码网址在线观看| 精品国产91爱| 极品性荡少妇一区二区色欲| 欧洲日本亚洲中文字幕| 亚洲高清日韩heyzo| 中文字幕亚洲专区第19页| 日本a级免费| 91无码视频在线观看| 色欲综合久久中文字幕网| 国产免费高清无需播放器| 日本午夜精品一本在线观看 | 国产精品无码制服丝袜| 最近最新中文字幕在线第一页| 高潮毛片免费观看| 国产成人无码播放| 国产精品免费入口视频| 九九热在线视频| 真人免费一级毛片一区二区| 国产成人精品在线1区| 熟女视频91| 日本亚洲最大的色成网站www| 国产精品3p视频| 国产哺乳奶水91在线播放| 国产超薄肉色丝袜网站| 日韩麻豆小视频| 亚洲成aⅴ人在线观看| 免费一极毛片| 国产精品久久自在自线观看| 国产午夜无码片在线观看网站| 国产毛片片精品天天看视频| 狠狠操夜夜爽| 99久久精彩视频| 园内精品自拍视频在线播放| 性网站在线观看| 热re99久久精品国99热| 波多野结衣一二三| 91免费在线看| 国内精品视频| 最新无码专区超级碰碰碰| 国产尤物在线播放| 精品综合久久久久久97| 又爽又黄又无遮挡网站| 四虎影视8848永久精品| 伊人欧美在线| 亚洲人成网站日本片| 2022国产无码在线|