999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于word 2vec和LSTM的飲食健康文本分類研究

2017-11-15 09:29:27杜會芳董翠翠陳長松
農業機械學報 2017年10期
關鍵詞:語義分類利用

趙 明 杜會芳 董翠翠 陳長松

(1.中國農業大學信息與電氣工程學院,北京 100083; 2.公安部第三研究所,上海 200031)

基于word2vec和LSTM的飲食健康文本分類研究

趙 明1杜會芳1董翠翠1陳長松2

(1.中國農業大學信息與電氣工程學院,北京 100083; 2.公安部第三研究所,上海 200031)

為了對飲食文本信息高效分類,建立一種基于word2vec和長短期記憶網絡(Long-short term memory,LSTM)的分類模型。針對食物百科和飲食健康文本特點,首先利用word2vec實現包含語義信息的詞向量表示,并解決了傳統方法導致數據表示稀疏及維度災難問題,基于K-means++根據語義關系聚類以提高訓練數據質量。由word2vec構建文本向量作為LSTM的初始輸入,訓練LSTM分類模型,自動提取特征,進行飲食宜、忌的文本分類。實驗采用48 000個文檔進行測試,結果顯示,分類準確率為98.08%,高于利用tf-idf、bag-of-words等文本數值化表示方法以及基于支持向量機(Support vector machine,SVM)和卷積神經網絡(Convolutional neural network,CNN)分類算法結果。實驗結果表明,利用該方法能夠高質量地對飲食文本自動分類,幫助人們有效地利用健康飲食信息。

文本分類; word2vec; 詞向量; 長短期記憶網絡; K-means++

引言

網絡信息時代的高速發展使互聯網信息急劇增長,文本作為網絡主要的信息承載形式,數據量巨大。文本自動分類技術能夠將海量非結構化文本信息規范歸類,幫助人們更好地管理、利用和挖掘信息[1-2]。正確的飲食信息能有效幫助人們合理飲食,保障身體健康。飲食宜、忌文本自動分類能夠使人們利用有效信息,根據自身健康狀況做更好的營養搭配。

目前,國內外對文本自動分類的研究十分關注,文本表示以及分類器的選擇一直是文本分類的兩大技術難點及熱點。ZHANG等[3]利用獨熱表示方法(One-hot representation)把文本表示為向量,然后將支持向量機(SVM)和BP神經網絡結合對文本進行分類。PACCANARO等[4]提出Distributed representation概念,通稱為Word embedding,即詞向量。龔靜等[5]利用改進的tf-idf算法提取文本特征,并利用樸素貝葉斯分類器進行文本分類。豆孟寰[6]基于N-gram統計語言模型對越南語文本進行分類,N-gram模型根據每個詞出現在其前面n個詞的概率來表示文本,但是N-gram模型無法對更遠的關系建模。BENGIO等[7]提出用神經網絡來構建語言模型,一定程度上解決了N-gram模型的問題。以上方法中對文本進行數值化表示面臨數據稀疏以及建模詞之間語義相似度大等問題,且限于對詞匯特征、句法特征的發現。MIKOLOV等[8]指出使用工具word2vec訓練得到的向量低維、連續,同時通過計算這些向量間余弦距離可以判斷詞語之間的語義相似度[9]。LILLEBERG等[10]利用word2vec提取語義特征并基于SVM進行文本分類,然而當樣本數量較大時,SVM的訓練速度較慢。

對于序列化輸入,循環神經網絡 (Recurrent neural network,RNN)能夠把鄰近位置信息進行有效整合[11-12],用于自然語言處理的各項任務。RNN的子類長短期記憶網絡模型LSTM[13-14]能避免RNN的梯度消失問題,具有更強的“記憶能力”,能夠很好地利用上下文特征信息,并保留文本的順序信息,自動選擇特征,進行分類。

本文利用word2vec和LSTM進行飲食健康文本分類。首先基于飲食健康文本語料庫,利用word2vec訓練得到具有語義信息的詞向量,然后采用K-means++聚類飲食文本宜、忌類詞語提高數據質量,最后訓練LSTM模型捕獲文本的完整語義并進行文本分類。

1 材料與方法

1.1 獲取語料

通過python庫Beautiful soup和Request,爬取食物百度百科、互動百科、飲食健康類網站等關于食物營養價值或者飲食宜、忌中文文本語料。

1.1.1語料預處理

中文與英文不同,中文以字為基本單文,單獨的字大多數不能獨立表達意思,因此需要對中文文本進行分詞處理。采用結巴分詞系統,以精確模式來進行分詞。結巴分詞是基于Trie樹結構的高效詞圖掃描,生成句子中漢字所有可能成詞情況所構成的有向無環圖,采用動態規劃查找最大概率路徑, 找出基于詞頻的最大切分組合,對于未登錄詞,采用基于漢字成詞能力的HMM模型和Viterbi算法。

停用詞通常沒有實際含義,針對飲食健康宜、忌文本詞條的特點,將文本內容中出現頻率非常高或者一些介詞、代詞、虛詞等停用詞以及特殊符號去除,比如“而言”、“根據”、“人們”、“¥”等。同時本文通過添加飲食相關詞匯詞典來提高分詞的正確率。預處理后的語料如圖1所示,詞間以空格作為分隔。

圖1 飲食文本預處理結果Fig.1 Pretreatment result of diet text data

1.1.2基于word2vec訓練詞向量

word2vec有連續詞袋模型(Continuous bag-of-words,CBOW)和Skip-Gram兩種模型。word2vec能夠將文本詞語轉化為向量空間中的向量,而向量的相似度可以表示文本語義的相似度。

本文采用基于Hierarchical Softmax算法的Skip-Gram模型,詞向量維度設置為200,訓練窗口設置為5。Skip-Gram模型以當前詞來預測上下文的詞,即預測P(wm|wt),其中wt為當前詞,t-c≤m≤t+c且m≠t,c是窗口尺寸。輸入層是當前詞的詞向量,然后是特征映射層,輸出層是一棵Huffman樹[15-16]。此Huffman樹以語料庫中出現的詞作為葉子結點,以各詞在語料庫中出現的次數為權值。利用Hierarchical Softmax算法結合Huffman編碼,一般左子樹編碼為1,右子樹編碼為0,每條邊上都有相應的權重,語料庫中的每個詞可以從根節點沿著唯一路徑被訪問到,路徑即形成了其編碼,目標是使預測詞的二進制編碼概率最大。利用針對w1,w2,…,wt的詞組序列,Skip-Gram的優化目標函數為

(1)

式中p——概率函數

窗口c>0,并利用梯度下降法對其進行優化。

由word2vec訓練得到的詞向量可以余弦距離來判斷語義相似程度。余弦值越大,語義越相近;反之,語義相差較遠,如圖2所示。如圖3所示,在二維空間中展示詞向量之間的語義距離。

圖2 詞向量語義相似度Fig.2 Semantic similarity of word embeddings

圖3 二維空間中詞向量Fig.3 Word embeddings in two dimension

1.1.3獲得訓練數據

食物類百科和各飲食健康網上對飲食的描述文檔中,往往會使用不同的詞(帶有下劃線的詞語)來表達飲食宜或忌的情況。比如描述忌食的詞條:

“貧血者忌食辛辣、生冷不易消化的食物,忌攝入過多牛奶、大蒜、蠶豆、脂肪、糖和鹽”。

“啤酒中嘌呤含量較高,配合肉類海鮮一起吃,易引發痛風”。

描述飲食適宜的詞條:

“香橙和牛奶同食營養更加豐富,具有清涼解渴、抗癌防癌的功效”。

“毛豆和豆腐、豆漿等豆制品含有大量的植物化合物異黃酮,對皮膚膠原具有保護作用”。

飲食宜、忌分類詞典部分關鍵詞如表1所示。與各網絡交流平臺信息文本不同,飲食類文本詞義較規范,而網絡流行詞容易造成一詞多義和歧義。此特點為本文利用word2vec訓練詞向量并采用K-means++[17]聚類語義相近的詞向量提供了良好的充分性。本文利用K-means++基于余弦距離對詞向量進一步聚類,得到表達飲食適宜語義相近的詞向量聚類結果以及表達飲食禁忌語義相近的詞向量聚類結果,根據語義關系擴展相應的詞典。根據詞典以及句子模型制定正則表達式來自動提取飲食宜、忌的文本:提取含有飲食適宜類字典中詞語,但不含忌類別詞典中詞的句子歸為飲食適宜的類別;否則,歸為忌的類別。由此可知,飲食宜、忌類別詞典中的詞越多且精確,訓練語料的質量就會越好。利用K-means++擴展詞語有利于提高訓練語料的數據質量,并為訓練良好的分類模型打下基礎。

表1 飲食宜、忌分類關鍵詞庫Tab.1 Keywords of proper and avoiding about diet

K-means++ 是針對K-means[18]聚類方法隨機選擇初始化中心的不足而改進的方法,K-means++是以正比于每個數據點到其最近中心點距離的概率來選擇中心點。算法步驟如下:

(1)開始時,初始化中心點集合為空。

(2)從數據中隨機選擇第1個中心點,然后重復以下步驟,直到選出k個初始中心點為止。

(3)計算每個數據點到最近中心點的距離D,以正比于D的概率,隨機選擇一個數據點作為新中心點加入到中心點集合中。

(4)重復步驟(3)。

圖4為基于word2vec訓練的詞向量并分別利用K-means++和K-means聚類,與“忌食”同一類余弦距離最近的前20個詞。由于聚類效果受初始中心選取的影響,K-means初始化中心點的隨機性有可能導致選擇的中心點很差。利用K-means和K-means++兩種聚類方法,表2列出了用于擴充飲食宜、忌類詞典的詞所屬于的簇聚類效果,由表2可知,K-means++算法效果更好,比利用K-means聚類方法F高4~9個百分點。

圖4 飲食禁忌詞聚類結果Fig.4 Cluster results of avoiding diet words

圖5 飲食宜、忌文檔向量表示Fig.5 Document vectors of proper and avoiding diet

1.2 計算文檔向量

語料庫中文檔長度為15~130個詞,由word2vec訓練得到文檔中每個詞的詞向量,將詞向量對應相加,并平均處理,以此得到文檔的空間向量。同時采用tf-idf[19]、bag-of-words[20]模型分別計算飲食宜、忌文檔向量。對3種情況下得到的文檔向量進行二維可視化對比展示如圖5所示。紅圈代表飲食禁忌類文檔向量,藍圈代表飲食適宜文檔向量。

表2 基于不同聚類方法的聚類結果Tab.2 Cluster result based on different methods %

bag-of-words模型是基于字典根據文檔中的詞出現的次數來表示文檔向量的,未在字典中出現過的詞表示為0。假如有字典為:{“牛奶”:1, “草莓”:2, “豐富”:3, “清涼”:4, “解渴”:5, “增加”:6, “營養”:7, “生津”:8},則文檔“牛奶營養豐富,牛奶蘋果宜同食”用bag-of-words方法可以表示為[2,0,1,0,0,0,1,0]。而tf-idf是在bag-of-words表示基礎上對文檔中的詞進行加權來表示文本。tf指某詞t在文檔中出現的次數,逆文檔頻率為

(2)

式中N——所有文檔數

Nt——含有詞t的文檔數

tf-idf用于評估一個詞在語料庫中的重要程度。然而,tf-idf和bag-of-words方法在表示空間向量時都有一個缺點:忽略了文本中詞語間的語義信息。比如對于“牛奶和草莓相宜”與“牛奶和大棗同食為宜”,利用tf-idf和bag-of-words模型表示“相宜”和“為宜”,在空間向量中距離則較遠,但兩者是具有相似的語義信息的。

由圖5可知,word2vec、tf-idf和bag-of-words方法都可以將文本進行向量化。根據基于word2vec得到的飲食宜、忌類文檔向量在向量空間中界限明顯,利用tf-idf方法得到飲食相宜的文檔向量和飲食禁忌的文檔向量在向量空間中有少部分重疊現象,而利用bag-of-words方法表示的兩類文檔向量界限不明顯。

本文采用的是word2vec模型,將其得到的文檔空間向量作為LSTM神經網絡的初始輸入。

1.3 LSTM分類算法

LSTM的隱含層之間形成閉環。LSTM隱藏層到隱藏層的權重是網絡的記憶控制者,負責調度記憶,而隱藏層的狀態作為某個時刻記憶狀態將參與下一次的預測。

LSTM將RNN的輸入層、隱層移入記憶單元(Memory cell)加以保護[21],并通過“門”結構來去除或增加信息到細胞狀態,如圖6所示。

圖6 LSTM門結構Fig.6 LSTM gate architecture

LSTM解決了標準RNN的梯度消失和梯度爆炸問題[22]。x是輸入數據,h為LSTM單元的輸出,C為記憶單元的值。在LSTM動態門結構中,遺忘門決定要忘記什么信息,該門讀取ht-1和xt,輸出一個在0到1之間的數值,ft表示要舍棄信息的百分值,0代表完全舍棄,1代表完全保留。ft的計算公式為

ft=σ(Wf[ht-1,xt]+bf)

(3)

式中σ——sigmoid函數Wf——遺忘門權重

bf——遺忘門偏置

更新的值為it,用于控制當前數據輸入對記憶單元狀態值的影響。然后,一個tanh層創建一個新的候選值向量,會被加入到狀態中。

it=σ(Wi[ht-1,xt]+bi)

(4)

(5)

式中Wi——更新門權重

bi——更新門偏置

tanh——雙曲正切函數

Wc——更新候選值

bc——更新候選值偏置

之后,把舊狀態與ft相乘,丟棄掉確定需要丟棄的信息,根據決定更新每個狀態的程度進行變化。

(6)

式中Ct——新的狀態值

輸出門值ot控制記憶單元狀態值的輸出,計算公式為

ot=σ(Wo[ht-1,xt]+bo)

(7)

ht=ottanhCt

(8)

式中Wo——更新輸出值的權重

bo——更新輸出值偏置

ht——最終確定輸出的那部分

LSTM采用梯度下降法更新各層權重,使得代價函數值最小。

利用基于word2vec得到的文檔向量訓練集來訓練LSTM模型,采用一個LSTM層和全連接softmax層,對測試文檔進行分類。

2 實驗結果與分析

利用網絡爬蟲技術爬取食物類百度百科、互動百科以及有關飲食健康類網站的文本數據,經過處理后得到24 000個飲食相宜類的文檔和24 000個飲食禁忌類的文檔。其中訓練集、交叉驗證集、測試集比例為6∶2∶2。本文分別基于word2vec和LSTM分類方法、tf-idf和LSTM分類方法、bag-of-words和LSTM分類方法進行實驗,分類結果如表3所示。評估文本分類的主要指標有精確率、召回率、F1值(精確率和召回率加權調和平均值)及正確率。

由表3可知,在飲食適宜、禁忌文本分類中,基于word2vec和LSTM方法的精確率、召回率、F1均高于基于tf-idf和LSTM方法與基于bag-of-words和LSTM方法。正確率高于基于tf-idf和LSTM分類方法3.37個百分點,高于基于bag-of-words和LSTM分類方法7.51個百分點。實驗證明利用word2vec訓練能夠表示詞間語義關系的詞向量對提高文本分類精度的有效性。

ROC曲線下方的面積AUC(Area under the ROC curve)提供了評價模型平均性能的另一種方法。如果分類模型較好,曲線靠近左上角,且AUC接近于1,即ROC曲線下的面積(AUC)越大,表示分類效果越好。

繪制以上3種方法相應的ROC曲線如圖7所示,由圖7可知,基于word2vec和LSTM方法的分類效果最好。

同時,采用SVM、CNN分類算法分別進行實驗。

SVM尋求結構風險最小化,求解化為一個線性約束的凸二次規劃問題;實驗采用線性核函數構造判別函數以及利用梯度下降法來選取SVM模型的參數。CNN具有局部感知、權值共享等特征,實驗中采用一層有128個神經元的卷積層、一層有128個神經元的池化層和一層含有2個神經元的全連接softmax層對飲食宜、忌文本進行分類。同樣采用一層有128個神經元的LSTM層和一層有2個神經元的全連接softmax層進行本文分類,結果如表4所示。

表4 基于不同分類算法的分類結果Tab.4 Classification results based on different classification methods %

由表4可知,基于word2vec和LSTM的分類結果最好。相對于SVM模型,深度神經網絡模型不需要手動提取特征,自動學習復雜特征的能力強大,并且效率較高。CNN是在圖像識別領域比較成熟的技術,注重全局模糊感知,LSTM側重相鄰位置的信息重構。由此可見,對于序列化的自然語言處理任務,LSTM更具有說服力,表4也驗證了LSTM在飲食文本分類中的有效性。

3 結論

(1)針對食物百科和飲食健康網站文本上下文較長、語義表征聯系緊密等特點,利用word2vec對詞進行空間向量表示,一定程度上解決了文本表示面臨的數據稀疏和詞間語義關系建模困難等問題。采用對處理序列化數據具有優勢的LSTM模型獲取整個文本語義特征并進行分類,有利于分類精度的提高。

(2)基于食物百科和飲食健康網站文本描述規范的特點,進一步利用K-means++方法基于詞向量之間的余弦距離將語義相近的詞聚類,這能夠在深層語義關系上全面擴充飲食宜、忌類別關鍵詞詞典,提高訓練數據質量。

(3)利用基于word2vec和LSTM的分類系統對飲食文本進行宜、忌分類效果較好。

1 魏芳芳,段青玲,肖曉琰,等.基于支持向量機的中文農業文本分類技術研究[J/OL].農業機械學報,2015,46(增刊):174-179.http:∥www.j-csam.org/jcsam/ch/reader/view_abstract.aspx ?file_no=2015S029& flag=1&journal_id=jcsam.DOI: 10.6041/j.issn.1000-1298.2015.S0.029.

WEI Fangfang, DUAN Qingling, XIAO Xiaoyan, et al.Classification technique of Chinese agricultural text information based on SVM[J/OL].Transactions of the Chinese Society for Agricultural Machinery, 2015,46(Supp.): 174-179.(in Chinese)

2 段青玲, 魏芳芳, 張磊,等.基于Web數據的農業網絡信息自動采集與分類系統[J].農業工程學報, 2016, 32(12):172-178.

DUAN Qingling, WEI Fangfang, ZHANG Lei, et al.Automatic acquisition and classification system for agricultural network information based on web data[J].Transactions of the CSAE, 2016, 32(12) :172-178.(in Chinese)

3 ZHANG W, TANG X, YOSHIDA T.Text classification with support vector machine and back propagation neural network[C]∥International Conference on Computational Science-ICCS 2007, Part IV,LNCS 4490,2007:150-157.

4 PACCANARO A, HINTON G E.Learning distributed representations of concepts using linear relativnal embedding[J].IEEE Transactions on Knowledgs & Data Engineering,2002,13(2):232-244.

5 龔靜, 胡平霞, 胡燦.用于文本分類的特征項權重算法改進[J].計算機技術與發展, 2014(9):128-132.

GONG Jing, HU Pingxia, HU Can.Improvement of algorithm for weight of characteristic item in text classification[J].Computer Technology and Development, 2014(9):128-132.(in Chinese)

6 豆孟寰.基于詞袋和N-Gram統計語言模型的越南語文本分類研究[D].武漢:武漢理工大學, 2015.

DOU Menghuan.Vietnamese text classification based on bag-of-words and statistical n-gram language modeling[D].Wuhan: Wuhan University of Technology, 2015.(in Chinese)

7 BENGIO Y, SCHWENK H, SENECAL J, et al.Neural probabilistic language models[J].Journal of Machine Learning Research, 2003, 3(6):1137-1155.

8 MIKOLOV T, CHEN K, CORRADO G, et al.Efficient estimation of word representations in vector space[C]∥Computer Science 2013,2013:1-12.

9 趙明, 杜亞茹, 杜會芳,等.植物領域知識圖譜構建中本體非分類關系提取方法[J/OL].農業機械學報,2016, 47(9):278-284.http:∥www.j-csam.org/jcsam/ch/reader/view_abstract.aspx?file_no=20160938&flag= 1& journal_id=jcsam.DOI: 10.6041/j.issn.1000-1298.2016.09.038.

ZHAO Ming, DU Yaru, DU Huifang, et al.Research on ontology non-taxonomic relations extraction in plant domain knowledge graph construction[J/OL].Transations of the Chinese Society for Agricultural Machinery, 2016, 47(9):278-284.(in Chinese)

10 LILLEBERG J, ZHU Y, ZHANG Y.Support vector machines and word2vec for text classification with semantic features[C]∥IEEE International Conference on Cognitive Informatics & Cognitive Computing, 2015:136-140.

11 CHO K, MERRIENBOER B V, GULCEHRE C, et al.Learning phrase representations using RNN Encoder-Decoder for statistical machine translation[C]∥Computer Science 2014,2014:1-12.

12 EBRAHIMI J, DOU D.Chain based RNN for relation classification[C]∥Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2015:1244-1249.

13 HOCHREITER S, SCHMIDHUBER J.Long short-term memory[J].Neural Computation, 1997, 9(8):1735-1780.

14 GRAVES A.Supervised sequence labelling with recurrent neural networks[M].Berlin Heidelberg:Springer, 2012.

15 XIONG F, DENG Y, TANG X.The architecture of word2vec and its applications[J].Journal of Nanjing Normal University, 2015.

16 KABIR S, AZAD T, ASHRAFUL ALAM A S M, et al.Effects of unequal bit costs on classical huffman codes[C]∥International Conference on Computer and Information Technology.IEEE, 2014:96-101.

17 ARTHUR, DAVID, VASSILVITSKII, et al.K-means++: the advantages of careful seeding[C]∥8th Acm-Siam Symposium on Discrete Algorithms, SODA 2007, 2007:1027-1035.

18 霍迎秋, 秦仁波, 邢彩燕,等.基于CUDA的并行K-means聚類圖像分割算法優化[J/OL].農業機械學報,2014,45(11):47-53.http:∥www.j-csam.org/jcsam/ch/reader/view_abstract.aspx?flag=1&file_no=20141108&journal_id=jcsam.DOI: 10.6041/j.issn.1000-1298.2014.11.008.

HUO Yingqiu, QIN Renbo, XING Caiyan, et al.CUDA-based parallel K-means clustering algorithm[J/OL].Transactions of the Chinese Society for Agricultural Machinery, 2014, 45(11):47-53.(in Chinese)

19 YOU E S, CHOI G H, KIM S H.Study on extraction of keywords using TF-IDF and text structure of novels[J].Hermeneus, 2015, 20(2):121-129.

20 WU L, HOI S C, YU N.Semantics-preserving bag-of-words models and applications[J].IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society, 2010, 19(7):1908-1920.

21 GERS F A, SCHMIDHUBER J, CUMMINS F,et al.Learning to forget: continual prediction with LSTM[C]∥International Conference on Artificial Neural Networks.IET, 1999:850-855.

22 梁軍,柴玉梅,原慧斌,等.基于極性轉移和LSTM遞歸網絡的情感分析[J].中文信息學報,2015,29(5):152-159.

LIANG Jun, CHAI Yumei, YUAN Huibin, et al.Polarity shifting and LSTM based recursive networks for sentiment analysis[J].Journal of Chinese Information Processing, 2015, 29(5):152-159.(in Chinese)

DietHealthTextClassificationBasedonword2vecandLSTM

ZHAO Ming1DU Huifang1DONG Cuicui1CHEN Changsong2

(1.CollegeofInformationandElectricalEngineering,ChinaAgriculturalUniversity,Beijing100083,China2.TheThirdResearchInstitute,MinistryofPublicSecurity,Shanghai200031,China)

The development of Internet information age makes Internet information grow rapidly.As the main information form of the network, the texts are massive, so is texts information about diet.The diet information is closely related with people’s health.It is important to make texts be auto-classified to help people make effective use of health eating information.In order to classify the food text information efficiently, a classification model was proposed based on word2vec and LSTM.According to the characteristics of food text information in encyclopedia and diet texts in health websites, word2vec realized word embedding, including semantic information which solved the problem of sparse representation and dimension disaster that the traditional method faced.Word2vec combined with K-means++ was used to cluster key words both of the proper and the avoiding to enlarge relevant words in classification dictionaries.The words were employed to work out rules to improve the quality of training data.Then document vectors were constructed based on word2vec as the initial input values of long-short term memory network (LSTM).LSTM moved input layer, hidden layers of the neural network into the memory cell to be protected.Through the “gate” structure, sigmoid function and tanh function to remove or increase the information to the cell state which enabled LSTM model the “memory” to make good use of the text context information, which was significant for text classification.Experiments were performed with 48 000 documents.The results showed that the classification accuracy was 98.08%.The result was higher than that of ways based on tf-idf and bag-of-words text vectors representation methods.Two other classification algorithms of support vector machine (SVM) and convolutional neural network (CNN) were also conducted.Both of them were based on word2vec.The results showed that the proposed model outperformed other competing methods by several percentage points.It proved that the method can automatically classify dietary texts with high quality and help people to make good use of health diet information.

text classification; word2vec; word embedding; long-short term memory network; K-means++

10.6041/j.issn.1000-1298.2017.10.025

TP182

A

1000-1298(2017)10-0202-07

2017-01-13

2017-03-13

信息網絡安全公安部重點實驗室開放課題項目(61503386)

趙明(1963—),男,副教授,主要從事本體論和語義網研究,E-mail: zhaoming@cau.edu.cn

猜你喜歡
語義分類利用
利用min{a,b}的積分表示解決一類絕對值不等式
中等數學(2022年2期)2022-06-05 07:10:50
分類算一算
利用一半進行移多補少
語言與語義
分類討論求坐標
利用數的分解來思考
Roommate is necessary when far away from home
數據分析中的分類討論
教你一招:數的分類
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
主站蜘蛛池模板: 精品第一国产综合精品Aⅴ| 欧美曰批视频免费播放免费| P尤物久久99国产综合精品| 欧美黄网站免费观看| 精品无码一区二区三区在线视频| 日本高清成本人视频一区| 中文字幕日韩视频欧美一区| 精品久久蜜桃| 国产高清色视频免费看的网址| 国产主播一区二区三区| 99久久精品免费看国产电影| 免费激情网站| 精品国产电影久久九九| 亚洲91精品视频| 青青草原国产av福利网站| 激情无码视频在线看| 国产色爱av资源综合区| 国产丝袜无码一区二区视频| 亚卅精品无码久久毛片乌克兰| 亚洲欧美成人在线视频| 四虎影视无码永久免费观看| 国产精品不卡永久免费| 九九九国产| 毛片a级毛片免费观看免下载| 亚洲欧美不卡| 伊人久久精品无码麻豆精品 | 欧美日韩动态图| hezyo加勒比一区二区三区| 国产成人高精品免费视频| 精品国产www| 亚洲日韩精品欧美中文字幕| 久久久久久久久18禁秘| 欧美一级高清视频在线播放| 伊人久久大香线蕉成人综合网| 亚洲福利视频网址| 成人日韩视频| 超清无码一区二区三区| 亚洲swag精品自拍一区| 日日噜噜夜夜狠狠视频| 国产一级妓女av网站| 久久综合色播五月男人的天堂| 国产精品亚洲综合久久小说| 亚洲男人的天堂久久精品| 亚洲va精品中文字幕| 亚洲不卡网| 亚洲精品你懂的| 野花国产精品入口| 亚洲性网站| 国产地址二永久伊甸园| 久久青草精品一区二区三区| 国产尤物视频在线| 成人亚洲国产| 亚洲欧美日韩中文字幕在线一区| 99视频在线免费看| 国产在线日本| 精品福利网| 91视频精品| 国产成年女人特黄特色毛片免| 孕妇高潮太爽了在线观看免费| 亚洲精品黄| 国产成人AV综合久久| a天堂视频| 伊人91在线| 精品国产成人a在线观看| 国产午夜无码专区喷水| 男人天堂伊人网| 四虎影视无码永久免费观看| 国产原创自拍不卡第一页| 国产丝袜91| hezyo加勒比一区二区三区| 青草91视频免费观看| 91成人在线观看视频| 国内精品视频| 成人国产精品网站在线看| 99色亚洲国产精品11p| 国产成人精品一区二区| 久久无码av一区二区三区| 五月天天天色| 欧美视频在线不卡| 国产成人一二三| 91久久偷偷做嫩草影院免费看 | 凹凸精品免费精品视频|