999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種深度學(xué)習(xí)的文本特征提取方法研究

2021-01-28 03:51:12王新艷
微型電腦應(yīng)用 2021年1期
關(guān)鍵詞:特征提取分類特征

王新艷

(江蘇聯(lián)合職業(yè)技術(shù)學(xué)院徐州醫(yī)藥分院基礎(chǔ)教學(xué)部, 江蘇 徐州 221116)

0 引言

隨著網(wǎng)絡(luò)大數(shù)據(jù)時代的到來,促使網(wǎng)絡(luò)用戶數(shù)量不斷增多,包括短信息、新聞等在內(nèi)的文本數(shù)據(jù)信息數(shù)量也隨之迅速增加,如何快速高效獲取所需信息成為研究熱點,同時對如何實現(xiàn)及時有效的處理用戶產(chǎn)生的文本信息提出了更高的要求。目前高效的文本挖掘技術(shù)已成為解決上述問題的重要手段,作為文本挖掘技術(shù)的研究基礎(chǔ),提取文章與主題的關(guān)鍵短語技術(shù)對文本挖掘的應(yīng)用質(zhì)量產(chǎn)生直接影響。

1 現(xiàn)狀分析

近年來在對文本特征進行提取時,使用深度學(xué)習(xí)技術(shù)成為越來越多的研究者的研究重點,例如對高光譜圖像的特征,通過使用多個卷積網(wǎng)絡(luò)(包含卷積層與池化層)完成提取過程,再將其應(yīng)用到圖像分類及目標(biāo)檢測中,取得了良好應(yīng)用的效果(Chen 等)[1]。關(guān)于文本特征提取,Liang等在相關(guān)文獻已詳細(xì)介紹了常用的文本特征提取方法(包括自編碼神經(jīng)網(wǎng)絡(luò)、受限波茲曼機、循環(huán)神經(jīng)網(wǎng)絡(luò)等特征提取方法)[2]。針對文本分類特征,包括向量空間模型、卷積神經(jīng)網(wǎng)絡(luò)、模糊神經(jīng)網(wǎng)絡(luò)、深度信念網(wǎng)絡(luò)在內(nèi)的提取方法應(yīng)用方面的討論(從詞袋模型方法到神經(jīng)網(wǎng)絡(luò)方法)[3]。目前在文本特征提取的研究領(lǐng)域,基于深度學(xué)習(xí)技術(shù)的提取方法稱為研究重點,該類特征提取方法在圖像領(lǐng)域應(yīng)用較為廣泛,但關(guān)于文本特征提取尤其是對中文文本的特征提取方面的研究成果較少,傳統(tǒng)的手工提取方法得到的特征維度一般較大,降低模型訓(xùn)練效率的同時增加了資源消耗量。而對于中文長文本數(shù)據(jù)集,通過運用深度學(xué)習(xí)方法進行特征提取可有效簡化文本特征提取過程,并使文本語義信息得到準(zhǔn)確地表示,使模型訓(xùn)練效率得到進一步提高。

2 特征提取方法的原理及應(yīng)用

數(shù)據(jù)量快速增加的文本信息增加了獲取有價值信息的難度,對文本信息進行高效的分類是提升獲取信息質(zhì)量和效率的重要手段。特征提取在處理機器學(xué)習(xí)任務(wù)、數(shù)據(jù)挖掘、信息檢索等中均發(fā)揮著重要作用。特征提取對機器學(xué)習(xí)任務(wù)結(jié)果的好壞產(chǎn)生直接影響,常用的分類任務(wù)所提取特征的質(zhì)量決定著分類結(jié)果的質(zhì)量。傳統(tǒng)以人工提取為主的特征提取方法的特征提取結(jié)果中普遍存在冗余和同分類任務(wù)不相干的問題,同時較大特征的維度導(dǎo)致模型訓(xùn)練過程的資源消耗量較大,存在模型過擬合問題,在降低訓(xùn)練效率的同時會降低分類的準(zhǔn)確率,為了解決這些問題通常需降維處理傳統(tǒng)方法提取的特征,并從中挑選出部分最優(yōu)的特征子集(可有效表示文本信息),進而提高分類效果,但此種方法極大的增加了分類任務(wù)的工作量。為此本文在現(xiàn)有提取文本特征研究成果的基礎(chǔ)上設(shè)計了一種卷積循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),并在此基礎(chǔ)上結(jié)合運用卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)(用于句子分類)構(gòu)建了一種特征提取方法,將知網(wǎng)中文學(xué)術(shù)論文數(shù)據(jù)集中的文本特征采用傳統(tǒng)的特征提取方法(TF-IDF和Word2vec)進行表示,再經(jīng)分類處理,實現(xiàn)了對原生的神經(jīng)網(wǎng)絡(luò)的分類效果的進一步優(yōu)化,使用本文深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)對高層文本特征進行提取時,能夠有效提升文本信息表示的準(zhǔn)確率及特征提取質(zhì)量[4]。

2.1 卷積神經(jīng)網(wǎng)絡(luò)

對于文本分類通過使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)已實現(xiàn)較好的分類效果的獲取。本文以中文學(xué)術(shù)論文數(shù)據(jù)集作為處理對象,運用在分類中應(yīng)用較為成熟的卷積神經(jīng)網(wǎng)絡(luò)建立特征提取模型,據(jù)此完成文本分類和文本語義信息的表示(即提取網(wǎng)絡(luò)中的高層特征),提取文本特征時使用到的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),如表1所示。

本文基于該網(wǎng)絡(luò)結(jié)構(gòu)中第8層的輸出完成特征提取模型的建立,文本的特征向量則使用該網(wǎng)絡(luò)中最高層的特征,通過使用128維的向量表示各樣本可使特征的維度得到顯著降低,進而使分類器的訓(xùn)練速度以及分類的準(zhǔn)確率得到有效提升[5]。

2.2 TF-IDF

基于統(tǒng)計學(xué)的TF-IDF方法(即詞頻-逆文檔頻率,)可用于完成對詞權(quán)重的計算,常用于特征向量化處理中,在對語料庫中的某一文檔同其他文檔進行區(qū)分時,可先通過該方法評估一個詞的重要程度,判斷某個單詞區(qū)分本文檔和其他文檔的能力強弱的依據(jù)為:該詞在本文檔中某個單詞頻繁出現(xiàn),在其他文檔中出現(xiàn)的較少,此時該詞對應(yīng)的權(quán)重值越大,即某篇文檔的某個詞頻繁出現(xiàn)在其他文檔中時,其區(qū)分能力較弱。為獲取具體詞匯描述文檔內(nèi)容的能力的計算結(jié)果,假設(shè),某一詞匯在文檔中和第j篇文檔中出現(xiàn)的頻率和次數(shù)分別由TF和ni,j表示,對第j篇出現(xiàn)的次數(shù)求和由∑knk,j表示[6]。具體計算,如式(1)。

(1)

采用IDF度量某一詞語的普遍重要性,計算某一詞語的IDF由Ii表示時,假設(shè),D表示語料庫中的文檔總數(shù),jt1表示語料庫中包含詞語ti的文檔數(shù),則Ii的計算表達(dá)式,如式(2)。

(2)

式中,為保證不存在該詞語時分母不為0,通常使用jt1+1作為分母。

高頻率詞語對應(yīng)的TF-IDF權(quán)重值較高,假設(shè),所計算文本的TF-IDF權(quán)重由Wi,j表示。具體計算表達(dá)式,如式(3)。

Wi,j=Ti,j×Ii

(3)

2.3 Word2vec

在自然語言處理領(lǐng)域,作為一種詞嵌入工具的Word2vec(由谷歌開源出)應(yīng)用較為廣泛,為有效簡化特征間的關(guān)系及相似性的計算過程,Word2vec詞嵌入方式在向量空間中映射各特征詞后通過一個向量進行表示,使文本的語義信息得到一定程度的刻畫和表達(dá),主要包括跳字模型(以中心詞為依據(jù)對其上下文的背景詞進行預(yù)測并調(diào)整中心詞的詞向量)和連續(xù)詞袋模型(根據(jù)上下文背景詞預(yù)測中心詞,在此基礎(chǔ)上對上下文背景詞的詞向量進行)兩種。實際訓(xùn)練模型時,可通過負(fù)采樣或分層 softmax兩種訓(xùn)練方式的使用實現(xiàn)計算復(fù)雜程度的顯著降低[7]。

2.4 循環(huán)卷積神經(jīng)網(wǎng)絡(luò)

本文結(jié)合運用卷積神經(jīng)網(wǎng)絡(luò)和長短期記憶網(wǎng)絡(luò)(LSTM)在提取局部特征和高質(zhì)量捕獲上下文信息的優(yōu)勢,提出了一種新的特征提取模型及文本分類方法,該模型基于卷積循環(huán)神經(jīng)網(wǎng)絡(luò)(CRNN),能夠提取出高層特征。該網(wǎng)絡(luò)模型結(jié)構(gòu),如表2所示。

表2 卷積循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

本文的特征提取模型的輸出采用其中的第10層的輸出,可用高層特征向量(60維)表示各樣本,該模型主要由輸入層、詞嵌入層、卷積層、池化層、LSTM網(wǎng)絡(luò)層和全連接層構(gòu)成,輸入文本信息后先通過卷積網(wǎng)絡(luò)的使用完成多組特征的提取以及相應(yīng)的池化操作,在此基礎(chǔ)上完成文本中重要特征的提取與融合向LSTM神經(jīng)網(wǎng)絡(luò)傳送,最終的分類結(jié)果由全連接層輸出,能準(zhǔn)確地表示文本的語義信息,通過使用該特征提取模型可使分類效率及質(zhì)量得到有效提升[8]。

3 實驗測試及結(jié)果分析

(1) 文本分類實驗

本文選用知網(wǎng)上的包含10個文獻類別的學(xué)術(shù)論文數(shù)據(jù)集作為實驗數(shù)據(jù)集(包括化學(xué)、輕工業(yè)手工業(yè)、農(nóng)業(yè)經(jīng)濟、鐵路運輸、體育、藥學(xué)、新聞與傳媒等,數(shù)據(jù)集為非公開數(shù)據(jù)集),各類別均包含40 000條實驗數(shù)據(jù)(每條數(shù)據(jù)均包含類別、標(biāo)題、摘要、關(guān)鍵詞4列),數(shù)據(jù)集的80% 為訓(xùn)練數(shù)據(jù),剩余作為測試數(shù)據(jù),合并類別以外的其他三列得到一條長文本,采用該長文本信息進行實驗。具體實驗參數(shù)設(shè)置,如表3所示。

表3 CNN與CRNN文本分類實驗配置

設(shè)計實驗對使用CNN和本文CRNN的直接分類結(jié)果進行對比,最終結(jié)果取平均值。并使用本文的特征提取模型完成高層的文本特征的提取,接下來在SVM(采用高斯核函數(shù)作為核函數(shù))和隨機森林分類器(estimator參數(shù)設(shè)為 100)中分類所提取的特征,據(jù)此對比得到的分類結(jié)果[9]。

基于TF-IDF特征提取方法的文本分類實驗,最大特征個數(shù)和最小文檔頻率分別設(shè)置為30 000和2,使用該方法提取出數(shù)據(jù)集的特征后,通過SVM和隨機森林分類器完成分類操作。基于已預(yù)先訓(xùn)練好的詞向量模型Word2vec的文本分類實驗,將中文數(shù)據(jù)集中的各特征通過Word2vec進行表示后,將整個文本的特征向量使用各樣本中的特征詞向量連乘來計算,假設(shè),對于i個文本,其特征向量由ti表示,其第n個特征的詞向量由xin表示,如式(4)[10]。

實驗過程中,對各個特征詞無需通過迭代方式轉(zhuǎn)換詞向量,一次性完成文本數(shù)據(jù)集中的全部文本特征(通過神經(jīng)網(wǎng)絡(luò)中的詞嵌入層完成)到Word2vec詞向量(預(yù)訓(xùn)練好)的轉(zhuǎn)化,再將通過對其生成的文本特征向量進行分類,顯著提高實驗的效率。

(2) 結(jié)果分析

具體的分類結(jié)果,如表4所示。

表4 學(xué)術(shù)論文數(shù)據(jù)分類結(jié)果

相比于TF-IDF和Word2vec方法,在分類器中通過本文方法提取的文本特征所獲得的分類結(jié)果的質(zhì)量更佳,說明文本的語義信息通過該方法提取的文本特征向量可準(zhǔn)確高效地表示出來,因為使用TF-IDF(打亂了詞的順序)和Word2vec方法表示文本時分別存在忽略了詞的上下文關(guān)系及易丟失詞的語義信息(尤其是在文本相對較長時)的問題和不足。通過實驗采用論文數(shù)據(jù)集文本驗證本文提取方法,相比于CNN ,得到了更好的特征提取分類效果,提取質(zhì)量及效率得到有效提升,證明了該特征提取方法以及提取算法的有效性。

4 總結(jié)

本文針對自然語言處理過程,在分析了文本分類及特征提取方面的研究現(xiàn)狀的基礎(chǔ)上,基于深度學(xué)習(xí)設(shè)計了一種文本特征提取方法,該方法基于卷積循環(huán)神經(jīng)網(wǎng)絡(luò)(CRNN,繼承了卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)勢),提升了局部特征提取能力,具有循環(huán)神經(jīng)網(wǎng)絡(luò)LSTM的記憶能力 ,在此基礎(chǔ)上通過前后關(guān)聯(lián)提取的特征實現(xiàn)對文本含義更高質(zhì)量地表達(dá)。接下來將以中文的文本語義理解作為研究重點,探索如何實現(xiàn)大規(guī)模長文本的分類應(yīng)用。

猜你喜歡
特征提取分類特征
分類算一算
如何表達(dá)“特征”
基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
不忠誠的四個特征
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
抓住特征巧觀察
一種基于LBP 特征提取和稀疏表示的肝病識別算法
基于MED和循環(huán)域解調(diào)的多故障特征提取
主站蜘蛛池模板: 国产99精品视频| 久久中文无码精品| 狠狠综合久久久久综| 日韩免费毛片视频| 日本在线欧美在线| 91色在线观看| 国产成人夜色91| 国产成人艳妇AA视频在线| 久久一级电影| 欧美精品二区| 成人另类稀缺在线观看| 一区二区三区国产| 日韩东京热无码人妻| 精品伊人久久久香线蕉| 欧美精品亚洲二区| 亚洲日韩国产精品综合在线观看| 国产欧美视频在线| 久久国产亚洲偷自| 2021天堂在线亚洲精品专区| 精品国产一二三区| 亚洲区欧美区| 欧美特黄一级大黄录像| 伊人激情综合网| 国产97区一区二区三区无码| av在线手机播放| 色天天综合| 欧美精品不卡| 亚洲大尺度在线| 亚洲精品你懂的| 国产色婷婷| 五月天综合网亚洲综合天堂网| 欧美福利在线观看| 亚洲无限乱码| 幺女国产一级毛片| 伊人久久婷婷| 亚洲精品桃花岛av在线| 国产综合另类小说色区色噜噜| 国产免费精彩视频| 99久久精品免费视频| 成人午夜亚洲影视在线观看| 亚洲黄色高清| 久久亚洲天堂| 午夜a视频| 女高中生自慰污污网站| 波多野结衣一区二区三区AV| 色爽网免费视频| 色香蕉网站| 久久77777| 性做久久久久久久免费看| 日韩在线成年视频人网站观看| 国产丝袜无码精品| 东京热一区二区三区无码视频| 久久香蕉国产线看精品| 久久五月天综合| 欧类av怡春院| 婷婷综合色| 国产精品男人的天堂| 亚洲欧美国产视频| 亚洲天天更新| 亚洲va欧美ⅴa国产va影院| 日韩精品少妇无码受不了| 91九色最新地址| 国产成人综合久久精品下载| 成人中文字幕在线| 色悠久久综合| 欧美一级高清片久久99| 国模视频一区二区| 免费看的一级毛片| 亚洲AⅤ波多系列中文字幕| 99ri精品视频在线观看播放| 精品国产Av电影无码久久久| 欧美综合激情| 久久精品国产一区二区小说| 久久亚洲AⅤ无码精品午夜麻豆| 一边摸一边做爽的视频17国产| 亚洲视频a| 狠狠色丁香婷婷综合| 在线视频97| 激情成人综合网| 91久久大香线蕉| 国产成人精品一区二区不卡| 欧美一级夜夜爽|