999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于混合神經(jīng)網(wǎng)絡(luò)的語言文本分類方法

2021-10-10 03:55:42谷文靜
電子設(shè)計工程 2021年19期
關(guān)鍵詞:單詞分類文本

谷文靜

(西安航空職業(yè)技術(shù)學(xué)院,陜西西安 710089)

隨著互聯(lián)網(wǎng)信息技術(shù)的發(fā)展,海量數(shù)據(jù)是其最顯著的特征之一。同時,隨著互聯(lián)網(wǎng)媒體平臺的建設(shè)與發(fā)展,移動互聯(lián)網(wǎng)的日趨普及,人們逐漸喜歡通過互聯(lián)網(wǎng)平臺來發(fā)表自己的觀點,這也造成了網(wǎng)絡(luò)文本數(shù)據(jù)的激增。對這些數(shù)據(jù)進行有效的篩選和分類,有助于網(wǎng)絡(luò)提供商對用戶的喜好進行發(fā)掘。因此,對自然語言的文本數(shù)據(jù)分析已成為當(dāng)前業(yè)界研究的熱點[1]。

單從文本分類而言,其指的是在人為規(guī)定好的分類標(biāo)準(zhǔn)下,根據(jù)文本自身含義對文本數(shù)據(jù)進行分類的過程[2]。文本分類是搜索引擎、消息過濾等功能的重要實現(xiàn)部分,其應(yīng)用場景比較廣泛,例如消息分類、評價分類以及分析垃圾消息等。

傳統(tǒng)的文本分類方法使用機器學(xué)習(xí)技術(shù),這些方法對于英文自然語言通常有文本特征不明顯、訓(xùn)練周期長、詞序丟失等缺點[3]。針對以上不足,文中對Word2vec 算法與TF-IDF 算法進行融合,改進為TF-Word 算法,同時應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)組成混合神經(jīng)網(wǎng)絡(luò)模型實現(xiàn)文本分類,該方法可以有效提高傳統(tǒng)文本分類方法對于英語語言的處理精度。

1 文本分類方法

圖1 是當(dāng)前文本分類的主流處理過程,分為文本預(yù)處理、文本特征提取、文本特征表示以及文本表示幾大步驟,各個步驟的研究現(xiàn)狀介紹如下。

圖1 文本處理流程圖

文本預(yù)處理:該步驟為文本分類前的預(yù)處理步驟,主要是對句子進行成分的分離。句子分離算法分為基于語義句法和基于統(tǒng)計學(xué)的方法,而隨著人工智能技術(shù)的發(fā)展,目前基于機器學(xué)習(xí)的算法,例如LSTM、CRF 等,成為當(dāng)前主流的算法[4]。

文本特征提取:一般常用的算法為信息增益法與卡方檢測法,即通過檢測詞頻,對出現(xiàn)頻率較低的特征詞進行刪除和區(qū)分處理。而隨著技術(shù)的發(fā)展,基于Word2vec 向量的算法成為該階段熱門的選擇,較多學(xué)者均使用該方法提高特征提取的精度[5-7]。

文本特征表示:常用的算法為組網(wǎng)法和逆詞頻法。組網(wǎng)法指的是對當(dāng)前已知的詞匯詞性進行分類,之后組成語義網(wǎng),對文本的特征進行表示。該算法可以提升句子本身的語義性質(zhì),但計算量龐大,算法成本相對較高。而逆詞頻法通過對詞語的重要性進行排序,進而實現(xiàn)特征表示,也有學(xué)者使用該方法對詞語進行詞性、聚類分析,效果較優(yōu)[8-9]。

文本表示:該方法包含離散表示法和獨立表示法。常見的算法為詞袋模型,該模型將分割好的詞語看作是沒有規(guī)則順序的詞語集合,通過分類器(神經(jīng)網(wǎng)絡(luò)、向量機、KNN 等)訓(xùn)練這些集合,進而達(dá)到文本表示的目的[10-11]。

2 基礎(chǔ)算法模型

2.1 Word2vec模型

Word2vec 模型是統(tǒng)計語言學(xué)模型的一種,該模型由Mikolov 提出[12],模型可以對句子單詞與單詞中的關(guān)聯(lián)程度進行衡量。同時可以準(zhǔn)確、高速地對詞向量模型進行訓(xùn)練,該模型的目的是從大量的文本數(shù)據(jù)中對高質(zhì)量的詞向量進行訓(xùn)練。模型內(nèi)部架構(gòu)關(guān)系如圖2 所示,該模型的內(nèi)部由CBOW 與Skip_gram 兩個子模型構(gòu)成,該算法在特征提取方面具有突出的優(yōu)勢。

圖2 CBOW模型和Skip_gram模型示意圖

2.2 TF-IDF模型

在句子中,最基本的元素就是單詞,單詞的詞頻指的是某一個特定的單詞在句子中出現(xiàn)的次數(shù)。統(tǒng)計學(xué)公式如式(1)所示。

而逆向文檔頻率(IDF)表示的是某一個單詞在句子中的特殊性與重要性,具體表示為句子總數(shù)目和包含此單詞句子數(shù)目的比值,如式(2)所示。

在使用時,若一個單詞在句子中出現(xiàn)的頻率較高,則該單詞可以對句子的特征進行表示,即該單詞的TF-IDF 值較高;若一個單詞在句子中出現(xiàn)的頻率較低,則單詞的TF-IDF 值較低,該單詞不能對句子的特征進行表示。

2.3 文本卷積神經(jīng)網(wǎng)絡(luò)模型

文本卷積神經(jīng)網(wǎng)絡(luò)(TextCNN)是文本分類領(lǐng)域中被廣泛使用的承載算法模型,下面對其結(jié)構(gòu)進行介紹[13]。

神經(jīng)網(wǎng)絡(luò)模型的主要結(jié)構(gòu)有:

1)嵌入層:該層為模型的輸入層,輸入數(shù)據(jù)格式為詞語向量矩陣。

2)卷積層:該層使用卷積計算對文本的特征進行提取,是神經(jīng)網(wǎng)絡(luò)的算法核心。詞卷積的計算,如式(3)所示。

3)池化層:該層是對卷積層的輸出結(jié)果進行簡化采樣,進而優(yōu)化卷積層的運算步驟,減少模型中的參數(shù),通常使用的池化模型為K-max,即選擇卷積層輸出的k個特征,對這些特征進行分析,使用最大的特征向量代替其他向量。

4)輸出層:輸出層為最終輸出的詞向量,輸出概率分布結(jié)果,該結(jié)果使用梯度下降公式進行計算,如式(4)所示。

3 模型構(gòu)建

3.1 基于TF-IDF和Word2vec的改進算法

由上文分析可知Word2vec和TF-IDF算法的優(yōu)缺點。Word2vec 算法可以對句子中單詞與單詞的關(guān)系進行表示,但是卻無法反映單詞在句子中的重要程度。而TF-IDF 算法卻恰好相反,該算法可以反映單詞在句子中的重要程度,卻無法反映單詞與單詞之間的關(guān)系。因此,文中將這兩種算法的優(yōu)勢結(jié)合,如式(5)所示。

對于某個單詞數(shù)量m個的句子而言,使用TFIDF 算法的判斷,可以得到長度為m的向量,上式中tm為單詞的TF-IDF 值。而在Word2vec 模型中,句子中的詞語均可以被一個固定長度的向量進行表征。因此,可以得到如式(6)所示的矩陣。

對這兩種模型進行結(jié)合,即對每個詞語的TFIDF 值和Word2vec 值進行結(jié)合,得到如式(7)所示的矩陣。

該矩陣既可以對單詞之間的相互聯(lián)系進行表征,又可以對單詞的詞頻進行表示,將改進后的模型命名為TF-Word 算法。

3.2 基于TF-Word的混合神經(jīng)網(wǎng)絡(luò)模型

將TF-Word 作為神經(jīng)網(wǎng)絡(luò)的輸入層,構(gòu)建混合神經(jīng)網(wǎng)絡(luò)模型,如圖3 所示。

圖3 整體模型構(gòu)建示意圖

算法的執(zhí)行過程如下:

1)單詞庫構(gòu)建。單詞庫包括訓(xùn)練所需的樣本集合,單詞庫的獲取一般有兩種方式,包括使用開源的詞匯庫以及自行訓(xùn)練詞匯庫。該文使用RCV1-V2數(shù)據(jù)集合,該數(shù)據(jù)集中的內(nèi)容大多為英文的新聞文本,數(shù)據(jù)集合數(shù)量約為70 萬個,足夠算法訓(xùn)練模型使用。

2)得到模型的權(quán)重公式。首先對輸入的數(shù)據(jù)進行分詞處理,處理完后計算單詞的權(quán)重數(shù)據(jù),如式(8)所示。

3)構(gòu)建卷積網(wǎng)絡(luò)模型。卷積網(wǎng)絡(luò)模型如圖4所示。

圖4 卷積神經(jīng)網(wǎng)絡(luò)示意圖

卷積網(wǎng)絡(luò)模型如上文所述,由輸入層、卷積層、池化層、輸出層四部分組成。其中,輸入層數(shù)據(jù)為經(jīng)過TF-Word 算法處理過后的數(shù)據(jù),則輸入模型為一個單詞向量矩陣。卷積層使用長卷積方式,如式(9)所示。

池化層使用1/2 池化算法,這樣可以將卷積層輸出的數(shù)據(jù)長度減少一半,有效減少模型計算的工作量。

4 實驗與分析

4.1 實驗環(huán)境搭建

該次實驗數(shù)據(jù)集選擇RCV1 數(shù)據(jù)集合,實驗環(huán)境使用PyTorch 對卷積神經(jīng)網(wǎng)絡(luò)進行編程。RCV1 數(shù)據(jù)集合為新聞文本數(shù)據(jù)集,該集合有大約70 萬條的新聞文章條數(shù)。文中測試環(huán)境如表1 所示。

表1 測試環(huán)境說明

卷積神經(jīng)網(wǎng)絡(luò)按照3.2 節(jié)中所述進行搭建。神經(jīng)網(wǎng)絡(luò)的參數(shù)如表2 所示。

表2 神經(jīng)網(wǎng)絡(luò)參數(shù)說明

4.2 實驗測試

通過構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)模型,使用RCV1 訓(xùn)練集對該次搭建的模型進行訓(xùn)練,再使用測試集合對模型進行多個方面的測試,測試指標(biāo)分別為精確度、召回率以及F1測量值[14-15]。其中,精確度定義為在分類之后,樣本能被正確歸類的比率;召回率指的是分類后正確的測試樣本個數(shù)占據(jù)所有正確測試樣本的比率;F1 即為精確度和召回率的綜合加權(quán)結(jié)果。對不同領(lǐng)域的詞進行分類評價,評價指標(biāo)如表3 所示。

由表3 可知,此次測出的精確度、召回率以及F1測量值指標(biāo)平均值為96.92%、95.43%與96.22%。

表3 模型測試結(jié)果

對比的實驗方法使用傳統(tǒng)機器學(xué)習(xí)文本分類方法,對英文自然語言進行處理,分別采用樸素貝葉斯算法(NB)、支持向量機(SVM)、K 近鄰法(KNN)展開測試[16]。測試結(jié)果如圖5 所示。

圖5 對比測試結(jié)果

由圖5 可知,文中所構(gòu)建算法模型的F1 值相比于NB 算法提升了18.5%,相比于KNN 算法提升了14.3%,相比于SVM 算法提升了12.9%。

圖6 所示為訓(xùn)練的文本數(shù)量對F1 值的影響。由圖可知,訓(xùn)練文本數(shù)量越多,算法準(zhǔn)確度越高。

圖6 文本數(shù)量對F1值的影響

綜上所示,文中構(gòu)建的模型準(zhǔn)確度要優(yōu)于傳統(tǒng)的機器學(xué)習(xí)算法。故將文中所提出的自然語言處理方法應(yīng)用在機器翻譯領(lǐng)域時,可以有效提高英文長句的翻譯準(zhǔn)確度。

5 結(jié)束語

傳統(tǒng)文本分類方法對英語語言進行智能分析處理時,存在文本特征不明顯、訓(xùn)練周期長、詞序丟失等缺點,文中通過將Word2vec 算法與TF-IDF 算法進行改進融合,提出了一種TF-Word的新算法。同時應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)組成混合神經(jīng)網(wǎng)絡(luò)模型,最終實現(xiàn)文本分類。由實驗結(jié)果可以看出,對英文自然語言的智能化處理而言,文中所構(gòu)建的算法模型相比于傳統(tǒng)算法模型,在性能上有顯著提高。

猜你喜歡
單詞分類文本
分類算一算
單詞連一連
在808DA上文本顯示的改善
分類討論求坐標(biāo)
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)分析中的分類討論
看圖填單詞
教你一招:數(shù)的分類
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 国产一区二区三区免费观看 | 免费看美女自慰的网站| 欧洲高清无码在线| 欧美自慰一级看片免费| 国产精品一区在线麻豆| 亚洲第一网站男人都懂| 亚洲欧美不卡视频| 亚洲国产日韩在线成人蜜芽| 国产1区2区在线观看| 午夜不卡福利| 最新国语自产精品视频在| 国产无遮挡裸体免费视频| 亚洲欧美在线精品一区二区| 久久这里只有精品国产99| 中国黄色一级视频| 香蕉99国内自产自拍视频| 女同国产精品一区二区| 色偷偷男人的天堂亚洲av| 亚洲国产精品不卡在线| 四虎精品国产AV二区| 在线观看无码a∨| 欧美成人精品一级在线观看| 亚洲伊人久久精品影院| 成年女人a毛片免费视频| 免费无码AV片在线观看中文| 亚洲一区网站| 黄色污网站在线观看| 国产精品入口麻豆| 国产av剧情无码精品色午夜| 青青草原国产| 久久黄色视频影| 色欲综合久久中文字幕网| 日韩无码真实干出血视频| 国产丝袜啪啪| 国产h视频免费观看| 欧美成人aⅴ| 国产成人盗摄精品| 99re热精品视频国产免费| 伊在人亞洲香蕉精品區| 婷婷六月综合| V一区无码内射国产| 婷婷开心中文字幕| 在线精品欧美日韩| 热热久久狠狠偷偷色男同| 91福利国产成人精品导航| 少妇人妻无码首页| 国产成人免费视频精品一区二区| 国产十八禁在线观看免费| 国产乱人乱偷精品视频a人人澡| 99久久婷婷国产综合精| 色婷婷亚洲综合五月| 91国内外精品自在线播放| 综合亚洲网| 国产精品私拍99pans大尺度| 久久国产成人精品国产成人亚洲| 日韩免费中文字幕| 精品成人免费自拍视频| 精品国产aⅴ一区二区三区| 欧美日韩一区二区三区在线视频| 亚洲第一黄片大全| 亚洲成人在线免费观看| 亚洲丝袜中文字幕| 亚洲欧州色色免费AV| 亚洲精品色AV无码看| 久久香蕉国产线看观看精品蕉| 国产一区二区在线视频观看| 国产无码高清视频不卡| 亚洲av日韩av制服丝袜| 波多野结衣国产精品| 伊人久久大香线蕉成人综合网| 亚洲中文精品人人永久免费| 亚洲国产日韩一区| 亚洲欧美一区二区三区蜜芽| 国产在线一二三区| 中文字幕亚洲电影| 国内嫩模私拍精品视频| 中文字幕啪啪| 99精品免费在线| 久久亚洲精少妇毛片午夜无码 | 欧美日韩高清在线| 欧美日韩在线亚洲国产人| 日韩小视频在线播放|