999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BERT 的中文文本向量化表示

2021-11-15 03:58:32祖成
科技與創(chuàng)新 2021年21期
關(guān)鍵詞:單詞分類利用

祖成

(首都經(jīng)濟(jì)貿(mào)易大學(xué)管理工程學(xué)院,北京 100070)

在自然語言處理領(lǐng)域,將普通文本轉(zhuǎn)換成計(jì)算機(jī)可計(jì)算的形式,即文本表示一直是研究的熱點(diǎn)問題。初期,文本在經(jīng)過簡單的分詞之后使用one-hot 向量對(duì)所分單詞進(jìn)行向量表示。但one-hot 向量僅僅利用了單詞的相關(guān)位置信息,并未考慮單詞的語義信息,導(dǎo)致所獲的詞向量缺少文本語義信息的參與。為了獲得更多的語義信息,MIKOLOV[1]等人提出了基于深度表示的模型Word2Vec。Word2Vec 模型包含Skip-Gram 和CBOW 兩種形式,其基本思路都是為輸入文本搭建一個(gè)具備上下文信息的神經(jīng)網(wǎng)絡(luò),計(jì)算得到含有上下文信息的詞向量。兩者的區(qū)別在于Skip-Gram 通過中間單詞預(yù)測上下文信息,CBOW 則利用上下文信息預(yù)測中間單詞。與Word2Vec 思路相似的還有GloVe 模型[2],雖然以上模型可以利用上下文信息預(yù)測詞向量使得生成的詞向量包含了寓意信息,但由于其構(gòu)建過程是單向?qū)W習(xí),無法解決一詞多義或者新詞組合的情況。針對(duì)以上問題,本文引入動(dòng)態(tài)詞向量 BERT 模型[3],BERT 模型利用其獨(dú)特的Transformer 結(jié)構(gòu)對(duì)文本進(jìn)行雙向?qū)W習(xí)和處理,利用self-attention 學(xué)習(xí)詞間關(guān)系,使得詞向量的表示能夠融入句子級(jí)的語義信息,從而解決詞向量無法表示一詞多義的情況,同時(shí)為了加強(qiáng)單個(gè)詞對(duì)整篇文檔的影響力,利用TF-IDF 算法[4]計(jì)算每篇文檔中詞的權(quán)重,結(jié)合BERT 詞向量構(gòu)建具有權(quán)重信息的詞向量,提高文本分類的準(zhǔn)確率。

1 BERT 模型

BERT 模型與以往的詞向量模型相比獨(dú)到之處在于它的輸入是3 個(gè)向量的和。3 個(gè)向量分別對(duì)應(yīng)詞向量、分段向量和位置向量。其中詞向量表示對(duì)當(dāng)前詞的編碼,分段向量表示對(duì)當(dāng)前詞所在句子的位置編碼,位置向量表示對(duì)當(dāng)前詞的位置編碼,每一句話使用CLS 和SEP 作為開頭和結(jié)尾的標(biāo)記,最后把三個(gè)向量疊加構(gòu)成模型的輸入部分。

BERT 模型最核心的部分就是雙向Transformer 編碼層,如圖1 所示。使用該層對(duì)文本進(jìn)行特征提取,使用的是Transformer 的Encoder 特征抽取器。Encoder 由自注意力機(jī)制和前饋神經(jīng)網(wǎng)絡(luò)組成,Encoder 的核心是self-attention,它可以發(fā)現(xiàn)每一個(gè)詞和這句話里面其他詞之間的關(guān)系,而且沒有距離的限制,幾十甚至幾百個(gè)詞之間的關(guān)系仍然能找到,這樣就可以充分挖掘到每個(gè)詞的左右上下文信息,從而就可以得到詞的雙向表示,其中E1,…,En表示模型的輸入向量,中間是多層雙向Transformer 特征抽取器,T1,…,Tn表示模型的輸出向量,使用該模型獲取詞向量便于后續(xù)文本分類等模型的應(yīng)用。

圖1 BERT 預(yù)訓(xùn)練語言模型

2 TF-IDF 加權(quán) BERT 模型

為了加強(qiáng)單個(gè)詞對(duì)整篇文檔的影響力,利用TF-IDF 算法計(jì)算每篇文檔中詞的權(quán)重,結(jié)合BERT 詞向量構(gòu)建具有權(quán)重信息的詞向量,提高文本分類的準(zhǔn)確率。

TF-IDF 是一種計(jì)算某個(gè)詞在整個(gè)文檔的全部內(nèi)容中重要性程度的統(tǒng)計(jì)方法。字詞的重要性與它在文檔中出現(xiàn)的次數(shù)成正比上升,但同時(shí)會(huì)隨著它在文檔中出現(xiàn)的頻率成反比下降。比如,“知道”這個(gè)詞,在文檔中出現(xiàn)的次數(shù)比較頻繁,但它作為常用詞匯在文檔中并不占有很大的比例。TF-IDF 的主要思想是如果一個(gè)詞或短語在文檔中出現(xiàn)的頻率TF 高,并且在其他文檔中很少出現(xiàn),便認(rèn)為這個(gè)詞或者短語具有很好的區(qū)分能力,適合用來分類。TF-IDF 方法實(shí)際可以理解為TF×IDF,TF 為詞頻,IDF 為逆向文件頻率,TF 表示詞條在文檔d中出現(xiàn)的頻率,IDF 表示如果包含詞條t的文檔越少,也就是n越小,t的區(qū)分度越大,IDF 值越大。

詞t的IDF 計(jì)算公式如下:

式(1)中:M為訓(xùn)練文檔的總數(shù);nt為訓(xùn)練文檔集中出現(xiàn)詞t的文檔數(shù)。

TF-IDF 的計(jì)算公式如下:

式(2)中:TF(t,Di)為詞t在第i篇文檔中的詞頻;為歸一化因子。

詞向量化的工作流程為,對(duì)分詞后的每篇文檔利用BERT 模型計(jì)算詞向量,同時(shí)依據(jù)分詞結(jié)果計(jì)算每個(gè)詞t的TF-IDF 值,兩相結(jié)合得到具有權(quán)重信息的詞向量。

3 實(shí)驗(yàn)設(shè)計(jì)與分析

為了使本文研究的TF-IDF 加權(quán)BERT 模型的詞向量表示達(dá)到最佳,本節(jié)對(duì)近幾年研究的幾大詞向量模型進(jìn)行實(shí)驗(yàn)對(duì)比。實(shí)驗(yàn)工具采用Anaconda,編程語言采用Python3.7,為方便調(diào)取模型使用Keras 框架,該框架里面包含封裝好的BERT 模型,實(shí)驗(yàn)使用的處理器是GPU,采用的參數(shù)主要有:BERT base 網(wǎng)絡(luò)結(jié)構(gòu),其中網(wǎng)絡(luò)層數(shù)為12,隱藏層維度為768。

實(shí)驗(yàn)的數(shù)據(jù)采用譚松波酒店評(píng)價(jià)語料集,對(duì)比詞向量模型有:MIKOLOV 等人提出的基于深度表示的模型Word2Vec。Word2Vec 模型包含Skip-Gram 和CBOW,與Word2Vec 思路相似的GloVe 模型,以及傳統(tǒng)的BERT 模型。所有實(shí)驗(yàn)均采用k折交叉驗(yàn)證,k=10,即把數(shù)據(jù)集隨機(jī)劃分成10 份,每次取其中9 份進(jìn)行訓(xùn)練,1 份進(jìn)行測試,然后把10 次分類結(jié)果的平均值作為最終結(jié)果。對(duì)各模型在中文文本分類任務(wù)上進(jìn)行測評(píng),分類器選擇SVM 支持向量機(jī),測試結(jié)果用正確率(P)、召回率(R)和F1 指標(biāo)進(jìn)行評(píng)測,具體測試結(jié)果如表1 所示。

表1 不同詞向量模型實(shí)驗(yàn)結(jié)果對(duì)比(單位:%)

由表1 可以發(fā)現(xiàn),BERT 模型在SVM 分類器上的準(zhǔn)確率、召回率及F1 值比Word2vec 的兩個(gè)模型和GloVe 模型都有一定的提高。比如正確率較CBOW 由77.65%提高到了87.45%;召回率較GloVe 由85.65% 提高到了90.87%;F1值較Skip-Gram 由80.26%提高到了89.13%。與此同時(shí)本文提出的基于TF-IDF 加權(quán)的BERT 模型相比傳統(tǒng)BERT 模型又有一些提升,在SVM 分類器上,正確率提高了2.80%,召回率提高了1.85%,F(xiàn)1 指標(biāo)提高了2.22%,由此可見提出的方法的有效性,其可以作為另外一種用于文本向量化的有效方法。

4 結(jié)論

針對(duì)當(dāng)前文本向量表示方法的不足,借助BERT 模型的優(yōu)點(diǎn),將BERT 和TF-IDF 結(jié)合,提出了一種基于TF-IDF加權(quán)的BERT 模型計(jì)算詞向量的算法。在譚松波酒店評(píng)價(jià)語料集上的實(shí)驗(yàn)表明,相較于Word2Vec 模型以及傳統(tǒng)的BERT模型,本算法有更好的文本分類效果。

猜你喜歡
單詞分類利用
利用min{a,b}的積分表示解決一類絕對(duì)值不等式
分類算一算
利用一半進(jìn)行移多補(bǔ)少
單詞連一連
分類討論求坐標(biāo)
利用數(shù)的分解來思考
Roommate is necessary when far away from home
數(shù)據(jù)分析中的分類討論
看圖填單詞
教你一招:數(shù)的分類
主站蜘蛛池模板: 精品三级网站| jizz在线免费播放| 国产精品高清国产三级囯产AV| 伦伦影院精品一区| 国产成人精品综合| 国产精品七七在线播放| 久久午夜夜伦鲁鲁片无码免费| 自拍中文字幕| 精品福利国产| 亚洲天堂首页| 国产成人一区二区| 亚洲色图欧美激情| 国产成人精品视频一区二区电影| 国产极品美女在线播放| 成年人视频一区二区| 尤物成AV人片在线观看| 91亚洲国产视频| 永久毛片在线播| 欧美福利在线| 日韩中文精品亚洲第三区| 免费毛片网站在线观看| 国产在线自在拍91精品黑人| 国产午夜精品一区二区三| 亚洲区一区| 老色鬼欧美精品| 不卡网亚洲无码| 亚洲资源站av无码网址| 国产区人妖精品人妖精品视频| 亚洲午夜18| 国产精品观看视频免费完整版| 无码专区在线观看| 九九视频免费在线观看| 三上悠亚在线精品二区| 一级毛片免费不卡在线| 最近最新中文字幕免费的一页| 色偷偷男人的天堂亚洲av| 这里只有精品在线播放| 亚洲AV无码一区二区三区牲色| 国产成人高清精品免费| 久久亚洲中文字幕精品一区| 国产超碰在线观看| 欧美乱妇高清无乱码免费| 亚洲成人在线网| 久久伊人色| 国产黄色片在线看| 色综合五月婷婷| 99re精彩视频| 国模沟沟一区二区三区| 亚洲一区二区精品无码久久久| 思思热在线视频精品| 99热这里只有精品免费| 在线播放国产一区| 亚洲欧美一区二区三区蜜芽| 天天操精品| 老司机aⅴ在线精品导航| 久久婷婷六月| 无码视频国产精品一区二区 | 爆乳熟妇一区二区三区| 久久综合伊人77777| 日本不卡视频在线| 亚洲精品国产综合99久久夜夜嗨| 国产情侣一区| 91色在线观看| 亚洲成人在线免费| 亚洲欧美色中文字幕| 国产小视频在线高清播放| 伊伊人成亚洲综合人网7777| 三区在线视频| 国产女人在线视频| 国产www网站| 毛片免费试看| 九九热在线视频| 欧美五月婷婷| 日韩人妻精品一区| 国产精品私拍99pans大尺度| www.亚洲一区| 亚洲床戏一区| 免费国产一级 片内射老| 色综合网址| 免费精品一区二区h| 思思99思思久久最新精品| 亚洲欧美日韩中文字幕在线|