999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BERT 的中文文本向量化表示

2021-11-15 03:58:32祖成
科技與創(chuàng)新 2021年21期
關(guān)鍵詞:單詞分類利用

祖成

(首都經(jīng)濟(jì)貿(mào)易大學(xué)管理工程學(xué)院,北京 100070)

在自然語言處理領(lǐng)域,將普通文本轉(zhuǎn)換成計(jì)算機(jī)可計(jì)算的形式,即文本表示一直是研究的熱點(diǎn)問題。初期,文本在經(jīng)過簡單的分詞之后使用one-hot 向量對(duì)所分單詞進(jìn)行向量表示。但one-hot 向量僅僅利用了單詞的相關(guān)位置信息,并未考慮單詞的語義信息,導(dǎo)致所獲的詞向量缺少文本語義信息的參與。為了獲得更多的語義信息,MIKOLOV[1]等人提出了基于深度表示的模型Word2Vec。Word2Vec 模型包含Skip-Gram 和CBOW 兩種形式,其基本思路都是為輸入文本搭建一個(gè)具備上下文信息的神經(jīng)網(wǎng)絡(luò),計(jì)算得到含有上下文信息的詞向量。兩者的區(qū)別在于Skip-Gram 通過中間單詞預(yù)測上下文信息,CBOW 則利用上下文信息預(yù)測中間單詞。與Word2Vec 思路相似的還有GloVe 模型[2],雖然以上模型可以利用上下文信息預(yù)測詞向量使得生成的詞向量包含了寓意信息,但由于其構(gòu)建過程是單向?qū)W習(xí),無法解決一詞多義或者新詞組合的情況。針對(duì)以上問題,本文引入動(dòng)態(tài)詞向量 BERT 模型[3],BERT 模型利用其獨(dú)特的Transformer 結(jié)構(gòu)對(duì)文本進(jìn)行雙向?qū)W習(xí)和處理,利用self-attention 學(xué)習(xí)詞間關(guān)系,使得詞向量的表示能夠融入句子級(jí)的語義信息,從而解決詞向量無法表示一詞多義的情況,同時(shí)為了加強(qiáng)單個(gè)詞對(duì)整篇文檔的影響力,利用TF-IDF 算法[4]計(jì)算每篇文檔中詞的權(quán)重,結(jié)合BERT 詞向量構(gòu)建具有權(quán)重信息的詞向量,提高文本分類的準(zhǔn)確率。

1 BERT 模型

BERT 模型與以往的詞向量模型相比獨(dú)到之處在于它的輸入是3 個(gè)向量的和。3 個(gè)向量分別對(duì)應(yīng)詞向量、分段向量和位置向量。其中詞向量表示對(duì)當(dāng)前詞的編碼,分段向量表示對(duì)當(dāng)前詞所在句子的位置編碼,位置向量表示對(duì)當(dāng)前詞的位置編碼,每一句話使用CLS 和SEP 作為開頭和結(jié)尾的標(biāo)記,最后把三個(gè)向量疊加構(gòu)成模型的輸入部分。

BERT 模型最核心的部分就是雙向Transformer 編碼層,如圖1 所示。使用該層對(duì)文本進(jìn)行特征提取,使用的是Transformer 的Encoder 特征抽取器。Encoder 由自注意力機(jī)制和前饋神經(jīng)網(wǎng)絡(luò)組成,Encoder 的核心是self-attention,它可以發(fā)現(xiàn)每一個(gè)詞和這句話里面其他詞之間的關(guān)系,而且沒有距離的限制,幾十甚至幾百個(gè)詞之間的關(guān)系仍然能找到,這樣就可以充分挖掘到每個(gè)詞的左右上下文信息,從而就可以得到詞的雙向表示,其中E1,…,En表示模型的輸入向量,中間是多層雙向Transformer 特征抽取器,T1,…,Tn表示模型的輸出向量,使用該模型獲取詞向量便于后續(xù)文本分類等模型的應(yīng)用。

圖1 BERT 預(yù)訓(xùn)練語言模型

2 TF-IDF 加權(quán) BERT 模型

為了加強(qiáng)單個(gè)詞對(duì)整篇文檔的影響力,利用TF-IDF 算法計(jì)算每篇文檔中詞的權(quán)重,結(jié)合BERT 詞向量構(gòu)建具有權(quán)重信息的詞向量,提高文本分類的準(zhǔn)確率。

TF-IDF 是一種計(jì)算某個(gè)詞在整個(gè)文檔的全部內(nèi)容中重要性程度的統(tǒng)計(jì)方法。字詞的重要性與它在文檔中出現(xiàn)的次數(shù)成正比上升,但同時(shí)會(huì)隨著它在文檔中出現(xiàn)的頻率成反比下降。比如,“知道”這個(gè)詞,在文檔中出現(xiàn)的次數(shù)比較頻繁,但它作為常用詞匯在文檔中并不占有很大的比例。TF-IDF 的主要思想是如果一個(gè)詞或短語在文檔中出現(xiàn)的頻率TF 高,并且在其他文檔中很少出現(xiàn),便認(rèn)為這個(gè)詞或者短語具有很好的區(qū)分能力,適合用來分類。TF-IDF 方法實(shí)際可以理解為TF×IDF,TF 為詞頻,IDF 為逆向文件頻率,TF 表示詞條在文檔d中出現(xiàn)的頻率,IDF 表示如果包含詞條t的文檔越少,也就是n越小,t的區(qū)分度越大,IDF 值越大。

詞t的IDF 計(jì)算公式如下:

式(1)中:M為訓(xùn)練文檔的總數(shù);nt為訓(xùn)練文檔集中出現(xiàn)詞t的文檔數(shù)。

TF-IDF 的計(jì)算公式如下:

式(2)中:TF(t,Di)為詞t在第i篇文檔中的詞頻;為歸一化因子。

詞向量化的工作流程為,對(duì)分詞后的每篇文檔利用BERT 模型計(jì)算詞向量,同時(shí)依據(jù)分詞結(jié)果計(jì)算每個(gè)詞t的TF-IDF 值,兩相結(jié)合得到具有權(quán)重信息的詞向量。

3 實(shí)驗(yàn)設(shè)計(jì)與分析

為了使本文研究的TF-IDF 加權(quán)BERT 模型的詞向量表示達(dá)到最佳,本節(jié)對(duì)近幾年研究的幾大詞向量模型進(jìn)行實(shí)驗(yàn)對(duì)比。實(shí)驗(yàn)工具采用Anaconda,編程語言采用Python3.7,為方便調(diào)取模型使用Keras 框架,該框架里面包含封裝好的BERT 模型,實(shí)驗(yàn)使用的處理器是GPU,采用的參數(shù)主要有:BERT base 網(wǎng)絡(luò)結(jié)構(gòu),其中網(wǎng)絡(luò)層數(shù)為12,隱藏層維度為768。

實(shí)驗(yàn)的數(shù)據(jù)采用譚松波酒店評(píng)價(jià)語料集,對(duì)比詞向量模型有:MIKOLOV 等人提出的基于深度表示的模型Word2Vec。Word2Vec 模型包含Skip-Gram 和CBOW,與Word2Vec 思路相似的GloVe 模型,以及傳統(tǒng)的BERT 模型。所有實(shí)驗(yàn)均采用k折交叉驗(yàn)證,k=10,即把數(shù)據(jù)集隨機(jī)劃分成10 份,每次取其中9 份進(jìn)行訓(xùn)練,1 份進(jìn)行測試,然后把10 次分類結(jié)果的平均值作為最終結(jié)果。對(duì)各模型在中文文本分類任務(wù)上進(jìn)行測評(píng),分類器選擇SVM 支持向量機(jī),測試結(jié)果用正確率(P)、召回率(R)和F1 指標(biāo)進(jìn)行評(píng)測,具體測試結(jié)果如表1 所示。

表1 不同詞向量模型實(shí)驗(yàn)結(jié)果對(duì)比(單位:%)

由表1 可以發(fā)現(xiàn),BERT 模型在SVM 分類器上的準(zhǔn)確率、召回率及F1 值比Word2vec 的兩個(gè)模型和GloVe 模型都有一定的提高。比如正確率較CBOW 由77.65%提高到了87.45%;召回率較GloVe 由85.65% 提高到了90.87%;F1值較Skip-Gram 由80.26%提高到了89.13%。與此同時(shí)本文提出的基于TF-IDF 加權(quán)的BERT 模型相比傳統(tǒng)BERT 模型又有一些提升,在SVM 分類器上,正確率提高了2.80%,召回率提高了1.85%,F(xiàn)1 指標(biāo)提高了2.22%,由此可見提出的方法的有效性,其可以作為另外一種用于文本向量化的有效方法。

4 結(jié)論

針對(duì)當(dāng)前文本向量表示方法的不足,借助BERT 模型的優(yōu)點(diǎn),將BERT 和TF-IDF 結(jié)合,提出了一種基于TF-IDF加權(quán)的BERT 模型計(jì)算詞向量的算法。在譚松波酒店評(píng)價(jià)語料集上的實(shí)驗(yàn)表明,相較于Word2Vec 模型以及傳統(tǒng)的BERT模型,本算法有更好的文本分類效果。

猜你喜歡
單詞分類利用
利用min{a,b}的積分表示解決一類絕對(duì)值不等式
分類算一算
利用一半進(jìn)行移多補(bǔ)少
單詞連一連
分類討論求坐標(biāo)
利用數(shù)的分解來思考
Roommate is necessary when far away from home
數(shù)據(jù)分析中的分類討論
看圖填單詞
教你一招:數(shù)的分類
主站蜘蛛池模板: 日韩免费无码人妻系列| 欧美性精品| 国产在线精彩视频二区| 成人精品免费视频| a免费毛片在线播放| 伊人久久婷婷五月综合97色| a免费毛片在线播放| 国产成人高精品免费视频| 国产一区二区在线视频观看| a级毛片在线免费| 国产一级裸网站| 亚洲五月激情网| 国产视频久久久久| 欧美日韩中文字幕二区三区| 亚洲国产精品无码久久一线| 亚洲乱码在线播放| 午夜毛片福利| 狼友视频一区二区三区| 免费视频在线2021入口| 免费在线观看av| 欧美不卡视频在线| 爱做久久久久久| 国产欧美日韩在线一区| 激情无码字幕综合| 丝袜美女被出水视频一区| 欧美精品高清| 免费毛片视频| 白浆视频在线观看| 熟女视频91| 999国内精品久久免费视频| 久久国产高清视频| 亚洲午夜天堂| 小蝌蚪亚洲精品国产| 国产一区二区丝袜高跟鞋| a毛片在线播放| 成人a免费α片在线视频网站| 亚洲中文字幕手机在线第一页| 国产69囗曝护士吞精在线视频| 国产XXXX做受性欧美88| 中国一级毛片免费观看| 国产精品手机在线观看你懂的| 国产欧美在线观看一区| 亚洲精品欧美重口| 国产成人无码AV在线播放动漫 | 男女男精品视频| 在线观看的黄网| 在线欧美a| 伊人久综合| 无码AV动漫| 久久精品嫩草研究院| 国产精品午夜福利麻豆| 丝袜美女被出水视频一区| 国产日韩欧美在线视频免费观看| 亚洲一区二区三区国产精品| 久久久久夜色精品波多野结衣| 天天综合天天综合| 国产女人在线观看| 国产综合网站| 欧美有码在线观看| 欧美人与性动交a欧美精品| 国产成人精品一区二区免费看京| 免费看黄片一区二区三区| 久久精品人人做人人综合试看| 狠狠色丁香婷婷| 国产精品熟女亚洲AV麻豆| 激情综合网激情综合| 国产欧美日韩va另类在线播放| 亚洲成人网在线观看| 亚洲综合在线最大成人| 在线看片免费人成视久网下载| 久久综合色视频| 99热国产在线精品99| 综合色在线| 91麻豆国产视频| 久久青草免费91观看| 无码内射中文字幕岛国片 | 人妻中文字幕无码久久一区| 免费看av在线网站网址| 国产肉感大码AV无码| 无码免费的亚洲视频| 久久国产亚洲欧美日韩精品| 日韩精品少妇无码受不了|