999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多種AI算法在新冠疫情文本情緒識別中的實踐

2021-11-17 08:16:12仇建民
江蘇通信 2021年5期
關鍵詞:深度文本疫情

仇建民

中國電信股份有限公司江蘇分公司

0 引言

1 任務分析

1.1 任務背景

新型冠狀病毒(COVID-19)感染的肺炎疫情牽動著全國人民的心。習近平總書記指出:要鼓勵運用大數據、人工智能、云計算等數字技術,在疫情監測分析、病毒溯源、防控救治、資源調配等方面更好地發揮支撐作用。為助力疫情防控和疫情之后的經濟社會恢復工作,北京市經信局主辦了一場科技戰疫公益挑戰賽。為了幫助政府掌握真實的社會輿論情況,科學、高效地做好防控宣傳和輿情引導工作,本賽題針對疫情相關話題開展網民情緒識別的任務。

1.2 任務說明

給定微博文本內容,設計算法對微博內容進行情緒識別,判斷微博內容是積極的、消極的還是中性的,是文本三分類任務。

2 實驗

2.1 數據準備

2.1.1 數據預處理

為保證后續各類算法實驗對比的公平,數據統一進行預處理,后續各類算法均使用處理后的標準數據集。本文使用了以下4種數據預處理方法:(1)數據去噪。只保留微博內容、情感傾向兩個字段,并刪除空值、異常值等無效數據。(2)去除標點符號等特殊字符。因微博存在表情等數據會變成特殊字符,故統一刪除字符,只保留中文、英文、數字,并將多余重復的空格合并為一個空格。(3)繁體字轉簡體字。將全部繁體字轉換為簡體字。(4)去除微博中無意義的詞語。因為微博場景的特殊性,刪除“展開全文”“網頁鏈接”“轉發微博”等微博特定詞匯。

預處理完成后,最終的樣本由原始的100 000條文本,縮減為99 373條文本。

2.1.2 劃分相同的訓練集、驗證集

將預處理完成的數據集拆分為訓練集(79 498條,占比80%)、驗證集(19 875條,占比20%),為確保在后續的各類算法實踐中,使用完全相同的訓練集和驗證集。使用sklearn.model_selection中的train_test_split進行訓練集和驗證集的劃分,通過設置隨機種子確保每個模型的訓練集和驗證集保持一致。

sklearn代碼如下:

包括聚維酮碘,季銨鹽絡合碘和三碘氧化合物。聚維酮碘和季銨鹽絡合碘消毒效果受有機物影響很大,所以均不能作環境消毒,但可作飲水、皮膚和器械消毒。只有三碘氧化合物可作環境和帶動物消毒。

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2,random_state=1

2.2 建模及調優

2.2.1 評價指標說明

選取19 875條驗證集的準確率(accuracy)作為評價指標。計算公式:

可見,準確率越高,證明模型越好。

2.2.2 機器學習算法實踐

(1)機器學習算法建模、調優。本文在機器學習算法上采用了5種模型組合,分別為:CountVectorizer+MultinomialNB、CountVectorizer+BernoulliNB、TfidfVectorizer+MultinomialNB、TfidfVectorizer+BernoulliN、TfidfVectorizer+LightGBM。

模型調優思路如下:首先,CountVectorizer、TfidfVectorizer調優:通過設置ngram_range參數,分別取(1,1)、(1,2)、(1,3),用來觀察一元模型(unigrams)、二元模型( bigrams)和三元模型(trigrams)。其次,MultinomialNB、BernoulliNB調優:通過窮舉alpha,alpha從0.01開始,步長為0.01,到1結束,輪詢100次,選擇準確率最佳的模型。最后,LightGBM調優:以驗證集的準確率為指標,通過早停(earlystopping)功能獲取準確率最佳的模型。

需要說明的是:TfidfVectorizer+LightGBM實踐中,由于筆者算力有限(機器內存較小),ngram_range=(1,2)以及ngram_range=(1,3)未能嘗試,這兩個模型運行時由于內存溢出而報錯。

(2)機器學習算法對比結論。以上5種算法的最佳準確率對比如圖1所示。從實驗結果可以得出以下結論:首先,TfidfVectorizer+LightGBM準確率最佳,為72.88%,且在ngram_range=(1,1)參數下,LightGBM準確率顯著超過MultinomialNB和BernoulliNB。其次,在另一個算法確定的情況下,TfidfVectorizer的準確率顯著超過CountVectorizer,說明在文本特征提取上,TfidfVectorizer優于CountVectorizer。最后,在另一個算法確定的情況下,MultinomialNB的準確率顯著超過BernoulliNB,說明MultinomialNB更合適文本分類場景,BernoulliNB可能更適用于數據符合伯努利分布的場景。

圖1 機器學習算法在此案例中的準確率對比

2.2.3 深度學習算法實踐

(1)深度學習算法建模、調優。

通過Word2Vec算法對數據集的語料進行訓練,設置詞向量維度為128維,迭代訓練15輪,訓練完成后得到78 486個詞匯及詞向量。選取部分詞匯及詞向量,比如“武漢”“肺炎”,通過相似度匹配,找到相似度Top10的詞匯,發現基本符合常識。

模型調優思路:第一,考慮到雙向序列模型可以考慮整個句子的信息,即使在句子中間,也可以綜合考慮過去的信息和將來的信息,因此在網絡層使用BiGRU(雙向GRU)代替GRU(Gate Recurrent Unit)。第二,為避免模型過擬合,超過2個epoch驗證集的準確率若無提升,則將學習率減半;超過4個epoch驗證集的準確率若無提升,則earlystopping。

根據以上思路,本文在深度學習算法上采用了2種模型組合,分別為Word2Vec+BiGRU、BERT(Bidirectional Encoder Representation from Transformers)+BiGRU。

(2)深度學習算法對比結論。

兩種組合模型在訓練集和驗證集的準確率分布情況如圖2所示。實驗結果對比如圖3所示,可以得出以下結論:預訓練好的BERT模型在Embedding層的效果顯著優于Word2Vec。

圖2 Word2Vec+BiGRU、BERT+BiGRU實驗結果

圖3 深度學習算法在此案例中的準確率對比

2.3 實驗結果匯總對比

綜合以上機器學習和深度學習算法實踐結果,匯總7種組合模型,選取每種模型在驗證集的最佳準確率進行對比,結果如圖4所示。由準確率可以發現:深度學習2種算法的平均準確率為74.3%,遠超過機器學習5種算法的平均準確率69.7%,且深度學習算法最低準確率為73.5%,也超過機器學習算法的最高準確率72.9%。在機器學習算法中,TfidfVectorizer準確率高于CountVectorizer;MultinomialNB準確率高于BernoulliNB;LightGBM準確率高于樸素貝葉斯。深度學習算法中,BERT準確率高于Word2vec。

圖4 機器學習、深度學習算法在此案例中的準確率對比

3 結束語

本文使用了比賽主辦方提供的公開數據,并拆分為訓練集和驗證集,使用驗證集的準確率作為評價指標,使用7種機器學習、深度學習模型進行文本分類并分別進行調優,得出以下結論:(1)在文本分類任務上,深度學習算法相比機器學習算法有較為明顯的優勢。(2)在機器學習算法中:在文本特征提取上,TfidfVectorizer優于CountVectorizer;MultinomialNB相比BernoulliNB更合適文本分類場景;LightGBM集成模型分類效果優于樸素貝葉斯。(3)在深度學習算法中:預訓練好的BERT模型在Embedding層的效果優于Word2Vec。(4)綜合以上,BERT+BiGRU準確率最高,為75.1%,最終選取BERT+BiGRU為預測模型。后續可以BERT+BiGRU模型為基礎,在具體的神經網絡層進行改進調優,進一步提升文本分類的準確率。

猜你喜歡
深度文本疫情
戰疫情
深度理解一元一次方程
抗疫情 顯擔當
人大建設(2020年5期)2020-09-25 08:56:22
疫情中的我
疫情期在家帶娃日常……
37°女人(2020年5期)2020-05-11 05:58:52
在808DA上文本顯示的改善
深度觀察
深度觀察
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
深度觀察
主站蜘蛛池模板: 国产区成人精品视频| 国产一级无码不卡视频| 国产超碰在线观看| av在线无码浏览| 欧美视频免费一区二区三区| 一本大道东京热无码av| av在线5g无码天天| 女人av社区男人的天堂| 欧美α片免费观看| 91精品人妻一区二区| 九九热免费在线视频| 中文字幕在线欧美| 久久www视频| 九九热视频精品在线| 国产h视频免费观看| 中文字幕一区二区人妻电影| 免费a在线观看播放| 色国产视频| 久久久久国产精品熟女影院| 黄色国产在线| 伊人狠狠丁香婷婷综合色| 真人免费一级毛片一区二区| 亚洲动漫h| 青青草原国产av福利网站| 国产精品综合色区在线观看| 亚洲—日韩aV在线| 日韩精品欧美国产在线| 国产性猛交XXXX免费看| 亚洲伦理一区二区| 国产97色在线| 欧美在线导航| 在线观看精品自拍视频| 国产成人AV大片大片在线播放 | 亚洲欧洲自拍拍偷午夜色| 亚洲精品国产首次亮相| 啊嗯不日本网站| 亚洲全网成人资源在线观看| 乱人伦99久久| 国产在线视频导航| 免费欧美一级| 四虎精品国产永久在线观看| 欧美成人午夜在线全部免费| 黄色网站在线观看无码| 国产福利2021最新在线观看| 亚洲日韩国产精品综合在线观看| 欧美综合成人| 热99精品视频| 亚洲国产综合精品中文第一| 成年看免费观看视频拍拍| 在线欧美日韩| 国产精品思思热在线| 精久久久久无码区中文字幕| 美女免费黄网站| 亚洲av色吊丝无码| 91福利免费视频| 国产精品极品美女自在线网站| 免费啪啪网址| 蜜芽一区二区国产精品| 国产欧美日韩18| 国产乱子伦精品视频| 欧美三级视频在线播放| 欧美一区精品| 国产尤物jk自慰制服喷水| 亚洲AV无码久久天堂| 精品无码一区二区三区电影| 亚洲欧美在线综合一区二区三区| 最新国产你懂的在线网址| 久久亚洲高清国产| 超碰免费91| 国产精品微拍| 一级一毛片a级毛片| 看av免费毛片手机播放| 国产精品欧美激情| 亚洲水蜜桃久久综合网站| 国产精品yjizz视频网一二区| 夜夜操国产| 国产高清在线观看91精品| 亚洲综合色婷婷中文字幕| 亚洲成a人片7777| 国产91熟女高潮一区二区| 99热国产在线精品99| 日韩美女福利视频|