999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于混沌映射與飛行策略的短文本分類算法

2022-05-10 09:22:14苑津莎張衛(wèi)華班雙雙
電力科學(xué)與工程 2022年4期
關(guān)鍵詞:語義分類文本

苑津莎,張 瑾,張衛(wèi)華,班雙雙

(華北電力大學(xué) 電子與通信工程系,河北 保定 071003)

0 引言

隨著信息時代的到來,大數(shù)據(jù)分析已經(jīng)應(yīng)用到了許多生產(chǎn)生活領(lǐng)域。電力系統(tǒng)在運行過程中所產(chǎn)生的歷史數(shù)據(jù)經(jīng)過不斷積累,數(shù)據(jù)規(guī)模逐漸擴大。電力客服系統(tǒng)作為電力企業(yè)與客戶溝通的橋梁,其工作效率的提高意義重大。客服工單(下文簡稱,工單)記錄了電力系統(tǒng)在運行中所產(chǎn)生的諸如故障檢修、調(diào)度運行、客戶咨詢及投訴、運維記錄等大量數(shù)據(jù)信息。對工單進行數(shù)據(jù)分析,對于發(fā)現(xiàn)企業(yè)內(nèi)服務(wù)系統(tǒng)存在的漏洞具有重要意義。應(yīng)用文本分類技術(shù)將工單數(shù)據(jù)進行處理,快速準(zhǔn)確地分析客戶需求,有助于提升企業(yè)工作效率。

傳統(tǒng)的數(shù)據(jù)分析方法存在信息讀取效率問題。近年來,基于機器學(xué)習(xí)與深度學(xué)習(xí)的自然語言處理方法發(fā)展快速,且在工單文本分類處理方面得到了大量應(yīng)用。文獻[1]提出基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的多任務(wù)學(xué)習(xí)框架,設(shè)置了3個不同信息共享機制,針對特定任務(wù)和共享層的文本建模,并在文本分類任務(wù)上驗證了模型的性能。文獻[2]針對電力投訴文本長度差異較大以及強專業(yè)性的特點,采用長短期記憶(LSTM)方法提取了電力文本語義特征,再通過卷積神經(jīng)網(wǎng)絡(luò)模型對其進行二次特征提取,有效提高了分類的準(zhǔn)確性。文獻[3]利用Word2Vec模型將詞語映射到高維特征空間,通過基于雙向 LSTM 的注意力機制(BiLSTM-attention)對電力設(shè)備缺陷文本進行分類。文獻[4]為了提取更具代表性的特征向量,融合文本循環(huán)神經(jīng)網(wǎng)絡(luò)(TextRNN)模型和文本卷積神經(jīng)網(wǎng)絡(luò)(TextCNN)模型,并引入注意力機制,解決了TextRNN模型、TextCNN模型的局限性,提高了文本分類的效果。文獻[5]提出了層次語義理解的方法,將工單中的字符、詞建模轉(zhuǎn)化為描述再進行分類,實現(xiàn)了工單隱藏語義的準(zhǔn)確表示。文獻[6]通過使用BERT模型對工單中具有設(shè)備缺陷的文本進行預(yù)訓(xùn)練,將生成詞嵌入向量,再利用BiLSTM網(wǎng)絡(luò)對該向量進行雙向編碼以提取語義表征,使用注意力機制增強設(shè)備缺陷領(lǐng)域的語義權(quán)重,提高了該領(lǐng)域文本分類的正確率。

為進一步深入對工單文本進行分析研究,提高工單文本分類的準(zhǔn)確性與效率,本文采用BERT模型提取特征向量,盡可能覆蓋輸入文本信息,并利用ELM[7]進行分類。由于ELM的初始權(quán)重和偏置隨機產(chǎn)生,故采用收斂速度較快、局部搜索能力較強的麻雀搜索算法[8](SSA)尋找最優(yōu)初始權(quán)重和偏置以提高模型精度。針對SSA算法存在的全局搜索能力較弱、易陷入局部最優(yōu)的缺點,通過引入Lévy-CSSA算法來克服。

1 短文本分類算法

文本分類的關(guān)鍵,在于特征提取以及特征向量的表示。本文采用的BERT模型在表示詞向量時能夠加入上下文的語義信息,還可以減少字詞因無法通過語義區(qū)分而出現(xiàn)歧義的情況發(fā)生。該模型首先對大量未標(biāo)記語料進行訓(xùn)練以獲取包含大量語義信息的文本表示,然后對文本的語義表示進行微調(diào),最終將其用于特定的自然語言處理任務(wù)。

1.1 RoBERTa-全詞Mask模型

RoBERTa-WWM[9]模型的輸入量E(E1,E2,···,EN)為工單文本內(nèi)容;輸入量經(jīng)過Trm模塊實現(xiàn)文本向量化后,輸出為向量T(T1,T2,···,)。Trm模塊是核心模塊,有多層結(jié)構(gòu)。

RoBERTa-WWM 模型的優(yōu)點在于其結(jié)合了中文全詞掩碼技術(shù)以及RoBERTa模型的優(yōu)勢。全詞掩碼技術(shù)的優(yōu)勢在于其更改了預(yù)訓(xùn)練階段的樣本生成策略,用[Mask]標(biāo)簽將組成同一個詞的漢字全部進行掩碼,示例如表1所示。

表1 WWM處理樣本示例Tab. 1 Example of sample processing with WWM

RoBERTa模型主要在3個方面進行了優(yōu)化:(1)優(yōu)化了 Adam算法的參數(shù)。(2)對訓(xùn)練策略進行了優(yōu)化。增加了每次訓(xùn)練所抓取的樣本數(shù)量;同時也將靜態(tài)掩碼改成了動態(tài)掩碼。(3)采用了更大的訓(xùn)練數(shù)據(jù)集,并使用了簡單高效的雙字母組合編碼壓縮了自然語言語料庫中的數(shù)據(jù)。

1.2 極限學(xué)習(xí)機

在神經(jīng)網(wǎng)絡(luò)算法中,反向傳播(BP)神經(jīng)網(wǎng)絡(luò)[10]的應(yīng)用非常廣泛。BP學(xué)習(xí)算法存在學(xué)習(xí)過程時間消耗過長,在處理經(jīng)BERT模型提取出的高維特征向量時速度較慢。

ELM是一種具有求解快速特點的新型單隱層前饋神經(jīng)網(wǎng)絡(luò)模型,具有輸入層、隱含層和輸出層3層結(jié)構(gòu)。ELM在計算過程中,首先對輸入層權(quán)重和隱藏層偏置進行隨機選取,對于輸出層權(quán)重則通過廣義逆矩陣?yán)碚撚嬎愕玫健LM模型結(jié)構(gòu)如圖1所示。

圖1 ELM結(jié)構(gòu)Fig. 1 ELM structure

在訓(xùn)練過程中,ELM無需如BP算法那樣不斷反向調(diào)整權(quán)重和偏置,所以學(xué)習(xí)速度較快;但其輸入層—隱藏層權(quán)重與偏置的隨機取值會影響模型精度,因此最優(yōu)權(quán)重與偏置選取對模型的建立有重要意義。

1.3 結(jié)合BERT和改進ELM模型的分類方法

本文提出的模型結(jié)構(gòu)如圖2所示,具體步驟如下。

城市的發(fā)展靠大量資本、勞力等外力因素推動,而鄉(xiāng)村的發(fā)展必須依靠內(nèi)生動力。星光村人才輩出,雖然創(chuàng)業(yè)在外,但他們依然眷念故土,為家鄉(xiāng)的建設(shè)投資投勞。但鄉(xiāng)村的發(fā)展更要投智,人才對于鄉(xiāng)村而言非常重要。星光村鄉(xiāng)村旅游的進一步發(fā)展需要他們的支持、回歸與帶動。建議實施星光村精英反哺計劃,鼓勵部分在外發(fā)展的干部、專家、文學(xué)作家、設(shè)計師、企業(yè)老板等回鄉(xiāng)創(chuàng)業(yè),為家鄉(xiāng)發(fā)展獻計納策,以本土化的力量增強自我造血功能,實現(xiàn)真正意義上的鄉(xiāng)村振興。

圖2 分類建模流程Fig. 2 Classification modeling flow

步驟1:對訓(xùn)練集M進行預(yù)處理,累加位置編碼后,得到M′。

步驟2:將M′輸入BERT模型,根據(jù)訓(xùn)練集M′對預(yù)訓(xùn)練語言模型進行微調(diào),最終獲取對應(yīng)訓(xùn)練集的特征向量 T。T=(T1,T2,···,TN),i=1,2,···,N。

步驟3:將步驟2中的特征向量T輸入到ELM進行訓(xùn)練,得到文本分類結(jié)果,并與數(shù)據(jù)集標(biāo)簽進行比較,得到尋優(yōu)算法適應(yīng)度函數(shù)如式(1)所示。

式中:F1,train是指訓(xùn)練集的 F1值;F1,test是指測試集的F1值

步驟4:通過ELM實現(xiàn)工單文本分類。

2 Lévy-CSSA算法

由于對 ELM 輸入層權(quán)重和隱藏層偏置進行隨機選取會影響模型性能,所以本文提出 Lévy-CSSA算法,通過改進SSA算法優(yōu)化了種群初始值,并使用Lévy飛行搜索策略提高算法的全局尋優(yōu)能力。該算法對ELM中輸入層—隱藏層權(quán)重與偏置的初始值尋優(yōu),得到最優(yōu)值使適應(yīng)度函數(shù)值達到最大,進而提升模型的分類性能。

2.1 改進SSA算法

SSA算法是由文獻[8]根據(jù)麻雀種群的覓食和反捕食行為提出的一種新型智能優(yōu)化算法。在SSA算法中,將D維空間中的n只麻雀區(qū)分為發(fā)現(xiàn)者、跟隨者和警戒者。發(fā)現(xiàn)者負(fù)責(zé)尋找食物并提供尋找的方向,適應(yīng)度較好的發(fā)現(xiàn)者會優(yōu)先獲取食物;跟隨者依靠發(fā)現(xiàn)者獲取食物,且跟隨者要比發(fā)現(xiàn)者的搜索范圍小;警戒者則在危險降臨時做出反捕食行為。

SSA算法局部搜索能力極強,但全局搜索能力較弱且不易跳出局部最優(yōu),從而導(dǎo)致其收斂精度較低。為了克服SSA算法全局搜索能力較弱的缺陷,本文利用logistic混沌映射[11]對SSA算法進行初始化,初始化產(chǎn)生的混沌麻雀具有隨機性、遍歷性等特點,提高初始種群的多樣性。

2.2 Lévy飛行

2.3 Lévy-CSSA算法流程

本文定義Lévy-CSSA算法為:在麻雀種群位置信息初始化過程中加入logistic混沌映射,以增加初始種群的多樣性;在麻雀位置信息更新時引入Lévy飛行策略,以提升全局搜索能力,避免陷入局部最優(yōu)。具體流程如圖4所示。

圖3 Lévy-CSSA算法流程圖Fig. 3 Flow chart of Lévy-CSSA algorithm

2.4 Lévy-CSSA極限學(xué)習(xí)機

針對 ELM 隨機賦予輸入層—隱藏層的權(quán)重與偏置的初始值會影響模型精度的問題,對ELM進行改進,具體流程如圖4所示。

圖4 Lévy-CSSA極限學(xué)習(xí)機Fig. 4 The Lévy-CSSA extreme learning machine

3 實驗及分析

3.1 Lévy-CSSA算法性能測試

選取如表2所示的固定維度函數(shù)、高維單峰函數(shù)以及高維多峰函數(shù)進行仿真實驗,并與GA、DE和SSA群體智能算法進行對比來驗證Lévy-CSSA算法的可行性和優(yōu)越性。通用條件設(shè)置為:種群規(guī)模設(shè)為30,迭代總數(shù)設(shè)為300。分別對各算法單獨進行100次仿真實驗并記錄最優(yōu)值Tb、平均值Tav和方差V。計算結(jié)果如表3所示,收斂曲線如圖5所示。

圖5 收斂曲線Fig. 5 Convergence curve

表2 測試函數(shù)Tab. 2 Test functions

表3 測試函數(shù)尋優(yōu)結(jié)果Tab. 3 Results of test function optimization

由表3可以看出:Lévy-CSSA算法在不同類型的測試函數(shù)中均可搜索至非常接近理論最優(yōu)值;且相比于其他2種算法與原算法,其求解精度更高,表現(xiàn)更加穩(wěn)定,尤其是在高維函數(shù)中凸顯了算法優(yōu)勢。從圖5可以看出:Lévy-CSSA能夠清楚地顯示出算法跳出局部尋優(yōu)的能力,在收斂速度以及收斂精度上均優(yōu)于其他算法。

工單經(jīng)BERT模型提取到的特征向量具有高維度、高耦合特點,導(dǎo)致其在ELM中輸入層—隱藏層權(quán)重與偏置維度較高,因此尋優(yōu)時應(yīng)使用適用于高維度的算法。本文算法對其具有適用性。

3.2 分類實驗過程

實驗所用數(shù)據(jù)來源于國家電網(wǎng)全國供電服務(wù)呼叫中心提供的文本分類數(shù)據(jù)集,其內(nèi)容為某省客戶向國家電網(wǎng)客服反映情況工單,包括電量異常、接觸不良、電能表異常、安全隱患等8個類別[15],共計23 289條。現(xiàn)選取其中75%作為訓(xùn)練集,25%作為測試集進行實驗,具體如表4所示。

表4 實驗數(shù)據(jù)Tab. 4 Experimental data 條

采用中文RoBERTa-WWM模型:有24層網(wǎng)絡(luò)結(jié)構(gòu),其中隱含層有1 024維,共有3.3×108個參數(shù)。將訓(xùn)練集文本與測試集文本作為輸入,通過預(yù)訓(xùn)練模型進行編碼;每條文本數(shù)據(jù)均編碼為 1 024維向量,并將訓(xùn)練集標(biāo)簽與測試集標(biāo)簽編碼為8維向量。將1 024維文本向量作為輸入,8維標(biāo)簽向量作為輸出,對ELM進行訓(xùn)練;其中ELM輸入層—隱藏層的權(quán)重與偏置的初始值通過本文提出的Lévy-CSSA算法進行優(yōu)化。

3.3 分類評價指標(biāo)

本文所研究的問題為分類問題,常用的評價指標(biāo)為查準(zhǔn)率(P)、查全率(R)與F1值[16]:

式中:TP表示預(yù)測為正,實際為正;FP表示預(yù)測為正,實際為負(fù);FN表示預(yù)測為負(fù),實際為正。

F1值是模型查準(zhǔn)率和查差率的一種調(diào)和平均,可以更加全面地反映分類性能。

3.4 實驗結(jié)果

結(jié)合BERT和改進ELM模型所獲取的訓(xùn)練結(jié)果,分別與TextRNN、TextCNN以及結(jié)合BERT與隨機森林模型的文本分類結(jié)果進行對比,實驗結(jié)果如表5、圖6所示。評價指標(biāo)主要采用F1值。

圖6 分類結(jié)果對比圖Fig. 6 Comparison of classification results

表5 不同模型的實驗結(jié)果Tab. 5 Experimental results of different models %

由表5可以看出,對于工單,在模型的查準(zhǔn)率、查全率和F1值評價指標(biāo)方面,結(jié)合BERT和改進ELM模型的分類效果相比于其他模型均有明顯提升。本文所提出模型的F1值達到了95.16%,相比于原始的TextRNN、TextCNN模型分別提高了3.08%、1.04%,可見本文模型綜合性能更好。結(jié)合BERT和ELM模型相比于TextRNN、TextCNN模型效果較差,其原因是:即使通過BERT模型提取出更加全局的特征向量,但ELM模型的輸入層—隱藏層權(quán)重與偏置的隨機取值影響了模型精度,這更加體現(xiàn)出對模型進行優(yōu)化的重要性。

由圖6可以看出:本文提出的模型在8個類別上的分類性能均優(yōu)于其他4種模型。結(jié)合BERT與隨機森林模型表現(xiàn)不穩(wěn)定,對于不同的類別,分類性能相差較大。結(jié)合BERT和 ELM模型相比于TextRNN在電量異常、接觸不良、電能表異常、停電、缺相、欠費停復(fù)電這些類別分類表現(xiàn)均較差,且在各個類別中均比TextCNN分類效果差。通過Lévy-CSSA算法對模型尋優(yōu)后,本文算法對每個類別的分類能力均有明顯提升,在“安全隱患”類別的分類水平提升效果最為明顯。

4 結(jié)論

為提高工單分類模型的分類效果,本文提出結(jié)合BERT和改進ELM模型的分類方法,并通過具體的工單分類實驗驗證了方法的有效性。

(1)本文提出的 Lévy-CSSA 算法提高了結(jié)合BERT和改進ELM模型的分類精度。3類經(jīng)典測試函數(shù)優(yōu)化對比實驗的結(jié)果表明了Lévy-CSSA算法具有明顯優(yōu)越性。

(2)建立了BERT和改進ELM模型。使用Lévy-CSSA算法對ELM進行優(yōu)化,并通過工單分類實驗驗證了模型效果。與TextRNN、TextCNN等模型的對比結(jié)果表明:模型在查準(zhǔn)率、查全率以及F1值等分類指標(biāo)上均有所提高;該模型可以更好地表達工單語義信息,能夠有效地進行工單分類。

以上結(jié)論表明了本文結(jié)合BERT和改進ELM模型的工單分類方法的可行性。

猜你喜歡
語義分類文本
分類算一算
語言與語義
在808DA上文本顯示的改善
分類討論求坐標(biāo)
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
認(rèn)知范疇模糊與語義模糊
主站蜘蛛池模板: 黄色在线不卡| 国产成a人片在线播放| 日本91视频| 亚洲色图综合在线| 欧美午夜在线视频| 精品色综合| 国产亚洲精品无码专| 在线视频亚洲欧美| m男亚洲一区中文字幕| 伊人久久婷婷| 99久久国产综合精品女同| 欧美一级在线看| 亚洲bt欧美bt精品| 国产导航在线| 国产99视频精品免费观看9e| 性欧美久久| 亚洲午夜福利精品无码不卡| 久草视频一区| 国产第一页亚洲| 毛片大全免费观看| 在线观看无码a∨| 成人午夜视频免费看欧美| 人人妻人人澡人人爽欧美一区| 国产第四页| 超清人妻系列无码专区| 五月六月伊人狠狠丁香网| 午夜免费视频网站| 五月六月伊人狠狠丁香网| 欧美成在线视频| 中文字幕无码av专区久久| 日韩高清在线观看不卡一区二区| 四虎在线观看视频高清无码| 欧美日本在线一区二区三区| 日韩成人在线网站| 伊伊人成亚洲综合人网7777| 全免费a级毛片免费看不卡| 亚洲乱码精品久久久久..| 四虎成人免费毛片| 久青草国产高清在线视频| 国产精品不卡永久免费| 日韩大片免费观看视频播放| 免费高清a毛片| 最新国产成人剧情在线播放| 久草视频一区| 尤物亚洲最大AV无码网站| 性欧美久久| 色综合中文字幕| 中文字幕 91| 国产亚洲一区二区三区在线| 久久精品丝袜| 国产青青草视频| 欧美中文字幕在线二区| 亚洲婷婷六月| 亚洲Aⅴ无码专区在线观看q| 日韩精品一区二区三区免费在线观看| 成人一区在线| 日日碰狠狠添天天爽| 欧美人与牲动交a欧美精品| 91精品国产自产在线观看| 在线观看免费黄色网址| 亚洲精品卡2卡3卡4卡5卡区| 在线看免费无码av天堂的| 99久久精品免费看国产电影| 亚洲欧洲日产无码AV| 日本一区中文字幕最新在线| 一级成人a做片免费| 欧美一区二区啪啪| 精品国产亚洲人成在线| 日日拍夜夜操| 国产成人综合亚洲欧美在| 亚洲一区精品视频在线| 国产成人艳妇AA视频在线| 中文字幕天无码久久精品视频免费 | 国产亚洲欧美在线中文bt天堂| 黄色三级网站免费| 青青青国产免费线在| 欧美精品v日韩精品v国产精品| 国产超碰在线观看| 久久无码高潮喷水| 九九久久精品国产av片囯产区| 精品欧美一区二区三区在线| 精品福利视频网|