999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于集成深度學(xué)習(xí)的培養(yǎng)評估大數(shù)據(jù)分析與跟蹤算法

2023-11-10 05:42:20高曉梅張永紅
電子設(shè)計(jì)工程 2023年21期
關(guān)鍵詞:特征文本情感

高曉梅,張永紅

(西安航空職業(yè)技術(shù)學(xué)院,陜西西安 710089)

畢業(yè)生的就業(yè)質(zhì)量受到諸多因素的影響,但傳統(tǒng)的問卷方法無法分析眾多變量間的復(fù)雜關(guān)系[1-3],且嚴(yán)重依賴人工,進(jìn)而造成了額外成本。因此利用集成深度學(xué)習(xí)算法(Integrated Deep Learning,IDL)來構(gòu)建畢業(yè)生就業(yè)質(zhì)量預(yù)測模型[4],研究一種可自動分析文本,并高效、準(zhǔn)確地提取到文本評價(jià)內(nèi)所包含的方面項(xiàng)與情感極性的學(xué)習(xí)算法,不僅能節(jié)約因手動理解、統(tǒng)計(jì)文本內(nèi)容而帶來的人力成本,還對高校教育的改革優(yōu)化、提高人才培養(yǎng)質(zhì)量具有重要意義。

該文基于集成深度學(xué)習(xí)中的方面詞抽取(Aspect Term Extraction,ATE)及情感極性分類(Affective Polarity Classification,APC)聯(lián)合學(xué)習(xí)模型LCFATEPC,針對文本信息展開了多方面話題的情感分析(Sentiment Analysis)。在以往的情感問題研究中,主要關(guān)注提升的是情感極性分類子任務(wù)的精度,而忽略了對于文本方面項(xiàng)提取的研究。LCF-ATEPC克服了上述問題,并在模型內(nèi)部集成了面向文本情感分析的局部上下文聚焦與BERT(Bidirectional Encoder Representation from Transformers)機(jī)制。通過對少量的評價(jià)方面項(xiàng)及其極性的標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,最終實(shí)現(xiàn)了在大規(guī)模數(shù)據(jù)集中的自動提取并預(yù)測情感極性。

1 算法模型設(shè)計(jì)

1.1 框架設(shè)計(jì)

就業(yè)質(zhì)量預(yù)測研究框架如圖1 所示。

圖1 就業(yè)質(zhì)量預(yù)測研究框架

該文在上述研究框架的基礎(chǔ)上進(jìn)行以下工作:

1)數(shù)據(jù)爬取。針對研究主題的對象,對多源頭媒體文本信息進(jìn)行廣泛收集。盡可能爬取到各媒體源下的不同立場、狀態(tài)與人群的評論文本,從而使本模型內(nèi)的方面項(xiàng)提取任務(wù)所得到的結(jié)果更加充分、全面。除了對文本數(shù)據(jù)的采集外,同時(shí)還挖掘研究主題的相關(guān)數(shù)值型數(shù)據(jù),以確保輸入的特征更加豐富,并使預(yù)測結(jié)果更為準(zhǔn)確。

2)數(shù)據(jù)預(yù)處理。預(yù)處理工作主要聚焦于對評論文本進(jìn)行多方面的話題情感分析,其主要依賴于LCF-ATEPC 模型進(jìn)行處理。

3)模型訓(xùn)練與評估。通過建立深度學(xué)習(xí)模型,基于數(shù)據(jù)集進(jìn)行大量的訓(xùn)練操作,并不斷修改模型參數(shù),從而適配此次所要評估的內(nèi)容。最終的評估指標(biāo),可輔助進(jìn)行不同模型的效果評價(jià)。

該研究主要有兩個(gè)支撐模型:

1)采集文本數(shù)據(jù)的LCF-ATEPC 多方面情感分析模型。在情感分析過程中,基于網(wǎng)絡(luò)上爬取得到的多數(shù)據(jù)源文本數(shù)據(jù),對文本內(nèi)包含的不同方面項(xiàng)進(jìn)行挖掘。進(jìn)而為后續(xù)情感極性分類提供人工理解的粒度,且打破模型輸出結(jié)果的黑盒效應(yīng)。

2)最終的目標(biāo)預(yù)測模型。LCF-ATEPC 負(fù)責(zé)挖掘評論文本中所包含的方面項(xiàng)與情感分?jǐn)?shù)。第二個(gè)預(yù)測模型將LCF-ATEPC 產(chǎn)出的方面項(xiàng)及情感分?jǐn)?shù)作為部分特征,與數(shù)據(jù)采集階段得到的數(shù)字化數(shù)據(jù)共同作為特征,輸入模型便可得到最終就業(yè)質(zhì)量的預(yù)測結(jié)果。

1.2 多方面話題情感分類

情感分析是指通過處理帶有主觀性的文本或觀點(diǎn),挖掘出包含態(tài)度、情感的一種計(jì)算研究[5]。文本的情感分析并非是僅基于正負(fù)性質(zhì),也可在其他維度或是多維度上進(jìn)行[6]。文檔級、語句級和方面級是研究者進(jìn)行情感分析研究的三個(gè)主要粒度級別[7]。其中,方面級的情感分析在對文本的挖掘與處理上更為細(xì)膩,其任務(wù)主要是由實(shí)體提取、方面項(xiàng)提取及方面項(xiàng)情感分類這三個(gè)子任務(wù)組成的[8]。

由于長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)算法在處理上下文語義關(guān)系方面的表現(xiàn)較為優(yōu)秀,近年來諸多學(xué)者提出了基于LSTM 變體的深度學(xué)習(xí)網(wǎng)絡(luò)[9-13]。但由于對同一目標(biāo)特征,不同句子、不同語境詞會給token 的情感帶來截然不同的影響,所以方面級的情感分析始終具備難度。為了提高模型的分析效果,文中搭建了一個(gè)擁有兩個(gè)獨(dú)立BERT層的多目標(biāo)學(xué)習(xí)模型[14],同時(shí)完成方面級情感分析的方面項(xiàng)提取與情感極性分類兩個(gè)子任務(wù)。在模型訓(xùn)練的過程中,通過兩個(gè)子任務(wù)的交互,使得模型整體在方面項(xiàng)抽取及情感極性分類上表現(xiàn)更加優(yōu)異。

1.3 LCF-ATEPC模型

方面級情感分類主要采用神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)算法解決。基于注意力的深度學(xué)習(xí)系統(tǒng),已被證明是一種較為理想且可用于方面級情緒分析的方法論[15-16]。LCF-ATEPC 模型在處理文本分析任務(wù)中,將ATE 與APC 兩個(gè)子任務(wù)相結(jié)合。再針對文本內(nèi)全局與局部上下文,采用兩個(gè)獨(dú)立的BERT 層,即BERT-BASE 和BERT-SPC 分別進(jìn)行訓(xùn)練。LCF-ATEPC 的算法結(jié)構(gòu)如圖2 所示。

圖2 LCF-ATEPC的算法結(jié)構(gòu)

在模型內(nèi),輸入序列中的每個(gè)詞匯均被標(biāo)記為兩個(gè)不同標(biāo)簽:1)是否為方面詞;2)標(biāo)記方面詞的情感極性。圖2 左側(cè)的LCF 結(jié)構(gòu)通過CDM/CDW 及一個(gè)MHSA(Multi-Head Self-Attention)提取局部上下文特征。右側(cè)的ATEPC 結(jié)構(gòu)負(fù)責(zé)學(xué)習(xí)全局上下文特征。特征交互學(xué)習(xí)層則結(jié)合局部與全局上下文特征之間的交互學(xué)習(xí)來預(yù)測情感極性,并基于全局上下文特征提取方面項(xiàng)。

圖3-4 是兩個(gè)上下文焦點(diǎn)機(jī)制的實(shí)現(xiàn),分別是特征動態(tài)掩碼層及動態(tài)加權(quán)層。圖的底部是每個(gè)token 的特征輸入,頂部則是token 的輸出位置。箭頭表示在自我注意力機(jī)制下token 對箭頭位置的貢獻(xiàn)。其中,圖3的箭頭指向位置特征會被掩蓋;而圖4指向的特征將會加權(quán)衰減。

圖3 特征動態(tài)掩碼層

圖4 特征動態(tài)加權(quán)層

圖5 數(shù)據(jù)特征實(shí)驗(yàn)設(shè)計(jì)流程圖

在情感極性分類時(shí),ATE 模型首先對token 進(jìn)行分類,假設(shè)Ti是T對應(yīng)位置上的特征,則有:

其中,N是token 的類別數(shù)量,Yterm表示模型推論的token 所屬情感類別。

在APC 過程中,模型對抽取到的上下文特征進(jìn)行POOL 池化。池化提取輸入文本序列首個(gè)token 相應(yīng)位置的隱藏狀態(tài),然后進(jìn)行Softmax 運(yùn)算,預(yù)測token 所歸為的情感極性。

2 實(shí)證分析

2.1 特征處理

實(shí)驗(yàn)過程中的數(shù)據(jù)特征處理步驟,如5 所示。

在完成數(shù)據(jù)清洗后,對爬取的文本數(shù)據(jù)進(jìn)行去停用詞等預(yù)處理,并按發(fā)布時(shí)間戳進(jìn)行分組。在模型訓(xùn)練階段,選用方面項(xiàng)及情感值預(yù)達(dá)標(biāo)的評論數(shù)據(jù)集訓(xùn)練LCF-ATEPC 模型。保存好最優(yōu)模型后,將已按時(shí)間戳分組好的文本數(shù)據(jù)輸入至預(yù)訓(xùn)練的最優(yōu)模型,并輸出提取后的方面項(xiàng)及情感極性。文中在梳理影響畢業(yè)生就業(yè)質(zhì)量的相關(guān)文獻(xiàn)后,將方面項(xiàng)納入預(yù)先已進(jìn)行人工分類的主體維度中,進(jìn)而得到主體維度下方面項(xiàng)的情感極性,再進(jìn)行標(biāo)準(zhǔn)化處理以得到情感得分。

數(shù)據(jù)采集階段所獲取的數(shù)值型數(shù)據(jù),在ATE任務(wù)得到的主體維度下分別進(jìn)行聚合處理[17-18]。將情感得分與數(shù)值型數(shù)據(jù)輸入至機(jī)器學(xué)習(xí)模型中進(jìn)行滿意度預(yù)測訓(xùn)練,并根據(jù)評價(jià)標(biāo)準(zhǔn)比較模型的預(yù)測誤差,從而確定最優(yōu)模型。同時(shí)將不同情感分析深度學(xué)習(xí)的最優(yōu)模型輸入特征按特點(diǎn)加以分組,且分批次輸入。最終考慮不同算法與不同特征集對模型預(yù)測結(jié)果的作用,進(jìn)而證明LCFATEPC 算法的有效性與將媒體文本納入預(yù)測的可行性、重要性。

2.2 實(shí)驗(yàn)預(yù)測

在LCF-ATEPC 算法識別到多方面情感后,得到了方面項(xiàng)及與其對應(yīng)的情感極性。從刻畫就業(yè)質(zhì)量的因素出發(fā),為多方面情感分析得到的方面項(xiàng)找到了對應(yīng)的主體。對于數(shù)值型特征數(shù)據(jù),則在主體維度下進(jìn)行統(tǒng)計(jì)學(xué)求和及最大-最小標(biāo)準(zhǔn)化處理。最終把不同主體維度下情感傾向得分、對口度與落實(shí)率等數(shù)值特征分別加入不同機(jī)器學(xué)習(xí)模型中進(jìn)行訓(xùn)練。

在預(yù)測模型中,選取了線性回歸(Linear Regression,LR)、支持向量機(jī)(Support Vector Machine,SVM)、隨機(jī)森林(Random Forest,RF)及XGBoost(eXtreme Gradient Boosting)等較為有效的機(jī)器學(xué)習(xí)算法進(jìn)行訓(xùn)練。

為了對各個(gè)模型準(zhǔn)確度做出有效評價(jià),采用了預(yù)測誤差對模型效果進(jìn)行量化。其中,均方根誤差(Root Mean Squared Error,RMSE)是對真實(shí)值與估計(jì)值差的平方的數(shù)學(xué)期望計(jì)算其算術(shù)平方根。若N為樣本個(gè)數(shù),則其計(jì)算方式為:

決定系數(shù)R2 是指可相互以直線關(guān)系來說明的部分所占的比重,計(jì)算公式如下:

其中,SESS為回歸平方和,SRSS為殘差平方和,STSS為總體平方和。

2.3 實(shí)驗(yàn)結(jié)果

XGBoost 是一種改進(jìn)的梯度提升算法,在Gradient Boosting 框架下提供并行樹且進(jìn)行分布式運(yùn)算優(yōu)化。由輸入數(shù)據(jù)的性質(zhì),進(jìn)一步將模型輸入特征按數(shù)值型數(shù)據(jù)與媒體信息分為不同特征集,再分別傳輸至XGBoost 中,進(jìn)而研究不同特征集的影響程度。將提取到的特征輸入至不同模型內(nèi),由表1可知,輸入不同特征,LCF-ATEPC 的多方面情感分析效果為最優(yōu);在輸入相同特征的情況下,XGBoost模型的預(yù)測效果最佳。

表1 不同機(jī)器學(xué)習(xí)算法預(yù)測效果

根據(jù)結(jié)果可知,數(shù)值型特征數(shù)據(jù)與社交媒體文本數(shù)據(jù)均具有提升預(yù)測準(zhǔn)確度的作用。通過表1 可以發(fā)現(xiàn),基于梯度提升的XGBoost 算法的預(yù)測效果R2 指標(biāo)值達(dá)到了0.927。因此,該文選擇將提取到的特征數(shù)據(jù)輸入到XGBoost 機(jī)器學(xué)習(xí)模型中,再進(jìn)行后續(xù)針對不同特征集的預(yù)測,所得結(jié)果如表2 所示。

表2 不同特征集預(yù)測效果對比

由表2 可知,在納入LCF-ATEPC 算法提取到的社交媒體數(shù)據(jù)后,該文算法預(yù)測結(jié)果較傳統(tǒng)方法提升了3.58%,故預(yù)測更為準(zhǔn)確。由此說明了LCFATEPC 算法的有效性,更凸顯了將媒體文本納入預(yù)測的可行性與重要性。

3 結(jié)束語

高校就業(yè)質(zhì)量是現(xiàn)今社會關(guān)注的重點(diǎn)問題,但傳統(tǒng)的問卷方法無法分析諸多變量間的復(fù)雜關(guān)系。為此,該文建立了一種聯(lián)合學(xué)習(xí)模型LCF-ATEPC,由于該模型集成了局部上下文聚焦與BERT 機(jī)制,通過子任務(wù)交互的方法,使得模型整體在方面項(xiàng)抽取及情感極性分類上的表現(xiàn)更為理想。在實(shí)驗(yàn)過程中,通過對社交媒體上文本數(shù)據(jù)的多方面情感分析,拓寬了特征提取的角度。從建模實(shí)驗(yàn)的結(jié)果來看,加入LCF-ATEPC 算法的特征后,模型的表現(xiàn)與結(jié)果均有了進(jìn)一步提升,因此可以將其應(yīng)用于實(shí)際工程中。

猜你喜歡
特征文本情感
如何在情感中自我成長,保持獨(dú)立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
如何表達(dá)“特征”
情感
在808DA上文本顯示的改善
不忠誠的四個(gè)特征
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨(dú)立
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 一区二区三区国产| 中文字幕亚洲另类天堂| 麻豆国产在线观看一区二区| 热re99久久精品国99热| 日韩精品一区二区三区大桥未久| 高清无码手机在线观看| 色网站在线视频| www精品久久| 国内精自视频品线一二区| 日韩欧美国产中文| 天天躁夜夜躁狠狠躁图片| 亚洲美女久久| 日本精品αv中文字幕| 亚洲无限乱码| 亚洲欧美在线综合图区| 成人日韩欧美| 国产午夜精品一区二区三| 婷婷成人综合| 在线观看国产一区二区三区99| 一级毛片基地| 国产靠逼视频| 午夜a级毛片| 免费毛片视频| 麻豆国产精品一二三在线观看| 激情無極限的亚洲一区免费| 国产成人AV综合久久| 91久久国产综合精品| 国产激爽大片在线播放| 国产XXXX做受性欧美88| 欧美一级夜夜爽| 国产在线98福利播放视频免费| 国产精品亚洲一区二区三区z| 青青青国产免费线在| 亚洲人精品亚洲人成在线| 亚洲人在线| 精品国产三级在线观看| 久久99热66这里只有精品一| 国产在线观看第二页| 国产精品无码一区二区桃花视频| 欧美国产综合视频| 欧美亚洲国产一区| 欧洲成人在线观看| 亚洲AV色香蕉一区二区| 中文字幕自拍偷拍| 久久精品国产亚洲麻豆| 日本人妻丰满熟妇区| 狼友视频一区二区三区| 国产美女在线观看| 欧美国产日韩在线| 91无码人妻精品一区二区蜜桃| 国产欧美日韩综合在线第一| 欧美第九页| 国产亚洲精品va在线| 国产精品观看视频免费完整版| 视频在线观看一区二区| 国产精品成人免费综合| 亚洲综合狠狠| 中文字幕av无码不卡免费| 久久精品国产精品青草app| 91精品国产综合久久不国产大片| 四虎亚洲国产成人久久精品| 婷婷99视频精品全部在线观看| 美女黄网十八禁免费看| 亚洲婷婷在线视频| 色婷婷啪啪| 欧美三級片黃色三級片黃色1| 国产主播在线一区| 欧美日韩国产高清一区二区三区| 一级毛片免费观看不卡视频| 99re免费视频| 欧美中文字幕在线二区| 欧美特黄一级大黄录像| 国产欧美亚洲精品第3页在线| 欧美影院久久| 美女被躁出白浆视频播放| 综合色88| 自偷自拍三级全三级视频| 被公侵犯人妻少妇一区二区三区| 国内丰满少妇猛烈精品播| 亚洲第一色视频| 欧美国产成人在线| 中国成人在线视频|