基于集成深度學(xué)習(xí)的培養(yǎng)評估大數(shù)據(jù)分析與跟蹤算法

2023-11-10 05:42:20高曉梅張永紅

電子設(shè)計(jì)工程 2023年21期

高曉梅，張永紅

（西安航空職業(yè)技術(shù)學(xué)院，陜西西安 710089）

畢業(yè)生的就業(yè)質(zhì)量受到諸多因素的影響，但傳統(tǒng)的問卷方法無法分析眾多變量間的復(fù)雜關(guān)系[1-3]，且嚴(yán)重依賴人工，進(jìn)而造成了額外成本。因此利用集成深度學(xué)習(xí)算法（Integrated Deep Learning，IDL）來構(gòu)建畢業(yè)生就業(yè)質(zhì)量預(yù)測模型[4]，研究一種可自動分析文本，并高效、準(zhǔn)確地提取到文本評價(jià)內(nèi)所包含的方面項(xiàng)與情感極性的學(xué)習(xí)算法，不僅能節(jié)約因手動理解、統(tǒng)計(jì)文本內(nèi)容而帶來的人力成本，還對高校教育的改革優(yōu)化、提高人才培養(yǎng)質(zhì)量具有重要意義。

該文基于集成深度學(xué)習(xí)中的方面詞抽取（Aspect Term Extraction，ATE）及情感極性分類（Affective Polarity Classification，APC）聯(lián)合學(xué)習(xí)模型LCFATEPC，針對文本信息展開了多方面話題的情感分析（Sentiment Analysis）。在以往的情感問題研究中，主要關(guān)注提升的是情感極性分類子任務(wù)的精度，而忽略了對于文本方面項(xiàng)提取的研究。LCF-ATEPC克服了上述問題，并在模型內(nèi)部集成了面向文本情感分析的局部上下文聚焦與BERT（Bidirectional Encoder Representation from Transformers）機(jī)制。通過對少量的評價(jià)方面項(xiàng)及其極性的標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練，最終實(shí)現(xiàn)了在大規(guī)模數(shù)據(jù)集中的自動提取并預(yù)測情感極性。

1 算法模型設(shè)計(jì)

1.1 框架設(shè)計(jì)

就業(yè)質(zhì)量預(yù)測研究框架如圖1 所示。

圖1 就業(yè)質(zhì)量預(yù)測研究框架

該文在上述研究框架的基礎(chǔ)上進(jìn)行以下工作：

1）數(shù)據(jù)爬取。針對研究主題的對象，對多源頭媒體文本信息進(jìn)行廣泛收集。盡可能爬取到各媒體源下的不同立場、狀態(tài)與人群的評論文本，從而使本模型內(nèi)的方面項(xiàng)提取任務(wù)所得到的結(jié)果更加充分、全面。除了對文本數(shù)據(jù)的采集外，同時(shí)還挖掘研究主題的相關(guān)數(shù)值型數(shù)據(jù)，以確保輸入的特征更加豐富，并使預(yù)測結(jié)果更為準(zhǔn)確。

2）數(shù)據(jù)預(yù)處理。預(yù)處理工作主要聚焦于對評論文本進(jìn)行多方面的話題情感分析，其主要依賴于LCF-ATEPC 模型進(jìn)行處理。

3）模型訓(xùn)練與評估。通過建立深度學(xué)習(xí)模型，基于數(shù)據(jù)集進(jìn)行大量的訓(xùn)練操作，并不斷修改模型參數(shù)，從而適配此次所要評估的內(nèi)容。最終的評估指標(biāo)，可輔助進(jìn)行不同模型的效果評價(jià)。

該研究主要有兩個(gè)支撐模型：

1）采集文本數(shù)據(jù)的LCF-ATEPC 多方面情感分析模型。在情感分析過程中，基于網(wǎng)絡(luò)上爬取得到的多數(shù)據(jù)源文本數(shù)據(jù)，對文本內(nèi)包含的不同方面項(xiàng)進(jìn)行挖掘。進(jìn)而為后續(xù)情感極性分類提供人工理解的粒度，且打破模型輸出結(jié)果的黑盒效應(yīng)。

2）最終的目標(biāo)預(yù)測模型。LCF-ATEPC 負(fù)責(zé)挖掘評論文本中所包含的方面項(xiàng)與情感分?jǐn)?shù)。第二個(gè)預(yù)測模型將LCF-ATEPC 產(chǎn)出的方面項(xiàng)及情感分?jǐn)?shù)作為部分特征，與數(shù)據(jù)采集階段得到的數(shù)字化數(shù)據(jù)共同作為特征，輸入模型便可得到最終就業(yè)質(zhì)量的預(yù)測結(jié)果。

1.2 多方面話題情感分類

情感分析是指通過處理帶有主觀性的文本或觀點(diǎn)，挖掘出包含態(tài)度、情感的一種計(jì)算研究[5]。文本的情感分析并非是僅基于正負(fù)性質(zhì)，也可在其他維度或是多維度上進(jìn)行[6]。文檔級、語句級和方面級是研究者進(jìn)行情感分析研究的三個(gè)主要粒度級別[7]。其中，方面級的情感分析在對文本的挖掘與處理上更為細(xì)膩，其任務(wù)主要是由實(shí)體提取、方面項(xiàng)提取及方面項(xiàng)情感分類這三個(gè)子任務(wù)組成的[8]。

由于長短期記憶網(wǎng)絡(luò)（Long Short-Term Memory，LSTM）算法在處理上下文語義關(guān)系方面的表現(xiàn)較為優(yōu)秀，近年來諸多學(xué)者提出了基于LSTM 變體的深度學(xué)習(xí)網(wǎng)絡(luò)[9-13]。但由于對同一目標(biāo)特征，不同句子、不同語境詞會給token 的情感帶來截然不同的影響，所以方面級的情感分析始終具備難度。為了提高模型的分析效果，文中搭建了一個(gè)擁有兩個(gè)獨(dú)立BERT層的多目標(biāo)學(xué)習(xí)模型[14]，同時(shí)完成方面級情感分析的方面項(xiàng)提取與情感極性分類兩個(gè)子任務(wù)。在模型訓(xùn)練的過程中，通過兩個(gè)子任務(wù)的交互，使得模型整體在方面項(xiàng)抽取及情感極性分類上表現(xiàn)更加優(yōu)異。

1.3 LCF-ATEPC模型

方面級情感分類主要采用神經(jīng)網(wǎng)絡(luò)（Artificial Neural Network，ANN）算法解決。基于注意力的深度學(xué)習(xí)系統(tǒng)，已被證明是一種較為理想且可用于方面級情緒分析的方法論[15-16]。LCF-ATEPC 模型在處理文本分析任務(wù)中，將ATE 與APC 兩個(gè)子任務(wù)相結(jié)合。再針對文本內(nèi)全局與局部上下文，采用兩個(gè)獨(dú)立的BERT 層，即BERT-BASE 和BERT-SPC 分別進(jìn)行訓(xùn)練。LCF-ATEPC 的算法結(jié)構(gòu)如圖2 所示。

圖2 LCF-ATEPC的算法結(jié)構(gòu)

在模型內(nèi)，輸入序列中的每個(gè)詞匯均被標(biāo)記為兩個(gè)不同標(biāo)簽：1）是否為方面詞；2）標(biāo)記方面詞的情感極性。圖2 左側(cè)的LCF 結(jié)構(gòu)通過CDM/CDW 及一個(gè)MHSA（Multi-Head Self-Attention）提取局部上下文特征。右側(cè)的ATEPC 結(jié)構(gòu)負(fù)責(zé)學(xué)習(xí)全局上下文特征。特征交互學(xué)習(xí)層則結(jié)合局部與全局上下文特征之間的交互學(xué)習(xí)來預(yù)測情感極性，并基于全局上下文特征提取方面項(xiàng)。

圖3-4 是兩個(gè)上下文焦點(diǎn)機(jī)制的實(shí)現(xiàn)，分別是特征動態(tài)掩碼層及動態(tài)加權(quán)層。圖的底部是每個(gè)token 的特征輸入，頂部則是token 的輸出位置。箭頭表示在自我注意力機(jī)制下token 對箭頭位置的貢獻(xiàn)。其中，圖3的箭頭指向位置特征會被掩蓋；而圖4指向的特征將會加權(quán)衰減。

圖3 特征動態(tài)掩碼層

圖4 特征動態(tài)加權(quán)層

圖5 數(shù)據(jù)特征實(shí)驗(yàn)設(shè)計(jì)流程圖

在情感極性分類時(shí)，ATE 模型首先對token 進(jìn)行分類，假設(shè)Ti是T對應(yīng)位置上的特征，則有：

其中，N是token 的類別數(shù)量，Yterm表示模型推論的token 所屬情感類別。

在APC 過程中，模型對抽取到的上下文特征進(jìn)行POOL 池化。池化提取輸入文本序列首個(gè)token 相應(yīng)位置的隱藏狀態(tài)，然后進(jìn)行Softmax 運(yùn)算，預(yù)測token 所歸為的情感極性。

2 實(shí)證分析

2.1 特征處理

實(shí)驗(yàn)過程中的數(shù)據(jù)特征處理步驟，如5 所示。

在完成數(shù)據(jù)清洗后，對爬取的文本數(shù)據(jù)進(jìn)行去停用詞等預(yù)處理，并按發(fā)布時(shí)間戳進(jìn)行分組。在模型訓(xùn)練階段，選用方面項(xiàng)及情感值預(yù)達(dá)標(biāo)的評論數(shù)據(jù)集訓(xùn)練LCF-ATEPC 模型。保存好最優(yōu)模型后，將已按時(shí)間戳分組好的文本數(shù)據(jù)輸入至預(yù)訓(xùn)練的最優(yōu)模型，并輸出提取后的方面項(xiàng)及情感極性。文中在梳理影響畢業(yè)生就業(yè)質(zhì)量的相關(guān)文獻(xiàn)后，將方面項(xiàng)納入預(yù)先已進(jìn)行人工分類的主體維度中，進(jìn)而得到主體維度下方面項(xiàng)的情感極性，再進(jìn)行標(biāo)準(zhǔn)化處理以得到情感得分。

數(shù)據(jù)采集階段所獲取的數(shù)值型數(shù)據(jù)，在ATE任務(wù)得到的主體維度下分別進(jìn)行聚合處理[17-18]。將情感得分與數(shù)值型數(shù)據(jù)輸入至機(jī)器學(xué)習(xí)模型中進(jìn)行滿意度預(yù)測訓(xùn)練，并根據(jù)評價(jià)標(biāo)準(zhǔn)比較模型的預(yù)測誤差，從而確定最優(yōu)模型。同時(shí)將不同情感分析深度學(xué)習(xí)的最優(yōu)模型輸入特征按特點(diǎn)加以分組，且分批次輸入。最終考慮不同算法與不同特征集對模型預(yù)測結(jié)果的作用，進(jìn)而證明LCFATEPC 算法的有效性與將媒體文本納入預(yù)測的可行性、重要性。

2.2 實(shí)驗(yàn)預(yù)測

在LCF-ATEPC 算法識別到多方面情感后，得到了方面項(xiàng)及與其對應(yīng)的情感極性。從刻畫就業(yè)質(zhì)量的因素出發(fā)，為多方面情感分析得到的方面項(xiàng)找到了對應(yīng)的主體。對于數(shù)值型特征數(shù)據(jù)，則在主體維度下進(jìn)行統(tǒng)計(jì)學(xué)求和及最大-最小標(biāo)準(zhǔn)化處理。最終把不同主體維度下情感傾向得分、對口度與落實(shí)率等數(shù)值特征分別加入不同機(jī)器學(xué)習(xí)模型中進(jìn)行訓(xùn)練。

在預(yù)測模型中，選取了線性回歸（Linear Regression，LR）、支持向量機(jī)（Support Vector Machine，SVM）、隨機(jī)森林（Random Forest，RF）及XGBoost（eXtreme Gradient Boosting）等較為有效的機(jī)器學(xué)習(xí)算法進(jìn)行訓(xùn)練。

為了對各個(gè)模型準(zhǔn)確度做出有效評價(jià)，采用了預(yù)測誤差對模型效果進(jìn)行量化。其中，均方根誤差（Root Mean Squared Error，RMSE）是對真實(shí)值與估計(jì)值差的平方的數(shù)學(xué)期望計(jì)算其算術(shù)平方根。若N為樣本個(gè)數(shù)，則其計(jì)算方式為：

決定系數(shù)R2 是指可相互以直線關(guān)系來說明的部分所占的比重，計(jì)算公式如下：

其中，SESS為回歸平方和，SRSS為殘差平方和，STSS為總體平方和。

2.3 實(shí)驗(yàn)結(jié)果

XGBoost 是一種改進(jìn)的梯度提升算法，在Gradient Boosting 框架下提供并行樹且進(jìn)行分布式運(yùn)算優(yōu)化。由輸入數(shù)據(jù)的性質(zhì)，進(jìn)一步將模型輸入特征按數(shù)值型數(shù)據(jù)與媒體信息分為不同特征集，再分別傳輸至XGBoost 中，進(jìn)而研究不同特征集的影響程度。將提取到的特征輸入至不同模型內(nèi)，由表1可知，輸入不同特征，LCF-ATEPC 的多方面情感分析效果為最優(yōu)；在輸入相同特征的情況下，XGBoost模型的預(yù)測效果最佳。

表1 不同機(jī)器學(xué)習(xí)算法預(yù)測效果

根據(jù)結(jié)果可知，數(shù)值型特征數(shù)據(jù)與社交媒體文本數(shù)據(jù)均具有提升預(yù)測準(zhǔn)確度的作用。通過表1 可以發(fā)現(xiàn)，基于梯度提升的XGBoost 算法的預(yù)測效果R2 指標(biāo)值達(dá)到了0.927。因此，該文選擇將提取到的特征數(shù)據(jù)輸入到XGBoost 機(jī)器學(xué)習(xí)模型中，再進(jìn)行后續(xù)針對不同特征集的預(yù)測，所得結(jié)果如表2 所示。

表2 不同特征集預(yù)測效果對比

由表2 可知，在納入LCF-ATEPC 算法提取到的社交媒體數(shù)據(jù)后，該文算法預(yù)測結(jié)果較傳統(tǒng)方法提升了3.58%，故預(yù)測更為準(zhǔn)確。由此說明了LCFATEPC 算法的有效性，更凸顯了將媒體文本納入預(yù)測的可行性與重要性。

3 結(jié)束語

高校就業(yè)質(zhì)量是現(xiàn)今社會關(guān)注的重點(diǎn)問題，但傳統(tǒng)的問卷方法無法分析諸多變量間的復(fù)雜關(guān)系。為此，該文建立了一種聯(lián)合學(xué)習(xí)模型LCF-ATEPC，由于該模型集成了局部上下文聚焦與BERT 機(jī)制，通過子任務(wù)交互的方法，使得模型整體在方面項(xiàng)抽取及情感極性分類上的表現(xiàn)更為理想。在實(shí)驗(yàn)過程中，通過對社交媒體上文本數(shù)據(jù)的多方面情感分析，拓寬了特征提取的角度。從建模實(shí)驗(yàn)的結(jié)果來看，加入LCF-ATEPC 算法的特征后，模型的表現(xiàn)與結(jié)果均有了進(jìn)一步提升，因此可以將其應(yīng)用于實(shí)際工程中。